разметка данных - Самое интересное в блогах

rss_habr

Работа над неразмеченными данными с QGIS и opentripmap на практике

Суббота, 16 Июля 2022 г. 16:55 (ссылка)

В этом посте я хочу поделиться интересным опытом работы с неразмеченными данными при помощи открытого ресурса opentripmap.

Задача

По исходным данным определить является ли конкретное фото, сделанное пользователем туристическим или нет. А так же масштабировать и автоматизировать алгоритм решения на любой регион Российской Федерации, избегая ручную работу.

https://habr.com/ru/post/677298/?utm_source=habrahabr&utm_medium=rss&utm_campaign=677298

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Опенсорсные массивы данных для Computer Vision

Среда, 06 Июля 2022 г. 12:18 (ссылка)

Модели Computer Vision, обучаемые на опенсорсных массивах данных

Computer Vision (CV) — одна из самых увлекательных тем в сфере искусственного интеллекта (Artificial Intelligence, AI) и машинного обучения (Machine Learning, ML). Это важная часть многих современных конвейеров AI/ML, преобразующая практически все отрасли и позволяющая компаниям осуществлять революцию в работе машин и бизнес-систем.

В науке CV многие десятилетия была уважаемой областью computer science, и за многие годы в этой сфере было проведено множество исследований по её совершенствованию. Однако революцию в ней совершило недавно начавшееся применение глубоких нейросетей, ставшее стимулом ускорения её развития.
Читать дальше →

https://habr.com/ru/post/669886/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669886

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Как мы масштабируем машинное обучение

Понедельник, 13 Июня 2022 г. 12:11 (ссылка)

Введение

Наша компания еженедельно размечает порядка 10 миллиардов аннотаций. Чтобы обеспечивать высокое качество аннотаций для такого огромного объёма данных, мы разработали множество методик, в том числе sensor fusion для выявления подробностей о сложных окружениях, активный инструментарий для ускорения процесса разметки и автоматизированные бенчмарки для измерения и поддержания качества работы разметчиков. С расширением количества заказчиков, разметчиков и объёмов данных мы продолжаем совершенствовать эти методики, чтобы повышать качество, эффективность и масштабируемость разметки.

Как мы используем ML

Обширные объёмы передаваемых компании данных предоставляют ей бесценные возможности обучения и надстройки наших процессов аннотирования, и в то же время позволяют нашей команде разработчиков машинного обучения обучать модели, расширяющие набор доступных нам функций.
Читать дальше →

https://habr.com/ru/post/659069/?utm_source=habrahabr&utm_medium=rss&utm_campaign=659069

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Генерация меток для обучения модели при помощи слабого контроля

Среда, 08 Июня 2022 г. 11:51 (ссылка)

Компаниям сложно следить за всеми новостями и мнениями о них в социальных сетях; существует огромное множество потенциально релевантных постов, и их фильтрация заняла бы много времени. Новый продукт Borealis AI был создан для решения этой проблемы путём извлечения в реальном времени информации социальных сетей, распознавания тематики и добавления метки для каждого поста с обозначением его типа. Например, пост может быть помечен как «пресс-релиз», «обзор пользователя» или «шум». Такие метки позволяют пользователям находить более чистые подмножества постов в соцсетях, которые им интересны.

Чтобы создать модель машинного обучения для классификации постов по таким категориям, необходимо получить высококачественные размеченные данные обучения. Иными словами, нам нужны примеры постов в социальных сетях, которые вручную размечены как пресс-релизы или обзоры пользователей, чтобы модель могла учиться тому, как распознавать новые примеры того же типа.
Читать дальше →

https://habr.com/ru/post/654621/?utm_source=habrahabr&utm_medium=rss&utm_campaign=654621

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Ручное аннотирование по-прежнему незаменимо для разработки моделей глубокого обучения

Понедельник, 06 Июня 2022 г. 11:34 (ссылка)

Не подлежит сомнению, что высококачественные размеченные массивы данных играют критичную роль в разработке новых алгоритмов глубокого обучения. Однако понимание ML и глубокого обучения по-прежнему остаётся в зачаточном состоянии. Именно поэтому команды прикладного ML и исследований ML нашей компании совместно трудятся над пониманием последних исследований в сфере ML, пытаясь разобраться, как мы можем преодолеть одну из самых больших сложностей в современной разработке ИИ, как у наших клиентов, так и для отрасли в целом.

Недавно наша команда исследователей провела глубокий анализ состояния данных в области компьютерного зрения. Исследовательская статья, одобренная для Human-in-the-Loop Learning Workshop на ICML 2021, показала, что высококачественная разметка по-прежнему остаётся незаменимой для разработки точных моделей глубокого обучения.
Читать дальше →

https://habr.com/ru/post/665384/?utm_source=habrahabr&utm_medium=rss&utm_campaign=665384

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] 20+ популярных опенсорсных датасетов для Computer Vision

Четверг, 02 Июня 2022 г. 10:41 (ссылка)

ИИ в первую очередь развивается благодаря данным, а не коду.

Это смелое заявление несколько лет назад могло показаться нелепым, но сегодня это не так. Однако, по-прежнему существует одна проблема: высокого качества данных обучения достичь иногда очень сложно. На поиск подходящего для задач компьютерного зрения массива данных могут потребоваться дни или недели.

Но не стоит волноваться, в этой статье мы составили исчерпывающий список качественных массивов данных для компьютерного зрения в свободном доступе.
Читать дальше →

https://habr.com/ru/post/669170/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669170

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Среда, 27 Апреля 2022 г. 11:33 (ссылка)

Введение

Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

Мы обогатили данные, чтобы выявить сокрытые систематические ошибки

Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать дальше →

https://habr.com/ru/post/657123/?utm_source=habrahabr&utm_medium=rss&utm_campaign=657123

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Датацентрический и моделецентрический подходы в машинном обучении

Вторник, 19 Апреля 2022 г. 11:31 (ссылка)

Код и данные — фундамент ИИ-системы. Оба эти компонента играют важную роль в разработке надёжной модели, но на каком из них следует сосредоточиться больше? В этой статье мы сравним методики, ставящие в центр данные, либо модель, и посмотрим, какая из них лучше; также мы поговорим о том, как внедрять датацентрическую инфраструктуру.
Читать дальше →

https://habr.com/ru/post/661457/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661457

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Разметка именованных сущностей в Label Studio

Пятница, 08 Апреля 2022 г. 11:34 (ссылка)

В предыдущей статье мы уже подробно рассмотрели процесс разметки семантической сегментации в CVAT. Сейчас я подробнее расскажу по NER-разметку в другом популярном open source инструменте Label Studio

Предупреждаю, статья в первую очередь направлена на новичков, которые делают первые шаги в разметке данных. Как и в прошлый раз мы шаг за шагом пройдем путь от установки и настройки проекта до экспорта уже размеченного датасета.

В процессе будем подробнее останавливаться на нюансах связанных с извлечением именованных сущностей и рекомендациях из личного опыта.

Посмотрим, что у тебя там...

https://habr.com/ru/post/659791/?utm_source=habrahabr&utm_medium=rss&utm_campaign=659791

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Семантическая сегментация изображений в CVAT

Вторник, 05 Апреля 2022 г. 19:09 (ссылка)

Товарищи, я начинаю цикл статей-туториалов по разметке данных с помощью разного ПО. Начать решил с самого знаменитого из всех бесплатных инструментов - Computer Vision Annotation Tool. Им может воспользоваться буквально любой желающий, достаточно только зарегистрироваться.

Предупреждаю: это вводная статья для новичков, призванная решить самые главные вопросы "как это работает и куда тыкать". Экспертов прошу поправить или дополнить написанное.

На русском языке не встречал настолько подробных гайдов. Думаю он будет очень полезен.

Ну посмотрим, что там у тебя...

https://habr.com/ru/post/659251/?utm_source=habrahabr&utm_medium=rss&utm_campaign=659251