[Перевод] Как за неделю разметить миллион примеров данных
|
|
Пятница, 12 Августа 2022 г. 12:51
+ в цитатник
В 2019 году компания OpenAI опубликовала
статью о точной настройке GPT-2, в которой она использовала Scale AI для сбора мнений живых разметчиков с целью совершенствования своих языковых моделей. Хотя в то время мы уже размечали миллионы задач обработки текста и computer vision, уникальные требованиях к срокам и субъективная природа задач OpenAI создали для нас новую сложность. В частности, трудность заключалась в следующем: как поддерживать качество меток в больших масштабах без возможности проверки чужой работы разметчиками? Сегодня мы подробно расскажем о своём подходе к решению этой проблемы, о системе
автоматического майнинга бенчмарков, которую мы для этого создали, а также об уроках, которые получили в процессе. Этой статьёй мы хотим проиллюстрировать небольшую часть тех сложностей, делающих масштабируемую разметку данных такой интересной сферой работы.
Читать дальше → https://habr.com/ru/post/680960/?utm_source=habrahabr&utm_medium=rss&utm_campaign=680960
Метки:
software
искусственный интеллект
обработка изображений
data mining
машинное обучение
computer vision
big data
dataset
training data
data annotation
разметка данных
data labeling
инструменты для разметки
разметка датасета
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-