[Перевод] Если вы устраняете систематическую ошибку модели, то уже слишком поздно
|
|
Среда, 27 Апреля 2022 г. 11:33
+ в цитатник
Введение
Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:
- Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
- Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос
Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно
здесь.
Читать дальше → https://habr.com/ru/post/657123/?utm_source=habrahabr&utm_medium=rss&utm_campaign=657123
Метки:
software
искусственный интеллект
data mining
машинное обучение
natural language processing
big data
dataset
training data
data annotation
разметка данных
data labeling
инструменты для разметки
разметка датасета
-
Запись понравилась
-
0
Процитировали
-
0
Сохранили
-