[Перевод] Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Среда, 27 Апреля 2022 г. 11:33 + в цитатник

Введение

Машинное обучение — это технологический прорыв, случающийся раз в поколение. Однако с ростом его популярности основной проблемой становятся систематические ошибки алгоритма. Если модели ML не обучаются на репрезентативных данных, у них могут развиться серьёзные систематические ошибки, оказывающие существенный вред недостаточно представленным группам и приводящие к созданию неэффективных продуктов. Мы изучили массив данных CoNLL-2003, являющийся стандартом для создания алгоритмов распознавания именованных сущностей в тексте, и выяснили, что в данных присутствует серьёзный перекос в сторону мужских имён. При помощи наших технологии мы смогли компенсировать эту систематическую ошибку:

Мы обогатили данные, чтобы выявить сокрытые систематические ошибки
Дополнили массив данных недостаточно представленными примерами, чтобы компенсировать гендерный перекос

Модель, обученная на нашем расширенном массиве данных CoNLL-2003, характеризуется снижением систематической ошибки и повышенной точностью, и это показывает, что систематическую ошибку можно устранить без каких-либо изменений в модели. Мы выложили в open source наши аннотации Named Entity Recognition для исходного массива данных CoNLL-2003, а также его улучшенную версию, скачать их можно здесь.
Читать дальше →

https://habr.com/ru/post/657123/?utm_source=habrahabr&utm_medium=rss&utm_campaign=657123

<a href="https://www.liveinternet.ru/users/rss_habr/post492054498/">[РџРµСЂРµРІРѕРґ] Р•СЃР»Рё РІС‹ СѓСЃС‚СЂР°РЅСЏРµС‚Рµ СЃРёСЃС‚РµРјР°С‚РёС‡РµСЃРєСѓСЋ РѕС€РёР±РєСѓ РјРѕРґРµР»Рё, С‚Рѕ СѓР¶Рµ СЃР»РёС€РєРѕРј РїРѕР·РґРЅРѕ</a><br/>
Р’РІРµРґРµРЅРёРµ
РњР°С€РёРЅРЅРѕРµ РѕР±СѓС‡РµРЅРёРµ вЂ” СЌС‚Рѕ С‚РµС…РЅРѕР»РѕРіРёС‡РµСЃРєРёР№ РїСЂРѕСЂС‹РІ, СЃР»СѓС‡Р°СЋС‰РёР№СЃСЏ СЂР°Р· РІ РїРѕРєРѕР»РµРЅРёРµ. РћРґРЅР°РєРѕ СЃ СЂРѕСЃС‚РѕРј РµРіРѕ РїРѕРїСѓР»СЏСЂРЅРѕСЃС‚Рё РѕСЃРЅРѕРІРЅРѕР№ РїСЂРѕР±Р»РµРјРѕР№ СЃС‚Р°РЅРѕРІСЏС‚СЃСЏ СЃРёСЃС‚РµРјР°С‚РёС‡РµСЃРєРёРµ РѕС€РёР±РєРё Р°Р»РіРѕСЂРёС‚РјР°. Р•СЃР»Рё РјРѕРґРµР»Рё ML РЅРµ РѕР±СѓС‡Р°СЋС‚СЃСЏ РЅР° СЂРµРїСЂРµР·РµРЅС‚Р°С‚РёРІРЅС‹С… РґР°РЅРЅС‹С…, Сѓ РЅРёС… РјРѕРіСѓС‚ СЂР°Р·РІРёС‚СЊСЃСЏ СЃРµСЂСЊС‘Р·РЅС‹Рµ СЃРёСЃС‚РµРјР°С‚РёС‡РµСЃРєРёРµ РѕС€РёР±РєРё, РѕРєР°Р·С‹РІР°СЋС‰РёРµ СЃСѓС‰РµСЃС‚РІРµРЅРЅС‹Р№ РІСЂРµРґ РЅРµРґРѕСЃС‚Р°С‚РѕС‡РЅРѕ РїСЂРµРґСЃС‚Р°РІР»РµРЅРЅС‹Рј РіСЂСѓРїРїР°Рј Рё РїСЂРёРІРѕРґСЏС‰РёРµ Рє СЃРѕР·РґР°РЅРёСЋ РЅРµСЌС„С„РµРєС‚РёРІРЅС‹С… РїСЂРѕРґСѓРєС‚РѕРІ. РњС‹ РёР·СѓС‡РёР»Рё РјР°СЃСЃРёРІ РґР°РЅРЅС‹С… CoNLL-2003, СЏРІР»СЏСЋС‰РёР№СЃСЏ СЃС‚Р°РЅРґР°СЂС‚РѕРј РґР»СЏ СЃРѕР·РґР°РЅРёСЏ Р°Р»РіРѕСЂРёС‚РјРѕРІ СЂР°СЃРїРѕР·РЅР°РІР°РЅРёСЏ РёРјРµРЅРѕРІР°РЅРЅС‹С… СЃСѓС‰РЅРѕСЃС‚РµР№ РІ С‚РµРєСЃС‚Рµ, Рё РІС‹СЏСЃРЅРёР»Рё, С‡С‚Рѕ РІ РґР°РЅРЅС‹С… РїСЂРёСЃСѓС‚СЃС‚РІСѓРµС‚ СЃРµСЂСЊС‘Р·РЅС‹Р№ РїРµСЂРµРєРѕСЃ РІ ... <a href="https://www.liveinternet.ru/users/rss_habr/post492054498/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Подписка по e-mail

-Поиск по дневнику

-Постоянные читатели

-Статистика

[Перевод] Если вы устраняете систематическую ошибку модели, то уже слишком поздно

Введение