|
rss_habr
Падаем в кроличью нору. Ищем способ характеризовать текстовые датасетыПятница, 20 Января 2023 г. 11:49 (ссылка)
Всем привет! На связи Игорь Буянов, разработчик в команде разметки MTS AI. Сегодня я поделюсь с вами своими наработками, появившимися во время изучения метрик оценки генерации данных. Когда я только пришел в команду разметки, эта задача была особо актуальной - нас тогда просили нагенерить данные под тестирование информационного бота по COVID. Дело в том, что тестирование результатов выполнялось вручную, что значительно замедляло работу. Каких-либо автоматических метрик оценки качества генерации тестовых данных не существовало. В какой-то момент мне надоело это терпеть, и я решил посмотреть, а как качество текстов оценивают разработчики языковых моделей. У них точно есть перплексия, может, есть что-то еще. Спустя время, проведенное за штудированием статей, я нашел кандидата среди известных метрик для оценки качества генерации, но кроме того, к своему удивлению, у меня появилось несколько теоретических тезисов о качестве данных вообще. В этом посте я делюсь ими с сообществом в надежде на дальнейшее обсуждение. Для лучшего понимания дальнейшего текста рекомендую прочитать эту статью. Читать далееhttps://habr.com/ru/post/711764/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711764
rss_habr
[Перевод] Понимание оценки BLEU в кастомизированном машинном переводеВоскресенье, 17 Апреля 2022 г. 14:54 (ссылка)
Про то, что такое оценка качества машинного перевода BLEU и как кастомизация движка машинного перевода с помощью правильно подобранного обучающего датасета улучшает читаемость текста. Читать далееhttps://habr.com/ru/post/661377/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661377
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |