bleu - Самое интересное в блогах

rss_habr

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

Пятница, 20 Января 2023 г. 11:49 (ссылка)

Всем привет! На связи Игорь Буянов, разработчик в команде разметки MTS AI. Сегодня я поделюсь с вами своими наработками, появившимися во время изучения метрик оценки генерации данных. Когда я только пришел в команду разметки, эта задача была особо актуальной - нас тогда просили нагенерить данные под тестирование информационного бота по COVID. Дело в том, что тестирование результатов выполнялось вручную, что значительно замедляло работу. Каких-либо автоматических метрик оценки качества генерации тестовых данных не существовало.

В какой-то момент мне надоело это терпеть, и я решил посмотреть, а как качество текстов оценивают разработчики языковых моделей. У них точно есть перплексия, может, есть что-то еще.

Спустя время, проведенное за штудированием статей, я нашел кандидата среди известных метрик для оценки качества генерации, но кроме того, к своему удивлению, у меня появилось несколько теоретических тезисов о качестве данных вообще. В этом посте я делюсь ими с сообществом в надежде на дальнейшее обсуждение. Для лучшего понимания дальнейшего текста рекомендую прочитать эту статью.

https://habr.com/ru/post/711764/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711764

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Понимание оценки BLEU в кастомизированном машинном переводе

Воскресенье, 17 Апреля 2022 г. 14:54 (ссылка)

Про то, что такое оценка качества машинного перевода BLEU и как кастомизация движка машинного перевода с помощью правильно подобранного обучающего датасета улучшает читаемость текста.

https://habr.com/ru/post/661377/?utm_source=habrahabr&utm_medium=rss&utm_campaign=661377

Комментарии (0)Комментировать В цитатник или сообщество

bleu - Самое интересное в блогах

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

[Перевод] Понимание оценки BLEU в кастомизированном машинном переводе

<bleu - Самое интересное в блогах