Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 2 сообщений
Cообщения с меткой

variance - Самое интересное в блогах

Следующие 30  »
rss_habr

Падаем в кроличью нору. Ищем способ характеризовать текстовые датасеты

Пятница, 20 Января 2023 г. 11:49 (ссылка)

Всем привет! На связи Игорь Буянов, разработчик в команде разметки MTS AI. Сегодня я поделюсь с вами своими наработками, появившимися во время изучения метрик оценки генерации данных. Когда я только пришел в команду разметки, эта задача была особо актуальной - нас тогда просили нагенерить данные под тестирование информационного бота по COVID. Дело в том, что тестирование результатов выполнялось вручную, что значительно замедляло работу. Каких-либо автоматических метрик оценки качества генерации тестовых данных не существовало.

В какой-то момент мне надоело это терпеть, и я решил посмотреть, а как качество текстов оценивают разработчики языковых моделей. У них точно есть перплексия, может, есть что-то еще.

Спустя время, проведенное за штудированием статей, я нашел кандидата среди известных метрик для оценки качества генерации, но кроме того, к своему удивлению, у меня появилось несколько теоретических тезисов о качестве данных вообще. В этом посте я делюсь ими с сообществом в надежде на дальнейшее обсуждение. Для лучшего понимания дальнейшего текста рекомендую прочитать эту статью.

Читать далее

https://habr.com/ru/post/711764/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711764

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<variance - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda