amvera speech - Самое интересное в блогах

rss_habr

Насколько можно улучшить распознавание речи в записях с АЗС за месяц

Вторник, 20 Декабря 2022 г. 20:51 (ссылка)

Эта история началась с того, что к нам пришел клиент, которому нужна была система распознавания речи. Да не простая, а качественно распознающая разговоры с микрофонов на АЗС, то есть речь в сильных шумах. Цель заказчика простая – контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе. Вы наверняка все это сами слышали на заправках.

Но есть проблема. Хорошо распознать простую чистую речь могут почти все известные решения. Но речь, где на фоне играет радио, слышны звуки с других касс, громкость речи говорящих разная и присутствует много отраслевой лексики (бренды сигарет, марки топлива), качественно распознать не смогло ни одно «коробочное» решение.

Вызов принят! Мы решили за ограниченное время справиться с этим кейсом.

Шаг 1 – транскрибируем несколько файлов и замеряем качество распознавания на своем решении и решении конкурентов.

Для измерения качества распознавания используем метрику WER.

https://habr.com/ru/post/706716/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706716

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Используем нейросеть для генерации стихов в стиле «Евгения Онегина»

Понедельник, 14 Ноября 2022 г. 11:33 (ссылка)

Мне нравится концепция, согласно которой речь – это, в первую очередь, не способ коммуникации, а отражение сознания. В таком случае стихи - это отражение красоты сознания. Но сможет ли нейросеть сгенерировать стихотворения, похожие на рукотворные? Давайте попробуем сделать такой алгоритм.

Шаг 1 – выбираем архитектуру

Тренд последних лет в обработке естественных языков (NLP) - использование нейронных сетей. А если смотреть более узко, то - нейронных сетей архитектуры «трансформер», включающих блок внимания «attention». Суть подхода в том, чтобы использовать при кодировке как в энкодере эмбединга (вектор признаков на выходе слоя нейронной сети), так и в декодере, механизм «attention», позволяющий учитывать взаимосвязь между словами и «фокусировать внимание» нейронной сети только на контексте, имеющем значение для слова.

Одной из архитектур на основе трансформеров является ruBERT, его и возьмем. Но для чистоты эксперимента попробуем также использовать и более старый подход, а именно LSTM нейронную сеть.

https://habr.com/ru/post/699058/?utm_source=habrahabr&utm_medium=rss&utm_campaign=699058

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли

Понедельник, 10 Октября 2022 г. 19:43 (ссылка)

Некоторое время назад к нам пришел клиент – крупный металлургический комбинат с запросам разработки системы распознавания речи. Продукцию комбината перевозят поезда. А во время железнодорожных грузоперевозок машинисты и диспетчеры должны переговариваться согласно регламенту. За переговоры не по регламенту - штраф. Поэтому “боль” клиента была сильной: получить систему автоматического контроля регламента переговоров по рации во избежание финансовых потерь и снижения риска катастроф.

Мы опрометчиво согласились. А когда получили аудиозаписи, поняли, что поторопились подписывать договор.

Читать, что было дальше

https://habr.com/ru/post/692296/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692296

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Чем гибридные системы распознавания речи лучше End-to-End решений

Четверг, 06 Октября 2022 г. 06:58 (ссылка)

На хайпе нейронных сетей особую популярность приобрели end-to-end системы распознавания речи. И это неудивительно, ведь можно «просто» взять нейронную сеть известной архитектуры, скормить ей обучающий датасет и ждать результата. Но на практике все оказывается не так просто.

В этой статье мы попробуем рассказать, почему несмотря на эксперименты с нейронными end-to-end сетями, мы продолжаем использовать гибридную архитектуру, состоящую из акустической и лингвистической модели, работающих независимо и в чем заключаются достоинства и недостатки разных архитектур распознавания речи.

https://habr.com/ru/post/691416/?utm_source=habrahabr&utm_medium=rss&utm_campaign=691416

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<amvera speech - Самое интересное в блогах

Страницы: [1] 2 3 .... 10