Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 23-я

Воскресенье, 21 Апреля 2024 г. 13:50 + в цитатник

Речь человекоподобного робота должна быть достаточно «человекоподобной». В принципе, сложный синтез речи пытаются делать давно. Например, в московском «Экспоцентре» синтезатор речи, преобразующий текстовую или числовую информацию в качественный синтезированный голос, по восприятию близкий к человеческому, был представлен компанией "Сакрамент" (г. Минск). Рабочие языки системы - русский, английский, белорусский, украинский и любой другой на заказ. Голоса - 10 мужских и 4 женских, 22 кГц 16 бит, любой пользовательский голос. Поддерживаемые стандарты и приложения: MS SAPI 5.1, TAPI 3.0, JAWS. Также компаний разработана система для автоматического создания пользователями собственного синтезированного голоса: программа предлагает пользователю надиктовать список определённых слов, отладить надиктованный материал и зарегистрировать созданный голос в вышеописанной системе синтеза речи - в результате пользователь получает возможность прослушивать любую текстовую информацию, озвученную собственным синтезированным голосом (языки - русский и в разработке находился английский). Также создано устройство, являющееся готовым решением для внедрения синтезатора речи в бытовую и промышленную электронную технику на любую микропроцессорную платформу в качестве альтернативы выводу текста на дисплей или воспроизведению заранее заготовленных звуковых сообщений; код системы синтеза речи написан на ANSI C и поэтому может быть скомпилирован под любую микропроцессорную платформу; размер системы синтеза речи, переносимой на микропроцессорную платформу в виде объектного модуля, составляет всего 48 kb; объём исходных данных (аллофонная база) для качественного синтеза составляет 800 kb и во время работы может находиться в ОЗУ, ПЗУ или flash memory. Будучи сотрудником киношного журнала, я поинтересовался насчет озвучки голосами киноактёров и получил утвердительный ответ.

Также в СМИ сообщалось, что британский стартап Sonantic добился значительного прогресса в создании искусственных голосов, неотличимых от живых голосов людей. Компания разработала искусственный интеллект, который способен синтезировать голоса, выражающие такие сложные эмоции, как любовь, гнев, страх, кокетство, застенчивость, поддразнивание. Компания показала ролик с примером работы своих алгоритмов — женский голос говорит о любви, имитируя особенности речи обычного человека — запинаясь, посмеиваясь и меняя тембр во время разговора. Как утверждается, понять, что это говорит машина, а не живой человек, на слух невозможно. Как сообщает The Verge, Sonantic заявляет, что совершил прорыв в создании «звуковых дипфейков». Разработчикам удалось воспроизвести синтетический голос, который может выражать тонкие особенности речи реального человека, включая поддразнивание и флирт. Ключом к этому открытию стали алгоритмы — ИИ Sonantic был обучен на десятках тысячах настоящих разговоров, в ходе которых программа научилась воспроизводить малозаметные, но важные вздохи и смешки. Теперь, утверждают в компании, облачная платформа может придать искусственной речи «печать биологической достоверности». В качестве доказательства Sonantic привел демонстрационный ролик «What’s Her Secret?», в котором синтезированная девушка обращается к зрителю. Модель долго не может решить, как заговорить с пользователем, начинает рассуждать о чувствах, а затем признается зрителю в любви и сообщает, что на самом деле она никогда не существовала и все, что у нее есть — это голос, созданный на компьютере. Учредитель и технический директор Sonantic Джон Флинн добавил, что главное отличие Sonantic от конкурентов заключается в способности направлять, контролировать и редактировать голоса. Компания описывает свою платформу как «Photoshop для голоса». Для клиентов разработчик предоставляет широкий набор программных инструментов, с помощью которых пользователи пишут текст для новых моделей, выбирают эмоции, расставляют акценты и добавляют речевые особенности. Пользователь Sonantic также может выбрать конкретную заготовку голоса из базы, созданной на основе голосов реальных актеров-людей. Актуальная версия Sonantic поддерживает ряд предустановок, включая гнев, страх, грусть, счастье и радость, а в ближайшее время к ним присоединятся кокетство, застенчивость, поддразнивание и хвастовство. Эти режимы обещают упростить создание новых моделей — клиент сможет выбрать наиболее подходящий образ и загрузить на платформу свой текст, после чего большую часть работы выполнят алгоритмы.

Тема электронной речи и электронного слуха была и на VI конференции «Цифровая обработка сигналов и её применение» в Москве. Согласно материалам РНТОРЭС им. А. С. Попова, нелинейная модель синтеза вокализованных звуков речи реализована на основе модуляции последовательности импульсов голосового источника (из доклада Рязанской государственной радиотехнической академии). Рассмотрена модель математического моделирования работы голосовых связок при формировании вокализованных звуков речи. Проведён анализ соответствующих исходных сигналов голосового источника, полученных методом обратной линейной фильтрации. Разработан алгоритм формирования сигналов голосового источника вокализованных звуков посредством модуляции импульсов возбуждения речевого тракта сигналом в определённом диапазоне частот, полученным из исходной последовательности отсчетов сигнала голосового источника. Предложена нелинейная модель голосового источника в виде инерционного амплитудного модулятора с нелинейной модуляционной характеристикой, представленной в виде формулы, описывающей отсчеты синтезированного сигнала голосового источника через отсчеты несущей последовательности импульсов возбуждения голосового источника и через отсчеты модулирующего сигнала.

Голосовыми связками, приводимыми в движение сжатым воздухом, сможет говорить робот, разрабатываемый ученым из японского университета Kagawa. Подобные механизмы обладают большей эластичностью и, вероятно, смогут более адекватно отрефлексировать на ситуации, на которые человек реагирует инстинктивно. Были попытки использовать сжатый воздух и для оперного пения.

Поделюсь и личными впечатлениями. Электронная ведущая виртуальных новостей Аnanova (см. иллюстрацию, где нижний кадр – диалог между человеком и компьютером) были представлены в Москве в 2001 году в отеле «Олимпик-Пента» в рамках проекта Британского совета "Новейшие компьютерные технологии - индустрии развлечений". Высокое качество компьютерного лица телеведущей обеспечивает система на процессоре 1 ГГц, а вся виртуальная телеведущая занимает объём памяти 4-5 МБайт, включая голосовую базу фонем на 18 языков - в том числе, русского (на презентации был продемонстрирован синтез русской речи с отслеживанием артикуляции). Было также объявлено о скором выходе на рынок программы "виртуальная рисепшн" - анимационной девочки, которая при обращении на фирму посетителя (на сайт или в офис) регистрирует его, спрашивает о цели посещения и т. п. Эту виртуальную секретаршу (с её базой данных) можно будет вывести через Интернет на карманный компьютер. Для телевизионного изображения нужно 10 МБайт. И “качество лица” будет возрастать - судя по замечанию представителя фирмы- разработчика, что для HDTV им потребуется память большего объёма, в том числе и для передачи такого реализма, как мимика, оттенки эмоций и пр.; в этом направлении идут многообещающие исследования. В рамках общего усовершенствования технологии секретарша научится узнавать голоса и распознавать более сложные и интеллектуально-насыщенные команды (причем, улавливая интонацию говорящего). Дополнительно об этом можно прочесть в моих статьях в журнале «Техника кино и телевидения» №№ 9-10, 2001 г.

Важно добавить, что, поскольку изначально речь идёт о секс-роботах, которые предназначены для маломобильных людей, а у них есть определённые трудности. Поэтому голоса у секс-роботов должны быть максимально соблазнительными (такие голоса бывают обычно у рекламщиц – видимо, рекламные агентства их подбирают специально, чтобы увеличить продажи). Исторический пример есть у Гомера в «Одиссее» - сладкоголосые сирены. Однако, Гомер, как человек культурный, возможно, не написал, как было на самом деле. А скорее всего существовала банда голосистых (буквально) девиц, которые чарующими голосами побуждали моряков страстно возбудиться настолько, что они теряли бдительность.

ana_07 (184x700, 149Kb)

Серия сообщений "Звукотехника":
акустика, схемы, аппаратура
Часть 1 - Звуковые каналы робототехнических систем
Часть 2 - Вам нужен микрофон. Какой?
...
Часть 40 - На какой частоте работает ультразвуковой отпугиватель собак?
Часть 41 - Помогут ли человекоподобные роботы в реабилитации людей с ограниченными возможностями? Часть 6-я
Часть 42 - Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 23-я

Серия сообщений "Досуг 2.0":
туризм
Часть 1 - Уверены, что вас не за что арестовать за границей?
Часть 2 - Использовать мультимедийные рекламно-информационные продукты в работе турагентств
...
Часть 11 - Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 17-я
Часть 12 - Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 21-я
Часть 13 - Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 23-я

Серия сообщений "Компьютерное оборудование 2.0":
компоненты, техника
Часть 1 - Микросхема Intel для блокчейн-вычислений: способна ли она превратить цифровой доллар в доминирующую криптовалюту?
Часть 2 - Ленточные устройства хранения данных вместо серверов? Часть 1-я
...
Часть 25 - Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 9-я
Часть 26 - Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 19-я
Часть 27 - Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 23-я

Рубрики:

Умный офис

Техническое оснащение офисов и в целом зданий

Метки: речь

<a href="https://www.liveinternet.ru/users/albrs/post504739904/">РџРѕРґРґРµСЂР¶Р°С‚ Р»Рё С‡РµР»РѕРІРµРєРѕРїРѕРґРѕР±РЅС‹Рµ СЂРѕР±РѕС‚С‹-РєРѕРјРїР°РЅСЊРѕРЅС‹ Р»СЋРґРµР№ СЃ РёРЅРІР°Р»РёРґРЅРѕСЃС‚СЊСЋ? Р§Р°СЃС‚СЊ 23-СЏ</a><br/>
	Р РµС‡СЊ С‡РµР»РѕРІРµРєРѕРїРѕРґРѕР±РЅРѕРіРѕ СЂРѕР±РѕС‚Р° РґРѕР»Р¶РЅР° Р±С‹С‚СЊ РґРѕСЃС‚Р°С‚РѕС‡РЅРѕ &laquo;С‡РµР»РѕРІРµРєРѕРїРѕРґРѕР±РЅРѕР№&raquo;. Р’ РїСЂРёРЅС†РёРїРµ, СЃР»РѕР¶РЅС‹Р№ СЃРёРЅС‚РµР· СЂРµС‡Рё РїС‹С‚Р°СЋС‚СЃСЏ РґРµР»Р°С‚СЊ РґР°РІРЅРѕ. РќР°РїСЂРёРјРµСЂ, РІ РјРѕСЃРєРѕРІСЃРєРѕРј &laquo;РРєСЃРїРѕС†РµРЅС‚СЂРµ&raquo; СЃРёРЅС‚РµР·Р°С‚РѕСЂ СЂРµС‡Рё, РїСЂРµРѕР±СЂР°Р·СѓСЋС‰РёР№ С‚РµРєСЃС‚РѕРІСѓСЋ РёР»Рё С‡РёСЃР»РѕРІСѓСЋ РёРЅС„РѕСЂРјР°С†РёСЋ РІ РєР°С‡РµСЃС‚РІРµРЅРЅС‹Р№ СЃРёРЅС‚РµР·РёСЂРѕРІР°РЅРЅС‹Р№ РіРѕР»РѕСЃ, РїРѕ РІРѕСЃРїСЂРёСЏС‚РёСЋ Р±Р»РёР·РєРёР№ Рє С‡РµР»РѕРІРµС‡РµСЃРєРѕРјСѓ, Р±С‹Р» РїСЂРµРґСЃС‚Р°РІР»РµРЅ РєРѕРјРїР°РЅРёРµР№ &quot;РЎР°РєСЂР°РјРµРЅС‚&quot; (Рі. РњРёРЅСЃРє). Р Р°Р±РѕС‡РёРµ СЏР·С‹РєРё СЃРёСЃС‚РµРјС‹ - СЂСѓСЃСЃРєРёР№, Р°РЅРіР»РёР№СЃРєРёР№, Р±РµР»РѕСЂСѓСЃСЃРєРёР№, СѓРєСЂР°РёРЅСЃРєРёР№ Рё Р»СЋР±РѕР№ РґСЂСѓРіРѕР№ РЅР° Р·Р°РєР°Р·. Р“РѕР»РѕСЃР° - 10 РјСѓР¶СЃРєРёС… Рё 4 Р¶РµРЅСЃРєРёС…, 22 РєР“С† 16 Р±РёС‚, Р»СЋР±РѕР№ РїРѕР»СЊР·РѕРІР°С‚РµР»СЊСЃРєРёР№ РіРѕР»РѕСЃ. РџРѕРґРґРµСЂР¶РёРІР°РµРјС‹Рµ СЃС‚Р°РЅРґР°СЂС‚С‹ Рё РїСЂРёР»РѕР¶Рµ... <a href="https://www.liveinternet.ru/users/albrs/post504739904/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Рубрики

-Поиск по дневнику

-Подписка по e-mail

-Интересы

-Постоянные читатели

-Статистика

Поддержат ли человекоподобные роботы-компаньоны людей с инвалидностью? Часть 23-я