семантика - Самое интересное в блогах

rss_habr

Краткая история NLP — Natural Language Processing

Понедельник, 31 Января 2023 г. 03:06 (ссылка)

История использования систем обработки естественного языка насчитывает всего 50 лет, но изо дня в день мы используем различные модели NLP. В различных поисковых запросах, переводчиках и чат-ботах. NLP возникло как слияние искусственного интеллекта и лингвистики. Лингвистика - это наука, изучающая языки, их семантику - смысловые единицы слов, фонетику - изучение звукового состава слов, синтаксис - номинативные и коммуникативные единицы языка.

https://habr.com/ru/post/713804/?utm_source=habrahabr&utm_medium=rss&utm_campaign=713804

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Информация, как много в этом слове…

Пятница, 27 Января 2023 г. 23:07 (ссылка)

Очень сложно дается для понимания (уж поверьте, проверено много раз) простая мысль, что одним и тем же словом в разных предметных областях, на разных уровнях анализа, разными людьми могут обозначаться принципиально разные понятия. Например, большинство убеждено, что существует некое реальное, как оно есть на самом деле, сознание, и проблема только в том, что у нас не получается описать его словами. Сколько человек ни возьмется за это, у всех получается как-то про разное. Хотя можно просто признать, что слово «сознание» многие используют в разных значениях, то есть обозначают им разные понятия, и на этом завершить бесконечные споры. Ту же историю мы наблюдаем и со словом «информация» – можно насчитать под сотню различных, порой очень далеких друг от друга по содержанию определений.

Согласно одним, информация – это «любые данные, представленные в электронной форме», согласно другим – «универсальное свойство материи», и тут же – «мера организованности системы», а еще «сведения, воспринимаемые человеком». Кто-то пытается объяснить наличие множества определений информации тем, что само понятие ‘информация’ является многогранным, сложным, и даже объявляет его базовым, неопределяемым. Но ведь очевидно, что приведенные определения никак не могут описывать нечто одно: потоки символов, передаваемый по каналам связи, не могут быть мерой сложности системы, а воспринимаемые человеком сведения – универсальным свойством материи.

Далее я попытаюсь убедить вас в следующем: во-первых, нет никакой самой по себе информации, про которую можно говорить, что именно она и есть информация (сложная, первичная, вездесущая) и требуется только дать ей единственно правильное определение; во-вторых, мы имеем дело с рядом несводимых друг к другу понятий, которые в разных областях разными людьми обозначаются одним и тем же словом «информация».

https://habr.com/ru/post/713376/?utm_source=habrahabr&utm_medium=rss&utm_campaign=713376

Метки: Семантика IT-стандарты Искусственный интеллект информация терминология данные кибернетика

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Real AI семантический анализатор. Онлайн-демо – овощи, фрукты и их свойства

Понедельник, 23 Января 2023 г. 12:09 (ссылка)

Всем привет!
Мы продолжаем развитие нашей системы анализа естественного языка и, завершив промежуточный этап работы над коммерческим сценарием выявления поручений из документов, решили выложить в отрытый доступ онлайн демо по нахождению в тексте объектов и соответствующих им характеристик. Как нам кажется, мы сделали уникальную вещь, по крайней мере, нам не известно о доступных онлайн системах построения смысловой модели текста с таким уровнем детализации.

Далее описание применяемой технологии, предметной области, ограничений и возможностей демо.

https://habr.com/ru/post/712140/?utm_source=habrahabr&utm_medium=rss&utm_campaign=712140

Метки: Семантика Искусственный интеллект Natural Language Processing семантический анализ текста real ai демо свойство-ориентированный подход

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Акты, классы и семантический сахар

Вторник, 27 Декабря 2022 г. 16:50 (ссылка)

В предыдущей статье «Событийная онтология vs объектная» были введены основные положения событийной семантики, описаны ее отличия от объектно-ориентированных подходов к моделированию предметной области. В данном тексте на конкретных примерах демонстрируются особенности событийного описания по сравнению с субстанциональным и релятивным. Вводится новое понятие «семантический сахар» и переосмысливается роль иерархических отношений свойств.

https://habr.com/ru/post/708026/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708026

Метки: Семантика событийная архитектура иерархия терминов онтология предметная область действие актор классификация

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Биграммы и триграммы. Кейс сбора и анализа информации из аудио с непонятными словами

Понедельник, 26 Декабря 2022 г. 12:34 (ссылка)

Привет. Меня зовут Александр Родченков, я занимаюсь речевой аналитикой в центре машинного обучения «Инфосистемы Джет». Тут я расскажу о биграммах и триграммах на примере реального, хоть и довольно скромного, кейса. Что же это за «граммы» такие, с чем их «едят» и зачем они нам? Кейс решал задачу сбора и обработки данных одной из продовольственных компаний. Сложность задачи заключалась в том, что в речи было очень много специфических терминов и аббревиатур. Как мы с этим справились, и с какими неожиданностями столкнулись после, читай под катом.

Жми, не пожалеешь!

https://habr.com/ru/post/707664/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707664

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Биграммы и триграммы. Кейс сбора и анализа информации из аудио с непонятными словами

Понедельник, 26 Декабря 2022 г. 12:34 (ссылка)

Жми, не пожалеешь!

https://habr.com/ru/post/707664/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707664

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Событийная онтология vs объектная

Среда, 21 Декабря 2022 г. 17:35 (ссылка)

В общем случае (вне и до информационных технологий), произнося слово «семантика», предлагают обсудить смысловой уровень языка – значения знаков и структур знаков (текстов). При этом семантика противопоставляется синтаксису, то есть формальным правилам соединения знаков в текст. Когда же речь о семантике заводится в сфере IT, то имеют в виду особые технологии, архитектуры приложений и языки описания данных, ориентированные на знаковое представление объектов и их свойств в компьютерных моделях предметных областей. В качестве основной цели семантического подхода видится «научение» компьютера распознавать смысл данных, описывающих деятельность и ее элементы, то есть реализовать переход от оперирования безликими данными к работе со значениями и знаниями. Предполагается, что широкое использование семантического подхода к моделированию предметных областей позволит унифицировать обмен информацией между независимыми поставщиками данных и приложениями, а также обеспечит возможность модифицировать структуру данных и бизнес-логику приложений не путем переписывания кода, а только через преобразование семантически определенных данных. К основным методам семантического подхода следует отнести: унификацию формата записи, уникальную идентификацию записей, включение метаданных в данные, стандартизацию словарей.

Традиционно семантическое описание предметной области называют онтологией этой области. При этом выражения «онтологическое описание», «онтологическая модель», «онтология предметной области» используют как синонимы. Онтология или онтологическая модель предметной области – это, по сути, структура из сущностей (концептов, понятий, типов объектов), их свойств и правил установления отношений между ними. Обычно онтологию представляют в виде графа, вершинами которого являются объекты, а ребрами – свойства. Часто такую структуру из объектов и значений их свойств, построенную для определенной предметной области, называют графом знаний (Knowledge Graph).

https://habr.com/ru/post/706916/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706916

Метки: Семантика событийная модель событийная архитектура онтологии процессы в it

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Насколько можно улучшить распознавание речи в записях с АЗС за месяц

Вторник, 20 Декабря 2022 г. 20:51 (ссылка)

Эта история началась с того, что к нам пришел клиент, которому нужна была система распознавания речи. Да не простая, а качественно распознающая разговоры с микрофонов на АЗС, то есть речь в сильных шумах. Цель заказчика простая – контролировать, упоминают ли кассиры акции, предлагают ли установить мобильное приложение и выпить кофе. Вы наверняка все это сами слышали на заправках.

Но есть проблема. Хорошо распознать простую чистую речь могут почти все известные решения. Но речь, где на фоне играет радио, слышны звуки с других касс, громкость речи говорящих разная и присутствует много отраслевой лексики (бренды сигарет, марки топлива), качественно распознать не смогло ни одно «коробочное» решение.

Вызов принят! Мы решили за ограниченное время справиться с этим кейсом.

Шаг 1 – транскрибируем несколько файлов и замеряем качество распознавания на своем решении и решении конкурентов.

Для измерения качества распознавания используем метрику WER.

https://habr.com/ru/post/706716/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706716

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Вы ничего не знаете про SEO, или как подготовиться к неизбежному – тренды онлайн-продвижения ближайших 5-ти лет

Четверг, 01 Декабря 2022 г. 22:55 (ссылка)

SEO будущего – это уже не про сайты. Это не про развитие бложика на Виси или Хабре. Современное SEO – это новая парадигма понимания самой сути продвижения в интернете.

https://habr.com/ru/post/703012/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703012

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Используем нейросеть для генерации стихов в стиле «Евгения Онегина»

Понедельник, 14 Ноября 2022 г. 11:33 (ссылка)

Мне нравится концепция, согласно которой речь – это, в первую очередь, не способ коммуникации, а отражение сознания. В таком случае стихи - это отражение красоты сознания. Но сможет ли нейросеть сгенерировать стихотворения, похожие на рукотворные? Давайте попробуем сделать такой алгоритм.

Шаг 1 – выбираем архитектуру

Тренд последних лет в обработке естественных языков (NLP) - использование нейронных сетей. А если смотреть более узко, то - нейронных сетей архитектуры «трансформер», включающих блок внимания «attention». Суть подхода в том, чтобы использовать при кодировке как в энкодере эмбединга (вектор признаков на выходе слоя нейронной сети), так и в декодере, механизм «attention», позволяющий учитывать взаимосвязь между словами и «фокусировать внимание» нейронной сети только на контексте, имеющем значение для слова.

Одной из архитектур на основе трансформеров является ruBERT, его и возьмем. Но для чистоты эксперимента попробуем также использовать и более старый подход, а именно LSTM нейронную сеть.

https://habr.com/ru/post/699058/?utm_source=habrahabr&utm_medium=rss&utm_campaign=699058

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Путь самурая в ASR, или как мы сделали распознавание речи для ЖД отрасли

Понедельник, 10 Октября 2022 г. 19:43 (ссылка)

Некоторое время назад к нам пришел клиент – крупный металлургический комбинат с запросам разработки системы распознавания речи. Продукцию комбината перевозят поезда. А во время железнодорожных грузоперевозок машинисты и диспетчеры должны переговариваться согласно регламенту. За переговоры не по регламенту - штраф. Поэтому “боль” клиента была сильной: получить систему автоматического контроля регламента переговоров по рации во избежание финансовых потерь и снижения риска катастроф.

Мы опрометчиво согласились. А когда получили аудиозаписи, поняли, что поторопились подписывать договор.

Читать, что было дальше

https://habr.com/ru/post/692296/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692296

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Первый нейросетевой переводчик для эрзянского языка

Воскресенье, 09 Октября 2022 г. 13:00 (ссылка)

Эрзянский язык из финно-угорской семьи – один из официальных в республике Мордовия, и на нём говорят сотни тысяч людей, но для него до сих пор не было почти никаких технологий машинного перевода, кроме простых словарей.
Я попробовал создать первую нейросеть, способную переводить с эрзянского на русский (и с натяжкой ещё на 10 языков) и обратно не только слова, но и целые предложения.

Пока её качество оставляет желать лучшего, но пробовать пользоваться уже можно.
Как я собирал для этого тексты и обучал модели – под катом.

https://habr.com/ru/post/692168/?utm_source=habrahabr&utm_medium=rss&utm_campaign=692168

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Автоматическое реферирование текстов. Обзор работ

Пятница, 26 Августа 2022 г. 15:20 (ссылка)

Я думаю, многим знакома ситуация, когда в сжатые сроки необходимо ознакомиться с большим объёмом текстов – статей, обзоров, сюжетов, отзывов и так далее. Читать их все от начала и до конца слишком напряжно, не правда ли? И здесь на помощь приходят рефераты – краткие выжимки текстов, содержащие только самое главное и важное. Написанием рефератов занимаются зачастую эксперты, однако такая работа требует немало времени и усилий. Кроме того, труд экспертов должен, само собой, оплачиваться. Решение – применять методы автоматического реферирования текстов (Automatic Summarization), то есть порождать рефераты с помощью специальных компьютерных программ. В этой статье мы познакомимся с некоторыми наиболее распространёнными подходами к решению данной задачи.

https://habr.com/ru/post/684830/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684830

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Алгоритм обучения CBOW архитектуры для векторизации слов

Четверг, 11 Августа 2022 г. 14:16 (ссылка)

В этой статье подробно разбирается алгоритм обучения архитектуры CBOW (Continuous Bag of Words), которая появилась в 2013 году и дала сильный толчок в решении задачи векторного представления слов, т.к. в первый раз на практике использовался подход на основе нейронных сетей. Архитектура CBOW не столь требовательна к наличию GPU и вполне может обучаться на ЦП (хотя и более медленно). Большие готовые модели, обученные на википедии или новостных сводках, вполне могут работать на 4-х ядерном процессоре, показывая приемлемое время отклика.

https://habr.com/ru/post/682032/?utm_source=habrahabr&utm_medium=rss&utm_campaign=682032

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Хрустальный шар с извилинами: как мозг предсказывает речь

Среда, 10 Августа 2022 г. 10:00 (ссылка)

Мозг человека считается одним из самых сложных механизмов, на понимание работы, которого люди потратили не одно столетие, но так и не смогли получить полную картину. Именно в мозге протекают процессы, связанные с обработкой и хранением информации, с принятием решений, с контролем действий. Но до сих пор ученый свет не может дать единый ответ на вопрос — каков основной принцип или механизм работы мозга? Многие считают, что мозг работает по принципу сравнения сенсорной информации и построенных в нем предсказаний. К примеру, участвуя в беседе, человек воспринимает ряд сенсорной информации — голос собеседника, речь (т. е. сами слова), мимика, движения. А его мозг постоянно пытается предсказать, что собеседник скажет дальше. Ранее это была лишь теория, но благодаря ученым из Института психолингвистики Макса Планка (Нидерланды) теория была подтверждена на практике. Какие опыты провели ученые, что они показали, и смогли ли они открыть тайну работы мозга? Ответы на эти вопросы мы найдем в докладе ученых. Поехали. Читать дальше →

https://habr.com/ru/post/681534/?utm_source=habrahabr&utm_medium=rss&utm_campaign=681534

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Автоматический синтез речи: взгляд лингвиста

Пятница, 29 Июля 2022 г. 13:30 (ссылка)

Что первым придет в голову, если перед нами встанет задача автоматического порождения речи по тексту? Вероятнее всего, мы позаботимся о расстановке пауз между словами, постараемся правильно выбрать интонацию фразы и расставить смысловые акценты. Обязательно построим фонетическую транскрипцию: орфография и произношение далеко не всегда однозначно соответствуют друг другу, о чем компьютер не узнает без нашей помощи. Полученную транскрипцию переведем в цифровой сигнал, который затем преобразуем в звуковые колебания.

https://habr.com/ru/post/679838/?utm_source=habrahabr&utm_medium=rss&utm_campaign=679838

Комментарии (0)Комментировать В цитатник или сообщество

Следующие 30 »

<семантика - Самое интересное в блогах

Страницы: [1] 2 3 .... 10