nlp - Самое интересное в блогах

rss_habr

Как Маруся отвечает на вопросы пользователей обо всём на свете

Среда, 01 Февраля 2023 г. 11:04 (ссылка)

Привет, это команда ответов на вопросы Маруси. Мы все привыкли к тому, что голосовые помощники отвечают на любые вопросы. Не всегда правильно, но обычно вполне толково и с пользой. А вы когда-нибудь задумывались, как это устроено? Сейчас расскажем на примере нашей Маруси.

Материал состоит из двух частей, это первая часть. В ней мы дадим поверхностный обзор того как устроена Маруся, локализуем место навыка «ответов на вопросы» и расскажем на концептуальном уровне, как можно решать эту задачу.

https://habr.com/ru/post/713124/?utm_source=habrahabr&utm_medium=rss&utm_campaign=713124

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

ChatGPT как инструмент для поиска: решаем основную проблему

Четверг, 26 Января 2023 г. 11:55 (ссылка)

Вышедшая чуть больше месяца назад ChatGPT уже успела нашуметь: школьникам в Нью-Йорке запрещают использовать нейросеть в качестве помощника, её же ответы теперь не принимаются на StackOverflow, а Microsoft планирует интеграцию в поисковик Bing - чем, кстати, безумно обеспокоен СЕО Alphabet (Google) Сундар Пичаи. Настолько обеспокоен, что в своём письме-обращении к сотрудникам объявляет "Code Red" ситуацию. В то же время Сэм Альтман, CEO OpenAI - компании, разработавшей эту модель - заявляет, что полагаться на ответы ChatGPT пока не стоит.

Насколько мы действительно близки к внедрению продвинутых чат-ботов в поисковые системы, как может выглядеть новый интерфейс взаимодействия, и какие основные проблемы есть на пути интеграции? Могут ли модели сёрфить интернет бок о бок с традиционными поисковиками? На эти и многие другие вопросы постараемся ответить под катом.

Погрузиться с головой →

https://habr.com/ru/post/709222/?utm_source=habrahabr&utm_medium=rss&utm_campaign=709222

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

MedBench: NLP-задачи в медицине, модели и методы их решения

Четверг, 19 Января 2023 г. 22:55 (ссылка)

Привет, Хабр! Меня зовут Даниил Погуляка. Я студент четвертого курса МГТУ им. Н.Э. Баумана, факультета "Информатика, искусственный интеллект и системы управления". Уже некоторое время я занимаюсь изучением методов машинного обучения, в частности, касающихся автоматической обработки текстов (Natural Language Processing, NLP). В конце прошлого года мне удалось попасть на стажировку в Sber AI Lab. Оказавшись в команде проекта MedBench, у меня появилась возможность поработать над практическими NLP задачами. В этой статье я бы хотел рассказать вам о проекте, которым занимался на протяжении своей стажировки. Проект связан с использованием нейронных сетей в сфере медицины, но подробнее о нём после небольшого введения.

https://habr.com/ru/post/711700/?utm_source=habrahabr&utm_medium=rss&utm_campaign=711700

Метки: Машинное обучение Искусственный интеллект Телемедицина Natural Language Processing NLP медицина roberta нейросети бенчмарк

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как машинное обучение помогает проекту «ЗабастКом» освещать трудовые конфликты

Понедельник, 16 Января 2023 г. 12:14 (ссылка)

В посте расскажу о моем успешном взаимодействии с некоммерческим проектом ЗабастКом, который поддерживает наемных работников в отстаивании своих трудовых прав и интересов. Моя цель была реализовать что-то похожее на ML4SG проект, где волонтеры-специалисты по анализу данных направляют свою энергию на пользу обществу. Например, применяют алгоритмы искусственного интеллекта для спасения потерявшихся людей, для мониторинга качества воздуха или для анализа новостного потока.

Для Забасткома получилось улучшить систему автоматической обработки новостей с помощью алгоритмов машинного обучения. Это привело к увеличению охвата важных событий и уменьшению ручного труда редакторов. Добавлю, что работа с ребятами была похожа на мечту любого DS специалиста: "заказчик" легко шел на контакт; присутствовала заинтересованность и неплохое понимание ML алгоритмов; некоторая продакшн-система уже функционировала; данные для обучения алгоритмов легко собирались. А под катом — поделюсь подробностями и кодом.

Читать дальше →

https://habr.com/ru/post/707760/?utm_source=habrahabr&utm_medium=rss&utm_campaign=707760

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Стихи, цветы и драконы на EMNLP 2022

Четверг, 29 Декабря 2022 г. 16:51 (ссылка)

EMNLP — это одна из самых больших конференций в области обработки естественных языков, NLP. В этом году конференция проходила с 7 по 11 декабря в Абу-Даби. Из кучи статьей, представленных на конференции, я хотел бы выделить три, которые привлекли мое внимание. Эти статьи не обязательно самые полезные или известные, но по-моему они точно достойны упоминания. Две статьи были представлены в виде постеров, а у третьей было полноценное выступление. Моя любимая из этих трех статей — PoeLM, статья про генерацию стихов на испанском языке с формальными ограничениями.

Поехали!

https://habr.com/ru/post/708490/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708490

Метки: Программирование Машинное обучение Искусственный интеллект natural language processing nlp компьютерная лингвистика генерация стихов языковые модели

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Как работают рекомендации в Spotify

Пятница, 16 Декабря 2022 г. 23:14 (ссылка)

https://habr.com/ru/post/706060/?utm_source=habrahabr&utm_medium=rss&utm_campaign=706060

Метки: Алгоритмы Growth Hacking Natural Language Processing spotify товарные рекомендации nlp персонализация коллаборативная фильтрация

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Ваш путеводитель по миру NLP (обработке естественного языка)

Среда, 14 Декабря 2022 г. 15:21 (ссылка)

Все, что мы выражаем письменно или устно, несет в себе огромное количество информации. Тема, которую мы выбираем, наш тон, подбор слов - все это добавляет некую информацию, которую можно интерпретировать, извлекая из нее определенный смысл. Теоретически мы можем понять и даже предсказать поведение человека, используя эту информацию.

Но есть одна проблема: один человек способен сгенерировать декларацию объемом в сотни или даже тысячи слов, состоящую из предложений самой разной сложности. Если вас интересуют большие масштабы и вам нужно анализировать несколько сотен, тысяч или даже миллионов людей или деклараций по какому-то конкретному региону, то в какой-то момент эта задача может стать совершенно неподъемной.

https://habr.com/ru/post/705482/?utm_source=habrahabr&utm_medium=rss&utm_campaign=705482

Метки: Блог компании OTUS Машинное обучение Искусственный интеллект Natural Language Processing nlp nlp (natural language processing) machinelearning

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Ускорение инференса модели BERT с помощью ONNX и ONNX Runtime на примере решения задачи классификации текста

Понедельник, 12 Декабря 2022 г. 11:51 (ссылка)

В статье на примере определения интента по фразе клиента, полученной в текстовом виде показаны подходы для решения поставленной задачи, выбор метрик и моделей.

Сделан обзор на актуальные подходы для ускорения работы нейронных сетей, представлены библиотеки ONNX и ONNX Runtime.

Проведены тесты с использованием фреймоворков ONNX и ONNX Runtime, используемых для ускорения работы моделей перед выводом их в продуктовую среду.

Представлены графические зависимости и блоки кода.

https://habr.com/ru/post/704844/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704844

Метки: Блог компании Ростелеком Машинное обучение Искусственный интеллект nlp python pytorch onnx onnxruntime нейросети

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Сага о SEO, часть 3: UX

Среда, 07 Декабря 2022 г. 10:00 (ссылка)

Ранее мы писали о том, каким образом мы оптимизировали сайт more.tv для поисковых систем технологически и семантически. В очередной статье из серии мы обсудим, как влияет пользовательский опыт (UX) и, в первую очередь, быстродействие веб-приложения на эффективность его поискового продвижения.

https://habr.com/ru/post/703898/?utm_source=habrahabr&utm_medium=rss&utm_campaign=703898

Метки: Блог компании Национальная Медиа Группа Серверная оптимизация Поисковая оптимизация seo seo-аналитика серверный рендеринг nlp spa ttfb javascript lcp ssr

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Как мы генерили генератор скриптов

Среда, 30 Ноября 2022 г. 18:25 (ссылка)

Привет, Хабр!

На связи VS Robotics. Мы по–прежнему занимаемся машинным обучением и автоматизацией решений на базе речевых технологий.

И мы по-прежнему верим ~~в светлое будущее~~ в то, что в скором времени роботизированные системы будут внедрены повсеместно, помогая человеку в любой сфере. Сегодня один из трендов по делегированию задач искусственному интеллекту – это… сам процесс программирования. Но мы имеем ввиду не те инструменты, коих множество в любой среде разработки, а те, что создаются компаниями под собственные нужды. И это поистине одна из самых увлекательных головоломок, предоставляющая айтишнику возможность наконец-то проявить свою творческую сущность.

Так уж сложилось в нашей компании, что мы не раз создавали собственные автоматизированные системы и программное обеспечение для своих продуктов и сервисов.

А совсем недавно мы запустили собственный AI-генератор скриптов, ну, и решили рассказать вам об этом инструменте, который сокращает ручной труд при создании скриптов для голосовых роботов. Это будет большая статья, как и та работа, которую мы проделали.

https://habr.com/ru/post/702654/?utm_source=habrahabr&utm_medium=rss&utm_campaign=702654

Метки: Блог компании VS Robotics Искусственный интеллект речевые технологии nlp кластеризация process mining

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Мне нужна твоя поддержка: как запустить чат-бот на восьми языках быстро, без разметки и смс

Понедельник, 28 Ноября 2022 г. 16:04 (ссылка)

У нас было несколько сотен тысяч чатов в месяц, восемь языков разных групп, миллионы строк неразмеченных данных, тысячи тематик чатов из разных областей нашей экосистемы и команда из 7 человек. Не то, чтобы всё это было категорически необходимо, но если уж начал автоматизацию чатов, то к делу надо подходить серьёзно. Единственное, что нас беспокоило — это процент автоматизации. В мире нет ничего более непонятного, сложного и запутанного, чем естественный язык и поведение клиентов. И я знал, что довольно скоро мы в это окунёмся.

https://habr.com/ru/post/699574/?utm_source=habrahabr&utm_medium=rss&utm_campaign=699574

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Начало работы с языковой моделью Galactica

Воскресенье, 21 Ноября 2022 г. 01:58 (ссылка)

Galactica — это большая языковая модель с открытым исходным кодом от Meta AI. Модель справляется с множеством научных задач, используя единую модель, выполняет логические рассуждения, создает конспекты лекций, прогнозирует цитаты и имеет ещё массу других талантов.

В этой статье ты научишься загружать модель Galactica и напишешь свой первый запрос к ней.

Github-репозиторий

https://habr.com/ru/post/700482/?utm_source=habrahabr&utm_medium=rss&utm_campaign=700482

Метки: Open source python Big Data Natural Language Processing Data Engineering nlp ml open-source meta ai git bigdata science

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Умные субтитры

Воскресенье, 06 Ноября 2022 г. 16:27 (ссылка)

Сегодня я вам расскажу о своем методе для изучения иностранных языков.

С чего начать изучение нового языка? Чаще всего люди на раннем этапе используют стандартный лексико-грамматический метод с доминированием письменного языка, который показал себя медленным и весьма скучным — вам чаще всего нужна зашкаливающая мотивация, чтобы не бросить где-то посередине.

Я предлагаю начать сразу с видео. Во-первых, видео просто интересно смотреть (особенно если это нормальные мультики/фильмы/сериалы, созданные для носителей языка). Во-вторых, вы сразу начнете запоминать звучание слов, что очень сильно пригодится для развития навыка аудирования в будущем.

Однако, если вы просто возьмете видео на новом для себя языке, то вы ничего не поймете. Первый шаг к решению проблемы - смотреть видео с субтитрами на языке оригинала. Однако, когда вы еще не знаете лексику языка, такие субтитры вам не помогут. Вам нужны двойные субтитры - на языке оригинала + перевод на ваш родной язык.

При просмотре видео с двойными субтитрами мозг начинает сопоставлять слова из двух предложений на разных языках. Это зачастую нетривиально (особенно если у языков сильно отличается грамматика), на это мозг тратит время и энергию.

Моя идея состоит в том, чтобы выполнить эту задачу вместо мозга и отображать субтитры как на картинке выше: посередине находятся субтитры на языке оригинала, ниже — их перевод; плюс над иностранными словами подписаны соответствующие им слова из перевода. Таким образом, за время просмотра десятка подобных фильмов/мультиков, каждое слово из базовой лексики будет многократно отображено вместе со своим переводом в текущем контексте, что позволит его запомнить.

https://habr.com/ru/post/697646/?utm_source=habrahabr&utm_medium=rss&utm_campaign=697646

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

Понимают ли нейронные модели грамматику человеческого языка?

Четверг, 20 Октября 2022 г. 13:00 (ссылка)

https://habr.com/ru/post/694462/?utm_source=habrahabr&utm_medium=rss&utm_campaign=694462

Комментарии (0)Комментировать В цитатник или сообщество

rss_habr

[Перевод] Экзибит, прокачай мой трансформер или Основные идеи по улучшению модели трансформера с 2018 по 2020 год (часть 2)

Вторник, 18 Октября 2022 г. 10:01 (ссылка)

Представляю в блоге ЛАНИТ вторую часть моего пересказа статьи “A Survey of Transformers”, в которой приведены основные модификации архитектуры стандартного трансформера, придуманные за два года после ее появления. В первой части мы кратко вспомнили, из каких основных элементов и принципов состоит трансформер, и прошлись по различным схемам, меняющим или дополняющим механизм многоголового внимания. Целью большинства этих схем являлось преодоление квадратичной зависимости сложности вычислений от длины последовательности токенов, подающихся на вход. В этой части мы коснемся модификаций других элементов архитектуры, которые уже направлены или на улучшение способности сети извлекать больше информации из токенов, или применяются на большую длину последовательности, разделяя ее на сегменты.

https://habr.com/ru/post/684432/?utm_source=habrahabr&utm_medium=rss&utm_campaign=684432