Случайны выбор дневника Раскрыть/свернуть полный список возможностей


Найдено 108 сообщений
Cообщения с меткой

компьютерная лингвистика - Самое интересное в блогах

Следующие 30  »
rss_habr

«Извините, но вам придется закодировать Щелкунчика»

Среда, 01 Февраля 2023 г. 14:00 (ссылка)

Так и не попав на всем известный балет в декабре, мы решили организовать своего Щелкунчика. Речь не о балете, а о первом в мире IT-контесте по переводу сказки на Python, Go, C#, JavaScript и Java, задача которого звучала так: «Извините, но вам придется закодировать Щелкунчика».

Меня зовут Вадим Рощин, я деврел МТС Digital, и сейчас я расскажу о том, как это было.

Читать далее

https://habr.com/ru/post/714036/?utm_source=habrahabr&utm_medium=rss&utm_campaign=714036

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Стихи, цветы и драконы на EMNLP 2022

Четверг, 29 Декабря 2022 г. 16:51 (ссылка)

EMNLP это одна из самых больших конференций в области обработки естественных языков, NLP. В этом году конференция проходила с 7 по 11 декабря в Абу-Даби. Из кучи статьей, представленных на конференции, я хотел бы выделить три, которые привлекли мое внимание. Эти статьи не обязательно самые полезные или известные, но по-моему они точно достойны упоминания. Две статьи были представлены в виде постеров, а у третьей было полноценное выступление. Моя любимая из этих трех статей PoeLM, статья про генерацию стихов на испанском языке с формальными ограничениями.

Поехали!

https://habr.com/ru/post/708490/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708490

Метки:   Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Сделал приложение для создания мультиязычных книг и параллельных корпусов

Суббота, 17 Декабря 2022 г. 15:01 (ссылка)

Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи моего пет-проекта, которым я занимаюсь несколько лет.

Для примера возьмем 10 редакций "Мастера и Маргариты" Михаила Булгакова (ru, uk, by, en, fr, it, es, de, hu, zh). Сначала выровняем девять переводов с оригиналом, а затем выровняем все вместе. Получим параллельный корпус на 10 языках и много красивых книг.

Код я оформил в виде веб-приложения, основная логика которого выполняется при помощи библиотеки lingtrain-aligner. Выравнивать можно прямиком из кода на python, либо через UI. В приложении будет удобней разрешать конфликты и там есть редактор, позволяющий корректировать получающийся корпус плюс дополнительные опции по верстке. Код у проекта открытый, можно посмотреть как все работает внутри. Приступим.

Читать далее

https://habr.com/ru/post/704958/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704958

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

Я уеду жить в Лейнвуд. Создаем новые слова при помощи GPT

Понедельник, 20 Июня 2022 г. 16:50 (ссылка)

Предлагаю немного поразвлечься и научиться придумывать новые слова, которые звучат совсем как настоящие (прям как товары в Икее). Для начала вот вам десяток несуществующих городов:

Лумберг, Сеф, Хирнов, Бинли, Лусский, Ноловорск, Сант-Гумит, Хойден, Голтон и Оголенда

И женских имен:

Инела, Каисья, Ганнора, Целия, Тарисана, Лелена, Феомина, Олиcc, Нулина и Рослиба

Для запуска генерации нам не понадобится технических навыков, хотя технология, стоящая за ней, сейчас является очень перспективной и многофункциональной. Это генеративная нейронная сеть, способная решать множество задач по обработке естествнного языка (NLP). Это такие задачи как суммаризация (сделать из большого текста его резюме), понимание текста (NLU), вопросно-ответные системы, генерация (статей, кода или даже стихов) и другие. Тема эта очень глубокая, поэтому далее я дам пару ссылок для любителей копнуть поглубже. А те, кто хочет "только спросить", может сразу приступить к созданию слов.

Генерировать будем скриптом makemore от Андрея Карпати (недавно писал про скрипт в канале градиент обреченный), который он выложил пару недель назад. Андрей является известным исследователем в мире ИИ и периодически радует народ такими вот игрушками, можно полазить по его репозиторию, там еще много интересного.

Запустим скрипт.

Читать далее

https://habr.com/ru/post/672434/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672434

Комментарии (0)КомментироватьВ цитатник или сообщество
rss_habr

DIY. Книги для всех, даром

Среда, 08 Июня 2022 г. 15:32 (ссылка)

Lingtrain cover



Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов.



Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста.



Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему.

Сделать книжку

https://habr.com/ru/post/669990/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669990

Комментарии (0)КомментироватьВ цитатник или сообщество

Следующие 30  »

<компьютерная лингвистика - Самое интересное в блогах

Страницы: [1] 2 3 ..
.. 10

LiveInternet.Ru Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат
О проекте: помощь|контакты|разместить рекламу|версия для pda