|
|
![]() «Извините, но вам придется закодировать Щелкунчика»Среда, 01 Февраля 2023 г. 14:00 (ссылка)
Так и не попав на всем известный балет в декабре, мы решили организовать своего Щелкунчика. Речь не о балете, а о первом в мире IT-контесте по переводу сказки на Python, Go, C#, JavaScript и Java, задача которого звучала так: «Извините, но вам придется закодировать Щелкунчика». Меня зовут Вадим Рощин, я деврел МТС Digital, и сейчас я расскажу о том, как это было. Читать далееhttps://habr.com/ru/post/714036/?utm_source=habrahabr&utm_medium=rss&utm_campaign=714036
![]() Стихи, цветы и драконы на EMNLP 2022Четверг, 29 Декабря 2022 г. 16:51 (ссылка)
EMNLP — это одна из самых больших конференций в области обработки естественных языков, NLP. В этом году конференция проходила с 7 по 11 декабря в Абу-Даби. Из кучи статьей, представленных на конференции, я хотел бы выделить три, которые привлекли мое внимание. Эти статьи не обязательно самые полезные или известные, но по-моему они точно достойны упоминания. Две статьи были представлены в виде постеров, а у третьей было полноценное выступление. Моя любимая из этих трех статей — PoeLM, статья про генерацию стихов на испанском языке с формальными ограничениями. Поехали!https://habr.com/ru/post/708490/?utm_source=habrahabr&utm_medium=rss&utm_campaign=708490 ![]() Сделал приложение для создания мультиязычных книг и параллельных корпусовСуббота, 17 Декабря 2022 г. 15:01 (ссылка)
Хочу показать, как создать мультиязычный параллельный корпус и книги при помощи моего пет-проекта, которым я занимаюсь несколько лет. Для примера возьмем 10 редакций "Мастера и Маргариты" Михаила Булгакова (ru, uk, by, en, fr, it, es, de, hu, zh). Сначала выровняем девять переводов с оригиналом, а затем выровняем все вместе. Получим параллельный корпус на 10 языках и много красивых книг. Код я оформил в виде веб-приложения, основная логика которого выполняется при помощи библиотеки lingtrain-aligner. Выравнивать можно прямиком из кода на python, либо через UI. В приложении будет удобней разрешать конфликты и там есть редактор, позволяющий корректировать получающийся корпус плюс дополнительные опции по верстке. Код у проекта открытый, можно посмотреть как все работает внутри. Приступим. Читать далееhttps://habr.com/ru/post/704958/?utm_source=habrahabr&utm_medium=rss&utm_campaign=704958
![]() Я уеду жить в Лейнвуд. Создаем новые слова при помощи GPTПонедельник, 20 Июня 2022 г. 16:50 (ссылка)
Предлагаю немного поразвлечься и научиться придумывать новые слова, которые звучат совсем как настоящие (прям как товары в Икее). Для начала вот вам десяток несуществующих городов: • Лумберг, Сеф, Хирнов, Бинли, Лусский, Ноловорск, Сант-Гумит, Хойден, Голтон и Оголенда И женских имен: • Инела, Каисья, Ганнора, Целия, Тарисана, Лелена, Феомина, Олиcc, Нулина и Рослиба Для запуска генерации нам не понадобится технических навыков, хотя технология, стоящая за ней, сейчас является очень перспективной и многофункциональной. Это генеративная нейронная сеть, способная решать множество задач по обработке естествнного языка (NLP). Это такие задачи как суммаризация (сделать из большого текста его резюме), понимание текста (NLU), вопросно-ответные системы, генерация (статей, кода или даже стихов) и другие. Тема эта очень глубокая, поэтому далее я дам пару ссылок для любителей копнуть поглубже. А те, кто хочет "только спросить", может сразу приступить к созданию слов. Генерировать будем скриптом makemore от Андрея Карпати (недавно писал про скрипт в канале градиент обреченный), который он выложил пару недель назад. Андрей является известным исследователем в мире ИИ и периодически радует народ такими вот игрушками, можно полазить по его репозиторию, там еще много интересного. Запустим скрипт. Читать далееhttps://habr.com/ru/post/672434/?utm_source=habrahabr&utm_medium=rss&utm_campaign=672434
![]() DIY. Книги для всех, даромСреда, 08 Июня 2022 г. 15:32 (ссылка)
Два года назад я начал делать небольшой проект, связанный с обработкой текстов на иностранных языках. Он постепенно развивался и стал использоваться лингвистами в НКРЯ, а энтузиасты сохранения малых языков используют его для расширения своих параллельных корпусов. Сегодня же я расскажу как при помощи него создать полноценную параллельную книгу на разных языках. Книга будет красиво сверстана в PDF, иметь содержание, обложку и две выровненные по смыслу колонки текста. Такие книги служат отличным подспорьем при изучении иностранного языка. Найти их, однако, не так просто, и скорее всего это будут книги для детей или избранная классика. Полный пример готовой книги можно посмотреть здесь. Под капотом у приложения NLP модели, поддерживаемых языков более ста. Проект открытый и любой может в нем поучаствовать. Во многом благодаря сообществу и вашему участию он за несколько лет дошел до сегодняшнего дня. В общем штука годная, давайте уже посмотрим, что к чему. Сделать книжкуhttps://habr.com/ru/post/669990/?utm_source=habrahabr&utm_medium=rss&utm_campaign=669990
|
|
LiveInternet.Ru |
Ссылки: на главную|почта|знакомства|одноклассники|фото|открытки|тесты|чат О проекте: помощь|контакты|разместить рекламу|версия для pda |