Простым языком о языковых моделях и цепи Маркова (Markov Chain)

Вторник, 05 Июля 2022 г. 17:04 + в цитатник

N-граммы

N-граммы – это статистические модели, которые предсказывают следующее слово после N-1 слов на основе вероятности их сочетания. Например, сочетание I want to в английском языке имеет высокую вероятностью, а want I to – низкую. Говоря простым языком, N-грамма – это последовательность n слов. Например, биграммы – это последовательности из двух слов (I want, want to, to, go, go to, to the…), триграммы – последовательности из трех слов (I want to, want to go, to go to…) и так далее.

Такие распределения вероятностей имеют широкое применение в машинном переводе, автоматической проверке орфографии, распознавании речи и умном вводе. Например, при распознавании речи, по сравнению с фразой eyes awe of an, последовательность I saw a van будет иметь большую вероятность. Во всех этих случаях мы подсчитываем вероятность следующего слова или последовательности слов. Такие подсчеты называются языковыми моделями.

Как же рассчитать P(w)? Например, вероятность предложения P(I, found, two, pounds, in, the, library). Для этого нам понадобится цепное правило, которое определяется так:

https://habr.com/ru/post/675218/?utm_source=habrahabr&utm_medium=rss&utm_campaign=675218

<a href="https://www.liveinternet.ru/users/rss_habr/post493516446/">РџСЂРѕСЃС‚С‹Рј СЏР·С‹РєРѕРј Рѕ СЏР·С‹РєРѕРІС‹С… РјРѕРґРµР»СЏС… Рё С†РµРїРё РњР°СЂРєРѕРІР° (Markov Chain)</a><br/>N-РіСЂР°РјРјС‹ N-РіСЂР°РјРјС‹ вЂ“ СЌС‚Рѕ СЃС‚Р°С‚РёСЃС‚РёС‡РµСЃРєРёРµ РјРѕРґРµР»Рё, РєРѕС‚РѕСЂС‹Рµ РїСЂРµРґСЃРєР°Р·С‹РІР°СЋС‚ СЃР»РµРґСѓСЋС‰РµРµ СЃР»РѕРІРѕ РїРѕСЃР»Рµ N-1 СЃР»РѕРІ РЅР° РѕСЃРЅРѕРІРµ РІРµСЂРѕСЏС‚РЅРѕСЃС‚Рё РёС… СЃРѕС‡РµС‚Р°РЅРёСЏ. РќР°РїСЂРёРјРµСЂ, СЃРѕС‡РµС‚Р°РЅРёРµ I want to РІ Р°РЅРіР»РёР№СЃРєРѕРј СЏР·С‹РєРµ РёРјРµРµС‚ РІС‹СЃРѕРєСѓСЋ РІРµСЂРѕСЏС‚РЅРѕСЃС‚СЊСЋ, Р° want I to вЂ“ РЅРёР·РєСѓСЋ. Р“РѕРІРѕСЂСЏ РїСЂРѕСЃС‚С‹Рј СЏР·С‹РєРѕРј, N-РіСЂР°РјРјР° вЂ“ СЌС‚Рѕ РїРѕСЃР»РµРґРѕРІР°С‚РµР»СЊРЅРѕСЃС‚СЊ n СЃР»РѕРІ. РќР°РїСЂРёРјРµСЂ, Р±РёРіСЂР°РјРјС‹ вЂ“ СЌС‚Рѕ РїРѕСЃР»РµРґРѕРІР°С‚РµР»СЊРЅРѕСЃС‚Рё РёР· РґРІСѓС… СЃР»РѕРІ (I want, want to, to, go, go to, to theвЂ¦), С‚СЂРёРіСЂР°РјРјС‹ вЂ“ РїРѕСЃР»РµРґРѕРІР°С‚РµР»СЊРЅРѕСЃС‚Рё РёР· С‚СЂРµС… СЃР»РѕРІ (I want to, want to go, to go toвЂ¦) Рё С‚Р°Рє РґР°Р»РµРµ.РўР°РєРёРµ СЂР°СЃРїСЂРµРґРµР»РµРЅРёСЏ РІРµСЂРѕСЏС‚РЅРѕСЃС‚РµР№ РёРјРµСЋС‚ С€РёСЂРѕРєРѕРµ РїСЂРёРјРµРЅРµРЅРёРµ РІ РјР°С€РёРЅРЅРѕРј РїРµСЂРµРІРѕРґРµ, Р°РІС‚РѕРјР°С‚РёС‡РµСЃРєРѕР№ РїСЂРѕРІРµСЂРєРµ РѕСЂС„РѕРіСЂ... <a href="https://www.liveinternet.ru/users/rss_habr/post493516446/">Р§РёС‚Р°С‚СЊ РґР°Р»РµРµ...</a>

Комментировать

« Пред. запись — К дневнику — След. запись »

Страницы: [1] [Новые]

LiveInternetLiveInternet

-Подписка по e-mail

-Поиск по дневнику

-Постоянные читатели

-Статистика

Простым языком о языковых моделях и цепи Маркова (Markov Chain)