Национальный корпус русского языка

Суббота, 07 Апреля 2018 г. 12:37 + в цитатник

Поиск по n-граммам Что это такое? Это бета-версия поиска по словосочетаниям из 2, 3, 4 и 5 слов из подкорпуса с неснятой омонимией основного корпуса. Поиск можно вести как по точным формам, так
Поиск по n-граммам

Поиск по n-граммам

Что это такое? Это бета-версия поиска по словосочетаниям из 2, 3, 4 и 5 слов из подкорпуса с неснятой омонимией основного корпуса. Поиск можно вести как по точным формам, так и по леммам, с учетом грамматических признаков и пунктуации или без. Вот, например, биграммы, содержащие форму «красная». Каждой из них приписано количество вхождений в корпус и число содержащих её документов.

А если я хочу найти биграммы с леммой «красный»?

Введите эту лемму в окошко лексико-грамматического поиска. Вот что получится.

Но тут лемма «красный» появляется в разных местах словосочетаний. Как найти биграммы, в которых эта лемма первая?

Укажите дополнительный признак first, означающий, что слово находится в начале. Результаты будут такими.

Но я хочу, чтобы второе слово было существительным. А тут в выдаче встречаются и другие части речи.

Нет проблем. Укажите грамматику второго слова.

Здесь встречаются одни и те же словосочетания, но в разных падежах. Например, «красной армии», «красная армия». Можно ли их «склеить»?

К сожалению, в этой версии поиска это сделать нельзя. Объектом поиска является последовательность словоформ, а не лемм.

Могу я посмотреть на статистику сочетаемости различных частей речи?

Это все из-за омонимии. «Дороги» – краткая форма прилагательного «дорогой».

Как учитывать пунктуацию при поиске?

Не забудьте включить галочку «учитывать пунктуацию». Вот пример словосочетаний со словом «эх», за которым следует знак препинания.

Сколько результатов я получаю? Можно ли скачать их в формате Excel?

По умолчанию поиск возвращает 100 результатов. При этом дополнительно возвращаются все n-граммы с той же частотой и с тем же количеством документов, что и 100-я. Возможность скачать все n-граммы для оффлайн-обработки появится в следующих версиях.