Национальный корпус русского языка |
Что это такое? Это бета-версия поиска по словосочетаниям из 2, 3, 4 и 5 слов из подкорпуса с неснятой омонимией основного корпуса. Поиск можно вести как по точным формам, так и по леммам, с учетом грамматических признаков и пунктуации или без. Вот, например, биграммы, содержащие форму «красная». Каждой из них приписано количество вхождений в корпус и число содержащих её документов.
А если я хочу найти биграммы с леммой «красный»?
Введите эту лемму в окошко лексико-грамматического поиска. Вот что получится.
Но тут лемма «красный» появляется в разных местах словосочетаний. Как найти биграммы, в которых эта лемма первая?
Укажите дополнительный признак first, означающий, что слово находится в начале. Результаты будут такими.
Но я хочу, чтобы второе слово было существительным. А тут в выдаче встречаются и другие части речи.
Нет проблем. Укажите грамматику второго слова.
Здесь встречаются одни и те же словосочетания, но в разных падежах. Например, «красной армии», «красная армия». Можно ли их «склеить»?
К сожалению, в этой версии поиска это сделать нельзя. Объектом поиска является последовательность словоформ, а не лемм.
Могу я посмотреть на статистику сочетаемости различных частей речи?
Это все из-за омонимии. «Дороги» – краткая форма прилагательного «дорогой».
Как учитывать пунктуацию при поиске?
Не забудьте включить галочку «учитывать пунктуацию». Вот пример словосочетаний со словом «эх», за которым следует знак препинания.
Сколько результатов я получаю? Можно ли скачать их в формате Excel?
По умолчанию поиск возвращает 100 результатов. При этом дополнительно возвращаются все n-граммы с той же частотой и с тем же количеством документов, что и 100-я. Возможность скачать все n-граммы для оффлайн-обработки появится в следующих версиях.
Комментировать | « Пред. запись — К дневнику — След. запись » | Страницы: [1] [Новые] |