Музей НКРЯ: Как пользоваться поиском на сайте Национального корпуса русского языка?
Главная/новости
Что такое корпус?
Состав и структура корпуса
Поиск в корпусе
Морфология
Участники проекта
Помощь

Как пользоваться поиском на сайте Национального корпуса русского языка?

Этот текст описывает первый интерфейс НКРЯ, созданные более 20 лет назад. Возможно, вас заинтересует руководство пользователя современного интерфейса НКРЯ.

Возможен простой поиск (поиск форм) и расширенный (лексико-грамматический) поиск примеров по корпусу. На основании созданного пользователем поискового запроса выдается список контекстов, то есть фрагментов текстов, содержащихся в Корпусе и содержащих искомые слова и грамматические формы.

Простой поиск. Что такое лексема и словоформа?

Простой поиск (или поиск формы) доступен через поисковое окно в левом меню на каждой странице и через соответствующее окно на странице "Поиск в корпусе". Запрос, состоящий из одного слова (например, отечества), находит все контексты, содержащие точную форму данного слова (но не отечеством, отечеств и т. д. ). Каждая из этих форм (образующихся при помощи грамматического словоизменения) называется словоформой, а всё их множество, объединенное общим значением, называется лексемой; лексему принято обозначать по "словарной" форме (например, говорят, что отечества — это словоформа родительного падежа единственного числа лексемы отечество; сладок — это словоформа краткой формы мужского рода единственного числа лексемы сладкий).

Запрос в простом поиске, содержащий несколько слов (И дым отечества нам сладок и приятен), находит все контексты, содержащие последовательность словоформ запроса.

В простом поиске можно употреблять символ * (любая последовательность символов, в том числе ноль символов).

Знаки препинания в запросе игнорируются.

Структура формы расширенного поиска.

Расширенный (лексико-грамматический) поиск доступен на странице "Поиск в корпусе". Здесь можно задавать последовательность лексем и/или словоформ, обладающих определенными грамматическими характеристиками. Каждая строка формы расширенного поиска соответствует лексеме или словоформе. В поле "Слово" указывается лексема (обязательно в словарной форме). Несколько альтернативных лексем (например, в или на или по) можно задать при помощи служебного окна, открывающегося по ссылке "Задать", или же набрать на клавиатуре, разделяя символов "|". Если взять слово в кавычки, то будет искаться указанная словоформа, а не лексема. В поле "Грамматические признаки" указываются искомые морфологические характеристики лексемы и/или словоформы. Эти признаки также можно указать при помощи служебного окна, открывающегося по ссылке "Выбрать", или же набрать на клавиатуре. В одной строке можно указать либо только лексему, либо только грамматические признаки, либо и то, и другое.

Язык запроса.

В поле "Слово" действует символ *, а также логические операторы "|" (ИЛИ): для поиска слов любовь или ненависть нужно ввести (любовь|ненависть); "-"(НЕ): для поиска творительного падежа не после предлога "с" введите в поле лекксемы первой строки поиска , в поле грамматики второй — ins. В поле "Грамматические признаки " действуют эти же символ и оператор, а также логическое "И", задаваемое пробелом или запятой. Например, S,(nom|acc) означает существительное в именительном или винительном падеже. Инвентарь обозначений грамматических признаков и необходимые комментарии см. в разделе "Морфология". Но проще выбрать грамматические признаки (или задать несколько альтернативных лексем) в служебном окне.

Как выбрать грамматические категории в служебном окне.

Служебное окно, открывающееся по ссылке "Выбрать", содержит перечень морфологических характеристик, разбитых по грамматическим категориям: часть речи, падеж, род, залог, число и т. п. Отметьте "галочками" те характеристики словоформ, которые вы хотите найти. Внутри каждой категории признаки в нормальном случае являются взаимоисключающими (например, глагол не может стоять в первом и третьем лице одновременно) , поэтому "галочки", отмечающие грамматические признаки одной категории, трактуются как логическое "ИЛИ", а отмечающие признаки разных категорий — как логическое "И". Чтобы инвертировать отмеченные признаки одной категории (изменить выбранные на невыбранные, и наоборот), щелкните левой кнопкой мыши на названии этой категории. Это способ выразить логическое "НЕ": например, чтобы искать любой падеж, кроме творительного, выберите позицию "творительный падеж", а затем инвертируйте список значений категории падежа.

Как расширить форму запроса.

По умолчанию в форме имеются две строки, и она рассчитана на поиск одной словоформы или сочетания двух словоформ. При необходимости работы с тремя или более словоформами следует нажать кнопку "+" внизу поискового запроса; последовательные нажатия добавляют третью, четвертую и т. д. (до 10) поисковую строку.

Расстояние между словами и порядок слов

Между поисковыми строками имеются окна "Расстояние: минимальное и максимальное" и "Порядок важен/неважен". Они служат для того, чтобы точнее определить структуру сочетания слов, которое вы ищете. Между соседними словами расстояние считается равным одному слову; расстояние, равное нулю, означает совпадение словоформ. Так, минимальное расстояние  1 и максимальное 3 между словом (лексемой) критика и грамматической характеристикой "существительное в родительном падеже" соответствует контекстам критика взглядов, критика чистого разума и критика буржуазных философских систем. Если не задать минимальное расстояние, то оно по умолчанию будет равным нулю, и найдутся словоформы критики и критик, в которых признаки обеих строк сочетаются.

Если выбран вариант "порядок важен", то во всех найденных контекстах порядок словоформ будет в точности соответствовать последовательности двух соответствующих поисковых строк. Иначе найдутся и контексты с обратным порядком элементов: для нашего примера это, например, объект замечаний и придирчивой критики.

Пример расширенного поискового запроса

Предположим, мы хотим найти все контексты с глаголами, начинающимися с под-  и имеющими косвенное дополнение с предлогом под: например, подложил тетрадь под листок.

Запрос формируется так:

Слово 1: лексема под*, грамматическое значение глагол (V).
Расстояние между словами 1 и 2: максимальное 3, минимальное 1, порядок важен.
Слово 2: лексема под, грамматическое значение предлог (PR) - ведь есть и существительное под (низ печи).
Расстояние между словами 2 и 3: максимальное 2, минимальное 1, порядок важен.
Слово 3: грамматическое значение существительное в винительном падеже (S acc).