Музей НКРЯ: Морфологический стандарт Национального корпуса русского языка
Главная/новости
Что такое корпус?
Состав и структура корпуса
Поиск в корпусе
Морфология
Участники проекта
Помощь

Разметка текстов в НКРЯ

В настоящее время разметка НКРЯ существенно шире. Возможно, вы хотите узнать о современных видах разметки.

Морфологический стандарт Национального корпуса русского языка

Представление в корпусе информации о морфологических формах и значениях (часть речи, род, падеж, вид...) является самостоятельной научной проблемой. Решения, принятые в корпусе, в основном опираются на морфологическую модель, представленную в "Грамматическом словаре русского языка" А. А. Зализняка (М., 1977, 4‑е изд., М., 2003). Однако специфика корпуса как универсального средства исследования языка диктует некоторые особые решения; именно этой спецификой продиктованы все отступления от стандарта Грамматического словаря, содержащиеся в нижеприведенном стандарте. Рабочая группа Корпуса готова к обсуждению предложений по усовершенствованию стандарта.

Структура морфологической информации

Морфологическая информация, соответствующая некоторому слову, состоит из четырех полей:

- лексема, которой принадлежит словоформа (указывается "словарная запись" данной лексемы)
- множество признаков данной лексемы (например, род для существительного, переходность для глагола)
- множество признаков данной словоформы (например, падеж для существительного, число для глагола)
- информация о нестандартности грамматической формы, орфографических искажениях и т. п.

Ниже приводим инвентарь грамматических помет. В скобках для ясности указываются примеры.

Частеречные пометы

S — существительное (яблоня, лошадь, корпус, вечность)
S-PRO — местоимение-существительное (она, что)
A — прилагательное (зеленый, таинственный, морской)
A-PRO — местоимение-прилагательное (который, твой)
NUM — числительное (десять, много)
A-NUM — числительное-прилагательное (седьмой, восьмидесятый)
A-PRAEDIC — местоимение-предикатив (некого, нечего)
V — глагол (пользоваться, обрабатывать)
ADV — наречие (легко, удобно)
ADV-PRO — местоименное наречие (где, вот)
PRAEDIC — предикатив (жаль, хорошо)
PR — предлог (под, напротив)
CONJ — союз (и, чтобы)
PART — частица (бы, ладно)
INTJ — междометие (увы, батюшки)

Пометы грамматических категорий и признаков

Род:
m — мужской род (работник, стол)
f — женский род (работница, табуретка)
m-f — «общий род» (задира, пьяница)
Одушевленность:
anim — одушевленность (человек, ангел, утопленник)
inan —  неодушевленность (рука, облако, культура)
Число:
sg — единственное число (яблоко, гордость)
pl — множественное число (яблоки, ножницы)
Падеж:
nom — именительный падеж (голова, сын, степь, сани, который)
gen — родительный падеж (головы, сына, степи, саней, которого)
dat  — дательный падеж (голове, сыну, степи, саням, которому)
acc — винительный падеж (голову, сына, степь, сани, который/которого)
ins — творительный падеж (головой, сыном, степью, санями, которым)
loc — предложный падеж (голове, сыне, степи, санях, котором)
gen2 — второй родительный падеж (чашка чаю)
acc2 — второй винительный падеж (постричься в монахи; по два человека)
loc2 — второй предложный падеж (в лесу, на оси)
voc — звательная форма (старче, Серёж
Краткая/полная форма:
brev — краткая форма (высок, нежна, прочны)
plen — полная форма (высокий, нежная, прочные)
Степень сравнения:
comp — сравнительная степень (красивее)
comp2 — форма "по+сравнительная степень" (получше)
supr — превосходная степень (глубочайший)
Вид:

pf  — совершенный вид (пошел, встречу)
ipf — несовершенный вид (ходил, встречаю)
Переходность:
intr — непереходность (ходить, вариться)
tran — переходность (вести, варить)
Залог:
act — действительный залог (вел, ведущий)
pass — страдательный залог (только у причастий) (ведомый, веденный)
med — медий, или средний залог (глагольные формы на -ся)
Репрезентация:
inf — инфинитив (украшать)
partcp — причастие (украшенный)
ger — деепричастие (украшая)
Наклонение:
imper — повелительное наклонение (украшай)
imper2 — форма императива 1 л. мн. ч. на -те (пойдемте)
Время:
praet — прошедшее время (украшали)
praes  — настоящее время (украшаем)
fut — будущее время (украсим)
Лицо:
1p — первое лицо (украшаю)
2p — второе лицо (украшаешь)
3p — третье лицо (украшает)
Прочие признаки:
persn — личное имя (Иван, Марья, Гомер)
patrn — отчество (Иванович, Лукинишна)
famn — фамилия (Николаев, Волконская, фон Гумбольдт)
0 — несклоняемое (шоссе, Петровых)

Множественные пометы

В отдельных случаях допускается указание у словоформы одной нескольких разборов, а именно:

•  Для всех словоформ, принадлежащих видовым парам,  указываются исходные формы обоих видов: форма пришел считается принадлежащей и лексеме прийти, и лексеме приходить.

•  Для -ся-форм в тех случаях, когда существуют лексемы с -ся и без -ся, указываются обе исходные формы (например, найтись и найти).

•  Для прилагательных, совпадающих с причастиями (открытый), даются как лексема-прилагательное (открытый), так и глагол (открыть).

•  В 600-тысячной части корпуса даётся множественная частеречная помета для союзов/частиц вроде словно, для -о/-е-форм вроде хорошо (предикатив/наречие/прилагательное) , для субстантивированных адъективов типа всё, военный, для форм его, ее, их (притяжательное/личное местоимение).

•  Ставится множественная помета в случаях, когда выбор лексемы или грамматического значения невозможен (не видел родного отца gen/acc; манекену anim/inan; спазмами — спазм/спазма и т. п.)