Разметка текстов в НКРЯ
В настоящее время разметка НКРЯ существенно шире. Возможно, вы хотите узнать о современных видах разметки.
Морфологический стандарт Национального корпуса русского языка
Представление в корпусе информации о
морфологических формах и значениях (часть
речи, род, падеж, вид...) является
самостоятельной научной проблемой. Решения,
принятые в корпусе, в основном опираются на
морфологическую модель, представленную в
"Грамматическом словаре русского языка"
А. А. Зализняка (М., 1977, 4‑е изд., М., 2003). Однако
специфика корпуса как универсального
средства исследования языка диктует
некоторые особые решения; именно этой
спецификой продиктованы все отступления от
стандарта Грамматического словаря,
содержащиеся в нижеприведенном стандарте.
Рабочая группа Корпуса готова к обсуждению
предложений по усовершенствованию
стандарта.
Структура морфологической информации
Морфологическая информация,
соответствующая некоторому слову, состоит
из четырех полей:
- лексема, которой
принадлежит словоформа
(указывается "словарная запись" данной
лексемы)
- множество признаков данной лексемы (например,
род для существительного, переходность для
глагола)
- множество признаков данной словоформы (например,
падеж для существительного, число для
глагола)
- информация о нестандартности
грамматической формы, орфографических
искажениях и т. п.
Ниже приводим инвентарь грамматических
помет. В скобках для ясности указываются примеры.
Частеречные пометы
S — существительное (яблоня,
лошадь, корпус, вечность)
S-PRO — местоимение-существительное (она,
что) A — прилагательное (зеленый,
таинственный, морской) A-PRO — местоимение-прилагательное
(который, твой)
NUM — числительное (десять,
много) A-NUM — числительное-прилагательное
(седьмой, восьмидесятый)
A-PRAEDIC — местоимение-предикатив (некого,
нечего) V — глагол (пользоваться,
обрабатывать) ADV — наречие (легко, удобно) ADV-PRO — местоименное наречие
(где, вот) PRAEDIC — предикатив (жаль,
хорошо) PR — предлог (под, напротив) CONJ — союз
(и, чтобы) PART — частица (бы, ладно) INTJ — междометие
(увы, батюшки)
Пометы грамматических категорий и признаков
Род:
m — мужской род (работник, стол)
f — женский род (работница, табуретка)
m-f — «общий род» (задира, пьяница)
Одушевленность:
anim — одушевленность (человек, ангел,
утопленник)
inan — неодушевленность (рука, облако,
культура)
Число:
sg — единственное число (яблоко, гордость)
pl — множественное число (яблоки, ножницы)
Падеж:
nom — именительный падеж (голова, сын, степь,
сани, который)
gen — родительный падеж (головы, сына, степи,
саней, которого)
dat — дательный падеж (голове, сыну,
степи, саням, которому)
acc — винительный падеж (голову, сына, степь,
сани, который/которого)
ins — творительный падеж (головой, сыном,
степью, санями, которым)
loc — предложный падеж (голове, сыне, степи,
санях, котором)
gen2 — второй родительный падеж (чашка чаю)
acc2 — второй винительный падеж (постричься в монахи; по два человека)
loc2 — второй предложный падеж (в лесу, на оси)
voc — звательная форма (старче, Серёж)
Краткая/полная форма:
brev — краткая форма (высок, нежна, прочны)
plen — полная форма (высокий, нежная,
прочные)
Степень сравнения:
comp — сравнительная степень (красивее)
comp2 — форма "по+сравнительная степень" (получше)
supr — превосходная степень (глубочайший)
Вид:
pf — совершенный вид (пошел, встречу)
ipf — несовершенный вид (ходил, встречаю)
Переходность: intr — непереходность (ходить,
вариться)
tran — переходность (вести, варить)
Залог: act — действительный залог (вел,
ведущий) pass — страдательный залог (только у причастий)
(ведомый, веденный) med — медий, или средний залог (глагольные формы на -ся)
Репрезентация: inf — инфинитив (украшать)
partcp — причастие (украшенный)
ger — деепричастие (украшая)
Наклонение: imper — повелительное наклонение
(украшай) imper2 — форма императива 1 л.
мн. ч. на
-те (пойдемте)
Время: praet — прошедшее время (украшали)
praes — настоящее время (украшаем)
fut — будущее время (украсим)
Лицо: 1p — первое лицо (украшаю)
2p — второе лицо (украшаешь)
3p — третье лицо (украшает)
Прочие признаки:
persn — личное имя (Иван, Марья, Гомер)
patrn — отчество (Иванович, Лукинишна)
famn — фамилия (Николаев, Волконская, фон
Гумбольдт)
0 — несклоняемое (шоссе, Петровых)
Множественные пометы
В отдельных случаях допускается указание
у словоформы одной нескольких разборов, а
именно:
Для всех словоформ, принадлежащих
видовым парам, указываются исходные
формы обоих видов: форма пришел считается
принадлежащей и лексеме прийти, и
лексеме приходить.
Для -ся-форм в тех случаях, когда существуют
лексемы с -ся и без -ся, указываются
обе исходные формы (например, найтись и найти).
Для прилагательных, совпадающих с причастиями (открытый), даются
как лексема-прилагательное (открытый),
так и глагол (открыть).
В 600-тысячной части корпуса даётся множественная частеречная помета для союзов/частиц вроде словно, для
-о/-е-форм вроде хорошо (предикатив/наречие/прилагательное) , для субстантивированных адъективов типа всё, военный, для форм его, ее, их (притяжательное/личное местоимение).
Ставится множественная помета в случаях, когда выбор
лексемы или грамматического значения
невозможен (не видел родного отца — gen/acc; манекену — anim/inan; спазмами — спазм/спазма и
т. п.)
|