Музей НКРЯ: Что такое национальный корпус
Главная/новости
Что такое корпус?
Состав и структура корпуса
Поиск в корпусе
Морфология
Участники проекта
Помощь
Что такое национальный корпус

Этот текст написан более 20 лет назад. Возможно, вы хотите прочитать современную версию.

Национальный корпус — это собрание текстов в электронной форме, представляющих данный язык (на определенном этапе его существования), отображающий данный язык  во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований. Большинство крупных языков мира уже имеет свои национальные корпуса, составленные с разной степенью полноты и обработанности. Общепризнанным образцом является, в частности, Британский национальный корпус (BNC), на который ориентированы и многие другие корпуса; среди славянских корпусов выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Национальный корпус имеет две важные особенности. Во-первых, он характеризуется значительным объемом (десятки и сотни миллионов словоупотреблений); во-вторых, он содержит особую дополнительную информацию о грамматической структуре входящих в него текстов (так называемую разметку, или аннотацию). Разметка –  главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке. Однако такие библиотеки в необработанном виде для научных исследований пригодны очень ограниченно.

Зачем нужен национальный корпус?

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексической и грамматической структуры языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Современные компьютерные технологии  многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обработать очень большое количество материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической – обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные современные описания грамматического строя языков, а также авторитетные академические словари практически все без исключений составляются на основе корпусов этих языков. Учет данных корпуса оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

Основными потребителями национальных корпусов являются, конечно, их создатели, т. е. исследователи-лингвисты самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Очень большое значения национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, т. е. фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как будет развиваться Национальный корпус русского языка?

Создаваемый сейчас Национальный корпус русского языка будет охватывать период от начала XIX до начала XXI века: этот период представляет как классический литературный, так и современный разговорный русский язык. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза, драматургия, поэзия), имеющие культурную значимость, а также представляющие интересные с точки зрения языка явления. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, научно-популярная и научная литература, публичные выступления, частная переписка, дневники, документы и т.п. Все тексты, входящие в корпус, подвергаются специальной и достаточно сложной обработке (так называемая метатекстовая разметка), в результате которой исследователю становится в явном виде доступна информация как об особенностях создания текста (характеристика автора, жанра, времени создания, темы и т. п.), так и об особенностях его языковой структуры (лексические и грамматические категории, словесное ударение и т. п.). Далее специальная программа позволит осуществлять поиск по всем указанным параметрам. Например, исследователь сможет найти все случаи употребления прошедшего времени несовершенного вида (или все случаи употребления предлога около) в мемуарных текстах, написанных между 1920 и 1940 гг. авторами, родившимися в Москве или Петербурге не позже 1900 г., и т.д., и т.п.

Размеченные указанным образом, тексты, составляющие Национальный корпус русского языка, находятся на этом сайте; состав сайта постоянно обновляется. Доступ к сайту открыт для всех желающих. При этом сами тексты, помещаемые на сайт, не предназначены ни для чтения, ни для копирования: они могут использоваться лишь как источники примеров, иллюстрирующих то или иное языковое явление.

Приписывание грамматических характеристик процедура достаточно сложная и трудоемкая, поэтому Корпус в его нынешнем виде не свободен от ошибок (хотя их количество и сильно уменьшено по сравнению с тем, что даёт полностью автоматический разбор). Мы призываем наших пользователей присылать обнаруженные ошибки и неточности на адрес info@ruscorpora.ru.