|
Параметры текстов
Существенной частью поискового аппарата Корпуса является так называемая метаразметка (или метаописание) текстов, входящих в него. Под метаразметкой понимается приписывание тексту атрибутов, характеризующих обстоятельства его создания, автора, тематику, жанровые особенности и др. Метаразметка необходима прежде всего для того, чтобы исследователь, пользующийся Корпусом, мог составлять по своему желанию произвольные выборки текстов с заданными внешними параметрами: например, тексты мемуарного характера, тексты, написанные мужчинами, тексты, написанные авторами, родившимися между 1940 и 1960 гг., тексты автобиографий, тексты проповедей, тексты романов и повестей, и т. д., и т. п.
Учитывая объем и разнородность текстов Национального корпуса, такая дифференциация представляется абсолютно необходимой: большинство исследователей будут работать не с Корпусом в целом, а с какими-то наиболее значимыми для целей исследования подмассивами текстов (художественными, публицистическими, деловыми и т. п.). Кроме того, интересной задачей (которую метаразметка также позволяет решать) является установление статистически достоверных корреляций между теми или иными метатекстовыми параметрами (например, полом или возрастом автора) и языковыми особенностями текста.
Пользователь Корпуса может создать подмассив текстов для поиска на странице «Мой корпус» и в дальнейшем вести поиск уже только по выбранному множеству текстов. Ниже дается описание параметров текстов, используемое на странице «Мой корпус».
Структура метаразметки Национального корпуса
В Национальном корпусе используется сравнительно простая система метаразметки, предназначенная не для специалистов по корпусной лингвистике, работающих с универсальной международной классификацией, а для рядового пользователя (в том числе и для лингвиста, не знакомого с терминологией корпусных исследований). Именно этот тип метаразметки непосредственно отражается в интерфейсе, представленном сейчас на сайте Национального корпуса.
Интерфейс для упрощенного метатекстового поиска устроен так, что параметры текста объединяются в несколько блоков:
I. «Паспорт текста»
Автор текста: имя, пол, дата рождения (или примерный возраст)
Название текста
Время создания текста (может указываться точно или приблизительно; при поиске может использоваться формат «<не> раньше такой-то даты» или «<не> позже такой-то даты»).
Объем текста (в количестве слов; при поиске может использоваться формат «<не> более такого-то объема» или «<не> менее такого-то объема»). Дается пояснение: для художественных произведений принято, что обычная длина рассказа — менее 5 тыс. слов; обычная длина повести — от 5 до 15 тыс. слов; обычная длина романа — более 15 тыс. слов.
Блок II состоит из трех поисковых массивов: «нехудожественная проза», «художественная проза», «драматургия». Первые два массива имеют несколько разные структуры параметров, поэтому оформляются по отдельности. (В будущем планируется добавить к этому также массивы устной речи и поэзии.)
|