Текст как корпус: цифровая реинкарнация текста

реклама
Текст как корпус: цифровая реинкарнация текста
К. А. Маслинский
Редкое гуманитарное исследование обходится совсем без текстового
материала. Это могут быть и интервью, и документы, и литературные
произведения, и газетные статьи, и даже всевозможные словесные мелочи,
вроде вывесок и объявлений, подписей под иллюстрациями или надписей на
картах. В цифровую эпоху, когда мы стремимся по возможности все данные
исследования представить в электронной форме, текстовые материалы,
собранные для решения определенного круга аналитических задач,
естественным образом складываются в электронные коллекции текстов.
Впрочем, зачастую цифровая природа таких коллекций остается
незадействованной: мы читаем и анализируем их почти так же, как если бы
они были записаны от руки. От нового цифрового медиума гуманитарии
взяли, пожалуй, прежде всего средства навигации, и, может быть, пословный
поиск.
В то же время, цифровая природа текстовой коллекции позволяет
рассматривать ее как электронный корпус текстов. Корпус отличается от
простого собрания как минимум тремя условиями:

систематическим отбором текстов (по тому или иному принципу
построения выборки);

наличием уровня метаданных (набор метатекстовых признаков с
упорядоченным пространством значений, например, время создания
текста, пол автора, локализация и т.п.);

машиночитаемостью (тексты в формате plain text, метаданные в виде
электронных таблиц или БД).
Выполнение этих условий позволяет применить к любой коллекции
текстовых данных методологию и готовый программный инструментарий
корпусной лингвистики, автоматической обработки языка (natural language
processing) и интеллектуального анализа данных (data mining, text mining).
Часто переосмыслению текстов как корпуса и применению к нему названных
методов препятствует малый размер текстовых коллекций в типичном
гуманитарном исследовании, в то время как обычно такие количественные
методы работы с текстом ассоциированы с «большими данными». Однако
нужно отметить, что в последние годы, с одной стороны, в мире
разворачивается критика понятия «big data», а с другой, в гуманитарном
сообществе расширяются границы этого понятия на данные гораздо более
скpомных масштабов. С технической точки зрения далеко не у всех
количественных методов большой объем текста является жестким условием
применимости, что оставляет обладателям даже очень скромных по размеру
коллекций из нескольких сотен текстов довольно большой выбор
применимого аналитического инструментария.
Другим, еще более важным препятствием, может быть вопрос качественного
исследователя: что мне может дать количественный анализ моих текстов,
например, интервью? Ведь по существу в основе большинства таких методов
лежит статистика употреблений отдельных слов или грамматических
явлений. Этот уровень анализа настолько огрубляет семантическую модель
текста, что совершенно неспособен уловить сколь-нибудь тонкие смысловые
модуляции, не говоря уже о соответствии современным представлениям о
механике дискурса. Обычно это рассматривают как допустимый компромисс
при анализе огромных объемов текстов, которые человек не способен
прочитать целиком. Но казалось бы, зачем применять эти методы там, где
объем текстов невелик?
Мой ответ заключается в том, что такой статистический анализ и основанные
на нем выводы и визуализации не заменяют собой качественный анализ, но
дают дополнительную точку зрения на текст как на эмпирический материал,
в котором объективированы сложные культурные и дискурсивные
феномены, в том числе в форме количественных распределений слов и других
«низкоуровневых» языковых черт. Такие результаты могут подтверждать и
дополнять выводы качественного исследования или даже привлекать
внимание исследователя к анализу таких свойств текста, которые могут
остаться незамеченными при медленном чтении в силу автоматизированной
и не попадающей в фокус сознания читателя природы соответствующих
лингвистических явлений.
В качестве эмпирического материала и иллюстрации в докладе будет
использован совсем небольшой корпус текстов, составленный на основании
протоколов педсоветов одной школы за 1954—1965 годы. В качестве текстов
выступают мотивировки, выдвинутые педагогами в качестве обоснования к
снижению четвертных оценок по поведению. Тексты представляют собой
сжатые перечисления проступков учеников, в среднем не превышают десятка
слов и в большой степени формульны. Всего в корпус входит около 500
текстов. Этот корпус представляет собой пример минимальной по размеру
текстовой коллекции (порядка 4 тыс. слов).
Скачать