ТРАНСКРИПЦИЯ УСТНОГО ДИСКУРСА: Актуальная проблема полевой лингвистики А.А.Кибрик (kibrik@comtv.ru) В.И.Подлесская (podlesskaya@ocrus.ru) Две материальные формы языка Устная (около 200 тыс. лет) Письменная (около 5 тыс. лет) Thoth speaks after he looks upon his enemies on the ground. He says, “Gods in heaven let you hearts rejoice, and let your hearts rejoice gods who are in the earth. Horus, the Youthful One, comes in peace and on his journey he has displayed deeds of great might, which he has performed according to the Book of Slaying the Hippopotamus” Приоритет письма В течение нескольких последних тысяч лет образованные люди отдают приоритет письменной форме языка Письменный язык считается более «чистым», более «правильным», более «ценным» Это одна из базовых идей «иудеохристианской цивилизации» Эти культурные представления в полной мере разделяются и лингвистами Лингвисты в основном исследуют письменную форму языка Устная речь рассматривается как периферийный и экзотический предмет интереса даже теми, кто уделяет ей внимание Речь vs. письмо – несколько трюизмов Речь первична в филогенезе в онтогенезе количественно Письмо представляет собой позднейшую адаптацию ко вторичному носителю Логичный подход – начать исследование с исходного, более простого процесса, и затем рассмотреть, как он адаптируется ко вторичному носителю Что происходит на практике? Языки с письменной традицией Подавляющее большинство «эпизодов использования» таких языков – в устной форме Однако есть большое количество эпизодов письменного использования Эти эпизоды завершаются созданием статических объектов – текстов Статический объект исследовать гораздо проще, чем динамический процесс Это может быть объяснением (оправданием) приоритета письменной формы языка в лингвистике Однако лингвисты часто идут дальше – целые области «теоретической лингвистики» основаны на специально придуманных квазиписьменных данных Бесписьменные и младописьменные языки Язык вообще или почти не используется в письменной форме Лингвисты впервые создают «тексты» на данном языке Обычная технология: аудио- (реже видео-) запись, затем транскрибирование При этом исходный материал (звуковой сигнал) подвергается существенной модификации многие его элементы устраняются (паузы, хезитации, коррекции, повторы и т.д. и т.п.) вносится много артефактов, в особенности пунктуация (предложение vs. часть предложения) Что в результате? Это некий образ исходного материала, но весьма косвенный Модификации, производимые лингвистом, как правило, несистематичны и делаются ad hoc В публикациях текстов редко можно обнаружить какие-либо следы решений, принимавшихся лингвистом в процессе транскрибирования буквально на каждом шагу Лингвист подгоняет естественный материал под некий интуитивный, часто донаучный формат, диктующий, каким язык должен быть Получается объект непонятной природы: фактически лингвист навязывает естественному языку свои представления о том, каким этому языку «следует быть» Этот непонятный суррогат в дальнейшем становится основным источником сведений о языке, базой для грамматических описаний Что мы предлагаем Процедура графической фиксации устной речи (устного дискурса) должна сохранять сущностные характеристики устной формы языка Такая процедура именуется дискурсивной транскрипцией Транскрипция устного дискурса – это сложная научная проблема, включающая много конкретных решений по конкретным проблемам (грамматическим, просодическим и т.д.) Решения о транскрибировании должны приниматься систематично: релевантные системные различия должны быть отражены системно идентичные явления должны отражаться одинаково Принципы транскрибирования Транскрибирование – трудоемкий процесс, поэтому правила транскрипции должны: формулироваться эксплицитно обеспечивать воспроизводимость результатов минимизировать произвольность решений отдельного транскрайбера Дальнейшее изложение Дискурсивная транскрипция разработана для наиболее описанных языков – английского, итальянского, нескольких других Мы занимаемся разработкой такой системы для русского языка Далее мы покажем некоторые типы проблем, которые возникают при разработке этой системы Это будет более наглядно для всей аудитории, поскольку здесь все владеют русским языком Мы полагаем, что создание дискурсивной транскрипции для бесписьменных и младописьменных языков – это не менее важная задача, чем в случае языков с письменной традицией Поэтому предлагаемые для русского языка решения, с соответствующими изменениями, могут быть применены к любому малоизученному языку Материал С 1999 – проект исследования устного русского дискурса “Рассказы о сновидениях” Корпус рассказов о сновидениях, рассказанных детьми и подростками Режим порождения речи: монолог Жанр: личный рассказ Возраст и содержание рассказов не имеют значения для данного рассказа Соавторы А.О.Литвиненко Н.А.Коротаев В.Л.Цуканова и др. Типы явлений/проблем Сегментация дискурса элементарные единицы объединение элементарных единиц в группы Пунктуационные знаки Паузы Тональные акценты Темп (локальный и точечный) Прочие просодические явления и др. Пример ....(1.5) /\Озеро ...(0.5) какое-то, ..(0.3) (Или /\речка или /\озеро, но по-моему \озеро, потому что’ ..(0.2) как-то-оw ...(0.6) \маленькое такое, \небольшое.) ....(1.0) ’и-иh ...(0.7) через /него ..(0.3) как-то \бревно какое-то, типа \моста. СЕГМЕНТАЦИЯ ДИСКУРСА Дискурс порождается шагами, квантами Элементарная дискурсивная единица (ЭДЕ) – на пересечении физиологических, когнитивных, семантических, синтаксических и просодических аспектов Просодические критерии выделения ЭДЕ один акцентный центр единый тональный паттерн единый громкостный паттерн единый темповый паттерн единый паттерн паузации ..(0.2) /Вышла с этой \ка-ареты, ..(0.2) захожу в \ё-олку, 0.1 0.17 0.14 0.25 ЭДЕ и клаузы Просодически выделяемые ЭДЕ типично оказываются клаузами ЭДЕ = клауза 70% ЭДЕ < клауза 23% ЭДЕ > клауза 7% Малые ЭДЕ Проспективные вынесенный топик фальстарт Ретроспективные 6,4% 0,7% 5,7% 9% эхо 3,9% приращение и парцелляция 4,2% Разрывы Регуляторные ЭДЕ 2,5% 4,9% Эхо Ретроспективное уточнение одной из составляющих клаузы Уточнение дублирует морфосинтаксические характеристики уточняемой составляющей Бегала бездомная /собака, ..(0.2) /большой такой /чёрный \дог, Не обязательно номинатив /\открываю, и передо мной так /висят ...(0.7) семь \–трупов. ....(1.1) Семь /трупов \повешенных, ..(0.3) причём \/китайцев. Уточнение анафорического местоимения И я поба= || ..(0.1) /подо-ошёл к нему, ..(0.3) ну к этому /дереву, у которого /сверкало чего-то, Приращение Добавление дополнительного компонента клаузы Этот компонент может быть встроен в имеющуюся структуру клаузы И /вдруг я увидела какую-то ..(0.4) \к-коробку. ..(0.3) С /бантиком \сверху. Регуляторные ЭДЕ Не несут пропозициональной информации, а являются сигналами структуры дискурса или коммуникативного взаимодействия ....(1.4) Но’ ..(0.3) они всё же /доехали, /я ’ ..(0.2) тоже оказалась на первом /этаже, ....(1.3) ээ(0.1) \вот, ..(0.3) и-и ....(1.0) \встретили мы этих двух /девочек, Некоторые типы больших ЭДЕ Глагол мысли/речи в функции эпистемического/цитационного маркера 0,5% Сериализация 0,6% Препаративная подстановка 0,4% Эпистемический маркер ....(2.4) </–М-мы-ы | Ну /–мы> там /\остаёмся, ....(2.6) ну не знаю /остаёмся, Цитационный маркер ..(0.3) /подойти <по-моему> <\меня | \мне> она /попросила, говорит ..(0.3) «/Пойди \помоги ей¡». Сериализация ...(0.5) И \я /стою на себя \смотрю. Препаративная подстановка ....(1.6) Но /монах чудом \спасся. ….(2.8) И-и ....(3.0) онh ....(1.4) \это ..(0.3) каким-то …(0.5) образом убежал в \Монголию, СУЩЕСТВУЕТ ЛИ «ПРЕДЛОЖЕНИЕ»? Каноническая «просодия запятой»: подъем тона в главном акценте ЭДЕ Каноническая «просодия точки»: падение тона в главном акценте ЭДЕ ..(0.4) а /потом ..(0.2) мне /приснилось, что я ..(0.3) \ну как-то \двойку получил. «Запятая с падением» ....(1.5) /\Озеро ...(0.5) какое-то, ..(0.3) (Или /\речка или /\озеро, но по-моему \озеро, потому что’ ..(0.2) как-то-оw ...(0.6) \маленькое такое, \небольшое.) ....(1.0) ’и-иh ...(0.7) через /него ..(0.3) как-то \бревно какое-то, типа \моста. Тонограмма \озеро, \маленькое \небольшое. \бревно \моста. Системное различие двух типов падений Финальное падение: 160-180 Гц Нефинальное падение: 190-220 Гц (плюс 2-3 полутона) Финальное падение (точка): устойчивое продолжение падения на заударных слогах Нефинальное падение (запятая): прекращение падения на последних слогах ЭДЕ, часто повышение тона («загиб» вверх) Предложение? В устной речи есть смысл выделять группы ЭДЕ, которые можно назвать предложениями Границы предложений определяются просодически, а не синтаксически Предложения часто объединяют десятки ЭДЕ и совпадают с эпизодами рассказа или даже с целыми рассказами С другой стороны, подчиненная клауза иногда оказывается не в том предложении, что главная клауза Предложение – это гораздо менее очевидная и более трудно выделимая единица, чем клауза Говорящий обладает значительным произволом в том, как он объединяет группу клауз в предложение Пример ..(0.4) а потом меня \разбудили. ..(0.4) \Бабушка. ..(0.3) Ну чтоб в \школу идти. Что из всего этого следует? Важнейшие, наиболее частотные грамматические явления русского языка – не те, что обычно волнуют лингвистов Многие грамматические явления, являющиеся излюбленным предметом лингвистического анализа, не встречаются Встречается много явлений, которым не предается никакого или почти никакого значения в лингвистике Устная речь имеет другую грамматику, чем так называемый кодифицированный литературный письменный язык Это не другая система Просто главные грамматические явления устной речи в письменной сильно подавлены, и их почти не замечают И наоборот, то, что особенно привлекает лингвистов в письменной речи, в устной тоже представлено, но в эмбриональном виде Русский язык как экзотический Некоторые из отмеченных в русском устном языке явлений считаются в типологии атрибутами тех или иных экзотических языков Однако они обнаруживаются в русском языке вынесенный топик эхо и приращение («антитопик») цитационные маркеры сериализация ………………………… Выводы Таким образом, русский язык предстает в новом и (как мы надеемся) более адекватном свете Процесс транскрибирования является не только техническим процессом, но и важнейшим источником эмпирического обнаружения наиболее существенных явлений грамматики данного языка Частота встречаемости явлений – простейшая оценка их относительной важности С нашей точки зрения, те же процедуры применимы и к менее изученным языкам Имеющийся опыт Пулар (А.А.Кибрик и А.И.Коваль) Арабский (В.Л.Цуканова) Армянский (В.Г.Хуршудян) Японский (З.В.Ефимова) Контекст полевой работы Для бесписьменных и младописьменных языков устная речь – единственная или по крайней мере основная форма бытования Значит, фиксирование устного дискурса оказывается единственным способом их документирования Это должно делаться эксплицитно и систематично В сущности, при наиболее логичном подходе разработка дискурсивной транскрипции должна быть одной из самых первых задач, решаемых полевым лингвистом применительно к исследуемому языку Это безусловно требует изменения привычек и освоения новых областей, в частности просодии Однако дискурсивная транскрипция – это гибкая методология, адаптируемая к конкретным задачам исследователя, поэтому она может осуществляться с разной, т.е. оптимальной, степенью подробности