СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА

реклама
Тема 1.
ЕСТЕСТВЕННО-ЯЗЫКОВЫЕ
ЗНАКОВЫЕ СИСТЕМЫ
ОСНОВНЫЕ РАЗДЕЛЫ ТЕМЫ
1.1. Модели и методы представления и организации знаний —
лекции 1-2.
1.2. Количественная спецификация ЕЯ систем —
лекции 3-4, 8.
1.3. Логико-статистические методы извлечения знаний —
лекция 5-7.
ФАКУЛЬТАТИВНЫЕ РАЗДЕЛЫ ТЕМЫ ДЛЯ
САМОСТОЯТЕЛЬНОГО ИЗУЧЕНИЯ
1.4. Технология автоматизированного построения словарятезауруса.
1.5. Пример исследования ЕЯ ресурса.
Лекция 6.
СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
 Формальное описание основных
синтагм
 Формальное описание
производных синтагм и
синтагматических конструктивов
 Статистический анализ
синтагматических конструктивов
Литература
Материал лекции представлен в
книге:
Ю.Н.Филиппович, А.В.Прохоров.
Семантика
информационных
технологий:
опыты словарно-тезаурусного
описания. /
Серия «Компьютерная лингвистика».
Вступ. Статья А.И.Новикова.
М.: МГУП, 2002.
— книга в комплекте с CD ROM
— С. 54–64.
ФОРМАЛЬНОЕ ОПИСАНИЕ
ОСНОВНЫХ СИНТАГМ
Конструктивные ЕЯ единицы:
корпус текстов, текст, контекст, сверхфразовое единство, предложение,
словосочетание, слово, морфема, квази-морфема, слог, символ
алфавита (буква).
Синтагма — непроизвольная цепочка языковых единиц нижнего уровня
(символов). Синтагмы каждого верхнего уровня состоят из синтагм
нижних уровней.


основные :
производные :
символ, слово, предложение, текст
морфема, квази-морфема, слог,
словосочетание, сверхфразовое
единство, контекст и корпус текстов.
Цели выделения основных синтагм
1. Описание текста на основе теории формальных языков.
2. Выделение комплекса задач предварительного анализа текста.
Литература
Филиппович Ю.Н., Родионов Е.В., Черкасова Г.А.
Языковые средства диалога человека с ЭВМ.
Практическое пособие /
Серия «Организация взаимодействия человека с
техническими средствами АСУ». В 7 кн. Кн.2.
Под ред. Четверикова В.Н.
М.: Высш. шк., 1990. – 159 с.
СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
СИНТАГМАТИЧЕСКАЯ СТРУКТУРА ТЕКСТА
— комплекс синтагматических конструктивов, построенных на
основе основных и производных синтагм.
Основные синтагматические конструктивы:
 тексты,
 словники (частичные и полные, прямые и обратные, частотные)
— упорядоченные списки синтагм
 словоуказатели.— индексы упорядоченных списков синтагм
нижнего уровня по синтагмам верхнего уровня, а также по
организационным единицам (том, часть, глава, страница, строка,
и т.д.).
ОСНОВНЫЕ СИНТАГМЫ (1)
Алфавитом естественно-языкового описания предметной
области будем называть множество AB, такое что:
AB  ABR  ABr  ABL  ABl  ABD  ABS
где:
ABх — алфавиты современных естественных языков
,
(различаются множества прописных и строчных
букв)
ABr  {а,..., я} ABL  {A,..., Z} ABR  {А,..., Я} ABl  {a,..., z}
ABD — множество цифр
ABD  {0,...,9}
ABS — множество специальных символов, которые могут выступать
в качестве букв слов
AB, S  {# ,$,%,&, /, , , ,\, ^ , _,*, ~, @}
ОСНОВНЫЕ СИНТАГМЫ (2)
Стоп-знак слова — элемент множества знаков, которые позволяют
отделять в тексте слова друг от друга. Стоп-знак stW слова W является
элементом транзитивного замыкания множества стоп-знаков:
stW  STW
ST
W
, где
STW   STWn
n 1
 пробел , точка , двоеточие ,





 запятая , точка _ с _ запятой ,



 тире / минус / дефис , кавычка ,



 левая _ кр _ скобка , правая _ кр _ скобка ,




левая
_
кв
_
скобка

,

правая
_
кв
_
скобка

,


 


 восклицате льный _ знак ,



вопросител
ьный
_
знак

,





 перевоход _ на _ след _ строку ,





 возврат _ каретки ,
 табуляция , нуль _ символ , конец _ файла 



ОСНОВНЫЕ СИНТАГМЫ
(3)
Словом в ЕЯ описании ПО будем называть конкатенацию
элемента транзитивного замыкания множества AB и стопзнака:
w  W  ( AB   STW )
ОСНОВНЫЕ СИНТАГМЫ
(4)
Предложение будем рассматривать как конкатенация стоп-знака
предложения STS и элемента транзитивного замыкание слов и их
разделителей:



S
S  W  ST ; W    ( AB   STW ) n ;
.
ST  ST ; ST
S
W
S
n 1
 точка ,восклицате льный _ знак ,




 вопросител ьный _ знак ,нуль _ символ ,конец _ файла ,


 конец _ абзаца 



 конец _ абзаца  { переход _ на _ след _ строку  возврат _ коретки }
2
ОСНОВНЫЕ СИНТАГМЫ
(5)
Текст определяется аналогично предложению как
конкатенация стоп-знака и элемента транзитивного
замыкания слов и их разделителей:

T  (W   конец _ файла );


W   ( AB   STW ) n
n 1
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (1)
GT – грамматика, порождающая текст.
GS – грамматика, порождающая предложение.
GW – грамматика, порождающая слово.
N – множество нетерминальных символов
T = AB  STW – множество терминальных символов.
S – начальный нетерминальный символ.
EOF = <конец_файла>
EOL = (<переход_на_след_строку> <возврат_каретки>)
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (2)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ ТЕКСТ
GT = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB  STW
P={
S0  S1 EOF | EOF,
S1  S2 S1 | S2,
S2  S3 S4 | S3 | S4,
S3  w S3 | w
w AB  T
S4  s S4 | s
s  (STW \ EOF)  T
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (3)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ ПРЕДЛОЖЕНИЯ
GS = (N, T, P, S0)
N = { S0,S1,S2,S3,S4}
T = AB  STW
P={
S0  S1 е | е ,
е  STS  T
S1  S2 S1 | S2,
S2  S3 S4 | S3 | S4,
}
S3  w S3 | w
w AB  T
S4  s S4 | s
s  (STW \ STS)  T
ПОРОЖДАЮЩИЕ ГРАММАТИКИ
ЕЯ ОПИСАНИЯ ПОРМ (4)
ОПИСАНИЕ ГРАММАТИКИ,
ПОРОЖДАЮЩЕЙ СЛОВА.
GW = (N, T, P, S0)
N = { S0,S1,S2,S3 }
T = AB  STW
P={
S0  S1 е | е ,
е  STW  T
S1  S2 S1 | S2
}
S2  w S3 | w
w AB  T
S3  s S3 | s
s  (STW \ EOF)  T
ФОРМАЛЬНОЕ ОПИСАНИЕ
ПРОИЗВОДНЫХ СИНТАГМ И
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Генеральная совокупность = корпус текстов ЕЯ описания ПОРМ

Объект исследования — отдельные синтагмы,
являющиеся элементами этого корпуса текстов

Основные характеристики — абсолютные частоты
встречаемости синтагм в корпусе текстов и
составляющих его частях
ПРОИЗВОДНЫЕ СИНТАГМЫ
(1)
Корпус текстов G — это множество текстов ЕЯ описания ПОРМ:
G = { T1, T2, ..., TN }, где N – число текстов в корпусе, Ti – i-ый текст.
Словосочетание wk — выводится из GT., состоит ровно из k-слов,
между которыми отсутствуют стоп-знаки предложения или текста:
wk = w1w2w3..wk. Любое отдельное слово w = w1.
Поставим в соответствие каждому выражению wk число, характеризующее частоту его встречаемости в конкретном выводе GT и
получим отображение F: wk  E, где E – множество целых чисел.
Частотная функция — F = N(wk, T), где:
T – конкретный текст, wk – словосочетание.
Свойства частотной функции:
N(wk,T)>0, если wk  T, и N(wk,T)=0, если wk T.
Из w = w1 следует, что N(w,T) = N(w1,T).
ПРОИЗВОДНЫЕ СИНТАГМЫ
(2)
Суммой текстов T1 и Т2 называется текст Т3, получаемый удалением
из текста T1 стоп-знаков текста и присоединением к нему текста T2
T3 – является текстом, выводимым из GT.
Доказательство
1. Если существуют T1 и T2, выводимые из GT, то существует
конкретный вывод T1 и T2 из аксиомы S0.
2. T1 и Т2 – конечные последовательности символов терминального
алфавита GT, а сама грамматика может порождать
последовательности любой длины.
3. Следовательно, после вывода всех символов T1 можно
осуществить вывод дополнительно всех символов T2.
4. Таким образом, T3 есть текст, порождаемый GT.
Будем записывать: T3 = T1 + T2, T1+T2  T2+T1.
ПРОИЗВОДНЫЕ СИНТАГМЫ
(3)
Контекст С(T) — непрерывный фрагмент текста T, т.е.
фрагмент вывода в GT.
Свойства контекста:
N(wk, T1) + N (wk, T2) = N(wk, T1+T2)
N(wk, C(T))  N(wk, T)
T = C1(T)+...+Cq(T), где Сi(T) Cj(T)=, i,j (ij) [0,q]
 N(wk,Сi(T))  N(wk, T), где Сi(T) Cj(T)=
Замечание.
• N(wk, T1) + N (wk, T2)  N(wk, T1+T2),
• Тексты завершаются стоп-знаками предложения,
• Возможность словосочетания wk на границе T1 и T2 практически
отсутствует.
• Будем считать, что N(wk, T1) + N (wk, T2) = N(wk, T1+T2).
ПРОИЗВОДНЫЕ СИНТАГМЫ
(4)
Частотный словник — упорядоченная совокупность слов
(или словосочетаний) текста и значений их частотной функции
S(T) = ( <wk, N(wk,T)>).
Операции над словниками
Объединение словников. Объединением словников S(T1) и
S(T2) будем называть словник S(T1+T2). В объединенный
словник войдут все слова и словосочетания из обоих текстов со
своими частотными функциями, а для одинаковых слов (или
словосочетаний) строится суммарная частотная функция.
,
Вычитание словников. Вычитанием словников S(T1)-S(T2)
будем называть словник S(T*), в который войдут только те слова
(или словосочетания) из T1, для которых N(wk,T1) > N(wk,T2).
Под T* понимается гипотетический текст, по которому мог бы
быть построен словник S(T*).
ПРОИЗВОДНЫЕ СИНТАГМЫ
•
•
•
(5)
Ограничения синтагматической структуры:
невозможность различения в словах дефиса,
распознавание только слова и предложения,
невозможность распознавания вложенных структур
(скобочных записей, прямой речи, других формальносинтаксических конструкций).
порождающая синтагматическая структура

распознающая модель = «программа-транслятор»

генератор синтагматического кода ЕЯ описания ПОРМ

комплекс синтагматических конструктивов:
словники, словоуказатели, списки словосочетаний, контексты,
индексы и т.п.
ПРОИЗВОДНЫЕ СИНТАГМЫ (6)
СИНТАГМАТИЧЕСКАЯ МОДЕЛЬ ТЕКСТА
— это представление его в виде множества основных
синтагматических конструктивов, полученных путем
преобразования текста на основе его формальноязыкового теоретико-множественного описания:
STG
G
 {K i
}
STG
.
, где :
K
STG
i

Stg G 
СТАТИСТИЧЕСКИЙ АНАЛИЗ
СИНТАГМАТИЧЕСКИХ КОНСТРУКТИВОВ
Частотный анализ текста
— формирование параметрического профиля текста.
Задачи частотного анализа
• Вычисление параметров распределения слов в модели «ранг-частота»
для текстов.
• Построение для текстов частотных функций для слов и парных
словосочетаний: N(wij, Tj), N(wij2, Tj)}, где wij,wij2 Tj, j =1,N.
• Построение частотных словников { S(Tj) }, где j=1,N.
• Вычисление общего числа элементов словника:
Rj
N j   N ( wij , T j )
, где Rj – число элементов в словнике S(Tj).
i 0
• Вычисление параметров распределения слов в модели «ранг-частота»
для генеральной совокупности.
• Нахождение параметров закона Мандельброта для генеральной
совокупности.
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(1)
Динамический анализ текста
— выявление закономерностей изменения количественных
характеристик структуры ЕЯ описания ПОРМ в течение
времени t.
•
•
•
•
Задачи динамического анализа
Определение структуры текста;
Определение структуры словников,
Определение содержания словников
Определение наполнения словников.
Основная идея динамического анализа
заключается в наблюдении за характером изменения
частотных интервалов.
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(2)
В общем случае имеет место следующая таблица:
Частота
F1
F2
F3
F4
....
1
1 - р1
р2 - р3
...
рk - рk+1
> рk+1
Итого:
Здесь: [Pk,Pk+1] – границы частотных интервалов.
j
F j   Tk – тексты или словники, по которым проводится
k 1
наблюдение.
FN
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА (3)
Динамика структуры текста
показывает относительное изменение объемов частотных групп
в текстах в течение некоторого интервала времени.
Rt
 (t , p1 , p 2 ) 
 P(i, t , p , p
1
i 1
N
2
)
Mj
 N (w
j 1 i 1
ij
, где
,T j )
c  N ( wit , Ft ), если a  c  b 
P(i, t , a, b)  
0
Здесь: Mj – число слов в тексте Tj, Rt – число слов в тексте Ft
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(4)
Результаты могут быть сведены в таблицу:
Частота
F1
1
(1,0,1)
(N,0,1)
1 - р1
(1,1,р1)
(N,1,р1)
F2
F3
F4
....
FN
(2,р2,р3)
р2 - р3
...
рk - рk+1
> рk+1
Итого:
(1,0,)
(1,0,)
1
В строке «итого», записывается сумма вышестоящего столбца,
т.е. (1,0,). Очевидно, что (N,0,) = 1
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(5)
Динамика структуры словников
показывает относительное изменение объемов частотных групп в
словниках в течение некоторого интервала времени.
Rt
 (t , p1 , p 2 ) 
 P(i, t , p , p
1
i 1
RN
2
)
, где
1, если a  N ( wit , Ft )  b 
P(i, t , a, b)  
0
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(6)
Динамика содержания словников
показывает соотношение объемов частотных групп в течение
некоторого интервала времени.
Rt
 (t , p1 , p 2 ) 
 P(i, t , p , p
i 1
Rt
1
2
 P(t, i,0, )
)
, где
i 1
1, если a  N ( wit , Ft )  b 
P(i, t , a, b)  
0
Здесь: Rt – число слов в словнике Ft.
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(7)
Результаты могут быть сведены в таблицу:
Частота
F1
1
(1,0,1)
(N,0,1)
1 - р1
(1,1,р1)
(N,1,р1)
F2
F3
F4
....
FN
(2,р2,р3)
р2 - р3
...
рk - рk+1
> рk+1
Итого:
1
1
1
1
1
1
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(8)
Динамика наполнения словников
характеризует «прирост» новых слов в частотные группы в
течение некоторого временного интервала.
Rt
 (t , p1 , p 2 ) 
 P(i, t, p , p
i 1
RN
1
2
 P ( N , i, p , p
i 1
1
)
,
2
где
)
1, если a  N ( wit , Ft )  b  & (a  N ( wiN , FN )  b)
P(i, t , a, b)  
0
Здесь: RN – число слов в словнике FN.
Rt – число слов в словнике Ft.
ДИНАМИЧЕСКИЙ АНАЛИЗ ТЕКСТА
(9)
Результаты могут быть сведены в таблицу:
Частота
F1
1
(1, 0, 1)
1
1 - р1
(1, 1, р1)
1
F2
(2, р2, р3)
р2 - р3
F3
F4
....
FN
1
...
1
рk - рk+1
1
> рk+1
1
Итого:
(1, 0, )
(1, 0, )
1
ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ





Что такое синтагматическая модель текста?
Приведите формальное описание основных синтагм.
Приведите формальное описание производных синтагм.
Приведите примеры синтагматических конструктивов.
Перечислите основные этапы статистического анализа
синтагм и синтагматических конструктивов.
Скачать