2.7.5 Примеры использования теоретико - kaf

реклама
2.7.5 Примеры использования теоретико-множественного описания
в прикладных лингвистических информационных технологиях
В
условиях
информационно-коммуникационной
революции
стремительно расширяется и усложняется Мир сложных систем (см. п.2.4,
рис. 2.23). На основе языков программирования строятся программные
комплексы, реализующие функции, связанные с решением прикладных задач
в языковой сфере. Для решения таких задач используются лингвистические
технологии, которые могут классифицироваться как информационные
системы с элементами искусственного интеллекта. На основе
лингвистических информационных технологий решаются следующие
практические задачи: распознавание текста с целью его перевода на
иностранный язык, а также автоматического реферирования больших
массивов печатного текста; распознавание речи с целью ее ввода в ПК, а также
определение
голоса
«телефонных
террористов»
специальными
государственными службами; построение частотных словарей и
справочников, конкордансов, национальных корпусов языка с целью его
исследования и т.д.
Покажем пример формализации элементов лингвистической технологии,
которая использует русский, греческий и латинский алфавиты. Обозначим
алфавиты этих языков множествами С1 – русский алфавит, мощность
множества которого составляет 33 буквы, т.е. 𝐶𝑎𝑟𝑑 𝐶 1 = 33. Греческий
алфавит обозначим множеством А1 , кардинальное число которого равно 24,
т.е. греческий алфавит состоит из 24 букв (𝐶𝑎𝑟𝑑 А1 = 24). Латинский алфавит
обозначим множеством В1 , имеющий в своем составе 26 букв или элементов
этого множества (𝐶𝑎𝑟𝑑 В1 = 26). Кроме того, универсум языков обозначим
множеством 𝑈1 .
Воспользуемся хорошо известным инструментарием – диаграммой
Эйлера – Вена для того, чтобы показать операцию пересечения элементов этих
трех алфавитов (см. рис. 2.52), производимую в некоторой лингвистической
технологии.
Рисунок 2. 52 – Иллюстрация операции пересечения множеств
диаграммой Эйлера-Вена
Пересечение данных алфавитов формально можно записать в следующем
виде:
𝐴1 ⋂ 𝐵1 = 𝑄 ; 𝐵1 ⋂ 𝐶 1 = 𝑊; 𝐴1 ⋂ 𝐶 1 = 𝐿; 𝐴1 ⋂ 𝐵1 ⋂ 𝐶 1 = 𝐽 ;
где 𝑄 = {𝑌, 𝑁, 𝐾, 𝑍, 𝐼}; 𝑊 = {𝐶}; L= {Ф, П, Г}; 𝐽 = {𝑂, 𝑇, 𝐻, 𝑃, 𝑀, 𝐴, 𝐵, 𝑋, 𝐸}.
Приведем еще один пример, связанный с построением лингвистической
технологии, в которой используются словарно-справочные средства. Для
построения таких технологий словарно-справочные средства формально
представляются методами корпусной лингвистики [24], где корпуса текста
записываются на теоретико-множественном языке. Покажем на примере
известного словаря Ожегова С.И. [10] структуру корпусов текста (см. рис.
2.53).
Корпус текста словаря ( К1 )
Правила пользования словарем (П)
Словарь (С)
Блок терминов ТА
Термин ta 1
…
Блок терминов ТЯ
Термин ta N
Правая часть (О)
Блок словарных статей ОА
Блок вариантов толкования термина
А ta 1
⬚О
…
Блок словарных статей ОЯ
Блок вариантов толкования термина ОЯ tя N
Рисунок 2.54 – Структура корпуса текстов толкового словаря
Ожегова С.И.
Из структуры словаря и рис. 2.54 видно, что на его элементах заданы
несколько видов отношений. Это отношения строгого порядка (блоки
терминов и собственно термины расположены в алфавитном порядке),
обозначим их символом (>), и включения (  ), например, между корпусом
текстов и словарем, между словарем и блоком терминов и т.д. Кроме того,
между словарем (С) и правой частью словаря (О), а также их элементами
существуют бинарные отношения.
Обозначим:
𝐾1 – корпус текстов, образующий толковый словарь;
̅̅̅̅̅
П = {п𝑖 }, 𝑖 = 1,
𝑛 – множество текстов, образующих правила пользования
словарем, элементами которого могут быть список принятых сокращений
(помет), характеристика употребления слов и другие;
𝐶 = {𝑇 𝐴 , … , 𝑇 Я } – левая часть словаря, представляет собой множество
блоков терминов, расположенных в алфавитном порядке от А до Я;
𝑇 𝐴 = {𝑡a1, … , 𝑡a𝛼} – блок терминов, у которого литеры начинаются с
буквы А,  – количество терминов помещенных в словарь с первой литерой
А, остальные блоки терминов (от Б до Я) имеют аналогичный состав;
𝑂 = {𝑂 𝐴 , … , 𝑂Я }– правая часть словаря, которая состоит из подмножеств
блоков словарных статей 𝑂 𝐴 , … , 𝑂Я , расположенных также в алфавитном
порядке;
ОА 
 АОta1,...,A Ota 
– блок словарных статей, термины которых
начинаются с литеры А, где  – количество словарных статей этого блока или
кардинал подмножества О А ;
A
Оta 1 
 a ota 1.1,...,a ota 1.4 
– подмножество вариантов толкования
термина (в этом случае левый верхний индекс показывает, что в блоке
словарных статей 𝑂 𝐴 словарная статья, соответствующая термину ta 1
содержит четыре варианта толкования).
Подвергнем более детальному анализу отношения, в которых находятся
элементы корпуса текстов {П, С, О} ⊂ 𝐾1 .
Свяжем элементы корпуса текстов отношением включения


 П, С, О   K1 ; Т А ,...,Т Я  С ;  ta 1,...t  Т А ,…,
 tя 1,...tя   Т Я ;
ОА ,...,ОЯ  О ;  АОta 1,...,A Ota   ОА ,…,
 ЯОtя 1,...,Я Otя   ОЯ ;
 a ota 1.1,...,a ota 1.  AOta 1 ,...,  яotя 1.1,...,я otя 1.  ЯOtя N .
Отношения строгого порядка между подмножествами С и О и их
элементами зададим в следующем виде:
Т А  T Б ,..., T Я ; ta 1  ta 2 ,..., tб 1  tб 2 ,..., tя 1 ,..., tя  ;
О А  О Б ,...,O Я ;
A
O ta 1 ,..., A O ta   Б O tб 1  Б O tб 2 ,...,Я O tя 1 ,..., Я O tя  ;
a ta 1.1
o
,..., a o ta 1. ;…; я o tя 1.1 ,..., я o tя 1. .
Учитывая, что между подмножествами С и О, а также их элементами
существуют некоторые бинарные отношения, то можно записать следующие
соответствия:
Е  С  О ; Н А  Т А  ОА ,…, Н Я  Т Я  О Я ;
G A  ta 1  A Ota 1 ,…, G Я  tя   Я Оtя  ,
где С, О  Е – множество пар, в данном случае одна (словарь и правая часть




словаря), Т А , ОА  Н А ,…, Т Я , ОЯ  Н Я – множество пар блоков терминов
и
их
словарных
статей,
 ta 1, AOta 1  G A ,…,  tя , Я Оtя   G Я
–
множество пар терминов и блоков вариантов их толкования.
В случае, когда одному термину соответствует несколько толкований,
можно записать, например, для термина, начинающегося с литеры А,
 a ota 1.1,...,a ota 1. ,
 ta 1, a ota 1.1  DA ,…,  ta 1, a ota 1.  DA термина и его
DA  ta 1 
где множество пар
толкований.
В обобщенном виде, отождествляя корпус текстов с моделью
общенаучного словаря 𝐾1 ≡ 𝑀об и не учитывая соответствие термину
нескольких определений, запишем
𝑀об = ⟨П, 𝑇 𝐴 , … , 𝑇 Я , 𝑂 𝐴 , … , 𝑂Я , 𝑡𝑎 1, … , 𝑡я 𝛿, 𝑂𝑡𝑎 1 , … , 𝑂𝑡я 𝛿 , ⊂, <⟩.
Скачать