2.7.5 Примеры использования теоретико-множественного описания в прикладных лингвистических информационных технологиях В условиях информационно-коммуникационной революции стремительно расширяется и усложняется Мир сложных систем (см. п.2.4, рис. 2.23). На основе языков программирования строятся программные комплексы, реализующие функции, связанные с решением прикладных задач в языковой сфере. Для решения таких задач используются лингвистические технологии, которые могут классифицироваться как информационные системы с элементами искусственного интеллекта. На основе лингвистических информационных технологий решаются следующие практические задачи: распознавание текста с целью его перевода на иностранный язык, а также автоматического реферирования больших массивов печатного текста; распознавание речи с целью ее ввода в ПК, а также определение голоса «телефонных террористов» специальными государственными службами; построение частотных словарей и справочников, конкордансов, национальных корпусов языка с целью его исследования и т.д. Покажем пример формализации элементов лингвистической технологии, которая использует русский, греческий и латинский алфавиты. Обозначим алфавиты этих языков множествами С1 – русский алфавит, мощность множества которого составляет 33 буквы, т.е. 𝐶𝑎𝑟𝑑 𝐶 1 = 33. Греческий алфавит обозначим множеством А1 , кардинальное число которого равно 24, т.е. греческий алфавит состоит из 24 букв (𝐶𝑎𝑟𝑑 А1 = 24). Латинский алфавит обозначим множеством В1 , имеющий в своем составе 26 букв или элементов этого множества (𝐶𝑎𝑟𝑑 В1 = 26). Кроме того, универсум языков обозначим множеством 𝑈1 . Воспользуемся хорошо известным инструментарием – диаграммой Эйлера – Вена для того, чтобы показать операцию пересечения элементов этих трех алфавитов (см. рис. 2.52), производимую в некоторой лингвистической технологии. Рисунок 2. 52 – Иллюстрация операции пересечения множеств диаграммой Эйлера-Вена Пересечение данных алфавитов формально можно записать в следующем виде: 𝐴1 ⋂ 𝐵1 = 𝑄 ; 𝐵1 ⋂ 𝐶 1 = 𝑊; 𝐴1 ⋂ 𝐶 1 = 𝐿; 𝐴1 ⋂ 𝐵1 ⋂ 𝐶 1 = 𝐽 ; где 𝑄 = {𝑌, 𝑁, 𝐾, 𝑍, 𝐼}; 𝑊 = {𝐶}; L= {Ф, П, Г}; 𝐽 = {𝑂, 𝑇, 𝐻, 𝑃, 𝑀, 𝐴, 𝐵, 𝑋, 𝐸}. Приведем еще один пример, связанный с построением лингвистической технологии, в которой используются словарно-справочные средства. Для построения таких технологий словарно-справочные средства формально представляются методами корпусной лингвистики [24], где корпуса текста записываются на теоретико-множественном языке. Покажем на примере известного словаря Ожегова С.И. [10] структуру корпусов текста (см. рис. 2.53). Корпус текста словаря ( К1 ) Правила пользования словарем (П) Словарь (С) Блок терминов ТА Термин ta 1 … Блок терминов ТЯ Термин ta N Правая часть (О) Блок словарных статей ОА Блок вариантов толкования термина А ta 1 ⬚О … Блок словарных статей ОЯ Блок вариантов толкования термина ОЯ tя N Рисунок 2.54 – Структура корпуса текстов толкового словаря Ожегова С.И. Из структуры словаря и рис. 2.54 видно, что на его элементах заданы несколько видов отношений. Это отношения строгого порядка (блоки терминов и собственно термины расположены в алфавитном порядке), обозначим их символом (>), и включения ( ), например, между корпусом текстов и словарем, между словарем и блоком терминов и т.д. Кроме того, между словарем (С) и правой частью словаря (О), а также их элементами существуют бинарные отношения. Обозначим: 𝐾1 – корпус текстов, образующий толковый словарь; ̅̅̅̅̅ П = {п𝑖 }, 𝑖 = 1, 𝑛 – множество текстов, образующих правила пользования словарем, элементами которого могут быть список принятых сокращений (помет), характеристика употребления слов и другие; 𝐶 = {𝑇 𝐴 , … , 𝑇 Я } – левая часть словаря, представляет собой множество блоков терминов, расположенных в алфавитном порядке от А до Я; 𝑇 𝐴 = {𝑡a1, … , 𝑡a𝛼} – блок терминов, у которого литеры начинаются с буквы А, – количество терминов помещенных в словарь с первой литерой А, остальные блоки терминов (от Б до Я) имеют аналогичный состав; 𝑂 = {𝑂 𝐴 , … , 𝑂Я }– правая часть словаря, которая состоит из подмножеств блоков словарных статей 𝑂 𝐴 , … , 𝑂Я , расположенных также в алфавитном порядке; ОА АОta1,...,A Ota – блок словарных статей, термины которых начинаются с литеры А, где – количество словарных статей этого блока или кардинал подмножества О А ; A Оta 1 a ota 1.1,...,a ota 1.4 – подмножество вариантов толкования термина (в этом случае левый верхний индекс показывает, что в блоке словарных статей 𝑂 𝐴 словарная статья, соответствующая термину ta 1 содержит четыре варианта толкования). Подвергнем более детальному анализу отношения, в которых находятся элементы корпуса текстов {П, С, О} ⊂ 𝐾1 . Свяжем элементы корпуса текстов отношением включения П, С, О K1 ; Т А ,...,Т Я С ; ta 1,...t Т А ,…, tя 1,...tя Т Я ; ОА ,...,ОЯ О ; АОta 1,...,A Ota ОА ,…, ЯОtя 1,...,Я Otя ОЯ ; a ota 1.1,...,a ota 1. AOta 1 ,..., яotя 1.1,...,я otя 1. ЯOtя N . Отношения строгого порядка между подмножествами С и О и их элементами зададим в следующем виде: Т А T Б ,..., T Я ; ta 1 ta 2 ,..., tб 1 tб 2 ,..., tя 1 ,..., tя ; О А О Б ,...,O Я ; A O ta 1 ,..., A O ta Б O tб 1 Б O tб 2 ,...,Я O tя 1 ,..., Я O tя ; a ta 1.1 o ,..., a o ta 1. ;…; я o tя 1.1 ,..., я o tя 1. . Учитывая, что между подмножествами С и О, а также их элементами существуют некоторые бинарные отношения, то можно записать следующие соответствия: Е С О ; Н А Т А ОА ,…, Н Я Т Я О Я ; G A ta 1 A Ota 1 ,…, G Я tя Я Оtя , где С, О Е – множество пар, в данном случае одна (словарь и правая часть словаря), Т А , ОА Н А ,…, Т Я , ОЯ Н Я – множество пар блоков терминов и их словарных статей, ta 1, AOta 1 G A ,…, tя , Я Оtя G Я – множество пар терминов и блоков вариантов их толкования. В случае, когда одному термину соответствует несколько толкований, можно записать, например, для термина, начинающегося с литеры А, a ota 1.1,...,a ota 1. , ta 1, a ota 1.1 DA ,…, ta 1, a ota 1. DA термина и его DA ta 1 где множество пар толкований. В обобщенном виде, отождествляя корпус текстов с моделью общенаучного словаря 𝐾1 ≡ 𝑀об и не учитывая соответствие термину нескольких определений, запишем 𝑀об = 〈П, 𝑇 𝐴 , … , 𝑇 Я , 𝑂 𝐴 , … , 𝑂Я , 𝑡𝑎 1, … , 𝑡я 𝛿, 𝑂𝑡𝑎 1 , … , 𝑂𝑡я 𝛿 , ⊂, <〉.