Информационно-поисковые языки

реклама
Информационно-поисковые
языки
Лекция 3
Вопросы:
1. Информационно-поисковые языки
(ИПЯ): понятие и структура.
2. ИПЯ: основные характеристики.
3. Типы и виды ИПЯ.
4. Методика построения ИПЯ
дескрипторного типа.
Информационно-поисковые
языки:
Искусственная знаковая система,
предназначенная для описания (путем
индексирования) основного смыслового
содержания текстов документов или их
частей, а также для выражения
смыслового содержания
информационных запросов с целью
реализации.
Идексирование – это процесс
представления информации на ИПЯ, в
результате которого создается поисковый
образ документа (ПОД) и запроса (ПОЗ).
Запрос
Документ
ПОЗ
ПОД
Структура ИПЯ
Фонетический уровень
Лексический уровень
Синтаксический уровень
Текстовый уровень
Фонетический уровень
Это алфавит языка.
Список используемых элементарных
символов (символы естественного языка):
кириллица, латинский алфавит
арабские и римские цифры
знаки пунктуации
спец. символы (@ # & * и т.п.)
Лексический уровень
Словарный запас – совокупность всех
употребляемых в ИПЯ лексических единиц.
Лексическая единица – наименьшая осмысленная
последовательность элементарных символов (знаков),
задаваемая при конструировании отдельных слов
языка.
Лексические единицы образуют лексику языка.
Систематизируют лексические единицы
парадигматические отношения.
Парадигматические отношения
(аналитические)
Это внетекстовые, объективно существующие
смысловые отношения между лексическими
единицами, которые устанавливаются и
фиксируются в словаре языка, исходя из
потребностей информационного поиска.
Учитывают сходство и различие в объеме и
содержании лексических единиц (понятий).
Объем– множество предметов, отображаемых в
данном понятии.
Количество предметов, входящих в объем
может быть :
• Фиксированным (конечным)
• Бесконечным
• Единичным
Содержание – отраженная в сознании
совокупность свойств, присущих каждому
предмету, входящему в объем понятия.
Парадигматические отношения объединяют
лексические единицы в семантические группы
– парадигмы, элементы которых обладают
свойством взаимозаменяемости.
Парадигматические отношения определяют и
задают структуру языка.
Парадигматические
отношения
Логические (сильные)
Ассоциативные
(слабые)
Сильные парадигматические
отношения:
Эквивалентности (равнозначности) –
отношения между понятиями, объемы которых
совпадают, но в содержании имеются
различия.
Подчинения – отношения между понятиями,
когда объем одного или нескольких понятий
входит в объем другого. Род Вид
Соподчинения – отношения между видовыми
понятиями, в равной степени подчиненными
одному родовому.
Сильные парадигматические
отношения:
Перекрещивания – отношения между понятиями,
содержание которых различно, но объемы часто
совпадают.
Противоположности – отношения между
соподчиненными понятиями, которые в своем
содержании имеют несовместимые признаки,
обуславливающие несовпадение объемов.
Противоречия (контрадикторности) – отношения
между соподчиненными понятиями, видовые
признаки которых несовместимы, что
обуславливает несовпадение объемов этих понятий.
Исключают друг друга.
Слабые парадигматические
отношения:
Выражают связи не между понятиями, а между
самими предметами (технологические,
причинно-следственные, системно-элементные и
т.д.).
Целое – часть
Система – элемент
Причина – следствие (отношения детерминации)
Процесс – оборудование
Процесс – материал
Слабые парадигматические
отношения:
Материал – изделие
Изделие – процесс изготовления
Предмет – назначение
Наука – объекты изучения
Наука – представители
Синтаксический уровень
Синтагматические отношения
(синтаксические, грамматические, текстуальные)
– отношения устанавливающие правила
образования и правила интерпретации ИПЯ.
Правила образования устанавливают какие
комбинации элементарных символов
допускаются при построении слов и выражений.
Правила интерпретации – как надлежит
понимать эти слова и выражения.
Грамматика ИПЯ
Это средства выражения синтагматических
отношений.
Включают: средства для выражения основного
смыслового содержания документа и смысла
любого информационного запроса.
Свойства:
 Однозначность
 Возможность алгоритмизации
Характеристики ИПЯ
Семантическая сила – возможность передавать
полно и точно содержание сообщений.
Простота лексики и грамматики.
При разработке ИПЯ учитываются:
 Специфика отрасли или предмета
 Особенности текстов, образующих поисковый
массив
 Характер информационных запросов
Требования к ИПЯ
Однозначность, точность и
недвусмысленность семантики.
Большая семантическая сила.
Простота и немногочисленность
грамматических средств.
Удобство в использовании.
Типы и виды ИПЯ
В основу классификации положены три
видообразующих признака, учитывающих
структурные элементы языка: лексику,
парадигматику и синтагматику.
К этим признакам относится:
Способ задания лексических единиц.
Способ координации (сочетания) лексических
единиц.
Способ учета парадигматических отношений.
По способу задания
лексических единиц
Контролируемые
Неконтролируемые
Контролируемые ИПЯ – лексика задается заранее
с помощью словарей и таблиц.
ББК – библиотечно-библиографическая
классификация.
УДК – унифицированная десятичная
классификация.
Неконтролируемые ИПЯ – лексика задается на
основе выбора неограниченного множества
терминов естественного языка из индексируемых
сообщений.
По способу
координации
лексических единиц
Некоординируемые
Координируемые
Некоординируемые ИПЯ – языки, не допускающие
координации лексических единиц ни в процессе
индексирования, ни в процессе поиска.
Координируемые ИПЯ – языки, лексические единицы
которых координируются либо в процессе
индексирования, либо в процессе поиска.
Предкоординируемые – устанавливают порядок записи
лексических единиц в процессе индексирования по
заранее оговоренным правилам и предусматривается их
жесткая последовательность.
Посткоординируемые – лексические единицы задаются в
процессе индексирования и сочетаются между собой
только в процессе поиска.
По способу учета
парадигматических
отношений
Иерархические
Фасетные
Неиерархические
Языки иерархической структуры
Представляют систему классов, по которым
распределяются понятия на основании наиболее
существенных признаков, присущих этим
понятиям и отличающих их друг от друга.
Класс – совокупность объектов, имеющих один
или несколько общих содержательных признаков.
Недостаток: невозможность организации
внеиерархических связей.
Языки иерархической структуры
1. Документы
1.1 Иконические
1.2 Идеографические
1.3 Текстовые
1.3.1 Первичные
1.3.1.1 Неопубликованные
1.3.1.2 Опубликованные
1.3.2 Вторичные
Скачать