1. Основные понятия дисциплины «МИР»: информационный ресурс, документ, информация, сведения, данные, формат данных, структура данных, типы данных. Информационные ресурсы – это отдельные документы, массивы документов, которые входят в состав информационных систем. Документ – это материальный объект с зафиксированной на нем информацией, предназначенный для передачи во времени и пространстве в целях хранения и общественного использования. Информация – это сведения, независимо от формы их представления, усваиваемые субъектом в форме знаний. Сведения - это набор сигналов физических процессов воспринимаемых субъектом через органы его чувств. (Субъектом может быть человек или машина, которая предназначена для восприятия сигналов). Cведения, полученные путём измерения, наблюдения, логических или арифметических операций представленные в форме, пригодной для хранения, передачи и обработки называются данными. Данные различаются по: 1. Формату данных – характеристика данных, способствующая оптимальному их использованию и определяющая структуру и способ их хранения, диапазон возможных значений и допустимые операции, которые можно выполнять над этими данными. (Графический документ, электронный формат и т.д.) 2. Структуре данных – это организационная схема, в соответствии с которой данные упорядочены с тем, чтобы их можно было максимально эффективно интерпретировать или выполнять над ними различные операции. Виды данных Ниже приведено несколько классификаций. Реляционные данные - это данные из реляционных баз (таблиц). Многомерные данные - это данные, представленные в многомерных кубах OLAP. Измерение (dimension) или ось - в многомерных данных - это собрание данных одного и того же типа. Измерения позволяют структурировать многомерную базу данных. По критерию постоянства своих значений в ходе решения задачи данные могут быть: переменными; постоянными; условно-постоянными. Переменные данные - это такие данные, которые изменяют свои значения в процессе решения задачи. Постоянные данные - это такие данные, которые сохраняют свои значения в процессе решения задачи (математические константы, координаты неподвижных объектов) и не зависят от внешних факторов. Условно-постоянные данные - это такие данные, которые могут иногда изменять свои значения, но эти изменения не зависят от процесса решения задачи, а определяются внешними факторами. Данные, в зависимости от тех функций, которые они выполняют, могут быть справочными, оперативными, архивными. Следует различать данные за период и точечные данные. Эти различия важны при проектировании системы сбора информации, а также в процессе измерений. Данные за период характеризуют некоторый период времени. Примером данных за период могут быть: прибыль предприятия за месяц, средняя температура за месяц. Точечные данные представляют значение некоторой переменной в конкретный момент времени. Пример точечных данных: остаток на счете на первое число месяца, температура в восемь часов утра. Данные бывают первичными и вторичными (агрегированными). Вторичные данные - это данные, которые являются результатом определенных вычислений, примененных к первичным данным. Вторичные данные, как правило, приводят к ускоренному получению ответа на запрос пользователя за счет увеличения объема хранимой информации. Метаданные (Metadate) - это данные о данных. В состав метаданных могут входить: каталоги, справочники, реестры. Метаданные содержат сведения о составе данных, содержании, статусе, происхождении, местонахождении, качестве, форматах и формах представления, условиях доступа, приобретения и использования, авторских, имущественных и смежных с ними правах на данные и др. 2. Классификация информационных ресурсов. Классификация Web ресурсов. Мировые информационные ресурсы обычно подразделяются на три сектора: - сектор деловой информации; - сектор научно-технической и специальной информации; - сектор массовой потребительской информации. Сектор деловой информации подразделяется на группы: 1. Биржевая и финансовая информация. Эта информация о котировках ценных бумаг, валютных курсах, учетных ставках, рынках товаров и капиталов. Информация предоставляется биржами, брокерскими компаниями и специальными службами финансовой информации. 2. Статистическая информация: - числовая; - экономическая; - демографическая; - социальная. Эта информация представляется в виде прогнозов, моделей, рядов динамики государственными службами и компаниями, занятыми исследованиями, разработками и консалтингом. 3. Коммерческая информация. Это информация по компаниям, фирмам, корпорациям, направлениям их работы, финансовым состоянием, ценам на продукцию и услуги, связи, сделки и руководителям. 4. Деловые новости в области экономики и бизнеса. Коммерческая информация используется предпринимателями при решении следующих задач: - выбор поставщиков, партнеров и размещение заказов; - при выходе на рынок с новым товаром; - при поиске покупателей; - при слиянии и приобретении компании; - при маркетинговых исследованиях по анализу рынка. Сектор научно-технической и специальной информации включает: документальную, библиографическую, реферативную и полнотекстовую информацию о фундаментальных и прикладных исследованиях и профессиональную информацию для юристов, врачей, инженеров и остальных групп. Сектор массовой потребительской информации включает новости и справочную информацию, потребительскую развлекательную информацию. Web ресурсы (сайты) классифицируются на 2 группы: навигационные сайты (перенаправляют пользователей к конечным сайтам) и конечные (функциональные) сайты (содержат информацию или документы, которые необходимы пользователям). Конечные (или функциональные) сайты Навигационные сайты Кат алоги Поис ковые систеСайты, являющиеся мы Web интерфейсами По рталы сетей Internet Информаци онные (тематическ ие) сайты Корпорат ивные сайты Сайты электр онной комме рции Рис. Схема классификации Web ресурсов Портал – это Web сайт, сочетающий в себе функции навигационного сайта и информационного ресурса по различным темам. Информационные сайты - обеспечивают доступ пользователей к документам определенной тематики. Корпоративные сайты, а так же сайты электронной коммерции – дают доступ к коммерческой информации (информации о товарах, услугах, производителях), а также возможность удаленного заказа, оплаты и приобретения товаров и услуг. Web интерфейс – это сайты, которые через стандартные Web страницы предоставляют доступ к сервисам Internet (электронной почты, телеконференций и другим). 3. Организация поиска информации в мировой сети. Поисковые машины и каталоги. Модели поиска информации. Существует два вида информационных баз данных о web-страницах: поисковые машины и каталоги. Одним из основных способов найти информацию в Internet являются поисковые машины. Поисковые машины периодически посещают web-страницы и заносят информацию о них в гигантские базы данных. Это позволяет пользователю по ключевым словам, найти необходимую информацию. Поисковые машины. Постоянно исследуют сеть с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы. Каталоги: в отличие от поисковых машин в каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Конструкция страниц значения не имеет. Модели поиска информации В настоящее время используется несколько подходов к представлению информации в базах данных для обеспечения последующего поиска этой информации. Рассмотрим два наиболее популярных подхода. Первый базируется на теории множеств, а второй на векторной алгебре. Оба подхода достаточно эффективны на практике, однако у них есть общий недостаток, который следует из основного упрощающего предположения, заключающегося в том, что смысл документа, его основное содержание определяется множеством ключевых слов — терминов и понятий, входящих в него. Конечно же, такие подходы частично ведут к потере содержательных оттенков текстов, зато позволяют выполнять быстрый поиск и группировку документов по формальным признакам. Сегодня эти подходы — самые популярные. Следует заметить, что существуют и другие методы, например семантические, в рамках которых делаются попытки выявить смысл текста за счет анализа грамматики текста, использования баз знаний и различных тезаурусов, отражающих семантические связи между отдельными словами и их группами. Очевидно, что такие подходы требуют больших затрат на поддержку баз знаний и тезаурусов для каждого языка, тематики и вида документов. Булева модель поиска Булева модель является классической и широко используемой моделью представления информации, базирующейся на теории множеств, и, следовательно, моделью информационного поиска, базирующейся на математической логике. Популярность этой модели связана, прежде всего, с простотой ее реализации, позволяющей индексировать и выполнять поиск в массивах документов большого объема. В настоящее время популярным является объединение булевой модели с алгебраической векторно-пространственной моделью представления данных, что обеспечивает, с одной стороны, быстрый поиск с использованием операторов математической логики, а с другой стороны — качественное ранжирование документов, базирующееся на весах входящих в них ключевых слов. В рамках булевой модели документы и запросы представляются в виде множества морфемных основ ключевых слов, будем их в дальнейшем называть термами. Запрос пользователя представляет собой логическое выражение, в котором ключевые слова (термы запроса) связаны логическими операторами AND, OR и NOT. В различных поисковых системах в интернет пользователи могут пользоваться умолчаниями, не используя в явном виде логических операций, а просто перечисляя ключевые слова. Чаще всего по умолчанию предполагается, что все ключевые слова соединяются логической операцией AND — в этих случаях в результаты поиска включаются только те документы, которые содержат одновременно все ключевые слова запроса. В тех системах, в которых пробел между словами приравнивается к оператору OR, в результаты поиска включаются документы, в которые входит хотя бы одно из ключевых слов запроса. При использовании булевой модели база данных включает индекс, организуемый в виде инвертированного массива, в котором для каждого терма из словаря базы данных содержится список документов, в которых этот терм встречается. В индексе могут храниться также значения частоты вхождения данного терма в каждом документе, что позволяет сортировать список по убыванию частоты вхождения. Классическая база данных, соответствующая булевой модели, организована таким образом, чтобы по каждому терму можно было быстро получить доступ к соответствующему списку документов. Кроме того, структура инвертированного массива обеспечивает его быструю модификацию при включении в базу данных новых документов. В связи с этими требованиями, инвертированный массив часто реализуется в виде В-дерева. Векторно-пространственная модель Большинство известных информационно-поисковых систем и систем классификации информации в той или иной мере основываются на использовании векторной модели описания данных (Vector Space Model). Векторная модель является классической алгебраической моделью. В рамках этой модели документ описывается вектором в некотором евклидовом пространстве, в котором каждому используемому в документе терму ставится в соответствие его весовой коэффициент (значимость), который определяется на основе статистической информации о его вхождении в отдельном документе или в документальном массиве. Описание запроса, который соответствует необходимой пользователю тематике, также представляет собой вектор в том же евклидовом пространстве термов. В результате для оценки близости запроса и документа используется скалярное произведение соответствующих векторов описания тематики и документа. Векторно-пространственная модель представления данных автоматически обеспечивает системам, построенным на ее основе, такие возможности: • обработку сколь угодно больших запросов; • простую реализацию режима поиска документов, подобных уже найденным; • сохранение результатов поиска в некотором виртуальном массиве с последующим уточняющим поиском в нем. Гибридные модели поиска Несмотря на то, что приведенные выше модели являются классическими, в чистом виде они применяются только в моделях систем. На практике чаще всего ис- пользуются гибридные подходы, в которых объединены возможности булевой и векторно-пространственной моделей и зачастую добавлены оригинальные методы семантической обработки информации. Чаще всего в информационно-поисковых системах процедура поиска выполняется в соответствии с булевой моделью, а результаты ранжируются по весам в соответствии с моделью векторного пространства. 4 Организация хранения данных: данные в реляционных хранилищах, многомерное хранение данных, хранилища данных. Компоненты хранилищ данных. Термин "OLAP" неразрывно связан с термином "хранилище данных" (Data Warehouse). Приведем определение, сформулированное "отцом-основателем" хранилищ данных Биллом Инмоном: "Хранилище данных - это предметно-ориентированное, привязанное ко времени и неизменяемое собрание данных для поддержки процесса принятия управляющих решений". Чтобы обеспечить анализ накопленной информации, организации создают хранилища данных - интегрированные коллекции сведений из различных оперативных систем. Эти хранилища - основа построения систем принятия решений. Хранилищам данных свойственны следующие черты. Предметная ориентированность. Информация в хранилище организована в соответствии с основными аспектами деятельности предприятия (заказчики, продажи, склад и т. п.); это отличает хранилище данных от оперативной БД, где данные организованы в соответствии с процессами (выписка счетов, отгрузка товара и т. п.). Предметная организация данных способствует как упрощению анализа, так и повышению скорости выполнения аналитических запросов. Интегрированность. Обычно оперативные БД хранят неинтегрированные данные. Семантически одни и те же данные в разных базах могут быть выражены в разных единицах измерения. Кроме того, данные могут быть закодированы поразному (например, логическое значение «Истина» может храниться как 1, -1, .Т, или как-то еще). Такие данные практически непригодны для анализа конечным пользователем. При загрузке в хранилище данные должны быть проверены, очищены и приведены к единому виду. Анализировать такие интегрированные данные намного проще. Привязка ко времени. Данные, выбранные их оперативных БД, накапливаются в хранилище в виде «исторических слоев», каждый из которых относится к конкретному периоду времени. Это позволяет анализировать тенденции в развитии бизнеса. С технической точки зрения привязка ко времени означает, что таблицы в явном виде имеют в своем составе «временной ключ» либо данные распределены по нескольким таблицам, каждая из которых относится к определенному времен ному периоду (году, кварталу и т. п.). Неизменяемость. Попав в хранилище, данные «залегают» в свой «исторический слой» и уже никогда не меняются. Это еще одно отличие хранилища от оперативной БД, в которой данные постоянно меняются, «дышат», и один и тот же запрос, выполненный дважды с интервалом в 10 минут, может дать разные результаты. Стабильность данных облегчает их анализ. Эти свойства сформулировал «отец-основатель» хранилищ данных Билл Инмон (Bill Inmon) в книге «Building the Data Warehouse» в 1992 году. Зачем строить хранилища данных - ведь они содержат заведомо избыточную информацию, которая и так "живет" в базах или файлах оперативных систем? Ответить можно кратко: анализировать данные оперативных систем напрямую невозможно или очень затруднительно. Это объясняется различными причинами, в том числе разрозненностью данных, хранением их в форматах различных СУБД и в разных "уголках" корпоративной сети. Но даже если на предприятии все данные хранятся на центральном сервере БД (что бывает крайне редко), аналитик почти наверняка не разберется в их сложных, подчас запутанных структурах. Автор имеет достаточно печальный опыт попыток "накормить" голодных аналитиков "сырыми" данными из оперативных систем - им это оказалось "не по зубам". Таким образом, задача хранилища - предоставить "сырье" для анализа в одном месте и в простой, понятной структуре. Ральф Кимбалл в предисловии к своей книге "The Data Warehouse Toolkit" пишет, что если по прочтении всей книги читатель поймет только одну вещь, а именно: структура хранилища должна быть простой, - автор будет считать свою задачу выполненной. Есть и еще одна причина, оправдывающая появление отдельного хранилища сложные аналитические запросы к оперативной информации тормозят текущую работу компании, надолго блокируя таблицы и захватывая ресурсы сервера. На мой взгляд, под хранилищем можно понимать не обязательно гигантское скопление данных - главное, чтобы оно было удобно для анализа. Вообще говоря, для маленьких хранилищ предназначается отдельный термин - Data Marts (киоски данных), но в нашей российской практике его не часто услышишь. Основные компоненты - Основные компоненты хранилища данных таковы (рис. 9-4): - оперативные источники данных; - средства переноса и трансформации данных; - метаданные; - реляционное хранилище; - OLAP-хранилище; - средства доступа и анализа данных. Рис. Структура хранилища данных. 5. Визуализация многомерных данных в виде табличных представлений. “Срезы” многомерных кубов. В хранилищах данные представляются в виде многомерных кубов. Рис. Пример куба В качестве мер в трехмерном кубе, изображенном на рисунке, использованы суммы продаж, а в качестве измерений - время, товар и магазин. Измерения представлены на определенных уровнях группировки: товары группируются по категориям, магазины - по странам, а данные о времени совершения операций - по месяцам. Даже трехмерный куб сложно отобразить на экране компьютера так, чтобы были видны значения интересующих мер. Что уж говорить о кубах с количеством измерений, большим трех? Для визуализации данных, хранящихся в кубе, применяются, как правило, привычные двумерные табличные, представления, имеющие сложные иерархические заголовки строк и столбцов. Двумерное представление куба можно получить, "разрезав" его поперек одной или нескольких осей (измерений): мы фиксируем значения всех измерений, кроме двух, - и получаем обычную двумерную таблицу. В горизонтальной оси таблицы (заголовки столбцов) представлено одно измерение, в вертикальной (заголовки строк) - другое, а в ячейках таблицы - значения мер. При этом набор мер фактически рассматривается как одно из измерений - мы либо выбираем для показа одну меру (и тогда можем разместить в заголовках строк и столбцов два измерения), либо показываем несколько мер (и тогда одну из осей таблицы займут названия мер, а другую - значения единственного "неразрезанного" измерения). На рисунке изображен пример двумерного среза куба для одной меры - Продано штук и двух "неразрезанных" измерений - Страна и Время. Рис. Двумерный срез куба для одной меры На следующем рисунке представлено лишь одно "неразрезанное" измерение Страна, но зато здесь отображаются значения нескольких мер - продано штук, сумма продажи и расходы магазина. Рис. Двумерный срез куба для нескольких мер Двумерное представление куба возможно и тогда, когда "неразрезанными" остаются и более двух измерений. При этом на осях среза (строках и столбцах) будут размещены два или более измерений "разрезаемого" куба: Рис. Двумерный срез куба с несколькими измерениями на одной оси 6. Модели данных для индексации текстовых и графических информационных ресурсов. База данных информационно-поисковых систем традиционной архитектуры состоит из следующих основных таблиц: текстовой, содержащей текстовую часть всех документов; • таблицы указателей текстов, включающей указатели местонахождения документов в текстовой таблице, а заодно и форматные поля всех документов; • словарной, содержащей все уникальные слова, встречающиеся в полях документов, т.е. те слова, по которым может осуществляться поиск. Слова могут быть связаны в синонимические цепочки; • инверсной, содержащей списки номеров документов и координаты всех вхождений отдельных слов в полях документов. Основными типами ресурсов в Интернет являются: форматированный текст (для форматирования используется HTML код), графические изображения (форматы: JPEG, GIF, PNG, SWF), аудио файлы (форматы: WAV, MIDI, MP3, RA), видео. Ресурс любого из этих типов может стать объектом поиска. Поэтому под информационным ресурсом можно понимать некий файл, имеющий внутреннюю структуру согласно спецификации одного из объявленных типов и находящийся на специальном сервере (информационный источник) в Интернет. Для организации поиска информации в сети Интернет в Поисковых системах предусмотрена подсистема индексации, которая периодически просматривает ресурсы Интернет и осуществляет выборку страниц, подлежащих индексации. В зависимости от реализации системы, ресурсы могут выбираться либо из списка (указанного пользователем) либо искаться поисковым роботом произвольным образом. Загруженные страницы подлежат разбору, в результате которого осуществляется выбор конструктивных элементов (содержащих наиболее информативные данные о данном ресурсе). Собранная информация сохраняется в базе данных. Кроме того, система индексирования должна обеспечивает переиндексацию (обновление информации) ресурсов, поскольку ресурсы в сети со временем могут изменяться. Важно знать, какие параметры необходимы для индексации ресурса. Для графических данных это, прежде всего, высота и ширина изображения, тип изображения и его размер (это технические параметры изображения, которые никак не отражают его содержание). Наиболее важными являются параметры, отражающие тематическую принадлежность изображения. В первую очередь – это имя изображения. Имя, в случае его осмысленности, наилучшим образом отражает содержание изображения. Следующим показателем может служить имя страницы, на которой найдено изображение и заголовок этой страницы (тэг TITLE). Еще одним параметром является поясняющий текст для рисунка. В случае наличия элемента ALT в тэге IMG, поясняющий текст может послужить хорошим материалом для поиска. Таким образом, индексации должны подлежать следующие параметры: 1) Название файла изображения; 2) Тип изображения (тип файла); 3) Имя изображения; 4) Адрес к изображению– URL; 5) Размер изображения (высота и ширина); 6) Имя страницы, на которой найдено изображение и заголовок этой страницы (тэг TITLE); 7) Поясняющий текст под изображением – ALT. 7 Релевантность, пертинентность и критерий выдачи документов в информационном поиске. Для оценки удовлетворения информационных потребностей в теории научнотехнической информации введены меры релевантности и пертинентности. Под релевантностью понимается соответствие выдачи запросу, т.е. релевантность характеризует качество алгоритма поиска. Целью ИПС является выдача документов, релевантных (семантически соответствующих) запросу (поанглийски relevant - относящийся к делу). Различают релевантность содержательную и формальную. Релевантность содержательная (пертинентность) трактуется как соответствие документа информационному запросу, определяемое неформальным путем (желание пользователя), а релевантность формальная - как соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа, на основании применяемого в информационнопоисковой системе. Критерий выдачи - формальное правило, совокупность признаков, по которым принимается решение о выдаче/невыдаче некоторого документа в ответ на информационный запрос. В автоматизированных системах поиск основан на формальной релевантности, содержательная релевантность в них определяется, например, путем экспертных оценок и используется для получения данных об эффективности информационного поиска в системе (качестве ее работы). В качестве критерия выдачи может быть выбрано полное совпадение поисковых образов документа и запроса, включение множества ключевых слов запроса во множество ключевых слов документа, пересечение этих множеств и др. Идеальная ИПС должна выдавать документы, содержательно релевантные запросу, и ничего кроме них. Однако на практике это обычно не достигается, наблюдаются молчание ИПС (невыдача некоторого количества релевантных документов) и шум (выдача лишних документов). Массив документов разделяется на выданные и невыданные - по одному критерию, и на релевантные и нерелевантные по другому. Таким образом, для каждого запроса получаем 4 группы документов: Соотношение количества документов в каждой из этих групп определяет эффективность информационного поиска. Для оценки эффективности используют различные характеристики. Наиболее часто оценивают полноту и точность. Полнота РВ РВ 100% , Точность 100% РВ РН РВ НВ