П.А.Калантаев. Функции семантической обработки данных

реклама
УДК 528.854.4
П.А. Калантаев
ИВМиМГ СО РАН, Новосибирск
ФУНКЦИИ СЕМАНТИЧЕСКОЙ ОБРАБОТКИ ДАННЫХ
КОСМИЧЕСКОГО МОНИТОРИНГА
1. Введение
ГИС интерфейс стал стандартом де-факто в системах мониторинга
различного назначения и масштаба. Но кроме видимой части, собственно
интерфейса, ГИС является также инструментом добывания, обработки,
упорядочивания данных, информации и знаний по той предметной области, для
которой предназначена конкретная система мониторинга. Современные ГИС
создают модельную среду, достаточную для моделирования различных
процессов и подготовки решений по мониторингу окружающей среды,
физических
явлений
или
сложных
пространственных
объектов.
Технологические
наборы
разнородных
данных
ГИС
(текстовых,
мультиспектральных изображений, аудио, видео), включая данные ДЗЗ о
природных явлениях и состоянии окружающей среды, могут рассматриваться
как объектно-ориентированная база данных, подчиняющаяся заданным
семантическим правилам и записанная в соответствии с заданным синтаксисом.
Семантика опирается на то, что любой картографический объект обладает, как
пространственно-геометрическими, так и функционально-описательными
свойствами. Между объектами могут существовать связи различного типа,
позволяющие смоделировать сколь угодно сложную сущность реального мира.
С ростом WWW возникает необходимость новых способов организации
информации. Новый стандарт Semantic Web [3] улучшает методы поиска, за
счет новой структуры запросов геопространственного поиска, основанного на
семантике пространственных и терминологических онтологий [3].
2. Понятия
Для целей и задач геокосмического мониторинга наиболее подходит
определение свойств информации из области информатики:
Семантика – свойство, определяющее смысл информации как
соответствие сигнала реальному миру. Так, семантика сигнала “ЭВМ”
заключается в его определении на естественном и формальном языках.
Семантика может рассматриваться как некоторое соглашение, известное
потребителю информации, о том, что означает каждый сигнал (так называемое
правило интерпретации);
Синтаксис – свойство, определяющее способ представления информации
на носителе (в сигнале). К характеристикам синтаксического свойства относят
2
такие параметры представления информации, как тип кода (символьный,
числовой), вид данных (текстовые, изображения, аудио, видео), характеристики
данных заданного типа и вида применительно к стандартным устройствам
ввода-вывода-визуализации и т.д.;
Прагматика – свойство, определяющее влияние информации на
поведение потребителя.
Различные по синтаксису сигналы могут иметь одинаковую семантику.
Например, сигналы “спутник” и “сателлит” означают космический аппарат на
орбите. В этом случае обычно говорят о синонимии сигналов. С другой
стороны, один сигнал (т.е., информация с одним синтаксическим свойством)
может иметь разную прагматику для потребителей и разную семантику. В то
же время, сигнал “ключ” может иметь разную семантику: скрипичный ключ,
родниковый ключ, ключ для открытия замка, ключ, используемый в
информатике для кодирования сигнала с целью его защиты от
несанкционированного доступа (в этом случае говорят об омонимии сигнала).
Есть сигналы - антонимы, имеющие противоположную семантику. Например,
"холодный" и "горячий", "быстрый" и "медленный" и т.д.
Содержательность
–
семантическая
емкость
информации.
Рассчитывается как отношение количества семантической информации к ее
количеству в геометрической мере. Это характеристика сигнала, про который
говорят, что «мыслям в нем тесно, а словам просторно». Что по сути означает
степень сжатия информации на основе ее семантики. В целях увеличения
содержательности сигнала “прогноз погоды”, например, представляют не
всевозможные варианты прогноза, а наиболее вероятные (на основе
обобщенных метео-данных) прогнозы на день, ночь, сутки и т.д..
Cемантический подход в измерении информации. Учитывает
целесообразность и полезность информации. Применяется при оценке
эффективности получаемой информации и ее соответствия реальности.
Онтология - это попытка всеобьемлющей и детальной формализации
некоторой области знаний с помощью концептуальной схемы. Обычно такая
схема состоит из иерархической структуры данных, содержащей все
релевантные классы объектов, их связи и правила (теоремы, ограничения),
принятые в этой области. Онтологии применяются в искусственном интеллекте,
Semantic Web и технологии программирования как форма представления знаний
о реальном мире или его части. Типы онтологий в точных науках:
Мета-онтологии - описывают наиболее общие понятия, которые не
зависят от предметных областей.
Онтология предметной области - формальное описание предметной
области, обычно применяется для того, чтобы уточнить понятия определённые в
мета-онтологии
(если
используется)
и/или
определить
общую
терминологическую базу предметной области.
Онтология конкретной задачи - онтология, определяющая общую
терминологическую базу задачи, проблемы.
3
Сетевые онтологии часто используют для описания конечных
результатов действий, выполняемых объектами предметной области или задачи.
Модель онтологии:
Формально онтология определяется как O = <X,R,F>, где
X - конечное множество понятий предметной области,
R - конечное множество отношений между понятиями,
F - конечное множество функций интерпретации.
Фактографическая база данных - база данных, содержащая
информацию, относящуюся непосредственно к предметной области.
Информационно-поисковая система (ИПС) - система, выполняющая
функции хранения больших объемов информации, быстрого поиска,
редактирования
и вывода информации в удобном для человека виде.
Различают: - автоматизированные (computerised); - библиографические
(reference); - диалоговые (online); - документальные и фактографические
информационно-поисковые системы.
Информационно-поисковый тезаурус - словарь дескрипторного
информационно-поискового
языка
с
зафиксированными
в
нем
парадигматическими отношениями лексических единиц. Тезаурус содержит
список ключевых слов, которыми может быть охарактеризовано содержание
документов, с выделением слов, рекомендованных для индексирования
(дескрипторов). Парадигматические отношения указывают общность или
противопоставление значений и использования лексических единиц. Обычно
информационно-поисковые тезаурусы оформляются в виде книг. В
соответствии с тематическим профилем различают многоотраслевые,
отраслевые и узкотематические тезаурусы.
Информационный поиск - в широком смысле - последовательность
операций, направленных на предоставление информации заинтересованным
лицам. В общем случае информационный поиск состоит из четырех этапов:
-1- уточнение информационной потребности и формулировка запроса;
-2- определение совокупности держателей информационных массивов;
-3- извлечение информации из информационных массивов;
-4- ознакомление пользователя с полученной информацией и оценка
результатов поиска.
Смысл высказывания - содержание речевого произведения в
конкретной ситуации; результат взаимодействия семантической и
ситуационной информации.
Лексическая единица - слово, устойчивое словосочетание или другая
единица языка, способная обозначать предметы, явления, их признаки и т.п.
Значение лексическое, та часть семантического состава слова, которая в
противоположность грамматическому значению целых классов и категорий
слов присуща лишь данной лексической единице.
4
3. Определение семантического каталога базы данных
Систематические наблюдения природных явлений (ПЯ) зачастую
представлены разнотипными и несоизмеримыми данными, сопровождаемыми
легендами-описаниями в терминах прикладного значения. Легенды-описания
данных дают естественную семантическую основу организации БД. Семантика
- раздел языкознания и логики, исследующий проблемы, связанные со смыслом,
значением и интерпретацией лексических единиц. Соответственно этому
классическому определению семантический каталог обеспечивает организацию
БД на основе логики, смысла, значения и интерпретации лексических единиц
природных явлений.
Семантический каталог базы данных природных явлений - это система
выдачи осмысленных ответов на поисковые запросы пользователей [4]. В
проекте, на основе клиент-серверной Web-технологии, обеспечиваются три типа
запросов
к
распределённой
БД
ПЯ:
-навигационные,
-пространственные и -интеллектуальные. База данных ПЯ может быть
закрытой -корпоративной и распределена на Web-серверах как локальной так и
глобальной сети.
Навигационный
запрос формируется Web-клиентом в виде строки
ключевых слов. В ответ на запрос сервер БД формирует Web-страницу со
списком сетевых адресов размещения объектов БД;
Пространственный запрос формируется Web-клиентом в виде строки с
адресом и (или) координатами географического объекта. В ответ на запрос
сервер БД формирует Web-страницу с изображением карты или
аэрокосмического снимка географического объекта;
Интеллектуальный запрос формируется Web-клиентом в виде строки
параметров функции обработки данных БД. В ответ на запрос сервер БД
формирует Web-страницу с результатами обработки данных ПЯ. Допустим (в
проекте), каждый гидрологический пост (Web -клиент) бассейна реки Обь с
заданной периодичностью помещает на центральный Web-сервер показатели
наблюдения.
С той же периодичностью на сервере ведётся расчет
статистических и физических характеристик состояния бассейна Оби,
получаемых руководством (Web-клиентами) по запросу к БД. По запросу, с
использованием цифровых карт и аэро- космо- снимков, на сервере
моделируются 2-х и 3-х мерные сцены текущего состояния бассейна Оби. При
этом центральный сервер БД обеспечивает запрос на автоматическое
оповещение (по E-mail) руководства о критических ситуациях, выявленных в
результате текущего обсчета данных гидрологических постов, предоставляя
разнотипные, в том числе мульти-медиа, данные о ситуации ПЯ. На
лабораторном сервере уже функционирует БД ПЯ первой очереди
(http://loi.sscc.ru/DBRL), реализующая навигационные (например, данные по
5
урагану Катрина) и пространственные (например, Web-атлас НСО) запросы
(рис.1.).
Рис.1. Web-интерфейс базы данных природных явлений
4. Cтандарты описания семантики
Гибкая инфраструктура Internet позволяет легко добавлять новые
универсальные услуги, такие как Semantic Web [1], позволяющий описывать
семантику ПЯ в соответствии с отечественным стандартом представления
пространственных данных, включающих информацию об отношениях
объектов. Для проекта Semantic Web разработан метаязык XML (Extensible
Markup Language), предназначенный для создания программных приложений
обмена данными в Web, а также для cмысловой обработки семантики этих
данных. Semantic Web - новое направление развития платформы XML, основу
которого составляет стандарты Resource Definition Framework (RDF) и языка
описания Web -онтологий (OWL Web Ontology Language). Язык OWL
разработан для приложений содержательной обработки информации. В
сравнении с XML, RDF, и RDF Schema (RDF-S), OWL обеспечивает более
полную машинную обработку Web –контента. OWL предоставляет наряду с
формальной семантикой дополнительный терминологический словарь. В RDFспецификации объявляется некоторое множество ресурсов, для каждого из
которых определяются пары "свойство-значение". Описание семантики свойств
6
в RDF называется RDF-схемой. По сути, RDF-схема позволяет определять
онтологию предметной области –природных явлений. Под онтологией
понимается "спецификация концептуализации предметной области". Такая
спецификация представляет собой своего рода словарь понятий предметной
области и совокупность явным образом выраженных предположений
относительно смысла этих понятий. Развитые определения онтологий
формализуются средствами языков логики первого порядка. Они допускают
возможности логического вывода. По проекту, возможности логического
вывода разрабатываются для БД ПЯ второй очереди.
5. Геосемантическая Web модель данных
В настоящее время актуальна разработка на основе Internet-стандарта
Semantic Web новой модели геопространственных данных (geospatial data). Эта
модель должна заменить геореляционную модель данных (georelational data
model), применяемой ныне. Недостаток геореляционной модели данных
(интегрирующей ГИС и реляционную СУБД) –неприспособленность
реляционных таблиц для семантического анализа и полнотекстового поиска в
распределённых атрибутивных БД ГИС. Эти задачи легко исполняются
средствами объектно -ориентированных баз данных XML. Интеграция ГИС и
баз данных XML желательна и возможна.
Эффективные функции
семантического анализа атрибутивных
данных особенно актуальны для
реализации пользовательских запросов
агрегирования данных сети
распределённых ГИС (например сети центров приёма и обработки ДДЗ в РФ).
Условно, ибо термин не устоявшийся, новая модель может быть названа
геосемантическая Web модель данных - Geosemantic Web data model [3]. Чтобы
реализовать идею организации геоинформации средствами Semantic Web,
требуется эффективная распределённая человеко-машинная система, способная
не только визуализировать и представлять данные, но также вести смысловую
обработку данных несоизмеримых типов. Автоматизация распознавания
разнотипных данных требует новой инфраструктуры информационных
определений и правил вывода.
6. Протоколы передачи данных географических Web-сервисов.
В настоящее время появляется все больше различных географических
Web-сервисов (таких как Google Maps), предоставляющих доступ к своей базе
на основе простого протокола передачи геоданных GeoRSS. Подобные
стандартные протоколы позволяют различным Web-сервисам обмениваться
друг с другом информацией. Что делает возможными «гибридные» сервисы,
созданные как смесь (mashup) информации из разных источников. Например, на
базе Google Earth созданы десятки таких «гибридов», а компания Google только
поощряет разработчиков, которые вытягивают из ее базы информацию через
программные интерфейсы. Для экспорта географических координат компания
7
Google разработала формат KML (Keyhole Markup Language). KML похож на
GeoRSS, но имеет много дополнительных «наворотов», таких как передача
углов наклона камеры, стилей и других функций визуализации. Кроме KML и
GeoRSS, существуют и другие стандарты. Например, международный
консорциум Open Geospatial Consortium (OGC) разработал собственный формат
GML, который во многом похож на KML, но он еще более функционален и
сложен.
Консорциум OGC разработал также несколько дополнительных
стандартов, главными из которых являются WFS (Web Feature Service) и WMS
(Web Mapping Service). Например, картографическая программа NASA
Worldwind использует для импорта изображений формат WMS, а в будущем
они планируют реализовать также поддержку WFS.
NASA Worldwind - это единственная среди всех геоплатформ (Google
Earth, Google Maps, Yahoo! Maps, Virtual Earth и др.), где реализованы
стандарты OGC. Впрочем, есть способы для конвертации данных Google Earth в
формат WMS. Существуют сервисы, которые реализовали совместимость
Google Maps со стандартами OGC.
Например, Европейская комиссия создала программу по предсказанию
возможных катаклизмов природы и при помощи U.S. Geological Survey (USGS)
данные публикуются через RSS-канал, на основе стандарта GeoRSS,
позволяющего автоматически пополнять канал новыми данными о эпицентрах
землетрясений фотографиями, текстом и прочей полезной информацией без
человеческого вмешательства. Гугл сделал картографию проще и передал
инструменты MyMaps обычным пользователям, не профессионалам. Теперь
каждый может отметиться на карте “каплей” и прикрепить к ней фотографии,
описание или видео, начиная от любимого кинотеатра и ресторана и заканчивая
фотографиями по маршруту следования с последнего отпуска.
Очевидно, что различные разработчики, включая Google, Microsoft,
Yahoo, Autodesk и других, должны объединить свои усилия и придти, наконец, к
некоему единому стандарту. Это направление исследований освещается в
блогах “Geospatial Semantic Web» ( http://geospatialsemanticweb.com ) и
“Новости поисковой оптимизации” ( http://stakh.com/seoblog ).
7. Заключение
Стратегические перспективы развития платформы XML связаны с
созданием семантического Web. Для достижения этой цели необходимо решить
большой комплекс сложных научно-технических задач. Одна из этих задач, моделирование тематических геоданных на основе Semantic Web, с целью
информационного обеспечения для фундаментальных исследований в области
наук о Земле. Web поддержка онтологий различных предметных областей
геоданных позволяет осуществлять более эффективный поиск требуемой
геоинформации в Web и является важным шагом к поддержке семантической
8
интеграции геоинформационных ресурсов и других возможностей управления
информационными и программными средствами распределённых ГИС и СУБД
природных явлений. Пристальное внимание к онтологиям в последнее время
обусловлено их высокой эффективностью как средства компьютерного
представления сложной деятельности. Более 230 компаний, правительственных
агентств и университетов, входящих в консорциум OGC, участвуют в
согласовании проектов разработки стандартов и требований к обработке
геоданных. Эти стандарты и требования поддерживают взаимодействие
различных систем во всемирной сети, систем мобильной связи и
локализованного
сервиса
(LBS),
способствуют
распространению
информационных технологий (IT) и помогают разработчикам обеспечивать
пользователям доступ к комплексной геопространственной информации и
услугам.
Работа выполнена частично при финансовой поддержке Российского
фонда фундаментальных исследований (проект № 07-07-00085).
Список литературы
1. П.А.Калантаев. Семантическая организация пространственных данных. // В
сборнике трудов Международной Конференции “ИНТЕРКАРТО - ИНТЕРГИС
11Устойчивое развитие территорий: теория ГИС и практический опыт”25 сент.3 окт. 2005 г.,Ставрополь-Домбай-Будапешт, изд-во СГУ, 2005 г., с.92-96.
2. А.А.Бучнев, П.А.Калантаев, В.П.Пяткин. Интернет технологии в обработке
данных дистанционного зондирования Земли // Труды Международного
научного конгресса «ГЕО-Сибирь-2006», 24-28 апреля 2006, Новосибирск,
Россия, т.3, ч.1. «Мониторинг окружающей среды, геоэкология, дистанционные
методы зондирования Земли и фотограмметрия», с. 43-51.
3. Berners-Lee, T., Hendler, J., and Lassila, O. (2001) The Semantic Web: A new
form of Web content that is meaningful tocomputers will unleash a revolution of new
possibilities. The Scientific American 284: 34-43
4. А.Иванов. Принципы организации семантического каталога /
http://mywebsearch.adelite.com/articles/776.html
© П.А. Калантаев, 2007
Скачать