Научный симпозиум «Онтологическое моделирование: состояние и направления исследований и применения» Ontos NOW YOU KNOW 20-21 мая, 2008, Звенигород, Россия Онтологические модели и Semantic Web: откуда и куда мы идем? Хорошевский В.Ф. Вычислительный центр РАН, Россия, 119333, Москва, Вавилова 40 План обсуждения Вместо введения Semantic Web Краткая история вопроса Основные проблемы и приложения-убийцы Онтологические модели и Semantic Web Онтологии: модели и их использование Онтологические проекты Так откуда и куда мы идем? Семантизация контента под управлением онтологий Ситуация в мире Ситуация в России и СНГ Вместо заключения Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 2 Вместо ведения Текущая ситуация: Исследования IDC,- мирового лидера в прогнозных исследованиях,показывают, что к 2008 году количество информации, хранящейся в компьютерных системах, составит 5444 петабайт, притом, что в 2003 году оно было около 831 петабайт, а все, опубликованное человечеством в книгах, составило порядка 200 петабайт. Специалисты отмечают, что, по крайней мере, до 2020 года количество информации и потребности в ней будут расти экспоненциально. И без умения создавать и обрабатывать такие объемы информации ЛПР будущего будут введены в состояние, которое можно назвать «аналитический паралич». Одна из самых больших проблем современного общества: Информационное переполнение, которое, в значительной мере, определяется сетью Интернет как всемирного хранилища, «открывающего» доступ к миллионам и миллиардам различных информационных ресурсов, независимо от их географической и национальной локализации. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 3 Вместо ведения Поиск и использование нужной информации становится все более сложным, трудоемким и неэффективным, несмотря на огромные научно-технические и организационно-финансовые усилия. Мировым сообществом уже осознано направление главного «удара» в борьбе с информационным взрывом – переход от хранения и обработки данных к накоплению и обработке знаний. Один из подходов, в рамках которого для решения вышеуказанной проблемы сейчас сосредоточиваются значительные научнотехнические ресурсы, - переход от классического Интернет (WWW) к семантическому (Semantic Web). Semant ic Web Web 2.0 “The Semantic Web will globalize KR, just as the WWW globalized hypertext” Tim Berners-Lee Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 4 Semantic Web. Краткая история вопроса 2000 г. – концепция Semantic Web (Tim Berners-Lee) Расширение WWW, в рамках которого Web-контент представляется в форматах, обеспечивающих его использование программными агентами, позволяя им искать, разделять и интегрировать информацию значительно легче, чем это происходит сейчас Определение W3C ??? 2007 г. – концепция Semantic Wave (Mills Davis) К 2012 году в 80% общедоступных веб-сайтов будет, в той или иной степени, использоваться семантический гипертекст для создания семантических веб-документов (с вероятностью 0.7), а в 15% общедоступных веб-сайтов будут использоваться развитые вебонтологии для создания семантических баз данных (с вероятностью 0.6) Прогноз Gartner Group Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 5 Semantic Web. Краткая история вопроса Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 6 Semantic Web. Краткая история вопроса «Слоеный пирог» Тима Бернерс-Ли RDF-данные Общая цель, сформулированная W3C: Разработка форматов сериализации данных и интероперабельность приложений Результаты: Разработаны и реализованы рекомендации по форматам XML, Namespace (пространства имен) и RDF, которые в настоящее время существуют на уровне стандартов de facto Результаты перешли из стадии исследований в стадию использования, в том числе и в коммерческих системах Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 7 Semantic Web. Краткая история вопроса «Слоеный пирог» Тима Бернерс-Ли RDF-схемы Цель: Разработка стандартов W3C Результаты: Предложены и поддерживаются W3C стандарты RDF(S), которые позволяют специфицировать словари используемых терминов Разрабатываются соответствующие спецификации для существующих и новых приложений Результаты перешли из стадии исследований в стадию использования, в том числе и в коммерческих системах Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 8 Semantic Web. Краткая история вопроса «Слоеный пирог» Тима Бернерс-Ли Онтологии В этом направлении был достаточно мощный задел в рамках исследований по представлению знаний – общие подходы, конкретные формализмы, языки и системы представления знаний (например, Frame Logics, SHOE и др). Вместе с тем, работа по стандартизации средств представления знаний онтологического уровня далеко не закончена, а создание соответствующих средств онтологического инжиниринга является в настоящее время одной из «горячих точек» в данной области. Основные направления исследований и разработок – создание более мощных средств спецификации онтологий, обеспечивающих вывод на знаниях и проверку целостности знаний, средств поддержки целостности онтологических спецификаций в процессе эволюции как спецификаций самих моделей, так и стандартов, а также средств спецификации перекрестных ссылок между словарями и конвертирования спецификаций. Основные результаты: «Выравнивание» средств спецификации онтологий, разработанных в США (DAML) и в Европе (OIL), до общего формализма (DAML+OIL) Разработка консорциумом W3C стандарта de facto на спецификацию онтологий – языка OWL Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 9 Semantic Web. Краткая история вопроса «Слоеный пирог» Тима Бернерс-Ли Слой правил (Машины вывода) Поиск новых выразительных и простых средств спецификации отношений и средств для спецификации запросов к базам знаний с возможностью фильтрации получаемых результатов, аналогичных SQL Исследования и разработки по теории монотонных и немонотонных систем вывода на правилах, а также работы по созданию новых приложений с использованием технологий типа «webized rule engine technology» Основные результаты: Уже существуют разные системы спецификации правил и требуется их сравнительный анализ, «вебизация» и стандартизация Разработан язык SPARQL, который постепенно стандартом de facto на язык запросов к базам знаний. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 становится Page 10 Semantic Web. Краткая история вопроса «Слоеный пирог» Тима Бернерс-Ли Слой «Подтверждение» (Proof) Ситуация смещается в область фундаментальных исследований. Предлагаются подходы к спецификации аксиом для систем, основанных на правилах. Исследуются различные логики, причем основное внимание уделяется системам, в которых не выполняется аксиома «замкнутого мира». Предлагаются средства валидации доказательств Пока нет основы для стандартизации систем, основанных на правилах, а существующие системы правил легко экспортируются из разных систем, но плохо импортируются в другие системы Слой «Доверие» (Trust) Только формируются направления фундаментальных и прикладных исследований, поскольку все утверждения в Web-среде существуют в некотором контексте и приложения должны учитывать эти контексты, так как нельзя считать, что все факты, полученные из сети, являются истинными Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 11 Semantic Web. Краткая история вопроса Оценивая ситуацию в целом, можно констатировать, что Уже создан базис стандартизации в виде XML-, RDF(S)-, OWL- и SPARQL-спецификаций Активно ведутся исследования по теории Semantic Web В последнее время начаты разработки прикладных интеллектуальных систем, функционирующих в сети Интернет Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 12 Semantic Web. Основные проблемы SW-эра, в отличие от эпохи Интернет, еще только приближается! На этом пути существует значительное число научных, технических, технологических и чисто человеческих проблем, основными из которых являются: Доступность семантического контента; Доступность онтологий и средств их разработки, а также эволюция онтологий; Масштабируемость; Мультиязыковость; Визуализация и стабильность. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 13 Semantic Web. Приложения-убийцы Понимание естественного языка Базы знаний Семантический поиск Экспертные системы Социальные сети Семантические ярлыки Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 14 Онтологические модели и Semantic Web Онтологии: модели и их использование Онтологические проекты Так откуда и куда мы идем? Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 15 Онтологические модели и Semantic Web «Карта» леса Конец 90-х: «Академические исследования» Много докладов о приложениях с «легкими» онтологиями Формирование исследовательского окружения для создания и сопровождения онтологий Первая конференция по онтологиям: FOIS Принципы онтологического инжиниринга Интеграция онтологий (merging & alignment) Зарождение коммерческого интереса: «Директор онтологии» - Лео Обрст (MITRE) Основной промоутер направления – eCommerce Основной технический барьер – отображение предметных областей на онтологии и одних онтологий на другие Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 16 Онтологические модели и Semantic Web «Карта» леса 2000-2001: «Выход в свет» Начало использование термина «онтология» Появление исследовательского инструментария Коммерческий инструментарий в разработке и тестировании Появление концепции «Семантический Веб» Стэнфордский семинар по семантическому Вебу 2002-2003: «Взросление» Выпуск тематических журналов Серия международных конференций Появление коммерческих продуктов Появление стандартов W3C (RDF, RDFS, OWL) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 17 Онтологические модели и Semantic Web «Карта» леса 2004-2007: «Коммерциализация» Всплеск на рынке продуктов и производителей Рапорты о первых семантических приложениях Бизнес-ориентированные конференции и школы Разработка программного обеспечения под управлением онтологий Истории об успешном развертывании систем 2008-20??: «Выход на уровень массового использования» Первые семантические приложения доступны в Интернет ........................................................................................................ Однако еще много технических и социальных проблем Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 18 Онтологические модели. Базисные определения онтологии это БЗ специального типа, которые могут "читаться" и пониматься людьми и программами, отчуждаться от разработчика и\или физически разделяться их пользователями. Под формальной моделью онтологии O будем понимать упорядоченную тройку вида: O = <X >, где X - конечное множество концептов (понятий, терминов) предметной области, которую представляет онтология O; - конечное множество отношений между концептами (понятиями, терминами) заданной предметной области; - конечное множество функций интерпретации (аксиоматизация), заданных на концептах и/или отношениях онтологии O. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 19 Онтологические модели. Классификация Компоненты модели X≠ = Ф= X≠ = Ф≠ Формальное определение V = <Х, {}, {}> X = X1 X2, X1 X2 = , X1 – инт-мые терм, X2 – инт-щие терм. X≠ = {is_a} Ф= T = < X, {is_a}, {}> X≠ ≠ Ф≠ таксономия понятий онтология O = < X, , Ф > $ ( x X1, y1, …, yk X2), что x = f (y1, …, yk ), Vp = < X, {}, {:=}> Va = < X, {}, Ф> Пояснение словник пассивный / активный словарь Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 20 Онтологические модели. Онтологическая система Под формальной моделью онтологической системы o будем понимать триплет вида: o = <Ometa, {Odomain}, inf >, где Ometa - онтология верхнего уровня (мета-онтология) ; Odomain - множество предметных онтологий ; inf - модель машины вывода, ассоциированной с онтологической системой o. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 21 Онтологические модели. Методы и средства спецификации «Сильная» семантика Модальные логики Логики первого порядка Логические теории OWL+RuleML, KIF Дескриптивные логики DAML+OIL, OWL «Выразительность» UML Концептуальные модели Семантическая интероперабельность RDF(S) Таксономии Расширенные ER-диаграммы Тезаурусы Схемы БД, XML-схема ER-диаграммы Реляционные модели, XML «Слабая» семантика Формализация Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Структурная интероперабельность Синтаксическая интероперабельность Согласно Лео Обрсту, MITRE Page 22 Онтологические модели. Средства спецификации В рамках «слоеного пирога» Тима Бернерса-Ли Спецификация запросов к БЗ Спецификация знаний о ПО Спецификация вывода на знаниях Спецификация данных о ПО С сайта http://www.w3.org/2007/Talks/0130-sb-W3CTechSemWeb/layerCake-4.png Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 23 Онтологические модели. Средства спецификации Новые средства семантизации для Semantic Web Microformat Микроформаты (сокр. μF или uF) — часть языка разметки, которая позволяет помечать семантику на Веб-страницах, представленных в HTML или XHTML. Программы могут извлекать данные из Веб-страниц, которые помечены одним или несколькими микроформатами. GRDDL (Gleaning Resource Descriptions from Dialects of Languages) Спецификация GRDDL (подбор описания ресурсов из диалектов языков) вводит разметку для декларации того, что XML-документ содержит «диалектные» данные, а также для привязки этих данных к алгоритмам, обычно представленным как XSLT-преобразование. WSDL (Web Services Description Language) Язык спецификации Веб-сервисов, на базее XML. Каждый WSDLдокумент делится на три логические части: определение типов данных (определение вида отправляемых и получаемых сервисом XMLсообщений), абстрактные операции (список операций, которые могут быть выполнены с сообщениями), связывание сервисов (способ, которым сообщение будет доставлено). Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 24 Использование онтологий. Основные направления Семантизация Web-контента Обработка ЕЯ-текстов Семантический поиск Аналитика на знаниях Приложения для Semantic Web Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 25 Использование онтологий. Семантизация Web-контента Семантизация Web-контента является основной проблемой на пути формирования и использования пространств знаний, так как основная масса информации на Web не представлена в SWформатах и нет надежды, что эта работа может быть выполнена вручную Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 26 Использование онтологий. Обработка ЕЯ-текстов Semantic Web часто связывают с Искусственным Интеллектом, поскольку идея представления информации в структурированном виде таким образом, чтобы компьютеры ее «понимали» и могли решать сложные задачи была и остается одним из краеугольных камней этих направлений исследований и разработок. Понятно, что представление биллионов существующих Веб-страниц, например, в формате RDF – утопия. Альтернатива – обучить компьютеры естественному языку, после чего дополнительное семантическое аннотирование будет ненужным. Однако понимание ЕЯ компьютерами в настоящее время открытая проблема. Поэтому и технологии Семантического Веба пока даже не ставят эту задачу. В качестве паллиатива предлагается: Разметка существующих страниц людьми-аннотаторами. Автоматическая разметка с использованием словарей, тезаурусов и онтологий. Извлечение информации из текстов под управлением онтологий. Разработка систем понимания естественного языка. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 27 Использование онтологий. Семантический поиск Одним из первых кандидатов на приложение «убийцу» в категории Semantic Web был и остается информационный поиск. Сначала поисковая машина Hakia, а недавно и поисковик компании Powerset «проповедуют» идею о том, что семантические поисковики, основанные на понимании ЕЯ, «побьют» Google. Однако пока результаты новых поисковых машин слабее, чем результаты Google, который использует статистические алгоритмы, и чтобы сместить эту компанию с лидирующего положения, которое она занимает последние 8 лет, требуется смена парадигмы поиска и новый опыт использования инновационных подходов к поиску информации. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 28 Использование онтологий. Семантический поиск (hakia) Интернет-поисковик компании hakia Inc. (основана в 2004г.) использует альтернативную инфраструктуру для индексирования на основе алгоритма SemanticRank – решения, которое «идет» от онтологической семантики, нечеткой логики, компьютерной лингвистики и математики. В составе руководства компании такие известные специалисты, как Prof. Victor Raskin (Purdue University) и Prof. Yorick Wilks, (Sheffield University, UK). Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 29 Использование онтологий. Семантический поиск (hakia) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 30 Использование онтологий. Семантический поиск (Powerset) Цель компании Powerset (основана в 2005 г.) в том, чтобы изменить поиск за счет системы понимания ЕЯ. Первый продукт компании – поисковик Powerset открыт в мае 2008 г. для отработки технологии на страницах Wikipedia. По мнению разработчиков, Powerset дает более точные результаты, часто отвечая непосредственно на вопрос, и агрегирует информацию из многих статей Wikipedia. Кроме того, пользователь получает возможность построения дайджестов и навигации по контенту. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 31 Использование онтологий. Семантический поиск (Powerset) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 32 Использование онтологий. Семантический поиск (Exactus) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 33 Использование онтологий. Традиционный поиск (Google) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 34 Использование онтологий. Аналитика на знаниях Модельной задачей, которая хорошо иллюстрирует проблемы аналитики на знаниях, является проблема «отличный отдых» или "Genie in the Bottle“. Если Вы приходите в турагенство и просите организовать отличный отдых, оператор не сможет этого сделать. Почему? Да потому, что для решения этой задачи ему требуются знания о том, где Вы были до этого, кто собирается отдыхать с Вами, что Вы предпочитаете, каков Ваш бюджет и т.д., и т.п. Информация в Semantic Web структурирована. Но это не означает, что компьютер умеет решать сложные задачи и использовать эту информацию правильно. Если у Вас есть карта, это не означает, что Вы знаете наилучший маршрут из пункта A в пункт B. Наличие карты – необходимое, но не достаточное условие. Необходим алгоритм поиска наилучшего пути. А ответы на вопросы «Какой город является столицей Франции?» и «Какой самый лучший рейс сегодня от Нью-Йорка до Парижа?» - совсем разные по сложности задачи. Не говоря уже о более сложных вопросах типа «Где мне следовало бы провести следующий отпуск?». Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 35 Использование онтологий. Приложения для Semantic Web Семантические ярлыки (Semantic Shortcuts) Известные примеры – SnapShots от компании Snap, BlueOrganizer и SmartLinks от компании AdaptiveBlue, Shortcuts от компании Yahoo! и In-text search от компании Lingospot. Общее между всеми этими технологиями то, что здесь используется «легкая» семантика контента для предоставления дополнительной информации. В случае Snap и AdaptiveBlue семантика определяется URL, в то время, как Yahoo! и Lingospot производят анализ текста. Так семантические ярлыки «удаляют» потребность в поиске, обеспечивая нужный Веб-контент прямо на странице, которую просматривает пользователь. Социальные сети (Social Graph) Социальные сети это не Semantic Web, хотя они стимулируют решения и разработки в этой области. Знание о том, как связаны люди, очень важны для решения разных задач. Поэтому социальные сети интересный и значимый тренд 2008 года. Семантическая навигация (Semantic Navigation) Семантическая навигация – одно из тех направлений развития Semantic Web, которое может стать альтернативой семантическому поиску. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 36 Онтологические проекты От AI к SW Инициатива (KA)2 – Knowledge Acquisition Initiative of the Knowledge Acquisition Community Проект SHOE – Simple HTML Ontology Extensions Из IT к SW Freebase Microformat «Игроки» из ST для SW Protégé (Stanford, USA) NeOn (6FP, International project) …. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 37 Онтологические проекты. От AI к SW: Инициатива (KA)2 Аннотация знаний сообществом приобретения знаний Цель работ по этому международному проекту (1996-1999): интеллектуальный поиск в среде Интернет и автоматическое накопление новых знаний. В рамках инициативы (KA)2 было три основных направления исследований: Онтологический инжиниринг; Аннотация Web-страниц и Запросы к информации на Web-страницах и вывод ответов на базе онтологических знаний. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 38 Онтологические проекты. От AI к SW: Инициатива (KA)2 Проект Ontobroker [рук. - Fensel] (интересен с точки зрения средств представления и обработки онтологических знаний) Подсистемы Ontobroker: Интерфейс формулирования запросов (query interface), Машина вывода ответов (inference engine) и Машина доступа к Интернет-ресурсам - Webcrawler для накопления требуемых знаний из этой среды. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 39 Онтологические проекты. От AI к SW: Инициатива (KA)2 Формализм запросов Ontobroker ориентирован на фреймовое представление онтологий, в рамках которого определены понятия экземпляров, классов, атрибутов и значений. O:C[A->>V] – объект O является экземпляром класса C с атрибутом A, имеющим значение V Примеры: FORALL Obj, FN, EM <Obj:Researcher [firstName->>FN; lastName->>"Иванов"; email->>EM] Obj = http://www.anywhere.ru/~ivanov/ FN = Иван EM = mailto:ivanov@anywhere.ru FORALL Obj,CP <- Obj:Researcher [lastName ->>"Иванов"; cooperatesWith->>CP] FORALL Att, T <- Researcher [Att=>>T] Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 40 Онтологические проекты. От AI к SW: Инициатива (KA)2 Формализм представления и машина вывода Ontobroker Онтология определяется через концепты (классы), связанные отношениями, атрибуты и аксиомы. В Ontobroker базисом представления являются так называемые логики фреймов (Frame-Logic) Базисные конструкции: Подклассы (Subclassing) - C1 :: C2 (класс C1 является подклассом C2). Экземпляры (Instance of) - O : C (O является экземпляром класса C). Декларации атрибутов (Attribute Declaration) - C1[A=>>C2] (для экземпляра класса C1 определен атрибут A, значением которого должен быть экземпляр C2). Значения атрибутов (Attribute Value) - запись O[A->>V] (экземпляр O имеет атрибут A со значением V). Часть-целое (Part-of) - запись O1 <: O2 (O1 является частью O2). Отношения (Relations) - предикаты вида p(a1,...,a2) могут использоваться, как и в обычных логических формализмах, но с тем расширением, что в качестве аргументов здесь могут выступать не только термы, но и выражения. Из базисных конструкций строятся более сложные - факты (facts), правила (rules), "двойные" правила (double rules) и запросы (queries). Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 41 Онтологические проекты. От AI к SW: Инициатива (KA)2 Пример фрагмента онтологии в формализме Ontobroker Определения атрибутов Person [firstName =>> STRING; lastName =>> STRING; eMail =>> STRING; ... publication =>> Publication]. Employee [affiliation =>> Organization; ...]. Researcher [researchInterest =>> ResearchTopic; memberOf =>> ResearchGroup; cooperatesWith =>> Researcher]. Publication [ author =>> Person; title =>> STRING; year =>> NUMBER; abstract =>> STRING]. Правила FORALL Person1, Person2 Person1:Researcher [cooperatesWith ->> Person2] <Person2:Researcher [cooperatesWith ->> Person1]. FORALL Person1, Publication1 Publication1:Publication [author ->> Person1] <-> Person1:Person [publication ->> Publication1]. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 42 Онтологические проекты. От AI к SW (Проект SHOE) Проект SHOE (1997-1999) был ориентирован на решение проблемы добавления к Web-страницам семантической информации и соотнесения ее с онтологиями соответствующих предметных областей. Основные направления исследований: Разработка множества повторно используемых онтологий (reusable ontologies) для концептов, которые наиболее частотны для Web-ресурсов Создание средств проектирования онтологий аннотаторов знаний (Knowledge Annotator), которые бы упростили этот процесс Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 43 Онтологические проекты. От AI к SW (Проект SHOE) Формализм представления и машина вывода SHOE по своей идее близок к инициативе (KA)2 . Концепция языка представления знаний здесь лежит в русле расширения HTML специальными тэгами. Основное отличие языка SHOE в том, что здесь предлагается "полномасштабное" расширение HTML. Для этого SHOE вводит в HTML-стандарт следующие новые тэги для спецификации онтологий: ONTOLOGY, USE-ONTOLOGY, DEF-CATEGORY, DEF-RELATION, DEF-ARG, DEF-RENAME, DEF-CONSTANT, DEF-TYPE, DEFINFERENCE, INF-IF, INF-THEN,COMPARISON, CATEGORY, RELATION, ARG и др. Для аннотирования HTML-документов, кроме того, вводятся новые тэги INSTANCE, мета тэг <META HTTP-EQUIV =…"> и др. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 44 Онтологические проекты. От AI к SW (Проект SHOE) Общая схема определения онтологии: <ONTOLOGY ID="идентификатор-онтологии" VERSION="версия" [BACKWARD-COMPATIBLE-WITH="список-версий"] [DESCRIPTION="текст"] [DECLARATORS="список-деклар.-экземпляров"]> собственно-декларация-онтологии </ONTOLOGY> Данная онтология может расширять другую: <USE-ONTOLOGY ID=" идентификатор-онтологии" VERSION="версия" PREFIX="префикс" [URL="URL"]> Внутри определения онтологи могут специфицироваться новые категории: <DEF-CATEGORY NAME="имя-категории" [ISA="список-родительских-категорий"] [DESCRIPTION="текст"] [SHORT="текст"]> Аналогичный подход применяется и для определения отношений: <DEF-RELATION NAME="имя-отношения" [DESCRIPTION="текст"] [SHORT="текст"]> список-аргументов </DEF-RELATION> Определение правил вывода: <DEF-INFERENCE [DESCRIPTION="текст"]> <INF-IF> тело </INF-IF> <INF-THEN> голова </INF-THEN> </DEF-INFERENCE> Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 45 Онтологические проекты. От AI к SW (Проект SHOE) Фрагмент онтологии в формализме SHOE: <ONTOLOGY ID="HomePageOntology" VERSION="1.0"> <ONTOLOGY-EXTENDS "organization-ontology" VERSION="2.1" PREFIX="org" URL="http://www.ont.org/orgont.html"> <ONTDEF CATEGORY="Person" ISA="org.Thing"> <ONTDEF RELATION="lastName" ARGS="Person STRING"> <ONTDEF RELATION="firstName" ARGS="Person STRING"> <ONTDEF RELATION="marriedTo" ARGS="Person Person"> <ONTDEF RELATION="employee" ARGS="org.Organization Person"> …………………………………………………………. </ONTOLOGY> Фрагмент аннотации персональной страницы: <BODY> <META HTTP-EQUIV="Instance" CONTENT="http://www.anywhere.ru/~ivanov"> <USE-ONTOLOGY "HomePageOntology« VERSION="1.0" PREFIX="our" URL="http://www.ont.org/HomePageOntology.html"> <CATEGORY "our.Person"> <RELATION "our.firstName" TO="Ivan"> <RELATION "our.lastName" TO="Ivanov"> <RELATION "our.marriedTo" TO="http://www.somewhere.ru/~Mariya"> <RELATION "our.employee" FROM="http://www.ccas.ru"> ……………………………………………………….. </BODY> Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 46 Онтологические проекты. Из IT к SW (Freebase) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 47 Онтологические проекты. Из IT к SW (Freebase) Что такое Freebase? Структурированные данные (специальная БД) Кооперативно редактируемые каталоги тем Кооперативно формируемая семантика (фольксономии) Открытый API + открытые данные Что «внутри» Freebase? Более 3.3 млн. объектов Примерно 750 000 физических лиц Примерно 450 000 геоимен Примерно 50 000 организаций Примерно 40 000 фильмов Более 1000 типов и 3000 свойств Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 48 Онтологические проекты. Из IT к SW (Freebase) Информация о типах объектов Freebase Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 49 Онтологические проекты. Из IT к SW (Freebase) Спецификация Freebase для объектов типа ФизЛицо Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 50 Онтологические проекты. Из IT к SW (Freebase) Информация о людях (русских) из БД Freebase Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 51 Онтологические проекты. Из IT к SW (Freebase) Создание объектов для погружения в БД Freebase Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 52 Онтологические проекты. Из IT к SW (Freebase) Редактор запросов Freebase Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 53 Онтологические проекты. Из IT к SW (Freebase) Согласно идеологии Freebase Онтология это НЕ ЭТО Магия Панацея Изменение мира Артефакт API Социальный контент Разработчики Freebase вводят понятие – семантика «участия» (совместная семантика), иллюстрируя его следующим образом: (Автор) Формальная онтология (Сообщество) Новая семантика Конвергентная семантика Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 54 Онтологические проекты. Из IT к SW (Freebase) Фрагмент онтологии Freebase Movie Из доклада: J. Taylor, C. Evans, T. Segaran, Creating Semantic Mashups: Bridging Web 2.0 and the Semantic Web, In: Proc. of International Conference “SemTech-2008”, California, USA, 2008 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 55 Онтологические проекты. Из IT к SW (Freebase) Запросы и сервисы сервера Metaweb Пример сервиса (Java Script): Специфицируются с использованием языка MQL (Metaweb Query Language). Для реализации имеется библиотека шаблонов, написанных на языках Perl, Python, PHP и JavaScript. Фрагмент запроса (JSON): { # This is the outer envelope object "q0": { # This is the first inner envelope. The name "q0" is arbitrary "query": { # The first MQL query goes here } }, "q1": { # This is the second inner envelope "query": [{ # Second MQL query goes here. Note that this one is in [] }] } } Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 56 Онтологические проекты. Из IT к SW (Microformat) Цель микроформатов – «внедрить» базисную семантику непосредственно в HTML-страницы. Пока микроформаты не столь выразительны, как RDF или OWL, но они очень компактны и используют возможности XHTML для добавления семантики к страницам Интернет. Примеры используемых микроформатов: hCard (используется для аннотирования HTML-страниц таким образом, чтобы понимающие его Веб-браузеры или поисковые машины могли вывести такую информацию о человеке, как его имя и фамилия, компания или номер телефона). hCalendar (позволяет аннотировать события на странице). Facebook и Yahoo! Local, Google Social Graphs и др. используют микроформаты для аннотирования событий на своих страницах. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 57 Онтологические проекты. Из IT к SW (Microformat) API социальных сетей Google Современный Веб – это связанные страницы, представляющие документы и людей. Поиск Google помогает сделать эту информацию доступной и полезной. Как? За счет использования разметки FOAF и специальных процедур, «умеющих» работать с такой разметкой. Пример FOAF-спецификации человека Edd Dumbill: <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:foaf="http://xmlns.com/foaf/0.1/"> <foaf:Person> <foaf:name>Edd Dumbill</foaf:name> <foaf:mbox rdf:resource="mailto:edd@xml.com" /> </foaf:Person> </rdf:RDF> Фрагмент описания запроса: { "canonical_mapping": { "A": "a" }, "nodes": { "a": { "attributes": {}, "claimed_nodes": [ "b" ] }, "b": { "attributes": {}, "claimed_nodes": [ ] }, } } Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 58 Онтологические проекты. «Игроки» из ST для SW (Collaborative Protege) Эволюция разработки онтологий Расширение сообщества разработчиков Усложнение разрабатываемых онтологий Повышение качества средств коллективной разработки (дискуссии, Веб-просмотр и редактирование и др.) Из доклада: T. Tudorache, N. Noy, Collaborative Protégé: Supporting Community-based Ontology Development, In: Proc. of International Conference “SemTech-2008”, California, USA, 2008 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 59 Онтологические проекты. «Игроки» из ST для SW (Collaborative Protege) Требования к инструментарию: Средства для дисскуссий и достижения консенсуса Аннотирование компонент и (возможно) изменений Включение, как часть, в процесс разработки Контекст для дискуссий в процессе моделирования решений История изменений и ассоциированных с ними дискуссий История и доверие Поддержка истории концептов Обеспечение путей установления доверия Персонализация взглядов на онтологию на основе Ролей пользователя и его задач Уровня компетенции пользователя Области доверия к пользователю Контроль доступа Взвешенный контроль редактирования и просмотра Поддержка ролей пользователя Гибкая поддержка схем разработки Конфигурируемые схемы разработки Совмещение исполнения схемы разработки и процесса создания онтологии Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 60 Онтологические проекты. «Игроки» из ST для SW (Collaborative Protege) Характеристики кооперативной версии Protege: Расширение существующей версии Поддержка Аннотирования компонент онтологий и изменений Линий дискуссий Предложений и голосования Поиска и фильтрации Регистрация пользователей, групп и политик Использование в новой версии OWL и Frames Возможность многопользовательской и автономной работы Распределенная инсталляция Protégé Компоненты кооперативной версии Protege: Редактор онтологий Компонент аннотирования Базисное редактирование Новые функционалы Онтология пользователя аннотируется примерами из аннотационной онтологии Компонент поддержки трека изменений Изменения сохраняются как примеры в аннотационной онтологии Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 61 Онтологические проекты. «Игроки» из ST для SW (Collaborative Protege) Архитектура клиент-сервер Приложения и компоненты на стороне клиента используют общий Changes & Annotations API для работы с аннотациями и изменениями, связанными с онтологией Из доклада: T. Tudorache, N. Noy, Collaborative Protégé: Supporting Community-based Ontology Development, In: Proc. of International Conference “SemTech-2008”, California, USA, 2008 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 62 Онтологические проекты. «Игроки» из ST для SW (Collaborative Protege) Онтология ChAO (Changes & Annotation) Из доклада: T. Tudorache, N. Noy, Collaborative Protégé: Supporting Community-based Ontology Development, In: Proc. of International Conference “SemTech-2008”, California, USA, 2008 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 63 Онтологические проекты. «Игроки» из ST для SW (Collaborative Protege) Веб-интерфейсы WebProtege Веб-версия системы Цели разработки: Просмотр онтологий через Веб-браузер «легкое» редактирование поддержка совместной работы поддержка разных схем взаимодействия простота кастомизации и расширения Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 64 Онтологические проекты. «Игроки» из ST для SW (NeOn) Проект Networked Ontologies Справка: Европейский проект в 6-й Рамочной Программе по направлению «Semanticbased Knowledge and Content Systems» (бюджет € 14.7 млн., 4 года, начало – 03.2006) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 65 Онтологические проекты. «Игроки» из ST для SW (NeOn) Цели проекта NeOn Из презентации на конференции IST-2005 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 66 Онтологические проекты. «Игроки» из ST для SW (NeOn) Платформа NeOn это: Поддержка «жизненного цикла» Взаимодействие активностей периода разработки и исполнения Ориентация на онтологический инжиниринг и использование онтологий Расширяемость архитектуры на всех уровнях Из статьи: T. Tran, P. Haase, H. Lewen, O. Munoz-Garcia, et. al., «Lifecycle-Support in Architectures for Ontology-Based Information Systems» Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 67 Онтологические проекты. «Игроки» из ST для SW (NeOn) Инструментарий NeOn: Редактор OntoStudio от ontoprice GmBH Поддерживает онтологический инжиниринг и управление полный «жизенный цикл» сетевую работу с онтологиями (модульность, отображение и т.д.) Разработан на платформе Eclipse Расширяет архитектурe за счет механизма плагинов Eclipse Веб-сервисов Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 68 Онтологические проекты. «Игроки» из ST для SW (…) ... не потому, что других проектов систем нет, а потому, что их слишком много для обсуждения Некоторые из игроков на рынке Semantic Technologies для Semantic Web: ontoprice GmBH (Karsruhe, Germany) ontoEdit Altova (USA) AltovaEditor etc. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 69 Онтологические модели. Так откуда и куда мы идем? В теоретическом плане: Явное снижение мощности используемых формализмов и моделей представления знаний Frame Logic «>» OWL «>» Microformat В плане эффективности Явная тенденция к использованию идей и методов, наработанных в СУБД, для реализации СУБЗ Oracle 11g (RDF-store) HP SPARQL Point Jena, JSON Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 70 Semantic Web. Так откуда и куда мы идем? Взаимодействие знаний и рассуждений Агенты, которые знают, учатся и рассуждают как люди Семантический Веб Объединяет знания Веб Объединяет информацию Веб «вездесущий» Формирует общий интеллект Социальный Веб Объединяет людей Социальное взаимодействие Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 71 Семантизация контента под управлением онтологий. Ситуация в мире Интегральные характеристики территориального присутствия Austria - 3% Bulgaria - 3% Canada -9% Others - 5% China - 3% France - 5% USA - 34% Germany - 9% Israel - 3% UK - 7% Italy - 5% Switzerland - 3% Norway - 3% Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Japan - 5% New Zealand - 3% Page 72 Семантизация контента под управлением онтологий. Ситуация в мире Производители США и Канады 70 60 50 40 30 20 10 Итого: 0 Технический уров ень Delphes Megaputer Intelligence Область охв ата MITRE SRA International Teragram Text Analysis International Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 73 Семантизация контента под управлением онтологий. Ситуация в мире Европейские производители и другие регионы 80 70 60 50 40 Итого в целом: 30 Итого: Поддержка стандартов Масштабируемость решений Наукоемкость решений Тип продуктов 20 10 Итого: Спектр пользователей Номенклатура функционалов Спектр обрабатываемых языков Спектр применений C om pr is C le ar Fo re C st In o In g te si llig nIT gh e tfu l C Co nce n In xi orp ver gh or a t S at i o of tw n a O nt re ot e TE xt M IS 0 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 74 Семантизация контента под управлением онтологий. Ситуация в мире (Проект Calais) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 75 Семантизация контента под управлением онтологий. Ситуация в мире (Проект Calais) Entities Events/Fact City Acquisition Company Alliance Continent Bankruptcy Country BusinessRelation IndustryTerm Buybacks MoneyAmount CompanyEarningsAnnouncement Organization CompanyEarningsGuidance Person CompanyInvestment ProvinceOrState CompanyLegalIssues Region JointVenture URL ManagementChange Merger PersonPolitical PersonPoliticalPast PersonProfessional PersonProfessionalPast StockSplit Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 76 Семантизация контента под управлением онтологий. Ситуация в мире (Проект Calais) Событие приобретения компании ClearForest Ltd. Агенством "Reuters": <rdf:Description rdf:about="http://d.opencalais.com/genericHasher-1/e83cd6932146-32a2-b1fe-c4a73615dbf0"> <rdf:type rdf:resource="http://s.opencalais.com/1/type/em/r/Acquisition"/> <!--Reuters--> <c:company_acquirer rdf:resource="http://d.opencalais.com/comphash1/48344864-ce62-3064-ae05-a3b41fab186c"/> <!--ClearForest Ltd.--> <c:company_beingacquired rdf:resource="http://d.opencalais.com/comphash1/9dd2192a-4cd2-3b9a-ac2f-b6a0d1fed773"/> <c:status>planned</c:status> </rdf:Description> Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 77 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Общие замечания Анализ ситуации в области наукоемких решений, связанных с семантизацией контента, показывает, что на данной области можно выделить следующие взаимосвязанные и частично пересекающиеся сегменты: Заказные проекты Готовые продукты Удаленные сервисы В силу специфики данного доклада основное внимание будет уделено последнему сегменту – семантическим сервисам Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 78 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Мониторинг ситуации в России и СНГ показывает, что наиболее активными здесь являются следующие компании: ЗАО «Авикомп Сервисез» (основана в 1991 году). ЗАО «Синергетические Системы» (основана 2006 году). ООО «ЭР СИ О» (преобразована в самостоятельную компанию в 2006 году). Компания САЙТЭК (работает 5 лет). Компания «Яndex» (работает с 1997 года). Проект «КтоТам» (инициативная разработка) Информационный центр ElVisti (начал свою деятельность в 1992 г. на Украине). Компания EffectiveSoft (основана в 2000 году в Беларусии, Минск). Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 79 Семантизация контента под управлением онтологий. Ситуация в России и СНГ ЗАО «Авикомп Сервисез» Работы в области обработки ЕЯ и семантических технологий ведутся с 2001 г. Основные продукты: Семейство систем извлечения информации из текстов на ЕЯ под управлением предметных онтологий Инструментарий онтологического инжиниринга и аналитики на знаниях LightOntos, LightOntos 2.0 for Workgroups Семантические хранилища OntosMiner/English (предметная область – «Политика и бизнес») OntosMiner/Russian (предметная область – «Политика и бизнес: Люди и организации») OntosMiner/German (предметная область – «Политика и бизнес», бэта-тестирование) OntosMiner/Medicine (предметная область – «Лекарства: показания и противопоказания») RDF-store (Реализация на базе Oracle 11g) Семантический Веб OntosMiner/SemWeb English (предметная область – «Новости политики и бизнеса») OntosMiner/SemWeb Russian (предметная область – «Новости политики и бизнеса») Семантический новостной портал Ontos Russian Семантический новостной портал Ontos English Медицинский портал MedTrust Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 80 Решения Ontos для Semantic Web. Обработка текстов под управлением онтологий Предметная онтология «Политика и бизнес» Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 81 Решения Ontos для Semantic Web. Обработка текстов под управлением онтологий Общая схема обработки текстов Web doc, xls, pdf Crawler plain text filters OntosMiner™ •Oracle RDF Store •MS SQL Server 2005 •InMemory DB •IBM DB2 RDF-Store Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 82 Решения Ontos для Semantic Web. Обработка текстов под управлением онтологий Аналитика на знаниях Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 83 Решения Ontos для Semantic Web. Семантический портал Ontos Object card Object relations (Employment, Interactions, Citations,...) Relevant Docs Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 84 Решения Ontos для Semantic Web. Семантический портал Ontos Дайжестирование коллекции документов «On Fly» Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 85 Решения Ontos для Semantic Web. Семантический портал Ontos Дайжестирование коллекции документов «On Fly» (прод.) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 86 Решения Ontos для Semantic Web. Семантический портал Ontos Пример реферата Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 87 Решения Ontos для Semantic Web. Семантический портал Ontos Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 88 Решения Ontos для Semantic Web. Семантический портал Ontos Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 89 Решения Ontos для Semantic Web. Семантический портал Ontos Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 90 Семантизация контента под управлением онтологий. Ситуация в России и СНГ ЗАО «Синергетические Системы» Направления работ: Инструментальные средства разработчика семантикоориентированных информационных и аналитических систем. Решения для автоматического анализа электронных СМИ. Решения для создания интеллектуальных баз знаний, электронных библиотек и систем поддержки принятия решений. Решения для автоматической классификации и каталогизации неструктурированной информации. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 91 Семантизация контента под управлением онтологий. Ситуация в России и СНГ ЗАО «Синергетические Системы» (демо SynSys Semantix) С сайта компании: http://www.semantix4you.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 92 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» На рынке продуктов, связанных с обработкой естественного языка и семантическими технологиями, RCO занимает устойчивое положение в течение последних 3-5 лет. Основные продукты: Инструментарий разработчика RCO Morphology SDK RCO Morphology Professional SDK RCO Fact Extractor SDK Инструментарий аналитика RCO Fact Extractor RCO KAOT Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 93 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 94 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» (обработка текстов под управлением онтологий) Из статьи: А.Е. Ермаков, Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей, Сб. трудов Международной конференции «Компьютерная лингвистика и интеллектуальные технологии» (Диалог’2007). – Москва, Наука, 2007 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 95 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» (обработка текстов) Пример семантической сети, соответствующей предложению «В ноябре 2003 года Полыхаев совершил сделку по покупке акций ООО “Ромашка” у Корейко». Из статьи: А.Е. Ермаков, Автоматическое извлечение фактов из текстов досье: опыт установления анафорических связей, Сб. трудов Международной конференции «Компьютерная лингвистика и интеллектуальные технологии» (Диалог’2007). – Москва, Наука, 2007 Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 96 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» (RCO Fact Extractor) С сайта компании: http://www.rco.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 97 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» (аналитика на знаниях из текстов – RCO КАОТ) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 98 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» (аналитика на знаниях из текстов – RCO КАОТ) С сайта компании: http://www.rco.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 99 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «ЭР СИ О» (решение для Semantic Web) 30 января 2008 Решения RCO внедрены в новостной агрегатор CNews Дайджест С Нового года издание CNews запустило новую услугу для своих читателей - новостной агрегатор CNews Дайджест, в котором отображается самая актуальная информация из мира ИТ, формируя полную новостную картину дня. В проекте использованы разработки RCO в области компьютерного анализа текста: лингвистические алгоритмы для понимания естественного языка, кластерный анализ для агрегации новостей в сюжеты, алгоритмы классификации для отнесения новостных сюжетов к рубрикам, методы выделения упоминаний о компаниях для подсчета их рейтинга. Постоянная обработка новостей, экспортируемых по технологии RSS из более 40 информационных источников, а также всех новостей портала CNews, производится полностью автоматически. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 100 Семантизация контента под управлением онтологий. Ситуация в России и СНГ ЗАО «СайТэк» Флагманский продукт: Информационноаналитическая система «АРИОН» - мощное средство работы с разнородными источниками информации, использующее инновационные технологии извлечения и обработки знаний. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 101 Семантизация контента под управлением онтологий. Ситуация в России и СНГ ЗАО «СайТэк» (общая архитектура системы «Арион») С сайта компании: http://www.sytech.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 102 Семантизация контента под управлением онтологий. Ситуация в России и СНГ ЗАО «СайТэк» (обработка текстов в системе «Арион») С сайта компании: http://www.sytech.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 103 Семантизация контента под управлением онтологий. Ситуация в России и СНГ ЗАО «СайТэк» (генерация дайджестов в системе «Арион») С сайта компании: http://www.sytech.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 104 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания «Яndex» Пресс-портреты в Новостях (справочная информация о людях, упоминаемых в российских СМИ: даты рождения и смерти, места работы, должности, их высказывания и мнения третьих лиц). Цитаты в Новостях (автоматически выделенная из сообщений СМИ прямая или косвенная речь с указанием авторства). Новости регионов (новостные рубрики для всех регионов России и Украины, а также для некоторых зарубежных стран). Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 105 Семантизация контента под управлением онтологий. Ситуация в России и СНГ (Yandex) Экранные формы пресс-портрета Алины Кабаевой Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 106 Семантизация контента под управлением онтологий. Ситуация в России и СНГ (Yandex) Cервис «Цитаты в новостях» Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 107 Семантизация контента под управлением онтологий. Ситуация в России и СНГ (Yandex) Cервис «Цитаты в блогах» Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 108 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Проект «КтоТам» «КтоТам» – информационнопоисковая система нового типа. Она позволяет извлекать и объединять знания из массивов открытой публичной информации. Знания этой системы – это люди, организации, явления и предметы окружающего нас мира. Основным ее отличием является то, что результат поиска – это весь объем знаний, доступный в одном месте, а не множество ссылок на разрозненные сайты. Не менее важным, а порой и более полезным отличием выступает возможность поиска связей между объектами – связи между людьми, между организациями, между событиями. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 109 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Проект «КтоТам» (пример хороших результатов) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 110 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Проект «КтоТам» (организация индекса) SmartIndex(многоуровневый набор фактов и атрибутов о каком либо явлении) предложения «глава компании Имярек, Александр Краснов, подписал приказ о назначении Ивана Франко руководителем отдела аналитики»: глава<id=1. ДОЛЖНОСТЬ. ЗНАЧЕНИЕ-Глава> компании Имярек<id=2. КОМПАНИЯ. НАЗВАНИЕ-Имярек>, Александр Краснов<id=3. ПЕРСОНАЖ. РОД-МУЖСКОЙ. ИМЯ-Александр. ФАМИЛИЯКраснов>, подписал<id=4. СОБЫТИЕ. ЗНАЧЕНИЕ-Подписать. ФОРМА-Совершенная> приказ о назначении<id=5 ФИЗИЧЕСКИЙ ОБЪЕКТ> Ивана Франко<id=6 ПЕРСОНАЖ. РОД-МУЖСКОЙ. ИМЯ-Иван. ФАМИЛИЯ-Франко> руководителем<id=7 ДОЛЖНОСТЬ. ЗНАЧЕНИЕ-Руководитель> отдела аналитики<id=8 КОМПАНИЯ:ПОДРАЗДЕЛЕНИЕ. НАИМЕНОВАНИЕ-отдел аналитики. ТИП-отдел> <СВЯЗЬ id3-id2 ТИП=РАБОТА. ДОЛЖНОСТЬ=id1> <СВЯЗЬ id6-id8 ТИП=РАБОТА. ДОЛЖНОСТЬ=id7> <и так далее> Кроме того, SmartIndex содержит информацию об источнике фактов, атрибуты, дату и множество других дополнительных сведений. Подобные индексы строятся при каждом упоминании компании Имярек или Александра Краснова и Ивана Франко. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 111 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Проект «КтоТам» (пример неудачных результатов) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 112 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Информационный центр ElVisti (главная страница) Система InfoStream: Доступ к оперативной информации с единого интерфейса в поисковом режиме с учетом возможного дублирования и семантической близости, языковых версий и т. д.; Доступ к ретроспективному фонду, превышающему 50 млн. записей; Поддержку аналитической работы в режиме реального времени: построение сюжетных цепочек, дайджестов, диаграмм встречаемости и таблиц взаимосвязей понятий, медиарейтингов. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 113 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Информационный центр ElVisti (поиск сюжетов) Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 114 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания EffectiveSoft (основные компоненты Из документации компании: http://www.effectivesoft.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 115 Семантизация контента под управлением онтологий. Ситуация в России и СНГ Компания EffectiveSoft (обработка текстов) Из документации компании: http://www.effectivesoft.com Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 116 Заключение. Перспективы Semantic Web Richard MacManus, Editor, ReadWriteWeb: 1. 2. 3. 4. 5. 6. Semantic Apps will become popular in 2008, due to their ability to get better content results and make better data connections. Think search engines like Hakia and Powerset, wikipedia-like efforts like Twine and Freebase, and apps that use semantic technologies under the hood (such as AdaptiveBlue and Snap). In tandem with #1, Google will experiment more with Semantic Apps in '08. The Knols project, although not overly semantic, is a hint of this direction. Web Services platforms will be a fierce battleground in '08, with Amazon, Microsoft, Google, Mozilla and others competing to provide 'Web OS' and online storage to consumers. Unfortunately this may spell the end of a number of startups in this space. The online advertising market will consolidate, after the spate of acquisitions in 2007. CPM will continue to dominate for media brands and CPC for niche sites, although there will be experimentation in VRM and other forms of highly specific targeting of ads. Privacy issues will prevent the latter from becoming mainstream though. The much-hyped CPA (Cost per Action) will continue to be a pipe dream, because publishers simply don't want it. The big Internet companies will surprise us all by embracing open standards, and attempting to compete with each other with features instead of data lock-in. The most interesting innovations on the Web in 2008 won't happen in Silicon Valley, but in Asia (China, Japan, Korea). At least one startup from China will break through in the US market with Twitter-like success in 2008 - and it will almost certainly be a Mobile Web app. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 117 Заключение. Перспективы Semantic Web Alex Iskold, Feature Writer, ReadWriteWeb: 1. 2008 will be slow and cautious, with the first half dominated by recession or fear of recession. 2. Facebook is going to see the same kind of decline in popularity in 2008 that MySpace saw in 2007. 3. Digg is going to be acquired by one of the mainstream media conglomerates. 4. Implicit applications, which monitor our habits and automatically infer our likes, will rise. Онтологическое моделирование, Звенигород, Россия, 20 мая, 2008 Page 118 Спасибо за терпение! Вопросы? Ontos NOW YOU KNOW