OAI и создание репозитариев организаций Хохлов Александр Юрьевич Вопросы для обсуждения Что такое OAI? Зачем это нужно? Что уже создано? Что еще можно сделать? Предпосылка создания OAI Существуют базы данных, которые не индексируются крупнейшими поисковыми системами и не видны пользователям за пределами соответствующих веб-сайтов Изначально это касалось E-Print community, но далее оказалось полезно для более широкого круга лиц Что такое OAI OAI – Open Archive Initiative, «инициатива открытых архивов» Идеология репозитариев, в которых что-то хранится (и не более того) Отнюдь не обязательно это статьи или книги Технологии, обеспечивающие сбор информации из этих репозитариев OAI-PMH – OAI Protocol for Metadata Harvesting, «OAI протокол для сбора метаданных» Тем самым слово «открытый» применяется в смысле «доступный», но никак не «бесплатный», хотя в большинстве случаев это именно так Не путать с Z39.50 В OAI репозитарий предоставляет средства организованного сбора метаданных (по датам изменения записей) В рамках Z39.50 создается поисковый механизм (сервер) для поиска по базе данных и извлечения найденных записей Пример: OAIster.org – поисковая система по OAI архивам 5 366 375 записей из 472 организаций (по состоянию на 5 мая 2005) Высокая концентрация ресурсов: <30 организаций поставляют более 50% записей Записи в OAIster (по состоянию на август 2004) 574 295 293 210 184 184 158 87 56 53 39 34 32 30 29 26 25 24 24 17 17 16 15 12 12 12 11 878 CiteSeer Scientific Literature Digital Library 380 CiteBase 592 PubMed Central (PMC) 270 The University of Michigan, University Library, Digital Library Production Service Collections 972 Institute of Physics (IOP) 838 State Library of Victoria OAI Repository 344 Library of Congress American Memory Project 618 Wolfram Research's Mathematical Functions 709 The National Science Digital Library 000 Research Papers in Economics (RePEc) 690 ANU (Australian National University) DSpace 267 Internet Archive 597 Colorado Digitization Project (CDP) 379 Digital Manuscripts, Archives, and Special Collections, Washington State University (WSU) Libraries 595 Virginia Tech (VT) ImageBase 629 NASA Technical Report Server (NTRS) 312 Online Collections at Brigham Young University (BYU) 985 Bibliotheksservice-Zentrum Baden-Württemberg, Germany, Virtueller Medienserver 523 SciELO (Scientific Electronic Library Online) 988 LOUISiana Digital Library (LDL) 698 Historic American Sheet Music, Rare Book, Manuscript, and Special Collections Library, Duke University 460 CERN Document Server 407 Networked Computer Science Technical Reference Library (NCSTRL) Historical Collection 473 Project Euclid, Cornell University 349 BioMed Central (BMC) 149 Wolfram Research's MathWorld 220 Wageningen Yield (WaY) Крупнейшие архивы (более 100 000 записей на август 2004) 575 006 – ResearchIndex (SiteSeer) 401 120 – NSDL 315 963 – PubMed Central 295 380 – SiteBase 280 780 – arXiv.org 210 270 – University of Michigan Library 184 972 – Institute of Physics (IOP) 184 838 – State Library of Victoria 158 344 – Library of Congress American Memory Project 108 780 – National Library of Australia Digital Object Repository Google и OAI Google использует OAI для индексации нескольких больших архивов (в рамках проекта Scholar) Скорее всего, скоро станет стандартом де-факто для обхода и индексации баз данных и в других поисковых системах Итак, роль OAI-PMH: Способствовать распространению метаинформации из баз данных Один из возможных вариантов индексации «deep web» И не более того. Университеты и их представительства в интернет Каждый университет имеет веб-сайт для информации об университете и его деятельности Каждый университет имеет публикации своих ученых или личные странички ученых с их публикациями Каким-то образом согласуется с политикой издательств Роль репозитария Организовать процесс сбора и хранения информации в рамках одной организации Способствовать поиску / локализации необходимых для пользователя объектов Организовать процесс жизни и обслуживания ресурсами репозитария Сигла Главная задача проекта – организация поиска информации, независимо от протоколов и местоположения ресурсов Реализация распределенного поиска по Z39.50 Реализация сбора метаданных по протоколу OAI-PMH и поиска по собранным коллекциям через протокол Z39.50 Выводы OAI-PMH предлагает эффективный способ сбора информации из баз данных для поисковых систем Организациям логично иметь репозиторий в дополнение к обычному веб-сайту Возможное дальнейшее развитие Большинство статей одновременно с их закрытыми публикациями будут иметь открытые копии, которые будут доступны для поисковых систем Google и другие поставщики глобальных поисковых решений будут иметь возможность сбора большинства всех публикуемых статей Возникнут новые методы оценки качества текстов статей, основанные на постссылочных технологиях ранжирования