Возможности поисковых систем Веряев Анатолий Алексеевич van@uni-altai.ru Этапы информационного поиска. 1. 2. 3. 4. Определение вопроса Формулировка запроса Выполнение поиска Оценка результатов поиска Определение вопроса o Вопрос – это то, на что вы хотите получить ответ. o Запрос – это то, что вы вводите в компьютер. Формулировка запроса. Определив свой вопрос и выбрав ресурсы для поиска, вы должны сформулировать запрос, т.е. выразить вопрос на языке понятном машине. В текстовом поле окна поисковой машины, которое обычно располагается в верхней части страницы, нужно ввести ключевые слова. Формулировка запроса. Правила составления ключевых слов I. В запросах старайтесь использовать строчные буквы. Набирайте с прописной буквы только имена собственные (фамилии, имена и отчества, географические названия и т.д.) Формулировка запроса. Правила составления ключевых слов II. Пробел между словами означает, что оба слова, разделенные пробелом, должны входить в искомый документ. Например, задание слов деревья береза даст документы, в которых одновременно имеются слова деревья и береза. Формулировка запроса. Правила составления ключевых слов III. Вместо пробела можно использовать знак «+», который означает логическое И. Например, слова деревья + береза будут равносильны рассмотренным выше деревья береза Формулировка запроса. Правила составления ключевых слов IV. Если нужно исключить из поиска какое-либо слово, применяется знак «-», который означает логическое НЕ. Например, условие деревья + береза – осина будет задавать поиск ресурсов, имеющих слова деревья и береза, но не содержащих слов осина. Формулировка запроса. Правила составления ключевых слов V. Если требуется найти документы с любым из указанных слов, используется знак «|», заменяющий логическое ИЛИ. Например, ключевые слова деревья береза | осина в результате поиска дадут страницы, содержащие слово деревья и любое из слов береза или осина (либо оба одновременно) Формулировка запроса. Правила составления ключевых слов VI. Фразы в ключевых словах заключаются в кавычки. Например, при задании названия фильма «Терминатор-2. Судный день» будет произведен поиск этих слов именно в такой форме ив таком порядке. Учет особенностей естественного языка при составлении запроса Полисемия-наличие различных,но связанных смыслов слова. Наличие омонимов-разных,но одинаково звучащих и пишущихся слов(ключ, коса). Наличие омографов – слов, произносящихся по разному, но совпадающих при написании.(замок, атлас, ирис). Наличие омоформ – слов, совпадающих в написании в определенных формах. (существительное «печь» и глагол «печь») Выполнение поиска Существует 4 вида поиска: Простой поиск Расширенный поиск Контекстный поиск Специальный поиск Выполнение поиска Простой поиск При простом поиске в поле запроса вводится одно или несколько слов, которые могут характеризовать содержание документа. Если это слово одно, то, как правило, в ответ выдается такое большое количество ссылок, с которым не понятно, что делать. Если вводится несколько слов, то результат зависит от того, как эти слова введены, а это, в свою очередь, зависит от конкретной используемой системы. ! Приемы простого поиска в разных поисковых системах свои. Выполнение поиска Расширенный поиск Расширенный поиск всегда подразумевает запрос из группы слов. При расширенном поиске в большинстве случаев разрешается связывать ключевые слова логическими операторами И, ИЛИ, НЕ и другими. Основное достоинство расширенного поиска состоит в том, что, как правило, записи ключевых слов и логических операторов в разных системах либо одинаковы, либо очень похожи. Поэтому, усвоив один раз приемы расширенного поиска, можно ими пользоваться где угодно. Надо только предварительно переключить систему в нужный режим. Выполнение поиска Контекстный поиск Это очень полезный вид поиска, который, к сожалению, реализован не во всех поисковых системах. Системы, которые его поддерживают, следует ценить особо. При контекстном поиске требуется точное совпадение фразы или группы слов, например «Все смешалось в доме Облонских». В большинстве поисковых систем, включающих этот метод, ключевая фраза должна быть заключена в кавычки: «Все смешалось в доме Облонских». Выполнение поиска Специальный поиск С помощью команд специального поиска разыскивают дополнительную информацию. Например, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т.п. Как правило, команды специального поиска в различных поисковых системах свои. Язык запросов Запрос состоит из поисковых лексем (слов и чисел), связанных операторами. Запрос может включать буквы русского и латинского языка. Интерпретация слов: Независимо от того, в какой форме вы употребили слово в запросе, поиск учитывает все его формы по правилам русского языка, например, если задано слово «идти», то в результате поиска будут найдены ссылки на документы, содержащие слова «идти», «идет», «шел», «шла» и т.д. Если в запросе указано слово с большой буквы, то будут найдены только слова с большой буквы(если это слово не первое в предложении), в противном случае Синтаксис языка запросов различных поисковых систем имеет отличия. Будем рассматривать язык запроса Яндекса Операторы языка запросов Язык запросов Оператор Что означает оператор Пример пробел или & логическое И (в пределах предложения) лечебная физкультура && логическое И (в пределах документа) рецепты && (плавленый сыр) | логическое ИЛИ фото | фотография | снимок | + обязательное наличие слова в найденном документе +быть или +не быть () группирование слов (культура|история)(США|Китая) ~ Оператор НЕ (в пределах предложения) банк ~ налоги ~~ или - бинарный оператор И НЕ (в пределах документа) путеводитель по Парижу ~~ (агентство | тур) /(n m) расстояние в словах (-назад +вперед) поставщики /2 кофе "" поиск фразы "красная шапочка" Поиск в определенных элементах гипертекстового документа Язык запросов Оператор Что означает оператор Пример запроса $title (выражение) поиск в заголовке $title (CompTek) $anchor (выражение) поиск в тексте ссылок $anchor (CompTek | Dialogic) #keywords=(выражение) поиск в ключевых словах #keywords=(поисковая система) #abstract=(выражение) поиск в описании #abstract=(искалка | поиск) #image="значение" поиск файла изображения #image="tort*" #hint=(выражение) поиск в подписях к изображениям #hint=(lenin | ленин) #url="значение" поиск на заданном сайте (странице) #url="www.comptek.ru*" Оценка результатов поиска Это необходимый критический этап поиска, которым часто пренебрегают. Вот некоторые полезные критерии для оценки достаточности поиска: Просмотрите результаты своего поиска, чтобы понять, почему выбраны эти элементы, и какую часть составляют нужные, т.е. был ли поиск «прицельным». Не забывайте, что ошибки могли быть допущены на любой стадии поиска. Оценка достаточности зависит от того, для каких целей будут использованы результаты поиска. Если вам уже известны некоторые из найденных ссылок, но результаты поиска отрицательны, следует предположить наличие ошибки в стратегии. Если вы нашли слишком много или слишком мало, то считайте это первым сигналом о неэффективности поиска. Оценка результатов поиска После обработки запроса информационно-поисковой системой на информационно-поисковом пространстве выделяются два множества документов — выданные и релевантные. В общем случае эти множества являются пересекаемыми, но не совпадающими. Такое деление позволяет ввести некоторые характеристики результатов поиска. Модель запроса Релевантные документы Выданные документы Выданные релевантные документы Полнота результатов поиска Число выданных релевантных Полнота = Множество релевантных документов Число релевантных Выданные релевантные документы Факторы, влияющие на полноту «Качество» составления запроса Возможности информационнопоисковой системы Выбор информационно-поискового пространства Точность результатов поиска Число выданных релевантных Точность Выданные релевантных документов Число выданных Выданные документы Факторы, влияющие на точность «Качество» составления запроса Особенности функционирования информационно-поисковой системы Факторы, влияющие на скорость получения результатов поиска Характеристика каналов связи Объективные технические характеристики Временное состояние канала Особенности функционирования информационно-поисковой системы «Качество» построения запроса Итог Факторы, Факторы, влияющие влияющие на на полноту полноту • «Качество» составления запроса Факторы, влияющие • Возможности Факторы, информационновлияющие на на точность точность поисковой системы • «Качество» составления запроса • Выбор информационно-поискового пространства • Особенности Факторы, влияющие Факторы,функционирования влияющие на на скорость скорость информационно-поисковой системы получения результатов поиска получения результатов поиска • Характеристика каналов связи – Объективные технические характеристики Знание информационных пространств Internet Знание особенностей информационнопоисковых систем – Временное состояние канала • Особенности информационно-поисковой системы • «Качество» построения запроса Умение составлять запрос Примечание Не делайте скоропалительных выводов, если ничего не найдено. Часто это не является свидетельством отсутствия информации. Обычно доказать отрицательный результат (т.е. доказать отсутствие литературы по этой теме) непросто. Прежде чем прийти к такому заключению, надо попробовать несколько других подходов. Поисковые системы Интернета 1. Каталог – систематизированный набор ссылок на ресурсы в Интернете, составляемый вручную. Некоторые каталоги имеют встроенное средство поиска, обеспечивающее быстрый выход на нужную информацию. Самый крупный каталог Интернета – Yahoo! (www.yahoo.com). В нем работают более 150 квалифицированных редакторов. Это большая организация, но ее усилий хватает лишь на то, чтобы поддерживать каталог на уровне примерно 1 млн. ресурсов. Поисковые системы Интернета 2. Указатели – это автоматизированные системы. Они способны функционировать без участия человека, и потому их знание о подлинных ресурсах Сети намного больше. Работа поискового указателя происходит в три этапа: Поисковые системы Интернета I. II. Поисковый указатель собирает информацию из WWW. Индексация. III. Обработка запроса клиента и выдача ему результатов поиска в виде списка гиперссылок. Поисковые системы Интернета 3. Порталы – узел в Интернете, который вместе с услугами поисковой машины предлагает собственный информационный континент. На таком узле могут предоставляться дополнительные услуги: бесплатные адреса электронной почты, места для размещения Web-сайтов и др. Порталы содержат, как правило, собственный каталог часто посещаемых ресурсов. Что такое каталог? Каталоги ресурсов (глобальные, локальные, специализированные) - представляют собой размещаемые в Сети базы данных с адресами ресурсов. Они характеризуются масштабами накопленной информации и охватом тематик. Устройство каталогов Все каталоги Интернет построены по принципу «от общего – к частному» и обладают древовидной структурой. Зайдя на титульную страничку любого каталога, вы сразу же увидите перечень основных категорий – «Компьютеры», «Музыка», «Наука» и так далее. Щелкните по любой ссылке и вы окажетесь на новой странице, которая, в свою очередь, предложит вам список подразделов. Так, постепенно сужая тему, вы и сможете добраться до странички с перечнем ссылок на интересующие вас сайты. Пример структуры каталога Развлечения Игры … Ролевые игры … Коды, советы Универсальные … Каталог List.ru (Mail.ru) Поиск по каталогу Существует и более простой способ поиска информации в каталоге – по ключевым словам или фразам. Зайдя на титульную страничку каталога, обратите внимание на пустую строку. Снабженную кнопкой с надписью типа «Find» (Найти), «Go» (Перейти) и так далее. В этой строке вы можете набрать свой запрос, состоящий из слов или сочетаний, которые по вашему мнению, должны присутствовать на искомой странице. Виды каталогов Каталоги бывают общие и специализированные – посвященные, определенной теме (туризму), группе лиц (детям, женщинам) и так далее. Общие каталоги 1. List.ru - (http://www.mail.ru, http://list.mail.ru/index.html ) В 2001 году этот каталог утратил свою независимость, войдя в состав мощного информационного портала Mail.ru. Количество ссылок здесь превышает 100 тысяч. Его создатели подходят к отбору кандидатов очень строго. Общие каталоги 2. Narod.ru - (http://narod.yandex.ru/rubrics/) Портал Narod.ru, входящий в систему поисковика Яndex, бесплатно предоставляет всем желающим место для размещения «домашних страничек». Здесь хранится подавляющее большинство персональных сайтов России. В данном каталоге, включающем около 12 тысяч записей, вы найдете информацию о лучших страничках, размещенных на этом сервере. Общие каталоги 3. Яndex.ru (http://yaca.yandex.ru) Каталог доступен также с главной страницы Яндекса. Один из самых больших каталогов на сегодняшний день. В каталоге описаны десятки тысяч ресурсов. Ежемесячно с каталогом работают более двух миллионов пользователей. Автоматическая система регулярно проверяет ссылки на предмет доступности и снимает с публикации те, которые уже не действуют. В каталоге также можно хранить Закладки - каталог ваших любимых ссылок, доступный в любом месте, где есть интернет. Общие каталоги 4. Yahoo – (http://www.yahoo.com) Лучший мировой каталог сетевых ресурсов. Работать с базой данных Yаhoo, включающей несколько миллионов страниц, можно в трех основных режимах – подробнее… Специализированные каталоги Примером специализированных каталогов могут служить различные каталоги научных ресурсов. Обратите внимание на каталог Search Kit (http://www.lapshin.org/search/) Этот каталог содержит ссылки более чем на 150 мировых и 50 русскоязычных поисковиков, рейтингов и каталогов – при этом отправить запрос на любой из них вы можете через форму, расположенную прямо на странице каталога. Также вам может быть полезен каталог студентов (http://student.ru) Ftp-поисковики При поиске нужного файла на Ftpсерверах пользователь должен обязательно знать хотя бы несколько символов, находящихся в имени нужного файла На Ftp-серверах находится множество полезных файлов, но отыскать нужный бывает очень непросто. Поиск файлов Аналогично тому, как в WWW существуют и интенсивно трудятся поисковые машины и поисковые каталоги, в мире FTP также активно используются специальные поисковые серверы. Один из самых популярных российских Ftp-поисковиков – FTPindexer.ru (www.reliz.ru). В его базе данных сейчас свыше полутора тысяч FTPсерверов. FileSearch.ru (www.filesearch.ru). Он позволяет проводить поиск файлов определенного типа – изображений, видео- и МР3файлов, - а также указывать регион поиска. В базе данных этой ИПС числится свыше 77 млн. файлов общим объемом почти 34 Тбайт. Существуют, конечно, и другие поисковые сервера: Rambler FTP Search (www.ftpsearch.rambler.ru). FreeWare FTP Search (www.freewareweb.com/ftpsearch.html). Napalm FTP Indexer (www.search.ftphost.net). Oth.Net (www.oth.net). Поиск рефератов http://www.referats.corbina.ru – Московская коллекция рефератов http://referat.comintern.ru – Центральный Банк Российских Рефератов http://referat.yaroslavl.ru – Российская коллекция рефератов http://www.az.ru/refer/ http://referat.kulichki.net Поиск рисунков Служба "Яндекс.Картинки" автоматически собирает картинки находящиеся в Рунете в стандартных графических форматах: Jpeg gif png Материалом для текстового поиска служат: подписи к картинкам и ссылки на них; тексты коротких документов, обрамляющих одиночную картинку; имена файлов и скриптов, в том числе с учетом упрощенного подстрочного перевода. При поиске существует возможность задать желательный размер картинки. Картинки группируются по площади: " Мелочь" до 1000 квадратных пикселей "Маленькие" от 1000 до 10 000 квадратных пикселей "Средние" от 10 000 до 100 000 квадратных пикселей "Большие" от 100 000 до 1000 000 квадратных пикселей "Огромные" свыше 1000 000 квадратных пикселей Из базы "Яндекс.Картинки" по возможности исключаются баннеры и копии (одинаковые изображения). В результатах поиска выдается не более одной картинки от одного сайта, остальные доступны по ссылке "еще с сайта". Также по ссылке доступна расширенная информация о картинке Поиск информации на своей собственной машине Средствами Windows Специализированными программами Литература В.П. Леонтьев «Новейшая энциклопедия Интернет» - М. «Олма – Пресс», 2002. М. Хэлворсон. Эффективная работа с Microsoft Office. Санкт-Петербург: Питер, 1998. Байков В.Д.,Предтеченский А.Г. Интернет: первые шаги в России.М.:Изд-во Буковского,1996.-158 с. Байков В.Д. Интернет от E-MAIL к WWW в примерах.-Спб.:BHV-СанктПетербург,1996.-208 с.:ил.