Поисковая Интернет-система «Гугл» – избавление от посредников // Науч. и технич. б-ки.- 2001. - № 9. – С.56-61. Несмотря на внимание к профессии библиотекаря — несомненного посредника между информацией и пользователем, с появлением Интернет посредников из повсеместно обыденной наблюдается практики поиска устранение информации. Электронные ресурсы, можно сказать, подаются прямо на рабочий стол исследователя, инженера, студента. Именно поэтому мы предлагаем вашему вниманию рассказ о сетевом сервисе, одновременно простом, мощном и эффективном, который уже сейчас расположил к себе миллионы пользователей во всем мире. Несмотря на новизну, поисковая система «Гугл» (http://www.google.com) необычайно популярна, потому что очень проста в пользовании. Интерфейс системы — образец простоты! Если другие поисковые системы за последние 2 года утяжелили свои домашние страницы бесчисленным набором вариантов меню, «Гугл», созданный двумя студентами Стэнфордского университета, необычайно лаконичен и буквально штурмом завоевывает аудиторию. Удивительно и то, что система нравится одинаково и новичкам, и опытным профессионалам поиска. Дело в том, что «Гугл» лучше всего работает с запросами, сформулированными на простом языке, без применения логических операторов. Например, если вы напечатали запрос Билл Клинтон, машина сама будет искать все материалы, в которых эти два слова употребляются вместе. При этом другие словосочетания, в которых участвует слово bill (долларовый билль, билль о правах и т.п.), равно как и все другие Клинтоны — будут опущены и не замутят результаты поиска. Система «Гугл» (в отличие, например, от широко известной Alta Vista) не обращает внимания на строчные или прописные буквы в поисковом запросе. Еще один простой, но необычайно эффективный прием — приоритет отдается тому сайту и, соответственно, адресу документа, который чаще других спрашивается. В ответ на поисковый запрос «Гугл» выдает ответ, ранжированный по числу обращений к данному материалу (т.е. по популярности ресурса среди сообщества пользователей Интернет). Чем больше ссылок на какой-либо web-адрес имеется на других страницах, тем выше его рейтинг в базе данных «Гугл». Это особая философия, основанная на предположении, что многие люди имеют схожие проблемы и вопросы, и вам, вероятнее всего, нужно то же, что и другим. Еще одна новинка «Гугл» – сетевой предметный каталог, использующий рубрикацию каталога Интернет-ресурсов «Open Directory Project» (http://dmoz.org). Сейчас в базе данных Открытого каталога 1,5 млн. ссылок, присылаемых редакторами, которые работают на добровольных началах. Простой поиск в «Гугл» При обработке запроса система интерпретирует пробел между словами как логический оператор AND, однако ввод самого оператора не поддерживает. Запрос вводится в поисковое поле (рис.1). Рис.1 Кнопка «I'm Feeling Lucky» прерывает поисковую сессию и открывает в окне браузера первый найденный документ. Если необходимо провести поиск с использованием стоп-слов, то перед ними проставляется знак «+». Система поддерживает использование логического оператора OR. Оператор NOT заменяется знаком «-» перед словом без пробела. Возможна постановка знаков «+» и «-» перед фразой. Фраза заключается в кавычки. Помимо кавычек, «Гугл» учитывает следующие знаки препинания, служащие для связи слов: (national/library/russia), дефисы знаки (mother-in-law), равенства косые черты (national=library=russia), апострофы (Bill's birthday). При поиске слова, связанные этими знаками, воспринимаются как фраза. Расширенный поиск в «Гугл» Интерфейс страницы расширенного поиска реализован в виде шаблона, состоящего из шести фильтров (рис.2). Рис.2 Первый фильтр для ввода ключевых слов «Find results» состоит из 4 полей: — «with all of the words» — «все слова», соответствует логическому оператору AND; — «with any of the words» — «любое из слов», соответствует логическому оператору OR; — «without the words» — «исключить слова», соответствует логическому оператору NOT; — «with the exact phrase» — поиск по фразе. Справа располагается раскрывающееся меню, позволяющее задать количество ссылок результата поиска, выводимых на одну страницу (от 10 до 100). Фильтр «Occurrences» позволяет производить поиск ключевых слов в определенных областях html-документа: «anywhere in the page» (во всем документе), «in the title of the page» (в заголовке документа), «in the url of the page» (в URL-адресе документа). Фильтр «Language» позволяет осуществлять поиск документов на одном из 25 языков, указанных в опциях раскрывающегося меню. Фильтр «Domains» позволяет как искать документы, находящиеся на определенных узлах, так и исключать их из результатов поиска. Фильтр «SafeSearch» позволяет исключить из результатов поиска документы, содержащие ненормативную лексику. Результаты поиска и дополнительные возможности Как уже было сказано, «Гугл» определяет степень релевантности документа путем анализа ссылок других источников на данный ресурс. При сортировке результатов поиска из всех релевантных документов выбираются страницы с более высоким рейтингом и помещаются в начало списка. Перед списком результатов указывается количество документов, найденных по запросу, и время обработки запроса в базе «Гугл». Формат вывода результатов поиска (рис.3) состоит из следующих элементов: Рис.3 — заголовок документа; — выдержки из текста с выделенными жирным шрифтом словами запроса; — описание документа, полученное из поля meta («description»); — ссылка на соответствующий раздел «Открытого каталога» («category»); — URL - адрес страницы; — размер найденного документа в килобайтах; — ссылка на копию документа в базе «Гугл» («cached»); — ссылка для задания поиска документов, наиболее релевантных данному («similar pages»); здесь, помимо ключевых слов, учитывается домен узла, тип документа и прочее; — другие страницы сайта, релевантные запросу, если таковые имеются («more results from»). Недавно пользователи Рунета заметили, что сайт Google.com встречает их русским интерфейсом и, главное, позволяет искать информацию в зоне «ru». Пока «русифицированный» Google.com имеет изрядное количество недостатков. Поиск на сайте работает только с двумя-тремя кодировками из пяти, используемых в Рунете. Не реализована процедура машинной морфологии, позволяющая находить нужное слово в разных падежных формах. Кроме того, к русскому языку в интерпретации «Гугл» относятся белорусский, украинский и другие языки, использующие кириллицу.