Тема 7. Работа в Сети интернет. Введение Интернет -- глобальное информационное пространство, основанное на самых передовых технологиях, обладающее широким спектром информационных и коммуникационных ресурсов, содержащее колоссальные объемы данных. Появление Интернета принято связывать с 1969 г. Именно тогда в США начались работы по объединению в небольшие сети групп компьютеров. Это делалось с целью обеспечения сохранности информации в критических условиях. Уже в 1971 г. на основе этих разработок возникла электрическая почта. Успех этих начинаний и заложил основы Интернета в нынешнем виде. Настоящий расцвет Интернета начался в 1992 году, когда была изобретена новая служба, получившая название «Всемирная паутина» (World Wide Web, или WWW, или просто Web (веб)). WWW позволяет любому пользователю Интернета представлять свою информацию в мультимедийной форме, связывая ее с публикациями других авторов и предоставляя удобную систему навигации (быстрого перехода по ссылкам от одной публикации к другой). Каковы основные направления использования Интернета для пользователя? Здесь можно выделить три направления: 1. источник информации; 2. средство обмена информацией; 3. место размещения личной информации. Из всех направлений работы библиотеки наиболее быстрое и ощутимое влияние Интернет оказывает на информационно-библиографическую деятельность. Тот факт, что энциклопедические, справочные и библиографические источники трансформируются в электронную форму быстрее любых других видов документов, уже в ближайшие два-три года приведет к тому, что цифровые или электронные ресурсы и технологии будут полностью доминировать в информационно-библиографической деятельности библиотек. Согласно данным Интернет- статистики ГПНТБ России, спрос на электронные ресурсы в настоящее время в 5-7 раз превосходит спрос на ресурсы печатные. Это означает, что электронные ресурсы «работают» в 50-70 раз активнее, чем печатные. В отличие от поиска документов в библиотеке или архиве, поиск в Интернете не дает в руки пользователя непосредственно сам ресурс. При таком поиске определяется только место, где ресурс физически хранится. Это место называется адресом ресурса. Пользователю сообщаются все адреса, где находятся ресурсы, которые могут представлять для него интерес. Затем пользователь сам выбирает потенциально интересные ему адреса. Адрес ресурса называется Uniform Resource Locator (Унифицированный указатель ресурса). Сокращенно его называют URL-адрес. 1. Выполнение навигации по ресурсам сети Интернет 1.1 Интернет. Основные сервисы Рассмотрим основные ресурсы (службы) Интернета. К основным сервисам Интернета на сегодняшний день можно отнести следующие сервисы: · всемирная паутина (World Wide Web, WWW); · электронная почта (e-mail); · файловые архивы FTP; · общение в Интернете. Самым популярным ресурсом Интернета является всемирная паутина или WWW, которая представляет собой огромное количество (свыше миллиарда) мультимедийных документов, отличительной особенностью которых является возможность ссылаться друг на друга. Это означает присутствие в текущем документе ссылки, реализующей переход на любой документ WWW, который физически может быть размещен на другом компьютере сети Интернет. Информация в WWW представляется в виде документов, каждый из которых может содержать как внутренние перекрестные ссылки, так и ссылки на другие документы, хранящиеся на том же самом или на любом другом сервере. Гипертекст - множество отдельных документов (страниц), которые имеют ссылки друг на друга. В Интернете существует несколько способов передачи данных (протоколов). Самым популярным в сети является протокол передачи гипертекста - http (Hyper Text Transfer Protocol) Гипертекстовая ссылка - выделенная часть документа, реализующая переход к другому документу. Реализуется в виде подчеркнутого текста, кнопки или картинки. E-mail (электронная почта). Старейшим ресурсом Интернета является E-mail (электронная почта) - система пересылки электронных писем. E-mail - это средство обмена информацией, подготовленной в электронном виде, между людьми, имеющими доступ к компьютерной сети. Основными областями применения электронной почты являются ведение личной переписки и работа с некоторыми информационными ресурсами Интернета, такими как списки рассылки, off-line группы новостей и системы пересылки файлов по электронной почте. Электронная почта (e-mail) широко используется в библиотечном процессе. Это и просто деловая переписка, и технологическая основа служб - ЭДД, «Запрос-ответ». FTP (File Transfer Protocol, протокол передачи файлов) - хранилище и система пересылки всевозможных файлов. FTP позволяет подключаться к серверам FTP, просматривать содержимое каталогов и загружать файлы с сервера или на сервер; кроме того, возможен режим передачи файлов между серверами хранилищ и система пересылки всевозможных файлов. ICQ - система, реализующая связь, подобную пейджинговой, через Интернет. Позволяет получить уникальный номер, называемый UIN (Universal Internet Number, универсальный номер Интернета), используемый для вызова и прямого общения. Замечательной возможностью системы является поиск абонента сети ICQ по косвенным данным, например, по адресу электронной почты. После установления связи с абонентом можно побеседовать с ним, отправляя текстовые сообщения. 1.2 Информационно-поисковые системы Интернета Все поисковые системы объединяет то, что они расположены на специальновыделенных мощных серверах и привязаны к эффективным каналам связи. Поисковые системы называют еще информационно-поисковыми системами (ИПС). Количество одновременно обслуживаемых посетителей наиболее популярных систем достигает многих тысяч. Самые известные обслуживают в сутки миллионы клиентов. В случаях, когда поисковая система имеет в своей основе каталог, она называется каталогом. В ее основе лежит работа модераторов. В основе же ИПС с полнотекстовым поиском лежит автоматический сбор информации. Он осуществляется специальными программами. Эти программы периодически исследуют содержимое всех ресурсов Интернета. Для этого они перемещаются, или как говорят, ползают, по разным ресурсам. Соответственно такие программы называются роботы. Есть и другие названия: поскольку WWW - это аббревиатура выражения Всемирная паутина, то такую программу естественно назвать спайдером по англ. - паук. В последнее время используются другие названия: автоматические индексы или директории. Все эти программы исследуют и «скачивают» информацию с разных URL-адресов. Программы указанного типа посещают каждый ресурс через определенное время. Ни одна поисковая система не в состоянии проиндексировать весь Интернет. Поэтому БД, в которых собраны адреса проиндексированных ресурсов, у разных поисковых систем разные. Тем не менее, многие из них стремятся, по возможности, охватывать в своей работе все пространство мировой Сети. Это универсальные системы. Итак, работа поисковой системы обеспечивается тремя составляющими: § Программа «робот» (спайдер). Она анализирует ресурсы и производит их индексацию. § Индексы поисковой системы. Они формируют создаваемые поисковой системой собственные БД. § Программа, которая в соответствии с запросом пользователя готовит ему ответ на основе анализа индексов, то есть собственных БД. Пользователь реально имеет дело только с последней из этих трех составляющих. Мощные поисковые системы универсального типа созданы для работы на всех основных языках мира. Каждая страна старается создать хотя бы одну собственную поисковую систему. 1.3 Основные виды поиска Поиск информации является одной из составляющих человеческой деятельности. В Интернете ежедневно появляется и исчезает огромное количество ресурсов. Необходимо уметь в них ориентироваться. Чтобы эффективно выполнить поиск, нужно умело составить запрос к поисковой системе. Если ответ ищется в каталоге, то особых сложностей при работе здесь нет. Создатели каталога и модераторы озаботились созданием разделов каталога. Пользователь должен только четко определиться с предметом поиска и затем воспользоваться структурой, которая ему предложена. В основе полнотекстового поиска лежит умение удачно составить поисковый запрос. При прочих равных условиях следует выбирать для поиска наиболее суженное, мало распространенное слово. В то же время может случиться и так, что поиск по слишком узкому термину не дает результатов. Тогда надо переходить к более широким терминам. Если поиск по узкому термину не дает результатов, то следует постепенно расширять поисковое понятие или же переходить к смежным терминам. Поиск по возможности лучше вести по нескольким словам, их сочетаниям, а иногда и по конкретным фразам. При проведении поиска и оценке его результатов необходимо помнить: · Слепое доверие к результатам, размещенным в Сети, чревато ошибками. · Остерегайтесь анонимных сведений, т. к. их источник установить очень трудно. · В сомнительных случаях не ленитесь проверить найденные сведения запросом в Сети отзывов и мнений по поводу найденных сведений. · Неожиданно появляющиеся и затем быстро исчезающие ресурсы не надежны. В сомнительных случаях необходимо обращаться к таким проверенным источникам, как сетевые энциклопедии, справочники и специальные учебные сайты. Избегайте «сенсационных» данных, результатов с чрезмерно большой точностью, чисто полемических, рекламных и необъективных материалов. Приступая к поиску, вы вводите одно или несколько ключевых слов, выбираете вид поиска и нажимаете на клавишу Enter. В ответ выдается список адресов (URL) - список всех индексированных страниц, содержащих любые ключевые слова. Нередко число совпадений при таком поиске огромно. Однако если поисковая система хорошо сортирует результаты по тематике, то нужную страницу можно найти в верхней части списка. Поиск по любому слову может быть удобен в случаях, когда пользователь не уверен в ключевых словах. Следует иметь в виду, что поисковые машины относятся к словам поразному. Такие ИПС как «Яндекс» понимают слово во всех его грамматических формах и с учетом этого будут его искать. Им известна морфология русского языка, т. е. если в запросе написать и «человек» и «люди», то ответ будет одним и тем же. При поиске в Интернете используются следующие логические операторы: o AND - и (и то и то - два термина вместе); o OR - или (или тот термин или тот); o NOT - не (не нужен такой-то термин). Используя значок *, можно расширить запрос до всех слов, содержащих введенную часть. Например, если ввести электротехни* то в результатах поиска окажутся страницы, содержащие электротехника, электротехнический и т. п. Знак усечения * может быть подставлен в ключ справа, слева и внутри. В Yandex можно запрашивать конкретную форму слова при поиске (исключив другие словоформы), поставив перед ним знак «!». сеть поисковый почтовый сервис 1.4 Как правильно составлять поисковые запросы Напоследок хотелось бы рассказать о том, как правильно составлять поисковые запросы для этих громадных поисковых систем. Итак, для любого поисковика следует использовать следующие символы: «» -- кавычки. Их используют, чтобы найти точную фразу. То есть, введя в поисковую систему запрос «руки вверх новый альбом» вы найдете только те сайты, в которых слова в запросе написаны именно в таком порядке, а не какой-нибудь альбом «вверх» второсортной подъездной поп-группы. - знак минус нужно ставить в тех случаях, когда вы хотите исключить из поиска какое-то слово. К примеру, Вам надоели постоянные предложения во время поиска купить музыку, хотя вы, например, хотите лишь прослушать её онлайн. Очень просто - вводите запрос девятая симфония Бетховена - купить. И Вам выдадут ссылки, на которых никто не будет уговаривать вас покупать собрание сочинений великого композитора, а предложат лишь скачать или прослушать. * - знак звездочка очень часто люди забывают какое-нибудь слово в тексте песни или цитате. Нет ничего проще - вводите например «Россия * наша держава» если забыли слово священная - и поисковик поможет вам вспомнить гимн нашей страны. 2. Передача информации с помощью почтовых сервисов, телекоммуникационных технологий 2.1 Передача информации с помощью почтовых сервисов Электронная почта (E-mail - сокращение от electronic mail) является удобным и быстрым средством связи с другими людьми. Электронную почту можно использовать для различных целей. · Отправка и получение сообщений. Сообщение электронной почты можно отправить любому человеку, если у него есть адрес электронной почты. Сообщение доставляется в электронный почтовый ящик получателя за несколько секунд или минут независимо от того, живет ли он поблизости или на другом конце света. Можно получать сообщения от всех, кому известен ваш адрес электронной почты, а после прочтения писем писать ответы. · Отправка и получение файлов. Помимо обычных текстовых сообщений с электронной почтой можно отправлять почти все типы файлов, включая документы, изображения и музыку. Файл, отправляемый с сообщением электронной почты, называется вложением. · Отправка сообщений группам людей. Сообщение электронной почты можно послать сразу многим людям. Получатели могут ответить всей группе, что позволяет проводить групповые обсуждения. · Пересылка сообщений. Полученное сообщение электронной почты можно переслать другим получателям, не вводя текст заново. Электронная почта оказывается удобнее телефонной связи и обычной переписки. Можно послать сообщение в любое время дня и ночи. Если в момент отправки сообщения получатели не сидят у компьютеров и не находятся в сети (не подключены к Интернету), они найдут сообщения позднее, когда будут проверять свою почту. Если они подключены к Интернету, ответ от них можно получить через несколько минут. Отправка электронной почты к тому же бесплатна. По сравнению с обычной почтой, не нужны ни марка, ни оплата, а также не имеет значения, где живет получатель. Приходится платить только за подключение к сети Интернет и, иногда, за используемую программу электронной почты. 2.2 Работа с электронной почтой Для работы с электронной почтой нужно три вещи. · Подключение к Интернету. Для подключения компьютера к Интернету необходимо сначала подписаться на услуги поставщика услуг Интернета. Поставщик услуг Интернета обеспечивает доступ в сеть обычно за месячную плату. Также потребуется устройство, называемое модем. · Программа электронной почты или веб-службы электронной почты. Можно загрузить или приобрести программу электронной почты корпорации Майкрософт или другого поставщика. Программы электронной почты часто обладают более широкими возможностями и обеспечивают более высокую скорость поиска, чем веб-службы электронной почты. Перед настройкой программы электронной почты понадобится получить определенные данные от поставщика услуг Интернета. Обычно это адрес электронной почты, пароль, имена серверов входящей и исходящей почты, а также некоторые другие сведения. Если не хочется ни загружать, ни покупать программу электронной почты, можно подписаться на услуги почтовой службы с веб-интерфейсом, такой как Gmail, Windows Live Hotmail или Yahoo! Mail. Эти службы позволяют проверять электронную почту с помощью веб-браузера с любого компьютера, подключенного к Интернету, - даже если компьютер принадлежит другому пользователю или установлен в публичном месте, например в библиотеке. · Адрес электронной почты. Адрес электронной почты можно получить от поставщика услуг Интернета или при регистрации в почтовой службе с вебинтерфейсом. Адрес электронной почты состоит из имени пользователя (настоящее имя необязательно, можно использовать псевдоним), знака «@» и имени поставщика услуги, например someone@example.com. 2.3 Создание и отправка сообщений электронной почты Пример сообщения электронной почты На рисунке показано, как заполнять окно сообщения в большинстве программ электронной почты. Эти шаги могут изменяться в зависимости от используемой программы электронной почты или почтовой службы с вебинтерфейсом. 1. В поле Кому введите адрес электронной почты хотя бы одного получателя. Если получателей несколько, разделяйте адреса точкой с запятой (;). В поле Копия можно ввести адреса дополнительных получателей, которым следует знать о сообщении, но не нужно реагировать на него. Они получат то же самое сообщение, что и получатели, указанные в поле Кому. Поле адресов дополнительных получателей можно оставить пустым. Некоторые программы электронной почты также предлагают заполнить поле Скрытая копия, которое позволяет отправить сообщение получателям, одновременно скрывая определенные имена и адреса электронной почты от других получателей. 2. В поле Тема введите тему сообщения. 3. В большой пустой области введите текст сообщения. Чтобы вложить файл в сообщение, нажмите кнопку. Вложить файл на панели инструментов, расположенной под строкой меню. Найдите требуемый файл, выделите его и нажмите. Открыть. Имя файла появится в поле. Присоединить в заголовке сообщения. Файл, вложенный в сообщение электронной почты Создание сообщения закончено! Чтобы отправить сообщение, нажмите кнопку Отправить. Письмо отправится через Интернет получателям. 3. Передача информации с использованием FTP- клиента FTP отличается от других приложений тем, что он использует два TCP соединения для передачи файла. 1. Управляющее соединение устанавливается как обычное соединение клиент-сервер. Сервер осуществляет пассивное открытие на заранее известный порт FTP (21) и ожидает запроса на соединение от клиента. Клиент осуществляет активное открытие на TCP порт 21, чтобы установить управляющее соединение. Управляющее соединение существует все время, пока клиент общается с сервером. Это соединение используется для передачи команд от клиента к серверу и для передачи откликов от сервера. Тип IP сервиса для управляющего соединения устанавливается для получения "минимальной задержки", так как команды обычно вводятся пользователем (рисунок 3.2). 2. Соединение данных открывается каждый раз, когда осуществляется передача файла между клиентом и сервером. (Оно также открывается и в другие моменты, как мы увидим позже.) Тип сервиса IP для соединения данных должен быть "максимальная пропускная способность", так как это соединение используется для передачи файлов. На рисунке показано общение клиента и сервера по двум соединениям. Рисунок Процессы, участвующие в передаче файлов. Из рисунка видно, что интерактивный пользователь обычно не видит команды и отклики, которые передаются по управляющему соединению. Эти детали оставлены двум интерпретаторам протокола. Квадратик, помеченный как "пользовательский интерфейс", это именно то, что видит интерактивный пользователь (полноэкранный интерфейс, основанный на меню, командные строки и так далее). Интерфейс конвертирует ввод пользователя в FTP команды, которые отправляются по управляющему соединению. Отклики, возвращаемые сервером по управляющему соединению, конвертируются в формат, удобный для пользователя. Обратите внимание на то, что существуют два интерпретатора протокола, которые по необходимости используют две функции передачи данных. 3.1 Представление данных Протокол FTP предоставляет различные способы управления передачей и хранения файлов. Необходимо сделать выбор по четырем пунктам. 1. Тип файла. (а) ASCII файлы. (По умолчанию) Текстовый файл передается по соединению данных как NVT ASCII. При этом требуется, чтобы отправитель конвертировал локальный текстовый файл в NVT ASCII, а получатель конвертировал NVT ASCII в текстовый файл. Конец каждой строки передается в виде NVT ASCII символа возврата каретки, после чего следует перевод строки. Это означает, что получатель должен просматривать каждый байт в поисках пары символов CR, LF. (b) EBCDIC файлы. Альтернативный способ передачи текстовых файлов, когда на обоих концах системы EBCDIC. (c) Двоичные или бинарные файлы. (Image.) Данные передаются как непрерывный поток битов. (d) Локальный тип файлов. Способ передачи бинарных файлов между хостами, которые имеют различный размер байта. Количество битов в байте определяется отправителем. Для систем, которые используют 8-битные байты, локальный тип файла с размером байта равным 8 эквивалентен бинарному типу файла. 2. Управление форматом. Применяется только для ASCII и EBCDIC файлов. Nonprint. (По умолчанию) Файл не содержит информацию вертикального формата. (b) Telnet format control. Файл содержит управляющие символы вертикального формата Telnet, которые интерпретируются принтером. (c) Fortran carriage control. Первый символ каждой строки это Fortran символ управления формата. 3. Структура. Структура файла. (По умолчанию) Файл воспринимается в виде непрерывного потока байтов. Файл не имеет внутренней структуры. (b) Структура записи. Эта структура используется только в случае текстовых файлов (ASCII или EBCDIC). (c) Структура страницы. Каждая страница передается с номером страницы, что позволяет получателю хранить страницы в случайном порядке. Предоставляется операционной системой TOPS-20. (Требование к хостам Host Requirements RFC не рекомендует использовать эту структуру.) 4. Режим передачи. Указывает на то, как файл передается по соединению данных. Режим потока. (По умолчанию) Файл передается как поток байтов. Для файловой структуры конец файла указывает на то, что отправитель закрывает соединение данных. Для структуры записи специальная 2-байтовая последовательность обозначает конец записи и конец файла. (b) Режим блоков. Файл передается как последовательность блоков, перед каждым из них стоит один или несколько байт заголовков. (c) Сжатый режим. Простое кодирование неоднократно встречающихся повторяющихся байт. В текстовых файлах обычно сжимаются пустые строки или строки из пробелов, а в бинарных строки из нулевых байт. (Этот режим поддерживается редко. Существуют более оптимальные способы сжатия файлов для FTP.) Если посчитать количество комбинаций из приведенных вариантов, то получится 72 способа передачи и хранения файла. К счастью, можно игнорировать многие из этих опций, потому что они не поддерживаются в большинстве реализаций. Самые распространенные Unix реализации FTP клиента и сервера предоставляют следующий выбор: · Тип: ASCII или двоичный. · Управление форматом: только nonprint. · Структура: только файловая структура. · Режим передачи: только потоковый режим. Это ограничивает нас одним из двух режимов: ASCII или двоичный. 3.2 Управление соединением Использовать соединение данных можно тремя способами. 1. Отправка файлов от клиента к серверу. 2. Отправка файлов от сервера к клиенту. 3. Отправка списка файлов или директорий от сервера к клиенту. FTP сервер посылает список файлов по соединению данных, вместо того чтобы посылать многострочные отклики по управляющему соединению. При этом появляется возможность избежать любых ограничений в строках, накладывающихся на размер списка директории, и позволяет просто сохранить список директории в файле, вместо того чтобы выдавать список на терминал. Мы сказали, что управляющее соединение остается в активизированном состоянии все время, пока установлено соединение клиент-сервер, однако соединение данных может выключаться и включаться по необходимости. Как выбираются номера портов для соединения данных, и кто осуществляет активное открытие, а кто пассивное открытие? Во-первых, как было сказано ранее, распространенный режим передачи (в случае Unix это единственный режим передачи) - это потоковый режим. В этом режиме конец файла обозначает закрытие соединения данных. Из этого следует, что для передачи каждого файла или списка директории требуется новое соединение данных. Обычная процедура выглядит следующим образом: 1. Создание соединения данных осуществляется клиентом, потому что именно клиент выдает команды, которые требуют передать данные (получить файл, передать файл или список директории). 2. Клиент обычно выбирает динамически назначаемый номер порта на хосте клиента для своего конца соединения данных. Клиент осуществляет пассивное открытие с этого порта. 3. Клиент посылает этот номер порта на сервер по управляющему соединению с использованием команды PORT. 4. Сервер принимает номер порта с управляющего соединения и осуществляет активное открытие на этот порт хоста клиента. Сервер всегда использует порт 20 для соединения данных.