На сайте 100500 рефератов в 150 категориях	Искать реферат
Рефераты на 5 с плюсом С нашим сайтом написать реферат проще простого

Проблемы использования роботов в Интернете

Категория: Компьютерные науки

версия для печати

Страница: [1] [2] [3] [4]

Определение что индексировать, а что нет. PAGEREF _Toc469277301 h 11

Статистический анализ PAGEREF _Toc469277302 h 13

Этика PAGEREF _Toc469277303 h 13

Альтернативы для поиска ресурсов PAGEREF _Toc469277304 h 15

Вывод PAGEREF _Toc469277305 h 16

Литература PAGEREF _Toc469277306 h 18

Введение

Всемирная паутина стала очень популярной в последние несколько лет, и является сейчас основным средством размещения информации в Интернет. Когда размер WWW увеличился от нескольких десятков сайтов, стало понятно, что человек не в состоянии самостоятельно просмотреть такое количество сайтов, тем более найти новые.

Поэтому начались разработки программ, автоматически просматривают WWW. Такая программа-робот пересмотра Интернет страница за страницей, идя по ссылкам на другие страницы. Роботов также называют пауками (spiders) или червями (worms), но эти названия дают ложное впечатление, что работы передвигаются сами, или, что они копируют себя, как известные интернет-черви. На самом деле, робот - это одна программная система, получает информацию из Интернет сайтов используя стандартные протоколы WWW.

Использование роботов

Просматривая Интернет, работы могут выполнять следующие функции:

Статистический анализ

Самые работы были созданы для подсчета количества WWW-серверов. Современные роботы могут также подсчитывать другую статистическую информацию, как, среднее количество документов на один сервер, пропорцию заданных типов файлов, средний размер веб-сайта, ступней мижсполучення между сайтами.

Поддержка

Одна из основных проблем поддержки Интернет возникает, когда перестают работать ссылки на другие страницы. Это происходит тогда, когда страница, на которую ссылаются, переместилась на другой адрес или вообще перестала существовать. К сожалению, в настоящее время не существует автоматического механизма, сообщал бы веб-мастеров о таких изменениях.

Некоторые серверы, например CERN HTTPD, записывают в файл журнала, запросы к странице, не существует, с адресом страницы, откуда шла ссылка, позволяющая исправить ситуацию позже. Но это не практично, и, действительно, авторы узнают, о неправильные ссылки на своих страницах, когда заметят сами, либо пользователи сообщат их по почте.

Робот, проверяет ссылки, например MOMspider, помогает автору найти такие неправильные ссылки, поэтому помогает поддерживать сайт. Работы могут помогать поддерживать содержание так же, как и структуру, первиряючы правильность HTML кода, регулярность обновления информации, но это используется не очень часто. Этот вид функциональности часто является встроенной частью HTML редакторов, но, работы могут повторять эти проверки при каждой модификации сайта, и любые проблемы могут быть решены немедленно.

Зеркала

Зеркальность - популярная техника для поддержки FTP архивов. Зеркало содержит копию всего дереа каталогов FTP сайта и регулярно обновляет те документы, которые прилагаются к оригинального сайта. Это позволяет уменьшить трафик к каждому из узлов, их загруженность, работать с архивом, если оригинальный сервер не работает, иметь быстрый и дешевый локальный доступ и доступ без подключения к интернет.

Зеркальность может быть легко обеспечена роботом. Уже существуют работы, получают дерево каталогов веб-узла и записывают его локально, но они не имеют возможности обновлять только ту информацию, которая изменилась. Необходимость таких средств уменьшилась с появлением сложных кэш-серверов, которые могут делать выборочное обновление, и гарантировать, что документ из кэша обновлен.

Поиск ресурсов

Пожалуй, самым захватывающим использованием роботов является поиск новых ресурсов. Там, где люди не могут справиться с огромным количеством информации, компьютер сделает эту задачу быстро и качественно. Существует много роботов, осматривают большие части WWW и дают доступ к собранной информации с помощью поисковой системы.

Это значит, что пользователь может одновременно использовать просмотр и поиск для нахождения нужной информации. Даже если база данных не содержит именно ту информацию, которая вам нужна, вероятно она содержит страницы на которых есть ссылка на нужный.

Вторым преимуществом является то, что эти базы данных могут обновляться периодически, и ссылки на страницы, не существуют, могут быть обнаружены и удалены. Это хорошая альтернатива ручной поддержке документов, где проверки бывают жидкие и не глубокие.

Комбинированное использование

Один робот может выполнять несколько задач. Например RBSE Spider делает статистический анализ полученных документов и выдает базу данных найденных ресурсов.

Цена использования и предостережения

В этом разделе мы увидим, как работы могут наносить вред, и как этот ущерб можно минимизировать.

Ресурсы сети и загрузка серверов

Работы требуют немалого трафика. Первые работы работали в течение длительного времени, иногда месяцами. Чтобы ускорить выполнение задания, некоторые роботы работают в параллельном режиме, многие загружая трафик. Даже удаленные серверы могут почувствовать заповильнення работы, если робот получает большое количество документов за короткое время. Это приводит к уменьшению скорости работы пользователей, особенно на медленных линиях.

Страница: [1] [2] [3] [4]

версия для печати