На сайте 100500 рефератов в 150 категориях	Искать реферат
Рефераты на 5 с плюсом С нашим сайтом написать реферат проще простого

Проблемы использования роботов в Интернете

Категория: Компьютерные науки

версия для печати

Страница: [1] [2] [3] [4]

Некоторые корпоративные пользователи могут видеть прямую зависимость между расходами на Интернет и загруженностью сети. Эти расходы окупят себя для потенциальных пользователей, но не окупит использования сети работами.

Кроме отношение высоких требований к сети, работы могут ставить высокие требования серверам. В зависимости от частоты приема документов с сервера, одновременная загрузка нескольких документов может привести к ощутимой загруженности сервера, что приведет, в свою очередь, к снижению уровня сервиса для пользователей, в этот же сервера. В случае, когда сервер используется также в иных целях, это может быть вообще не допустимо.

Поэтому, робот не может часто получать документы с одного сервера. Даже современный браузер Netscape страдает эту проблему, получая встроены в страницу рисунки одночасовой. HTTP протокол не приспособлен к параллельному получения документов, поэтому ведутся разработки новых протоколов.

Обновление

Было сказано, что базы данных о документах Интернет должны обновляться регулярно, но не существует механизмов контроля за изменениями в WWW. Не существует единого запроса, который бы какие из заданных URL уничтожены, модифицировать или перемещены.

Но, HTTP протокол вместе с запросом данных позволяет задать дату этого же документа из кэша. Сервер передаст документ только тогда, когда документ был изменен со времени когда он был записан в кэш.

Эта возможность может быть использована роботом только тогда, когда он сохраняет связь между данными, которые он получает из документа, его URL и время получения. Это ставит дополнительные требования к размеру и сложности базы данных и применяется не часто. Загруженность сети играет особую роль, когда работы используются конечными пользователями, работающими на медленных линиях.

Другой опасный аспект клиентских роботов: когда робот распространенный - никакие ошибки не могут быть исправлены, никакие другие данные не могут быть добавлены и новые возможности не могут быть реализованы том, что не все обновят версии своих роботов.

Но самым опасным является то, что хотя некоторые люди будут использовать роботов разумно, т.е. не превышать какой-либо максимум, будут люди, злоупотреблять своими возможностями, по незнанию или самонадийнисть.

"Умные агенты" или "персональные ассистенты" пользователя, является сейчас популярной темой для исследования. Очевидно, что автоматизация бесценна для поиска ресурсов, нужно еще много исследований, чтобы поиск стал более эффективным. Простые работы пользователя еще очень далеки от разумных сетевых агентов.

Плохие реализации

Нагрузка на сеть и серверы иногда увеличивается за счет плохо написанных новых роботов. Даже если входные и выходные данные правильны, есть много менее очевидных проблем.

Например, иногда один робот обращается несколько раз к одному и тому же ресурсу. Иногда работа просто тестируют на этом ресурсе, а в других случаях есть ошибки в программе работа. Повторные обращения случаются, когда не записываются история загруженных ресурсов (что обязательно нужно делать), или когда робот не распознает случаи когда используются различные DNS-названия для одного IP адреса.

Некоторые работы получают файлы таких типов, которые они не могут обработать (GIF, PS), и игнорируют, хотя их можно было бы и не загружать.

Ведение каталога

Базы данных ресурсов, что найденные роботом, безусловно, популярны. Однако, есть несколько проблем, ограничивающих использование роботов для поиска ресурсов.

Много материала, слишком много динамичным.

Измерением эффективности заданного подхода получения информации является процент релевантных документов среди всех найденных. Поиск информации происходит не в самом Интернете а в локальной базе данных конкретного работа, может не содержать информации, которая в действительности существует в Интернете, так как размер Интернет громадный и изменения очень часты.

Определение что индексировать, а что нет.

Робот не может автоматически определить, нужно ли данную страницу включать в список или нет. Веб-серверы могут содержать документы, которые используются только локально, например, список внутренней библиотеки, или те, которые существуют временно. До некоторой степени, решение о том, что необходимо, а что нет, зависит от предпочтений пользователей, но они могут быть неизвестными для робота. Практически работы содержатся почти все, что они находят. Заметьте, что даже если робот сможет определить, что данную страницу не нужно включать в базу данных, он уже получил этот ненужный файл из Интернет. Наоборот, робот, игнорирует большой процент документов является не очень полезным.

Robot Community попыталось изменить эту ситуацию, создав специальный стандарт "A standard for robot exclusion". Этот стандарт описывает использование простого структурированного текстового файла, чтобы задать, какие части данного сервера не нужно осматривать работам. Эту возможность можно использовать, чтобы сообщить работа о черных дырах, когда углубляясь во все более глубокие страницы робот не может с ним вернуться. Каждому работу можно давать особые инструкции, поскольку каждый из них специализируется в определенной отдельной отрасли. Этот стандарт не общепринятый, но считается, что каждый робот должен его придерживаться.

Определить порядок обхода сайтов это большая проблема. Большинство сайтов организованы иерархически, поэтому обход в ширину, с вершины до заданной глубины, дает больший набор документов, чем обход в глубину. Однако обход в глубину быстрее найдет страницы пользователей, в которых есть ссылки на другие страницы, и поэтому быстрее найдет новые сайты для обхода.

# / Robots.txt for http://www.site.com/

User-agent: * # attention all robots:

Disallow: / cyberworld / map # infinite URL space

Disallow: / tmp / # temporary files

Пример файла robots.txt

Статистический анализ

Очень сложно проиндексировать обычный веб-документ. Первые работы просто сохраняли названия документов и тексты ссылок, но современные работы используют более сложные механизмы, и как правило анализируют все содержание документа.

ots.txt for http://www.site.com/

User-agent: * # attention all robots:

Disallow: / cyberworld / map # infinite URL space

Disallow: / tmp / # temporary files

Пример файла robots.txt

Статистический анализ

Очень сложно проиндексировать обычный веб-документ. Первые работы просто сохраняли названия документов и тексты ссылок, но современные работы используют более сложные механизмы, и как правило анализируют все содержание документа.

Страница: [1] [2] [3] [4]

версия для печати