Искать реферат        
Рефераты на 5 с плюсом
С нашим сайтом написать реферат проще простого

Проблемы использования роботов в Интернете

Категория: Компьютерные науки     версия для печати   

Страница: [1] [2] [3] [4]

Эти методы можно автоматически применять для всех документов, но они не могут быть столь эффективны, как ручное индексирование автором. HTML дает возможность добавить метаинформацию к документам, упрощающая работу поиск по документу.

Этика

Понятно, что работы очень полезны, но они накладывают высокие требования на трафик и вызывают много проблем. Поэтому авторы роботов должны выбирать золотую середину между пользой и вредом, когда создают и выпускают работа. И здесь есть этическая проблема: "Вред от роботов можно оправдать их полезностью". Люди имеют разные мнения на этот счет.

Некоторые из проблем стали очевидными только тогда, когда работы увеличили вдвое загрузки серверов. Мартин Костер выработал набор правил для авторов роботов, следуя которым, можно минимизировать вред от роботов:

подумайте, действительно ли вам нужен новый робот;

сделайте так, чтобы администраторы серверов могли легко идентифицировать работа и при необходимости связаться с автором;

тщательно протестируйте работа локально;

управляйте использованием ресурсов, не допускайте нескольких последовательных скачиваний с одного сервера и не допускайте ненужных скачиваний;

следуйте стандарту "for Robot Exclusion";

регулярно просматривайте log файлы работа;

делитесь результатами своей работы с другими.

Дэвид Ейхмант разделяет роботов, которые создают общедоступные информационные базы, и роботов для пользователей, результат работы которых, используется только одним человеком.

Тот факт, что большинство авторов роботов используют советы Мартина Костера показывает, что они сознательно относятся к возможным проблемам, и пытаются минимизировать любое негативное воздействие.

Альтернативы для поиска ресурсов

Существует альтернативный подход к поиску ресурсов, когда суммарная индексная информация о сервере уже собрана на нем. Это информация только о локальные ресурсы. Она может быть создана вручную, а может автоматически из заголовков, либо тегов META. Эта информация добавляется в поисковую базу данных с помощью обычных WWW протоколов. Это не робот, потому что он не получает рекурсивно документы которые есть в этом индексе.

У этого способа есть преимущества. Качество индекса, созданного людьми, сочетается с эффективностью автоматического обновления. Целостность информации у этого способа выше, чем у обычных индексов, потому, что поддерживать нужно только локальную индексную информацию. Очень низкие требования к сети, индексная информация меньше весь сайт и приобретается только один раз.

Есть также несколько недостатков. Ручная поддержка индексной информации может дать дополнительные проблемы провайдера информации, но практически, индексная информация для основных документов меняется не часто. Другим ограничением является то, что информационные провайдеры должны записыватьсяи информацию в заданном индексной формате, что ограничивает использование дополнительных возможностей. Наконец, обновления индекса является не очень эффективными, поскольку весь индексный файл надо прочитать заново, даже если изменился лишь одна запись.

Такая система, как описано выше, - ALIWEB уже работает с октября 1993 и дает неплохие результаты. Но дальнейшее развитие идет медленно, потому что это персональный проект, над которым работают в свободное время, и который не получает капиталовложений.

Harvest - это другая система поиска информации, которая была недавно выпущена IRTF-RD, предлагающий программные системы для автоматического индексирования содержания документов, эффективной репликации и кэширования такой индексной информации на удаленных хостах, и на конец поиск этой информации через интерфейс в WWW. Реакции на эту систему были очень положительными.

Вывод

Работы очень полезны и перспективными программами для Интернет, но при их написании следует учитывать, что они могут существенно уменьшить трафик для других пользователей. Чтобы этого не произошло, при написании роботов нужно пользоваться методологией Мартина Костера и поддерживать "Standard for Robot Exclusion".

Литература

Martijn Koster, "A Standard for Robot Exclusion," Nexor Corp, http://web.nexor.co.uk/mak/doc/robots/norobots.html.

Martijn Koster, "Robots in the Web: threat or treat?", NEXOR

David Eichmann, "Ethical Web Agents"

PAGE 10

Страница: [1] [2] [3] [4]

версия для печати

Читайте также:
Украина в международных организациях
Музей в Галикарнасе и Колосс Родосский
Компьютерные вирусы
Литература 19 века
Инфляция и спрос