. почему весьма царственно владеть понятие о том, точно трубят поисковые системы, точно бессчетно страниц они "видят", и сколько злободневна предоставляемая ими информация.
и модуля обработки запроса пользователя. HTTP-робот - это программа, какая собирает доступную в облике текста информацию. Вся скопленная информация записывается в
. разыскание осуществляется прочий программой, какая извлекает запрашиваемую пользователем информацию из index-файла.
Качество работы порознь взятой поисковой системы здоровенно зависит от качества работы обоих программных модулей системы.
Для того дабы оценить работу HTTP-роботов по-различных поисковых систем, на одном из РУНЕТ'овских сайтов с объемом страниц возвышеннее посредственного, была учреждена особая система отслеживающая все характерные для
обращения.
короче представлена таблица, составленная на основе свидетельств нашей системы в фаза с средины лета 2000 года по точка декабря 2000 года:
Глубина индексации обусловлена вытекающим образом. За 100% взята вся доступная на подопытном сайте текстовая информация по ссылкам от головного файла. Значения возвышеннее 100% означают, что настоящий робот получил доступ к файлам не доступным по ссылкам с домашней страницы сайта или же закачал не текстовые, а мультимедийные или бинарные файлы, точно это ладит "FAST-WebCrawler".
Частота индексации демонстрирует, точно зачастую HTTP-робот возвращается, дабы отследить и зафиксировать изменения или обновления случившиеся на розном сайте. дробнее итого HTTP-роботы запрашивают заглавный файл раздельного сайта. Исключением представляет робот системы
- "Gulliver", кой дробнее обращался к файлам находящимся короче заглавного документа.
долголетние наблюдения за индексирующими роботами выявили характерные особенности в их "поведении". Наиболее стабильным себя показал робот системы
- "Lycos_Spider_(T-Rex)". Однако поисковая система
отдает весьма неглубокий охват Интернета, несмотря на грозное наименование своего HTTP-робота.
сравнительно свежие поисковые системы и взаправду выбрасывают нам возможность шукать в Интернете, а не в какой-то его части. Робот системы
- "FAST-WebCrawler" примечен нами сравнительно недавно, однако по многим показателям он превосходит своих конкурентов. HTTP-робот системы
- " " примечен бессчетно прежде, разумеется и сложно было бы его не подметить поскольку это один-одинехонек из самых деятельных роботов.
весьма оптимально зарекомендовала себя система . один-одинехонек из самых здоровых индекс-файлов Интернета, подкреплен отличным поисковым модулем с расширенным синтаксисом запросов.
Робот корпорации - " " используется несколькими поисковыми системами. Самая приметная из них
. "
" - самый деятельный робот в Интернете.
судя по всему обладает самым грамотным программным обеспечением, однако уступает в мощности, хоть, системе
. К сожалению, компания
прихлопнула собственный, на наш взор, наиболее благополучный поисковый проект
.
Поисковая система по многим показателям зарекомендовала себя, точно система мирового уровня.
взаправду обладает конкурентно-способным программным обеспечением. Однако система "заточена" под кириллицу и индексирует предпочтительно сайты в полосе RU. почему мы относим
к системе третьего(локального) класса.
Возможности поискового робота системы , несравненно уступают возможностям HTTP-робота системы
. Однако
инициативно использует информацию, заведенную пользователями вручную спустя фигуры регистрации. За счет этого
нередко выдает более злободневную информацию, чем
.
В этой таблице мы представили плоды сравнения компонентов одной поисковой системы с компонентами прочий. Три звездочки - тончайшая оценка, указывают на то, что в настоящем компоненте система ни в чем не уступает конкурентам. Две звездочки соответственно указывают, на сравнительное отставание системы в конкретном компоненте.
Синтаксисом системы мы именуем возможности слога запросов поискового модуля системы. Оценивая этот существеннейший компонент, мы учитывали также качество реализации заявленного системой синтаксиса запросов.
Корректность робота - параметр, указывающий на то, с какой интенсивностью HTTP-робот запрашивает документы раздельного сайта. Оценку в две звездочки мы поставили HTTP-роботам, какие могут порождать загрузку сервера из-за чересчур интенсивного обращения. примечено, что роботы
и могут порождать загрузку серверов. Справедливости ради стоит подметить, что тесты проводились на российских серверах, почему знатная интенсивность обращений HTTP-роботов ведущих российских систем вполне обелена.
Поисковые системы мы разбили на пять классов . К первому классу причислены системы с здоровейшим объемом индекс файла, обеспечивающим наиболее пространный охват Интернета. Ко второму классу причислены системы индексирующие Интернет выборочно, т.е. прежде итого основные документы порознь взятого сайта. К третьему классу причислены локальные системы, т.е. системы осуществляющие разыскание в заданных рамках. хоть,
- ограничивается РУНЕТ'ом, а
изначально ориентирован на индексирование европейской части Интернета. К четвертому классу мы причислили локальные системы, со схемой выборочной индексации, похожей на схему индексации систем второго класса. И, наконец, к пятому классу мы причислили
. характерный образчик системы пятого класса поисковая система
.
Из зафиксированных, однако не взошедших в таблицы поисковых роботов также отметим -
,
(HTTP-робот ) и (HTTP-робот "KIT-Fireball").
Помимо упомянутых HTTP-роботов, в просторах Интернета примечено еще несколько десятков индексирующих и не индексирующих роботов. важный образчик нетрадиционного использования снаряженной таковским образом информации -
(HTTP-робот "DIIbot") - система, предначертанная для розыска аналогических документов.
Подавляющее большинство не взошедших в наш обозрение поисковых систем либо не владеют своего индексирующего робота, либо изображают системами 2-го, 3-го, 4-го или 5-го класса.
Системы, не владеющие своего HTTP-робота, точно правило, используют возможности прочих поисковых систем. таковские системы либо используют HTTP-роботы, нарисованные возвышеннее, либо являются
.
Классическим вариантом мета поисковой системы, представляет система
. Эта система разом опрашивает несколько ведущих поисковых систем и выдает пользователю компактный, предварительно отсортированный и скрупулезно проанализированный список плодов.
На настоящий момент, наиболее разболтаны поисковые системы, использующие технологии трех бражек - "
" ( ), "
" и " ".
Наблюдается также интеграция технологий между неодинаковыми поисковыми системами.
использует симбиоз технологий и .
- технология, отслеживающая выбор пользователя для всякого конкретного запроса. скопленная таковским образом информация действует на позиции ссылок в плодах розыска.
, помимо своих собственных технологий, частично использует технологии "
".
Подводя итог, особо отметим системы
,
,
и .
По оценкам наших специалистов на голову превосходит всех конкурентов по кое-каким величественнейшим показателям.
, пожалуй, самая дружелюбная и ясная пользователю поисковая система. неспроста популярный каталог
использует технологию . Мы рекомендуем употреблять также поисковой системой по
- . В
можно найти ответ утилитарны на любой проблема.
, по суждению точно специалистов таково и пользователей, наиболее мощная и грамотная российская поисковая система.
Мета-поисковая система , была создана нами по итогам масштабных изысканий и призвана сковать добрейшие качества лучших поисковых систем в нераздельный поисковый проект с всеобщим интерфейсом и всеобщим синтаксисом запросов. Мы постарались минимизировать дефициты мета-поисковой технологии и максимально использовали ее преимущества.
Автор статьи .
При использовании материалов статьи, ссылка
на автора и проект непременна.
|
|