Гугл поисковая система : Технологии разведки для бизнеса - Поисковые системы: поле боя
Гугл поисковая система
 
 
 
Технологии разведки для бизнеса - Поисковые системы: поле боя

В настоящее времена информационные ресурсы Сети составляют свыше десятка биллионов документов (Web-страниц), к которым мыслим вольный доступ любого пользователя. природно, для того, чтоб найти необходимую информацию и этой крупнейшей распределенной полнотекстовой базе настоящих необходимо использовать самые мощные ИПС. таковские системы бытуют и конкурируют товарищ с другом на современном базаре информационных технологий. Мы стали свидетелями увлекательного явления: за 10 лет невелико кому популярный полнотекстовый розыск стал повседневным инструментом миллионов людей, использующих таковские системы-бренды, пунктуально Altavista, Google, Alltheweb, Yahoo, всякая из которых охватывает свыше биллиона документов. При этом отдаленно не все лидеры информационных технологий десятилетие назад осознали эту тенденцию. «Недостаточные инвестиции Microsoft в технологию Интернет-поиска были непростительной оплошкой шатии, но она трудится над тем, чтоб нагнать прозеванное. объясняются, что Microsoft успевает повсеместно, но вот вам образчик того, где мы не успели», — заявил CEO корпорации Стив Баллмер, выступая перед аудиторией менеджеров по маркетингу и представителей СМИ на пятой ежегодной конференции Microsoft по рекламе в Редмонде. Microsoft с трудом протискивается на одну из самых бойких территорий в вебе. Она упорно норовит нагнать прозеванное, но пока отстает от своих центральных конкурентов. При этом Баллмер заявил, что в ближайшие 12 месяцев команда разработчиков Microsoft должна предложить поисковую технологию первого поколения. совместно с тем, ситуация на рынке поисковых систем не простая — она отражает принцип свежеиспеченной экономики: тут не может быть вторых ролей. Или система — лучшая в мире, или ей никто не будет употреблять. Система должна найти свою нишу в задаче максимального удовлетворения запросов пользователей — быть самой упитанной, самой демократичной, самой интеллектуальной или самой локализированной. Основополагающими характеристиками информационно-поисковых систем представляет полнота и релевантность плодов розыска. Полнота розыска узко связано с оперативностью охвата информации системой. Созданная один база настоящих Интернет-ресурсов представляет «слепком» состояния Сети в конкретный момент. Если эта база не будет обновляться всегдашне и оперативно, присутствующие в ней ссылки на документы станут дохлыми. Кроме того, отсутствие оперативности, обновления баз настоящих не позволит пользователю отслеживать заключительные изменения в его предметной области. Кроме характеристик полноты и релевантности для пользователей ИПС, знатное смысл обладают таковские характеристики, пунктуально скорость обработки запросов, получения отзвука от системы, достоверность отзвука (например, оцениваемая по ее источникам), а также прибавочные сервисы — возможность нахождения документов, подобных уже водящимся (like this), возможность подключения самодействующих переводчиков и, конечно же, возможность уточнения запроса непосредственно после выполнения процедуры розыска. ныне информации в Сети показывает вяще, чем ее успевают проиндексировать поисковые системы. почему выступает жесткая конкурентная война, связанная с этим аспектом. Ведущими по охвату информационных ресурсов Интернет представляют поисковые системы Google и Alltheweb. совместно с тем, даже эти системы охватывают итого лишь третью часть имеющихся Web-страниц. число поисковых серверов, охватывающих Интернет, а не отдельные его части, ограничено несколькими десятками, лидерами в которых представляют таковские, как: Среди российских поисковых серверов особого внимания заслуживают три — это Яндекс ( ), Рамблер ( ) и Апорт ( ). В Украине две лидирующих поисковых системы — МЕТА ( ) — по стабильной части украинского сегмента Сети и UAport ( ) — по новостной части. Полнота охвата ресурсов Сети — это один-одинешенек из двух центральных аспектов характеристики полноты сетевой информационно-поисковой системы. другой аспект связан с полнотой информации, предъявляемой пользователю по его запросу. Если предположить, что по запросу пользователя Q в базе настоящих находятся Р (при Р (0) документов, отвечающих этому запросу, а предъявлено для просмотра итого N документов, то полнота системы определяется по формуле: П=(N/P)x100%. В случае, если П оказывается вяще 100%, очевидно, что пользователю выдано минимум N-P документов, не соответствующих его запросу, т. е. нерелевантных. Под релевантностью понимается формальное соответствие информации, выдаваемой системой, запросу. Если по запросу пользователя получено N документов, мыслящих собой общество двух множества документов: отвечающих запросу (пусть их количество — N1), и не соответствующих (их количество — N2), т. е. N = N1+N2. Тогда релевантность, пунктуально степень соответствия, определяется по формуле: Р = (N1/N)x100%, а шум — по формуле: S = (N2/N)x100% = 100% —  P. Это дефиниция характерно для формальной релевантности, однако, на практике используется иное, неформальное понятие — пертинентность. Для пользователя пертинетность, соотношение объема пользительной для него информации к общему объему полученной информации, располагает решающее смысл. При этом вытекает учитывать, что формальный запрос к системе представляет объектом творческого осмысления информационной надобности и не всегда пунктуально отражает остатнюю. Неумение большинством пользователей верно формулировать требования и получать приемлемые объемы отзвука породило в конце 20 века понятие об Интернет, пунктуально об огромной информационной свалке. Достижение рослой пертинентности — основное поле конкурентной борьбы нынешних поисковых систем. собственно для максимального удовлетворения информационных надобностей пользователей информационно-поисковые системы ныне максимально интеллектуализируются — получили машистое утилитарное применение теории и методы семантических сетей, контент-анализа и глубинного разбора текстов (Text Mining). Казалось бы, с развитием технологических возможностей, нынешние поисковые системы должны гарантировать гарантированное нахождение информации, однако «ленивые» пользователи все же, смертельно зачастую не довольны качеством их работы. Основная масса пользователей не хочет прикладывать особых интеллектуальных усилий при формировании критериев розыска. поразительно басистым оказывается процент использования запросов, усложненных хотя бы одним логическим или контекстным оператором. близ 80 % запросов заключаются из одного или двух слов. Если и используются операторы, то это в основном булевы AND и OR. часть использования операторов контекстной близости и логического отрицания (NOT) не превышает 1—2%. В то же времена, реализация отработки сложных запросов (которых доколь не более 20%) и определяет эффективность использования времени, коротаемого пользователем в Интернет. Для ввода сложных запросов требуется использование булевых и контекстных операторов, скобок, предписание пустотелее и т. п., что недоступно для среднестатистического пользователя. Поисковые службы обыкновенно строят два интерфейса — выстои (по умолчанию) и расширенный (называемый в разных системах детальным, мощным или профессиональным), однако первостепенная задача коммерческих поисковых служб пунктуально один и заключается в удовлетворении информационных надобностей среднестатистического пользователя. наречем лишь кой-какие возможности слогов запросов наиболее популярных систем — возможности какие лопать в распоряжении пользователей, но которые используются в очень небольшой части. Во всех нынешних системах реализованы булевы операторы AND, OR и NOT, а также труд со скобками. Однако в двух из них — AltaVista и Excite оператор NOT записывается в виде «AND NOT», — эким образом подчеркивается его бинарность (в математической логике оператор NOT в чистом виде — унарный). В режимах простого розыска булевы операторы реализуются не всегда указанием их в явном облике. примерно, во многих поисковх системах пробел между словами запроса по умолчанию воспринимается пунктуально оператор AND (Allthenews, Google, META и UAport). В то же времена при предписании опций субъекта «any of the words», пробел в таких системах воспринимается как OR. Кроме тог, в Alltheweb допускается использование операторов «+» и «-» перед словами фактически пунктуально синонимов операторов AND и NOT, соответственно. пунктуально так же используются эти операторы в AltaVista, Excite, Lycos и Апорт. Большинство профессиональных поисковых систем обеспечивает выполнение операций контекстной близости, одна из реализаций которой — розыск речений в кавычках. В системе Яndex порядок контекстного розыска именуется «поиском с расстоянием». В общем облике ограничение по расстоянию задается речением облика «/(n m)», где n — минимальное, а m — максимальное позволительное дистанция. В системе Апорт суть два облика ограничения по расстоянию: в словах «wN(...)», где N — число слов и в предложениях «sN(...)», где N — число предложений. Можно отметить, что у самой популярной ныне системы Google — самый лаконичный комплект операторов — «+», OR и «-» и реализована возможность розыска по фразам в кавычках. раздельного рассмотрения заслуживает возможность розыска по параметрам документов, коя позволяет ограничивать диапазон розыска значениями URL, датам, заглавий и т. п. Чаще итого выйти на возможность розыска по параметрам можно из режима расширенного розыска. В режиме расширенного розыска для ввода значений раздельных параметров предлагается тяни диапазон возможностей Web-интерфейса. примерно, в системе Alltheweb в за просах можно показать параметры, обеспечивающие розыск по таким параметрам: URL (например, по запросу «url:energ» будут найдены документы, в URL каких присутствует строка «energ»), ссылки на страницы сайтов («link:»), доменные имена (например, «site:ua» обеспечит нахождение документов из украинского домена), заголовки («title:»). В этой системе положим розыск, кроме всех вариантов текстовых файлов, еще трех фруктов файлов — PDF, Ms Word, Flash. В системе AltaVista присутствуют все ввергнутые для Alltheweb возможности (параметру «site:» в AltaVista отвечает «host:»), кроме того, в режиме расширенного розыска обеспечивается розыск по датам (с явным предписанием «с...- по...», либо предписанием тапа «искать за последние 8 месяцев»). Этот порядок в системе традиционно именуется «Web-археологией». В Google обеспеч

Поиск
Самое интересное

плод | система | особенность | вести | розыск
damki.net