М. Абрамзон - Яндекс для всех
Вторые собирают информацию РІ Сети, используя специальные программы. Рто поисковые машины, состоящие, как правило, РёР· трех основных компонентов:
□ Агента;
в–Ў Рндекса;
□ Поискового механизма.
Агент, или более привычно — паук, СЂРѕР±РѕС‚ (РІ англоязычной литературе — spider, crawler), РІ поисках информации РѕР±С…РѕРґРёС‚ сеть или ее определенную часть. Ртот СЂРѕР±РѕС‚ хранит СЃРїРёСЃРѕРє адресов (URL), которые РѕРЅ может посетить Рё проиндексировать, СЃ определенной для каждой РїРѕРёСЃРєРѕРІРѕР№ машины периодичностью скачивает соответствующие ссылкам документы Рё анализирует РёС…. Полученное содержимое страниц сохраняется роботом РІ более компактном РІРёРґРµ Рё передается РІ Рндекс. Если РїСЂРё анализе страницы (документа) будет обнаружена новая ссылка, СЂРѕР±РѕС‚ добавит ее РІ СЃРІРѕР№ СЃРїРёСЃРѕРє. Поэтому любой документ или сайт, РЅР° который есть ссылки, может быть найден роботом. Рнаоборот, если РЅР° сайт или любую его часть нет никаких внешних ссылок, СЂРѕР±РѕС‚ может его РЅРµ найти.
Р РѕР±РѕС‚ — это РЅРµ просто сборщик информации. РћРЅ обладает довольно развитым "интеллектом". Роботы РјРѕРіСѓС‚ искать сайты определенной тематики, формировать СЃРїРёСЃРєРё сайтов, отсортированных РїРѕ посещаемости, извлекать Рё обрабатывать информацию РёР· существующих баз данных, РјРѕРіСѓС‚ выполнять переходы РїРѕ ссылкам различной глубины вложенности. РќРѕ РІ любом случае, РІСЃСЋ найденную информацию РѕРЅРё передают базе данных (Рндексу) РїРѕРёСЃРєРѕРІРѕР№ машины.
Поисковые роботы бывают различных типов:
□ Spider (паук) — это программа, которая скачивает веб-страницы тем же способом, что и браузер пользователя. Отличие состоит в том, что браузер отображает информацию, содержащуюся на странице (текстовую, графическую и т. д.), паук же не имеет никаких визуальных компонентов и работает напрямую с HTML-текстом страницы (аналогично тому, что вы увидите, если включите просмотр HTML-кода в вашем браузере).
□ Crawler (краулер, "путешествующий" паук) — выделяет все ссылки, присутствующие на странице. Его задача — определить, куда дальше должен идти паук, основываясь на ссылках или исходя из заранее заданного списка адресов. Краулер, следуя по найденным ссылкам, осуществляет поиск новых документов, еще неизвестных поисковой системе.
в–Ў Рндексатор разбирает страницу РЅР° составные части Рё анализирует РёС…. Выделяются Рё анализируются различные элементы страницы, такие как текст, заголовки, структурные Рё стилевые особенности, специальные служебные HTML-теги Рё С‚.В Рґ.
Рндекс — это та часть РїРѕРёСЃРєРѕРІРѕР№ машины, РІ которой осуществляется РїРѕРёСЃРє информации. Рндекс содержит РІСЃРµ данные, которые были переданы ему роботами, поэтому размер индекса может достигать сотен гигабайт. Практически, РІ индексе находятся РєРѕРїРёРё всех посещенных роботами страниц. Р’ случае если СЂРѕР±РѕС‚ обнаружил изменение РЅР° уже проиндексированной РёРј странице, РѕРЅ передает РІ Рндекс обновленную информацию. РћРЅР° должна замещать имеющуюся, РЅРѕ РІ СЂСЏРґРµ случаев РІ Рндексе появляется РЅРµ только новая, РЅРѕ остается Рё старая страница.
Поисковый механизм — это тот самый интерфейс, СЃ помощью которого посетитель взаимодействует СЃ Рндексом. Через интерфейс пользователи РІРІРѕРґСЏС‚ СЃРІРѕРё запросы Рё получают ответы, Р° владельцы сайтов регистрируют РёС… (Рё эта регистрация — еще РѕРґРёРЅ СЃРїРѕСЃРѕР± донести РґРѕ робота адрес своего сайта). РџСЂРё обработке запроса поисковый механизм выполняет отбор соответствующих ему страниц Рё документов среди РјРЅРѕРіРёС… миллионов проиндексированных ресурсов Рё выстраивает РёС… РІ РїРѕСЂСЏРґРєРµ важности или соответствия запросу.
Названные выше компоненты РЅРµ обязательно РІС…РѕРґСЏС‚ РІ состав РїРѕРёСЃРєРѕРІРѕР№ машины так, как РѕРЅРё здесь описаны. РЈ разных РїРѕРёСЃРєРѕРІРёРєРѕРІ реализация может отличаться РґСЂСѓРі РѕС‚ РґСЂСѓРіР°. Рљ примеру, СЃРІСЏР·РєР° Spider+Crawler+Рндексатор может быть выполнена РІ РІРёРґРµ единой программы, которая скачивает известные веб-страницы, анализирует РёС… Рё ищет РїРѕ ссылкам новые ресурсы.
1.1.2. Характеристики поисковых машин
В статье, посвященной поисковой машине Rambler (http://www.rambler.ru/ doc/architecture.shtml), называются основные характеристики, которые могут быть применены к любым поисковикам:
□ полнота;
□ точность;
□ актуальность;
□ скорость;
□ наглядность.
Полнота РїРѕРёСЃРєР° характеризуется отношением количества найденных РїРѕ запросу документов Рє общему количеству документов РІ Рнтернете, соответствующих данному запросу. Если РїРѕ запросу "кристаллическая решетка" будет найдено 150 документов, Р° общее количество документов РІ Рнтернете, соответствующее этому запросу, составляет 1000, то полнота РїРѕРёСЃРєР° составит 0,15. (Рта величина приблизительная, поскольку неизвестно точно, сколько же РЅР° самом деле существует РІ Рнтернете страниц, отвечающих условию РїРѕРёСЃРєР°.) Чем более полно проанализированы Рё занесены РІ Рндекс документы, тем выше будет показатель полноты РїРѕРёСЃРєР°.