Kniga-Online.club

М. Абрамзон - Яндекс для всех

Читать бесплатно М. Абрамзон - Яндекс для всех. Жанр: Интернет издательство -, год 2004. Так же читаем полные версии (весь текст) онлайн без регистрации и SMS на сайте kniga-online.club или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

4. Третья фаза обработки запроса: исполнение и ранжирование запроса в коллекциях — запрос выполняется паралельно для всех коллекций.

Следует отметить, что веб-коллекции документов распределены по машинам произвольно и, вообще говоря, могут быть расположены все вместе на одной машине. Слияние результатов производится на том из собирающих (метапоисковых) веб-серверов, на который попадал пользователь при заходе по адресу www.yandex.ru. Процесс раздачи запроса, описанный здесь, позволяет корректно ранжировать слитый результат. При этом не требуется переранжирование результатов, полученных из разных неоднородных коллекций с использованием локальных IDF, а также не нужен динамический обмен данными между источниками для вычисления глобальнойIDF.

1.2.1. "Пауки"

Мы ищем в Яндексе информацию и новости, картинки и значения слов, товары и услуги. На сегодняшний день в базе данных накоплена информация о миллионах документов и сайтов, огромном количестве новостей, графических изображений, сотнях тысяч предлагаемых товаров и услуг. За обновление информации в ней отвечают различные роботы.

Вот они, те роботы, которые выполняют основную работу по поиску и индексированию информации:

□ Yandex/1.01.001 (compatible; Win16; I) — основной индексирующий робот;

□ Yandex/1.01.001 (compatible; Win16; P) — индексатор картинок;

□ Yandex/1.01.001 (compatible; Win16; H) — робот, определяющий зеркала сайтов;

□ Yandex/1.02.000 (compatible; Win16; F) — робот, индексирующий пиктограммы сайтов (favicons);

□ Yandex/1.03.003 (compatible; Win16; D) — робот, обращающийся к странице при добавлении ее через форму "Добавить URL";

□ Yandex/1.03.000 (compatible; Win16; M) — робот, обращающийся при открытии страницы по ссылке "Найденные слова";

□ YaDirectBot/1.0 (compatible; Win16; I) — робот, индексирующий страницы сайтов, участвующих в рекламной сети Яндекса.

Рђ РєСЂРѕРјРµ РЅРёС… есть Рё несколько агентов, которые занимаются проверкой доступности сайта или документа, РЅР° который стоит ссылка РІ соответствующем сервисе. РС… тоже несколько:

□ Yandex/2.01.000 (compatible; Win16; Dyatel; C) — "простукивалка" Яндекс. Каталога. Если сайт недоступен в течение нескольких дней, он снимается с публикации. Как только сайт начинает отвечать, он автоматически появляется в Каталоге.;

□ Yandex/2.01.000 (compatible; Win16; Dyatel; Z) — "простукивалка" Яндекс. Закладок. Ссылки на недоступные сайты помечаются серым цветом;

□ Yandex/2.01.000 (compatible; Win16; Dyatel; D) — "простукивалка" Яндекс. Директа. Она проверяет корректность ссылок из объявлений перед модерацией. Никаких автоматических действий не предпринимается;

□ Yandex/2.01.000 (compatible; Win16; Dyatel; N) — "простукивалка" Яндекс. Новостей. Она формирует отчет для контент-менеджера, который оценивает масштаб проблем и, при необходимости, связывается с партнером.

Если о наименованиях роботов информация не является закрытой (в любом случае, ее можно обнаружить в логах сайтов, которые эти роботы посещали), то сведения о том, на каком сетевом адресе работает тот или иной робот, закрыты. Связано это с необходимостью уменьшить вероятность некорректного использования этой информации в целях продвижения сайтов. С этой же целью сетевые адреса время от времени изменяются.

Зачем эта информация нужна вам? Если вы являетесь владельцем сайта, и у вас установлен механизм, собирающий информацию о ваших посетителях, в эти данные попадет и информация о посетивших ваш проект роботах. Вы будете в курсе, какие роботы и когда вас посещали и какие страницы просматривали.

1.2.2. Рндекс

Огромный объем информации, размещенной РІ Рнтернете, РїСЂРёРІРѕРґРёС‚ Рє разрастанию Рндекса. РЎ некоторой долей приближения информацию можно разделить РЅР° РґРІРµ категории — условно постоянную Рё переменную. Рљ переменной информации можно отнести публикации информационных изданий Рё аналогичных сервисов, записи РІ блогах, предложения онлайновых магазинов, иные сервисы, РіРґРµ информация меняется СЃ большой частотой.

Обработка быстроменяющейся информации потребовала РёРЅРѕРіРѕ РїРѕРґС…РѕРґР°. Были разработаны новые технологии Рё алгоритмы, новые базы Рё поисковые роботы. Каждой отдельной базе соответствовал собственный Рндекс. Поисковые базы были разработаны для РїРѕРёСЃРєР° РїРѕ словарям Рё энциклопедиям, РїРѕ каталогу сайтов, РїРѕ предложениям интернет-магазинов, новостям Рё блогам.

РќРѕ какие Р±С‹ новые технологии РЅРё создавались, какими Р±С‹ совершенными РЅРё становились технические средства, объем накапливаемой информации заставляет наращивать вычислительные мощности. Если первый Рндекс размещался РЅР° обычном компьютере, стоявшем РІ буквальном смысле "РІ ногах" Сѓ разработчика, то теперь для размещения аппаратных средств построены специальные помещения, оборудованные всем необходимым для обеспечения непрерывной работы. Рђ компьютер, положивший начало РїРѕРёСЃРєРѕРІРѕР№ системе, теперь находится РЅР° выставке раритетов Яндекса.

Перейти на страницу:

М. Абрамзон читать все книги автора по порядку

М. Абрамзон - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-online.club.


Яндекс для всех отзывы

Отзывы читателей о книге Яндекс для всех, автор: М. Абрамзон. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор kniga-online.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*