Kniga-Online.club

М. Абрамзон - Яндекс для всех

Читать бесплатно М. Абрамзон - Яндекс для всех. Жанр: Интернет издательство -, год 2004. Так же читаем полные версии (весь текст) онлайн без регистрации и SMS на сайте kniga-online.club или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Какова психология того, кто ищет информацию? Считается, что наиболее подходящие (релевантные) документы должны быть на первой-второй страницах результатов поиска. Если количество полученных результатов больше, человек вряд ли будет просматривать остальные страницы. Рдаже если в числе найденных есть документ, полностью отвечающий заданным условиям, но находится он на странице из второго десятка, ищущий этот документ не увидит — он просто не дойдет до этой страницы. Поэтому громадное значение приобретает и ранжирование документов в результатах поиска по их релевантности запросу.

По поводу релевантности Яндекс говорит, что это "соответствие ответа вопросу", но при этом важны две составляющие — полнота (ничто не забыто) и точность (отсутствие лишнего).

Релевантность различают как содержательную и формальную. Воспользовавшись словарями, представленными в Яндексе, предложу определения этих понятий:

□ содержательная релевантность — соответствие документа информационному запросу, определяемое неформальным путем;

□ формальная релевантность — соответствие, определяемое алгоритмически путем сравнения поискового предписания и поискового образа документа на основании применяемого в информационно-поисковой системе критерия выдачи.

В простейшем случае, релевантность текста определенному запросу — это процент вхождения запроса к общему объему текста. Для поисковых систем высокорелевантным текстом считается такой, где вхождение запроса в текст примерно равно 4–7 % — меньшего может не хватить, большее чревато тем, что система сочтет текст за поисковый спам и наложит на страницу некий понижающий фильтр или может вообще убрать страницу из результатов выдачи по искомому запросу.

Конечно, каждая поисковая система использует гораздо более сложные способы вычисления релевантности документов запросу пользователя. Тем не менее, несмотря на то что алгоритмы у всех поисковых машин разные, они построены на общих принципах — основные отличия результатов выдачи заключаются не в алгоритмах определения релевантности, а в конкретных способах реализации этих алгоритмов.

Какие же факторы, помимо вхождения слов запроса в текст документа, оказывают дополнительное влияние на его место среди других документов? Каждая поисковая машина, стремясь привлечь качеством выдачи запрашиваемой информации, разрабатывает собственные критерии подсчета релевантности. Это и плотность ключевых слов на странице, и разделы страниц, где находятся эти слова, объем содержания, тексты заголовков и ссылок и многое другое. Учитываются и такие рассчитываемые показатели сайтов, как индекс цитирования, тематический индекс цитирования, Page Rank. Рпри этом происходит постоянное изменение степени влияния на результаты тех или иных параметров, их состав и принцип расчета.

1.2. Как устроена поисковая машина Яndex

Поисковая машина РЇndex относится РєРѕ второму рассмотренному ранее типу поисковых машин. РЈ РЇndexР° есть СЃРІРѕРё пауки-агенты, есть СЃРІРѕР№ Рндекс Рё поисковый механизм. Эта поисковая машина ориентирована РІ первую очередь РЅР° СЂРѕСЃСЃРёР№СЃРєСѓСЋ часть всемирного Рнтернета, С‚.В Рµ. индексируются РІ ней русскоязычные сайты, расположенные РІ доменах ru Рё su. Сделаны небольшие исключения для наиболее авторитетных зарубежных сайтов. Сложнее СЃ русскоязычными сайтами, которые зарегистрированы РІ международных или региональных (государственных) доменах РґСЂСѓРіРёС… стран — com, org, de, us Рё РґСЂСѓРіРёС…, РЅРѕ РѕРЅРё РІСЃРµ же попадают РІ Рндекс Рё учитываются РїСЂРё РїРѕРёСЃРєРµ.

Большинство значимых зарубежных нерусскоязычных сайтов может быть найдено РїРѕ ссылке, РїСЂРё этом, РІ отличие РѕС‚ русскоязычных сайтов, РІ Рндекс РѕРЅРё РЅРµ попадают. Упрощается ситуация РІ том случае, РєРѕРіРґР° Сѓ компаний, таких как BMW, IBM Рё РјРЅРѕРіРёС… РґСЂСѓРіРёС…, появляются русскоязычные версии сайтов, без проблем индексируемые Яндексом.

Поисковая машина — самый востребованный ресурс Яндекса. Ежедневно его посещают около четырех с половиной миллионов посетителей, при этом количество просмотренных поисковых страниц приближается к сорока миллионам. При этом пользователи, выполняющие на нем поиск, этого не замечают — складывается впечатление, что Яндекс работает индивидуально для каждого из них.

Так, при запросе средней "тяжести", то есть при поиске не очень частотного слова, время отклика системы (без учета времени передачи данных по каналу от поисковой системы к пользовательскому компьютеру) исчисляется десятыми долями секунды.

Перейти на страницу:

М. Абрамзон читать все книги автора по порядку

М. Абрамзон - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-online.club.


Яндекс для всех отзывы

Отзывы читателей о книге Яндекс для всех, автор: М. Абрамзон. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор kniga-online.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*