Kniga-Online.club

М. Абрамзон - Яндекс для всех

Читать бесплатно М. Абрамзон - Яндекс для всех. Жанр: Интернет издательство -, год 2004. Так же читаем полные версии (весь текст) онлайн без регистрации и SMS на сайте kniga-online.club или прочесть краткое содержание, предисловие (аннотацию), описание и ознакомиться с отзывами (комментариями) о произведении.
Перейти на страницу:

Значительно проще следить за новостями с помощью сервиса, который собирает их с различных сайтов, агрегирует по темам, релевантности, времени публикации. Такие сервисы существуют, и их немало. Как правило, это сервисы, которые сами не являются производителями контента. Какому из подобных сервисов отдаст предпочтение тот или иной человек, зависит от возможностей, им предоставляемых, удобства использования, качественности и своевременности подаваемой информации. В число наиболее посещаемых и, следовательно, наиболее удобных и качественных сервисов такого рода, входят и Яндекс. Новости.

3.1.1. С чего начинались Яндекс. Новости

Начало работы СЃ новостными сайтами Сѓ РїРѕРёСЃРєРѕРІРёРєР° складывалось примерно так же, как Рё работа СЃ веб-ресурсами. Поисковые роботы обходили новостные сайты, собирали контент, добавляли его РІ Рндекс, после чего посетители РїРѕРёСЃРєРѕРІРѕР№ системы могли найти РІ ней РЅРµ только информацию РёР· документов, РЅРѕ Рё РёР· новостей. Отличие было РІ том, что новостные сайты обновляют СЃРІРѕСЋ информацию РЅР° РїРѕСЂСЏРґРєРё чаще, чем иные сетевые ресурсы. Поэтому частота РѕР±С…РѕРґР° роботами новостных сайтов была значительно выше, РґРѕС…РѕРґСЏ для наиболее значимых ресурсов РґРѕ 5-10 РјРёРЅСѓС‚. Какое-то время уходило РЅР° индексирование, после чего информация становилась доступной для РїРѕРёСЃРєР°.

Яндекс. Новости открылись РІ РёСЋРЅРµ 2000 РіРѕРґР° Рё включали РІ РїРѕРёСЃРєРѕРІСѓСЋ базу информацию РёР· пятнадцати источников. Этот сервис был первой полностью автоматической службой СЃР±РѕСЂР° Рё обработки новостей. Новости РЅРµ только индексировались Рё помещались РІ Рндекс, РЅРѕ также раскладывались РїРѕ тематическим рубрикам. Новостная база стала РѕРґРЅРѕР№ РёР· первых РІ перечне дополнительных параллельных РїРѕРёСЃРєРѕРІ Яндекса — заголовки новостей можно было получить РїРѕ результатам РїРѕРёСЃРєРѕРІРѕРіРѕ запроса РЅР° отдельной вкладке результатов РїРѕРёСЃРєР°.

РќРѕ новостных источников становилось РІСЃРµ больше. Руже Рє 2003 РіРѕРґСѓ РёС… количество перевалило Р·Р° сотню (сегодня партнерами Яндекс. Новостей являются почти 2000 интернет-РЎРњР, Рё РІ РёС… числе — информационные агентства широкого профиля, электронные версии печатных РЎРњР, сетевые издания, сайты телеканалов Рё радиостанций, тематические, специализированные Рё региональные ресурсы). Стало СЏСЃРЅРѕ, что первоначальный СЃРїРѕСЃРѕР± СЃР±РѕСЂР° Рё индексирования новостей уже перестал себя оправдывать, появилось множество дублирующих новостей, выполненных РїРѕ типу copy+paste. Пришло время менять принцип СЃР±РѕСЂР° Рё обработки новостей.

В том море новостей, которое обрушилось на поисковую систему, нужно было выбрать наиболее важные, значимые новости. Это стало одной из первоочередных задач развития сервиса. А для этого необходимо было научиться, во-первых, находить и соединять сообщения на одну тему, а, во-вторых, упорядочивать сообщения по важности — для того чтобы общественно значимые события последних нескольких часов или всего дня оказывались бы максимально экспонированы.

Как собирают сюжеты

Как собрать в едином сюжете новости, опубликованные в различных источниках? В почтовой службе это легче — есть исходное письмо, и если есть ответы на него, то они "сцепляются" друг с другом и попадают в одно обсуждение. В новостях все намного сложнее — нет единого названия, тексты сообщений могут отличаться друг от друга весьма значительно. В то же время новости относятся к одному и тому же событию, следовательно, должны попасть в один сюжет. Рвот что по этому поводу говорят разработчики системы поиска по новостям:

Центральная задача, которая стояла перед нами, — научиться отождествлять сообщения, относящиеся к одному и тому же сюжету. Очевидно, что эта задача лучше всего решается анализом текста и поиском максимально похожих документов.

Для определения попарной текстуальной близости сообщений мы использовали модифицированный для небольших однородных текстов алгоритм поиска похожих документов и алгоритм нечеткого поиска по кворуму. Как и любой поиск Яндекса, этот алгоритм работает с учетом морфологических вариантов русских и английских слов, причем для агнонимов (то есть "неизвестных системе слов"), составляющих в Яндекс. Новостях значительную часть словника, используется методика нахождения ближайших морфологических эквивалентов. Для частичного снятия морфологической омонимии в Яндекс. Новостях используются статистические эвристики.

Затем матрица попарной близости обрабатывается алгоритмом кластеризации с тщательно подобранным радиусом. Для того чтобы увеличить связность крупных сюжетов, мы дополнительно использовали кластеризацию второго уровня, собирая атомарные кластеры в более крупные. Такой алгоритм дает полноту около 85–90 % (то есть не более 15 % сообщений ошибочно не попадают в сюжеты) и обеспечивает точность около 95 % — в сюжетах редко встречаются сообщения на другие темы.

Перейти на страницу:

М. Абрамзон читать все книги автора по порядку

М. Абрамзон - все книги автора в одном месте читать по порядку полные версии на сайте онлайн библиотеки kniga-online.club.


Яндекс для всех отзывы

Отзывы читателей о книге Яндекс для всех, автор: М. Абрамзон. Читайте комментарии и мнения людей о произведении.


Уважаемые читатели и просто посетители нашей библиотеки! Просим Вас придерживаться определенных правил при комментировании литературных произведений.

  • 1. Просьба отказаться от дискриминационных высказываний. Мы защищаем право наших читателей свободно выражать свою точку зрения. Вместе с тем мы не терпим агрессии. На сайте запрещено оставлять комментарий, который содержит унизительные высказывания или призывы к насилию по отношению к отдельным лицам или группам людей на основании их расы, этнического происхождения, вероисповедания, недееспособности, пола, возраста, статуса ветерана, касты или сексуальной ориентации.
  • 2. Просьба отказаться от оскорблений, угроз и запугиваний.
  • 3. Просьба отказаться от нецензурной лексики.
  • 4. Просьба вести себя максимально корректно как по отношению к авторам, так и по отношению к другим читателям и их комментариям.

Надеемся на Ваше понимание и благоразумие. С уважением, администратор kniga-online.


Прокомментировать
Подтвердите что вы не робот:*
Подтвердите что вы не робот:*