Владислав Дорофеев - Яндекс Воложа. История создания компании мечты
К тому же «Матрикснет» устойчив к переобучению. Дело в том, что поисковым системам свойственен так называемый эффект переобучения, когда поисковая машина начинает находить несуществующие закономерности.
С этого момента с помощью «Матрикснета» формируется формула ранжирования «Яндекса», которую теперь можно настраивать отдельно для достаточно узких классов запросов.
А это означает, что с этого времени каждый шаг, точнее, каждый клик пользователя в Сети отлеживается и анализируется, на каждого пользователя составляется досье: кто и куда пошел, что узнавал и чем интересовался.
Это нормальная слежка. Разумеется, не ради слежки и не только ради денег, но и чтобы ускорить и углубить, улучшить и разнообразить ответ на запрос пользователя, соответственно, расширить возможности монетизации. Более детальная, точнее, целевая работа с пользователем — это дополнительный крючок для рекламодателя.
В частности, у «Яндекса» улучшилась геозависимость, что означает возможность географически локализовать поиск для региональных пользователей. По статистике «Яндекса», 15–30 % запросов предполагают получение местной, региональной информации. «Матрикснет» позволил показывать локальные результаты поиска для пользователей из 1250 российских городов. Волож говорит об этом так: «Мы существенно улучшили региональный поиск. “Яндекс” сейчас показывает более релевантные результаты для пользователей из разных городов. Для мировых поисковых систем поиск разнится по странам, для нас — по городам».
В результате «Яндексу» удалось совершить качественный скачок в работе поиска. А это означает, что «Матрикснет» стал одним из мощнейших ответов компании Google в многолетней войне поисковиков.
В декабре 2010 г. «Яндекс» внедрил новую поисковую технологию «Спектр» (версия «Краснодар»), способную суммировать и анализировать потребности пользователей, неявно сформулированные в запросе. Строго говоря, поисковая машина начинает отслеживать информационные интересы, привычки и пристрастия пользователя «Яндекса». Проявлять признаки интеллекта, или, если кому нравится такое определение, — признаки Большого Брата.
16 августа 2011 г. «Яндекс» запустил новую поисковую платформу «Рейкьявик», которая, запоминая запросы пользователя и используемый им язык, способна определить, интересуют ли его англоязычные ресурсы.
«Платформа учитывает поведение пользователя: история запросов сохраняется для конкретного браузера, при этом она абсолютно анонимна — в ней не содержится никакой информации о человеке, задающем эти запросы», — пояснил суть новой персонализированной технологии поиска Ростислав Шоргин, руководитель отдела маркетинга поисковых сервисов «Яндекса». Один из смыслов «Рейкьявика» — удержание своей аудитории от перехода на Google в случае потребности в поиске информации на зарубежных ресурсах. «Мы много экспериментировали, пытаясь найти наилучший способ удовлетворить потребности и тех и других. В результате мы решили научить поиск учитывать языковые предпочтения пользователей и подстраиваться под них», — отмечает Денис Расковалов, руководитель отдела разработки качества поиска.
На середину августа 2011 г. ответы на английском языке предпочитали около 8 % пользователей «Яндекса». «Рейкьявик» обращает внимание только на запросы на английском языке. Он отфильтровывает латинскую транслитерацию русскоязычных запросов, адреса сайтов, ошибки раскладки клавиатуры и т. д. При этом сам англоязычный вопрос не всегда означает поиск такого же ответа, уточняют в компании. Например, по запросам beatles или rothko человек может искать и русские сайты. «Рейкьявик» учитывает, часто ли пользователь открывает из результатов поиска веб-страницы на английском. Собранная информация о том, нужны ли пользователю англоязычные ресурсы, используется при ранжировании. И если они нужны, человек видит среди первых результатов поиска больше ссылок именно на них. Новый поисковый алгоритм специалисты «Яндекса» характеризуют как первый шаг в направлении создания технологии персонализации англоязычного поиска.
«Рейкьявик» был следующим шагом в глобальной битве за лидерство поисковиков после 19 мая 2010 г., когда «Яндекс» предложил пользователям поиск по англоязычным ресурсам. А что делать, если русскоязычный мир ограничен по определению, по факту 7–10 % народонаселения планеты? Это Baidu — единственный на сегодня национальный конкурент «Яндекса» — может быть спокоен: у него поисковая база роста — четверть населения планеты, есть куда развиваться и без дополнительных усилий, а главное, инвестиций в освоение англоязычного сектора Сети. Я сейчас говорю даже не о финансовой составляющей роста, хотя и в этом смысле Baidu обеспечен перспективой, опираясь на крупнейшую после США экономику — экономику Китая.
Россия, конечно, растет, но не такими темпами, а русскоязычный мир за пределами страны, скорее всего, со временем будет сужаться. Поэтому единственный реальный способ роста — освоиться в англоязычном секторе Сети, как всегда самом крупном.
Кстати, в русле этой стратегии произошло открытие в 2011 г. собственного дата-центра в США.
С августа 2011 г. «Яндекс» в рамках соглашения с компанией WeSee (ориентировочной стоимостью в несколько миллионов долларов) реализовал технологию piFilter, позволяющую распознавать нежелательный контент в изображениях. Это означает, что «Яндекс» к умению распознавать порнографический контент по словам и ссылкам (с 2009 г.) добавил еще один фильтр. Причем сделал это первым из российских интернет-компаний.
В 2011 г. в качестве подарка к началу нового учебного года «Яндекс» внедрил технологию таргетинга медийной рекламы «Крипта». Это означает, что к умению таргетировать рекламу по географии и частоте показа «Яндекс» первым среди мировых поисковиков, торгующих контекстной рекламой, добавил способность разделять показы контекстной рекламы по возрасту, полу и доходам, сообщил директор по развитию медийных продуктов компании Лев Глейзер. «Крипта» создана на основе метода машинного обучения «Матрикснет», реализованного в 2009 г. «Крипта» умеет анализировать поведение пользователей в Интернете и разделять их на группы, основываясь на анализе около 300 показателей. Технологию определения характеристик посетителей отрабатывали на основе данных 1 млн пользователей социальной сети деловых контактов «Мой Круг». Например, реальный пол виртуального пользователя «Крипта» научилась определять с точностью в 70 %. Оказывается, что женщины составляют более длинные поисковые запросы (3,5 слова) и чаще используют в них вопросительные слова («что такое любовь», «как похудеть» и т. п.), а мужчины (3,2 слова) больше используют цифры и латиницу. При этом мужчины делают опечатки чуть чаще. Выяснилось также, что при деловом общении люди обычно указывают реальный возраст. Надежность данных в почтовом сервисе гораздо ниже.
(adsbygoogle = window.adsbygoogle || []).push({});