Александр Долгин - Экономика символического обмена
Узкое место вспомогательных систем в том, что они эффективны только при наличии некоторого числа добровольцев, готовых генерировать информацию, полезную для сообщества[328]. В большинстве случаев эта работа не оплачивается, хотя вот-вот она превратится в статью дохода благодаря усилиям коммерческих поисковых сервисов[329]. Пока же рекомендателями движут немеркантильные интересы, возможно, потребность в расширении знаний или в выстраивании обратной связи с пользователями, или стремление обрести статус эксперта. Часто все, чего они ждут – это благодарность за разъяснение, советы или провокационные реакции.
2.7.3. Коллаборативные методы производства рекомендаций
Системы коллаборативной фильтрации основываются на двух принципах и, соответственно, бывают двух типов: анамнестические (memory-based) и модельные (model-based)[330].
Анамнестические алгоритмы строят прогноз, исходя из предшествующих оценок клиента [331] и совокупности оценок, данных товару другими пользователями. Это типичная поклиентская, или, иначе, субъект-субъектная схема коллаборативной фильтрации. Чтобы подсказки были точны, нужно решить две задачи: отфильтровать качественных рекомендателей и резюмировать их оценки. Вкусовая близость между клиентами устанавливается на основании того, какие оценки они дали одним и тем же товарам[332]. А вот вычисляться подобие может корреляционным методом (используется коэффициент корреляции Пирсона), методом линейного сходства, и рядом других способов. Простейший способ измерения сходства между пользователями – по среднеквадратичному отклонению.
Для улучшения работы системы используются различные модификации ранее описанных методов[333]. В частности, для преодоления дефицита оценок конкретного пользователя и подбора ему подходящих рекомендателей прибегают к «голосованию по умолчанию» (эта схема подходит в том случае, если все потребляют одно и то же и сходным образом оценивают). Эмпирически установлено, что точность предсказания растет, если присваивать неоцененным товарам некую гипотетическую оценку. Чтобы получить ее, предложено вычислять сходство не между пользователями, а между товарами[334].
Поскольку вкусы людей из группы рекомендателей, подобранных компьютерной программой для данного клиента, хотя и близки между собой, но все же не идентичны, нужно каким-то образом резюмировать их общую оценку. В примитивном варианте она вычисляется как простое среднее. В то же время ясно, что чем более сходны во вкусах клиент и кто-то из его рекомендателей, тем весомей должен быть вклад оценки данного рекомендателя в предсказание, обобщающее мнение группы. Однако и в этом варианте учтено не все: в частности, пользователи по-разному воспринимают шкалу оценок. Эта проблема снимается, если абсолютные значения оценок корректируются с учетом систематического сдвига от их среднего значения для соответствующего рекомендателя (так нивелируется общая позитивная или негативная установка абонента).
Наряду с клиент-клиентскими системами применяется коллаборативная фильтрация второго типа – модельного[335]. В этой схеме с помощью некоего индекса сходства пользователей объединяют в кластеры. Покупки и оценки, данные потребителями из одного сегмента, используются для вычисления рекомендаций. По утверждению Г. Линдена и его соавторов, кластерные модели легче масштабируются (т. е. они лучше приспособлены к работе с крупными базами данных) в сравнении с поклиентской коллаборативной фильтрацией, так как сверяют профиль пользователя с относительно небольшим количеством сегментов, а не с целой пользовательской базой[336]. Сложный и дорогой кластерный подсчет ведется в оффлайновом режиме, что разгружает систему. Но качество рекомендаций при этом снижается, и вот почему. Кластерная модель группирует пользователей в сегмент, сравнивает конкретного пользователя с этим сегментом и выдает всем членам сегмента общие рекомендации. Так как пользователи, объединенные в кластер, не обладают идеальным сходством, рекомендации тоже не идеальны. Их качество можно повысить, разбивая пользователей на высокооднородные подгруппы, но тогда их будет много, и анализ связи пользователь-сегмент обойдется так же дорого, как и поиск сходных потребителей методом субъект-субъектной (поклиентской) коллаборативной фильтрации[337].
Работа по совершенствованию коллаборативной фильтрации полным ходом ведется во всем мире. Известны попытки внедрения статистической схемы[338], а также более сложных вероятностных методов[339]. Объединение анамнестического и модельного принципов дает лучшие результаты, чем каждый из них в отдельности.
2.7.3.1. Проблемы и недостатки
Коллаборативные рекомендации по целому ряду параметров превосходят контентные. В частности, они могут работать с любыми продуктами, даже c теми, которые вообще пока не известны данному потребителю. Технология может использоваться и для экспертизы самого эксперта[340]. (Если профессиональный критик включается в орбиту рекомендательного сервиса, важно знать, в какой области он специализируется и сколь авторитетен.)
Главное достоинство коллаборативной фильтрации состоит в том, что рекомендации персонифицированы. При этом сервис не просто использует повседневную потребительскую активность клиентов, а стимулирует их анализировать свои поступки. Создатели рекомендательных систем для торговли по вполне понятным причинам стараются не утруждать потребителя и свести его рефлексию к минимуму. Но несомненно, что для самого покупателя осмысление выбора – полезное занятие. В частности, культурно-потребительская активность может привести к формированию сообществ по интересам, и это бесконечно позитивно[341] – при условии, что реальное (офф-лайн) знакомство людей с их «вкусовыми» соседями не будет противоречить этике и принципу невмешательства в частную жизнь[342].
Но в коллаборативных сервисах имеются и свои ограничения. К их числу относится проблема нового пользователя. Чтобы дать ему точные рекомендации, системе прежде надлежит выяснить его предпочтения. Это препятствие обходят, используя гибридный метод, совмещающий возможности контентного и коллаборативного принципов[343]. Совсем недавно появились методики построения потребительского профиля, в которых используется автоматическая обработка текстов (data-mining), анализ сетевого поведения клиента и т. д. Они позволяют учесть интересы и предпочтения пользователей, не обременяя их лишними вопросами, и тем самым насытить как их собственные профили, так и профили объектов. Эти технологии позволяют отчасти снять еще одну проблему рекомендательных систем – назойливость. Большинство рекомендательных сервисов предполагают пользовательскую активность: MovieLens, например, первым делом просит новичков проставить оценки двум десяткам фильмов[344].. Для точного расчета необходимы оценки большого количества уже известных продуктов. Эти сведения стараются извлечь косвенными методами[345]. Например, анализируют время, ушедшее на чтение статьи. Но косвенные данные неточны и не заменяют полностью прямых оценок пользователя. Поэтому проблема снижения навязчивости рекомендательных систем при сохранении высокого качества их работы стоит довольно остро.