Разберись в Data Science. Как освоить науку о данных и научиться думать как эксперт - Алекс Дж. Гатман
Потратьте минутку на размышления о том, как бы вы подошли к группировке этих данных и какие решения вам пришлось бы принять в ходе этого процесса. Если бы вам было лень это делать, вы могли бы сказать: «Каждый человек в этой таблице – спортсмен, поэтому есть только одна группа – спортсмены». Или: «Каждый человек образует отдельную группу. Всего есть N групп». И то и другое утверждение абсолютно бесполезно. Однако они позволили вам понять очевидное: количество групп должно быть больше 1, но меньше N.
Еще одно решение, которое вам придется принять самостоятельно, связано с определением степени «похожести» одного спортсмена на другого. Рассмотрим подмножество данных в табл. 8.1. Какие два из этих спортсменов сильнее всего похожи друг на друга?
Вы можете привести аргумент в пользу любой пары. Все зависит от того, по каким критериям вы оцениваете их «схожесть». Спортсмены A и B похожи по количеству отжиманий и пульсу. Спортсмены A и C демонстрируют самые лучшие результаты в беге на 1600 м и количестве отжиманий соответственно. А спортсмены B и C похожи тем, что бегают медленнее всех остальных. Здесь вы можете увидеть то, что хотите. Все зависит от того, какие признаки для вас наиболее важны, а также от того, что вы подразумеваете под понятием «сходство». Процесс неконтролируемого обучения, разумеется, ничего об этом не знает.
Рис. 8.5. Кластеризация – это способ группировки строк набора данных, тогда как АГК позволяет группировать столбцы
Табл. 8.1. Какие из этих двух атлетов больше всего похожи друг на друга?
Этот пример демонстрирует основные проблемы кластеризации: сколько кластеров у нас должно быть? По каким критериям любые два наблюдения могут считаться «похожими»? И как лучше всего группировать такие наблюдения?
Начать можно с кластеризации методом k-средних[79].
Кластеризация методом k-средних
Метод k-средних весьма популярен среди дата-сайентистов. С его помощью вы сообщаете алгоритму необходимое количество кластеров (k), после чего он группирует ваши N строк с данными в k-кластеров. Точки данных внутри кластера находятся «поблизости», в то время как сами кластеры максимально удалены друг от друга.
Запутались? Давайте рассмотрим пример.
Кластеризация точек продаж
Компания хочет распределить свои 200 точек продаж, показанных на рис. 8.6, по шести регионам континентальной части США. Их можно было бы распределить по стандартным географическим регионам (например, Средний Запад, Юг, Северо-Восток и так далее), однако местонахождение магазинов компании вряд ли удалось бы согласовать с этими предопределенными границами. Вместо этого компания попыталась сгруппировать данные с помощью метода k-средних. Набор данных состоит из 200 строк и двух столбцов, в которых указаны значения широты и долготы[80].
Рис. 8.6. 200 торговых точек компании до кластеризации
Цель состоит в нахождении на карте шести новых местоположений, каждое из которых является «центром» кластера. В числовом выражении эта центральная точка, по сути, представляет собой среднее значение всех членов группы (отсюда и название метода k-средних). В данном примере центры кластеров могут быть возможными локациями региональных офисов, и каждый из 200 магазинов может быть привязан к ближайшему офису.
Вот как это работает. Сначала алгоритм выбирает шесть случайных местоположений в качестве потенциальных региональных офисов. Почему случайных? Потому что нужно с чего-то начать. Затем, используя расстояние между точками на нашей карте (что называется «по прямой»), каждый из 200 магазинов назначается тому или иному из шести кластеров в зависимости от того, к какому из стартовых местоположений он ближе всего. Результат показан в левом верхнем углу на рис. 8.7 («Раунд 1»).
Рис. 8.7. Применение метода k-средних для кластеризации розничных магазинов
Каждое число обозначает начальное местоположение и связано с ограничивающим кластер многоугольником. Обратите внимание на то, что в «Раунде 1» местоположение «6» находится далеко от своего кластера, по крайней мере, в этой первой итерации. Также обратите внимание на то, что некоторые выбранные местоположения оказались в океане.
В каждом раунде алгоритма все точки в кластере усредняются для получения центральной точки (называемой «центроидом»), в которую перемещается число. В результате каждый из 200 магазинов может оказаться ближе к другому региональному офису, которому он и переназначается. Процесс продолжается до тех пор, пока точки не перестанут переходить из кластера в кластер. На рис. 8.7 показаны результаты последовательных раундов кластеризации методом k-средних.
Таким образом, компания объединила 200 своих магазинов в шесть кластеров и нашла в каждом из них потенциальное место для расположения регионального офиса.
Итак, алгоритм k-средних пытается выявить в данных естественные кластеры и постепенно стягивает k-случайных начальных точек к центрам этих кластеров.
Потенциальные ловушки
В предыдущем примере мы использовали расстояние «по прямой», однако есть несколько типов формул расстояния, которые можно применить при кластеризации набора негеографических данных. Их обсуждение выходит за рамки этой книги. Кроме того, ни одна из этих формул не является правильной. Тем не менее не стоит полагать, что ваша команда аналитиков использовала самую подходящую, а не самую простую формулу расстояния. Обязательно спросите, какую именно формулу они использовали и почему.
Вам также необходимо учитывать масштаб своих данных. Не следует слепо доверять результатам, потому что математика может сгруппировать по степени «близости» два доминирующих значения. Например, возьмем трех сотрудников, данные о которых приведены в табл. 8.2. Какие два кажутся вам максимально «близкими» друг к другу?
Табл. 8.2. Немасштабированные данные могут сбить алгоритмы кластеризации с толку
При отсутствии должного масштабирования данных значение дохода будет доминировать в большинстве формул расстояния, поскольку разница в его абсолютном значении между любыми двумя точками данных – самая существенная. Это означает, что «расстояние» между людьми А и С будет «меньше», чем между А и В, если судить по уровню дохода. И это несмотря на то, что сотрудники A и B могли бы образовать более предпочтительную группу, состоящую из двух работающих родителей в возрасте более 30 лет, в то время как человек C – новичок, который только что окончил колледж и получил высокооплачиваемую должность в фирме.
Наконец, помните о том, что при создании групп мы прибегаем к помощи компьютера, а это означает, что правильного ответа не существует. Все модели ошибочны.