Игра в цифры. Как аналитика позволяет видеоиграм жить лучше - Василий Сабиров
Посчитать корреляцию просто, и иногда так и тянет сделать интуитивные выводы о причинно-следственной связи между признаками. Но я очень надеюсь, что в будущем хотя бы один человек, прочитавший эту главу, желая провести столь манящую стрелочку от корреляции к причинно-следственной связи, одернет себя и остановится.
Что такое корреляция?
Википедия говорит: корреляция – это статистическая взаимосвязь двух или более случайных величин. При этом изменения значений одной или нескольких из этих величин сопутствуют систематическому изменению значений другой или других величин.
Итак, мы рассматриваем, как правило, две величины, имея в каждой несколько значений. Допустим, мы рассматриваем показатели 1-Day Retention и Revenue по проекту за каждый день в течение двух месяцев.
Мы смотрим, как ведут себя эти величины, и корреляция – это мера схожести их поведения:
– если они одинаково скачут в одну и ту же сторону изо дня в день, то корреляция будет близка к 1;
– если они постоянно скачут в разные стороны и уменьшению одной метрики соответствует увеличение другой, то корреляция будет близка к – 1;
– а если их поведение выглядит независимым относительно друг друга, то корреляция близка к 0.
Таким образом, значение коэффициента корреляции изменяется в интервале [–1;1]. Если вы имеете корреляцию, равную 1 (или близкой к 1), то означает ли это, что, увеличив один показатель, вы автоматически увеличите другой? Нет, не означает.
В нашем примере (на картинке выше) корреляция составляет 9 %, то есть она отсутствует. Значит ли это, что, если мы хотим увеличить доход, мы можем делать все что угодно, но увеличение 1-Day Retention нам точно не поможет? Нет, не означает.
«Что же все это означает?!» – взмолитесь вы. Корреляция – это одна из разновидностей связи, но ей совершенно необязательно быть причинно-следственной.
В то же время отсутствие корреляции между двумя величинами еще не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.
Давайте же рассмотрим, почему корреляция не означает причинно-следственную связь.
Третья переменная
Канонический пример: существует положительная корреляция между количеством путешествий на счету школьника и его успеваемостью. Означает ли это, что, если вы хотите, чтобы ваш ребенок учился на четыре и пять, то вам нужно собирать последние средства и отправлять ребенка в путешествие? Нет. Давайте разбираться.
Путешествия – дело недешевое, и для того чтобы ребенок много путешествовал, у родителей должны быть деньги. Если у родителей есть деньги, то, скорее всего, они имеют достаточно высокий уровень образования. А у образованных родителей, как правило, образованные дети. Таким образом, сами путешествия тут ни при чем. Мы имеем дело с двумя дополнительными переменными, которых не было в исходном сообщении: это уровень образования родителей и уровень их дохода. Соответственно, имеет место целая цепочка положительных корреляций:
путешествия
уровень дохода родителей уровень образования родителей успеваемость ребенкаИ таких примеров можно найти массу.
– В странах, где большая часть населения не имеет доступа к высшему образованию, продолжительность жизни оказывается меньше. Значит ли это, что высшее образование увеличивает продолжительность жизни? Нет. Третья переменная здесь: уровень жизни в стране, он влияет и на продолжительность жизни, и на доступность высшего образования.
– Рассматривая пожары в конкретном городе, можно выявить высокую корреляцию между ущербом от пожара и количеством пожарных, которые принимали участие в его ликвидации. Третья переменная: размер (уровень) пожара. Если пожар большой, то на него требуется много пожарных, и ущерб от него скорее всего будет больше, чем от небольшого. И это ни в коем случае не означает, что каждый новый пожарный наносит дополнительный ущерб.
Есть положительная связь между продажами мороженого в конкретном городе и количеством утоплений.
Съешь мороженое – утонешь? Нет. Третья переменная здесь – температура на улице. Если жарко, то люди покупают мороженое, а также купаются.
– При обследовании 33 хирургов и хирургов-ординаторов выяснилось, что те из них, кто чаще и лучше играет в видеоигры, лучше справляются и с тестовой лапароскопической операцией на специальном тренажере. Авторы делают из этого вывод, что медицинским школам следовало бы подумать об использовании в обучении видеоигр. Вывод неправильный: третьей переменной здесь является уровень зрительно-моторных навыков хирурга. Хирурги, обладающие хорошими зрительно-моторными навыками (то есть хорошо умеющие пользоваться глазами и руками), естественно, любят пользоваться своими навыками как в видеоиграх, так и в работе. Обладая от природы такими навыками, они, вероятно, становятся лучшими хирургами, чем те, кому таких навыков недостает.
– Ну и наконец, важное научное открытие: почти сто процентов людей, употреблявших в пищу огурцы, через сто лет окажутся мертвы. Огурец – медленный убийца! Третью переменную найдите сами.
Случайная корреляция
Посмотрите на этот график.
Бедные, бедные люди! Теперь, чтобы не утонуть, надо сначала проверить уровень продаж мороженого, а затем посмотреть, в скольких фильмах за год снялся Николас Кейдж!
К слову, существует интересный инструмент от Google: вы руками рисуете график, а Google говорит вам, график запросов по каким ключевым словам вы только что нарисовали.
Или вот еще один пример: доля использования браузера Internet Explorer в США и количество убийств в Соединенных Штатах.
А как же тогда жить?
То, что сработало для одних, не обязано срабатывать для вас.
– Если вы уйдете из университета, то не факт, что вы создадите Apple.
– Если вы перепишете туториал, то не факт, что вы увеличите доход.
– Если вы добавите в название игры слова world, clash, go, то не факт, что ваша игра станет хитом (органический трафик вы, скорее всего, получите, но насколько он будет релевантным?).
Разрабатывайте свой продукт, делайте его уникальным и интересным. Не забывайте про эксперименты, A/B-тесты и, что особенно важно, про статистическую значимость их результатов.
В каком-то смысле тот факт, что корреляция не подразумевает причинно-следственную связь, и объясняет то, что нас еще не заменили роботы. Держите голову на плечах!
А на досуге можете поиграть в игру «Угадай корреляцию»: http://guessthecorrelation.com.
Проверочное задание
Хочу поделиться тестом, который мы давали выпускникам онлайн-курса по аналитике. Тест называется «Можно ли вам доверить развитие проекта?», но в случае с данной книгой его, скорее, можно