Ласло Бок - Работа рулит! Почему большинство людей в мире хотят работать именно в Google
Взяв за основу проведенные эксперименты, в начале 2013 г. мы отказались от квартальных рейтингов в пользу полугодичных. Многие брюзжали и ворчали, но хотя бы в нас не кидались ничем тяжелым. Зато временные затраты сразу сократились наполовину.
В конце 2013 г. мы перевели более 6200 гуглеров, представляющих примерно 15% компании, на пятибалльную рейтинговую шкалу: «нуждается в улучшении», «стабильно оправдывает ожидания», «выше ожидаемого», «намного выше ожидаемого» и «великолепно». Похоже на те названия, что были раньше, но рейтинги более последовательны.
Мы действовали согласно одному из ключевых догматов медицины: Primum non nocere. Не навреди. На первом этапе изменений нашей целью было добиться такого же уровня удовлетворенности, справедливости и эффективности процесса, что и при старой рейтинговой шкале. Мы выяснили, что как только удалось преодолеть изначальный скептицизм и разъяснить новую шкалу производительности («А почему это мой балл больше не 3,8? Я точно наработал на 3,8!»), мы сэкономили время, которое раньше приходилось тратить на стенания по поводу десятой доли балла. И менеджеры вынуждены были вести более осмысленные беседы с сотрудниками, а не прятаться за высказываниями вроде «В этом квартале ваш балл вырос на 0,1. Отличная работа, продолжайте в том же духе».
И каким же облегчением было увидеть, что снижение «прецизиозности» не нанесло нам вреда. Мы провели сравнение между гуглерами, которых оценивали по 5- и 41-балльной шкалам. Задавались следующие вопросы.
Удалось ли правильно определить отстающих?
Удалось ли правильно определить кандидатов на повышение?
Носили ли обсуждения осмысленный характер?
Можно ли считать процедуру справедливой?
По общему мнению, новая процедура оказалась не хуже прежней. Может показаться, что это пиррова победа, но я лично воспринял это с огромным облегчением. Ведь ответы гуглеров, участвовавших в опросе, подтвердили то, что мы подозревали и так: 41-балльная система была лишь иллюзией точности.
Большинство гуглеров признали, что часто невозможно определить разницу в рейтингах в пределах одной десятой балла. Например, не удалось достичь консенсуса в различиях между 3,1 и 3,2. По словам сотрудницы нашей лаборатории по человеческим ресурсам и инновациям (People and Innovation Lab) Меган Хат, «возникала ситуация, когда рейтинги нельзя было считать ни надежными, ни валидными. Одному и тому же человеку с одной и той же производительностью можно было поставить как 3,2, так и 3,3, в зависимости от оценщика и группы калибровки. Это и означает ненадежность рейтинга. А если человек получает 3,3, когда на самом деле его результат не выше 3,2, то рейтинг тоже нельзя считать валидным, поскольку он не отражает реального положения дел».
Получается, рейтинги на самом деле, как говорила Меган, «группировались с ошибкой занижения или завышения». Мы должны были говорить: «Джим, твой рейтинг на уровне где-то между 3,3 и 3,5». Но на практике выходило иное. Менеджеры брали получившееся число и приписывали ему фактическое значение. Так, если кто-то показал результат между 3,3 и 3,5, менеджер мог решить, что это означает повышение производительности, хотя на самом деле человек работал на прежнем уровне. Представьте себе, насколько хуже будет, если ваш рейтинг упал, а вам говорят, что вы стали хуже работать, когда на самом деле имеет место ошибка измерений.
А потом произошло кое-что любопытное. Мы разбили 6200 гуглеров по восьми различным группам внутри компании. Но было решено разделить три из них общей численностью более 1000 человек еще на пять дополнительных категорий. Например, одна из групп получила три подкатегории в каждой категории, и звездным гуглерам стали присваивать рейтинги «великолепно в высокой степени», «великолепно в средней степени» и «великолепно в низкой степени». На графике ниже показано итоговое распределение рейтингов, хотя я свел все подкатегории в пять основных, чтобы четче была видна разница между двумя подходами. В группе А пять категорий, в группе Б — пятнадцать.
Средние рейтинги в группах А и Б
По группе Б, несмотря на большее количество категорий эффективности, которые, как мы надеялись, должны были сильнее высветить разницу между сотрудниками, на деле различий получилось гораздо меньше, чем в группе А. В группе А 5% получили оценку «великолепно», а в группе В — только 1%. При этом обе команды в целом работали с одинаковой эффективностью. Они вносили сравнимый вклад в дело Google, и люди в обеих командах обладали равными качествами. Просто за счет добавления лишних рейтинговых категорий, из которых можно было выбрать, сотрудники группы Б неосознанно, непреднамеренно и некорректно решили, что среди них почти нет «суперзвезд». Сами того не желая, они исключили 80% лучших работников (4 из 5) из высшей рейтинговой категории.
Сейчас вся Google перешла на пятибалльную шкалу. В конце 2013 г. все еще было на стадии эксперимента, но первые результаты обнадеживали. Во-первых, сотрудники получали более последовательную обратную связь вместо туманных различий между 3,2 и 3,3. Во-вторых, результатом стал более широкий разброс оценок. Когда мы сократили категории производительности, менеджеры начали активнее давать оценки с краев шкалы. Несмотря на недоказанность результатов академических исследований на тему систем оценки производительности и нейтральные отзывы самих гуглеров, мы решили, что пять категорий лучше множества, по крайней мере по двум вышеназванным причинам.
К середине 2014 г. мы наблюдали еще больше положительных результатов. Мы решили, что различные должности предоставляют разные возможности воздействия. Если вы инженер, то ваш новый продукт принесет пользу сотне или миллиарду человек. Если вы рекрутер, то, как бы вы ни старались, вам не хватит времени, чтобы повлиять на миллиард человек. Когда мы перестали указывать, как именно следует присуждать рейтинги рабочей эффективности, сформировались четыре разные схемы, которые лучше отражали реальные показатели производительности команд и сотрудников.
Кроме того, мы заметили, что менеджеры вдвое активнее стали присуждать рейтинги с краев шкалы. Тот факт, что больше сотрудников стали получать высший рейтинг, лучше отражал ситуацию (когда дочитаете до главы 10, узнаете, почему это так). А сократив по возможности в размерах «клеймо позора», связанное с пребыванием в нижней категории эффективности, мы упростили менеджерам возможность завязывать прямой, неравнодушный диалог с отстающими о том, как исправить ситуацию.