Карэн Прайор - Не рычите на собаку!
Условное подкрепление
Очень часто, особенно при работе с пищевым подкреплением, его невозможно дать в тот момент, когда субъект делает то, что хотели бы поощрить. Если я учу дельфина прыгать, то я никак не могу дать ему рыбку в тот момент, когда он находится в воздухе. Если за каждым прыжком следует брошенная рыбка (отставленное подкрепление), то у животного в конце концов образуется связь между прыжком и едой, и оно будет прыгать чаще. Однако это не несет информации о том, какой из аспектов прыжка мне нравится. На какую высоту? С каким прогибом? Может, надо войти обратно в воду со всплеском? Таким образом, потребуется очень много повторений, чтобы животное установило, какой именно прыжок я имела в виду. Чтобы обойти эту трудность, мы используем условное подкрепление. Условное подкрепление представляет собой какой-либо изначально ничего незначащий сигнал – звук, свет, движение, – который умышленно связывают с подачей подкрепления. Тренеры дельфинов остановили свой выбор на полицейском свистке: его хорошо слышно даже под водой и он не связывает руки, чтобы можно было давать сигналы и бросать рыбу. С другими животными я обычно использую «сверчка», десятицентовую игрушку, которая щелкает, когда на нее нажимаешь, или особые поощряющие слова, выбранные и приберегаемые для использования в качестве условного подкрепления: «хорошая собака», «хорошая лошадка». Школьные учителя часто прибегают к некоторым таким ритуальным и тщательно нормированным словам похвалы – «замечательно» или «очень хорошо», – за которые дети страстно работают и ждут их. Наша жизнь изобилует условными подкреплениями. Нам нравится слышать, как звонит телефон или видеть набитый почтовый ящик, даже если половина звонков неинтересна и большая часть корреспонденции – утиль, потому что множество случаев научили нас связывать звонок или конверт с хорошим. Нам нравится рождественская музыка, и мы ненавидим запах зубного кабинета. Мы храним окружающие нас вещи – картины, посуду, трофеи – не потому, что они красивы или полезны, а потому, что они напоминают нам о временах, когда мы были счастливы, или о людях, которых мы любили. Они представляют собой условные подкрепления. Практически дрессировка животных с использованием положительного подкрепления почти всегда должна начинаться с выработки условного подкрепления. Прежде чем начать выработку поведения как такового, пока субъект еще ничего особенного и не делает, вы учите его понимать значимость условного подкрепления, сочетая его с пищей, поглаживанием иди другим истинным подкреплением. Иногда, по крайней мере при работе с животными, вы можете уловить, когда субъект начинает узнавать ваш сигнал, означающий «Хорошо!». Видно, как животное вздрагивает при действии условного подкрепления и начинает искать истинное подкрепление. После выработки условного подкрепления в ваших руках оказывается реальный способ сообщения животному, что в его поведении вас интересует. Чтобы разговаривать с животными, вам не обязательно быть доктором Дулиттлом, можно очень многое сказать таким выработанным подкреплением. Условные подкрепления приобретают чрезвычайную силу. Так как информация «Ты прав» сама по себе представляет ценность, она не обязательно должна сопровождаться первичным подкреплением. Фактически использование пищи, ласки или чего-нибудь в этом роде можно практически свести к нулю, а условное подкрепление будет приносить прекрасные результаты. Я видела, как морские млекопитающие долго работали после насыщения за условные подкрепления, а лошади и собаки работают по часу и более с маленьким или безо всякого безусловного подкрепления. Люди конечно же тоже могут бесконечно работать за деньги, являющиеся ничем иным как условным подкреплением, обозначением вещей, которые на них можно купить, особенно люди, которые уже заработали гораздо больше денег, чем они когда-либо смогут действительно потратить, и, следовательно, пристрастившиеся к условному подкреплению. Действие условного подкрепления можно усилить, сочетая его с несколькими безусловными подкреплениями. В данный момент субъект может не хотеть, скажем, есть, но если тот же подкрепляющий звук или слово были умышленно связаны еще и с водой или другими потребностями или приятными моментами, он сохраняет свое действие и в этом случае. Мои кошки слышат слова «хорошая киса!», когда получают ужин, когда их гладят, когда их впускают в дом и выпускают из дома, когда они проделывают маленькие трюки и получают за них вознаграждение. В результате я могу использовать эти слова для поощрения кошки, спрыгивающей с кухонного стола, и нет нужды сопровождать его каким-либо безусловным подкреплением. Быть может, причина того, что деньги оказывают на нас такое подкрепляющее действие, кроется в том, "что они могут связываться практически с чем угодно. Это чрезвычайно обобщенное условное подкрепление. Как только вы выработали условное подкрепление, вы должны пользоваться им осторожно, не разбрасывать без толку, иначе его сила уменьшится. Дети, которые ездили на моих уэльских пони, очень скоро научились говорить: «Хорошая лошадка!» только когда хотели подкрепить поведение. Если им просто хотелось выразить свою привязанность, они могли болтать с пони, как угодно, не употребляя этих слов. Однажды девочка, которая только что присоединилась к их компании, начала гладить пони, приговаривая: «Ты хорошая лошадка!». Трое остальных тотчас же ополчились на нее: «Ты за что ему это говоришь? Он же ничего не сделал!». Подобным же образом можно и должно окружить заботой и вниманием детей, супруга, родителей, любимых и друзей безотносительно к какому-нибудь определенному поведению, но необходимо приберечь что-то специально в качестве условного подкрепления чего-либо определенного. Существует множество реальных событий, заслуживающих похвалы, подкрепления, которым щедро обмениваются в счастливых семьях. Однако фальшивая или незначимая награда вскоре вызывает негодование даже у маленьких детей и теряет всякую силу в качестве подкрепления. Можно выработать и условное отрицательное подкрепление, которое может быть очень полезным. Дети и многие животные часто моментально реагируют на резкое, громкое слово запрета, которое ничем не сопровождается. Возможно, оно является первичным или безусловным подкреплением. Но некоторые животные – особенно этим славятся кошки – игнорируют окрики и брань. Одна моя подруга совершенно безуспешно пыталась отучить свою кошку царапать кушетку, используя в качестве отрицательного подкрепления возглас «Нет!». Однажды в кухне она уронила большой латунный поднос, случайно упавший почти рядом с кошкой, и, когда раздался громкий грохот подноса, воскликнула: «Нет!». Кошка была страшно напугана, подпрыгнула вверх, подняв шерсть дыбом. В следующий раз, когда кошка начала драть кушетку, хозяйка крикнула: «Нет!», у кошки сделался испуганный вид, и она тотчас же перестала. Двух-трех повторений ставшего условным слова оказалось достаточно, чтобы навсегда прекратить это поведение.
Режимы подкрепления
Бытует неправильный взгляд, что если вы начали вырабатывать поведение с помощью положительного подкрепления, то должны продолжать его применение на протяжении всей дельнейшей жизни субъекта, если этого не будет, то поведение исчезнет. Это неверно: постоянное под крепление необходимо только на стадиях обучения. Вы можете несколько раз вознаградить годовалого ребенка за пользование горшком, но как только поведение заучено, предмет обучения сам о себе позаботится. Мы даем или должны давать начинающему множество подкреплений – обучение ребенка езде на велосипеде идет под настоящий поток: «Правильно, крепче держи руль, у тебя получилось, хорошо!» Но вы будете выглядеть довольно глупо (а ребенок решит, что вы сошли с ума), если вы будете продолжать хвалить его после того как навык установился. Для того чтобы поддерживать уже выученное поведение на определенном уровне надежности, не только не надо подкреплять его все время, а даже, наоборот, следует прекратить регулярные подкрепления и перейти на эпизодическое использование подкрепления, подаваемого в случайном и не предсказуемом порядке. Это и есть то, что психологи называют вариабельным режимом подкрепления. Вариабельный режим гораздо более эффективен для поддержания поведения, чем постоянный, предсказуемый. Один психолог объяснил это мне так: если у вас машина новая и всегда хорошо заводилась, а однажды, когда вы сели в нее, повернули ключ, она не завелась, то вы, может быть, и попробуете завести ее еще несколько раз, но скоро решите, что что-нибудь не в порядке, и позвоните в гараж. Поведение, состоящее в поворачивании ключа, при отсутствии ожидаемого немедленного подкрепления быстро угаснет. С другой стороны, если у вас вместо машины старая консервная банка, которая еще ни разу не заводилась с первой попытки, и каждый раз требуется целая вечность для того, чтобы привести ее в движение, вы можете продолжать попытки ее завести в течение получаса; ваше поведение по поворачиванию ключа происходит в низковероятностном режиме подкрепления и поэтому сильнейшим образом поддерживается. Если давать дельфину рыбку за каждый прыжок, то скоро прыжки станут невысокими, небрежными, лишь бы отделаться. Если теперь перестать давать рыбу, дельфин тут же перестает прыгать. Но, если после того как животное научилось прыгать за рыбку, начать подкреплять первый прыжок, затем третий и так далее наугад, поведение будет поддерживаться на более высоком уровне: не получив подкрепления, животное станет прыгать чаще, стараясь угадать счастливый номер, и прыжки могут даже усилиться. В свою очередь это позволит подкреплять выборочно наиболее сильные прыжки, – то есть посредством вариативного режима совершенствовать деятельность. Но даже некоторые профессиональные дрессировщики не могут правильно использовать вариативный режим положительного подкрепления; многим эта концепция представляется особенно трудной, не укладывающейся в голове. Нам понято, что нет нужды продолжать наказывать за неправильное поведение, если оно прекратилось, но почему бы не вознаграждать постоянно за правильное поведение. Мы не так уверены в этом только когда ставим целью добиться с помощью положительного подкрепления улучшения дисциплины. Действенность вариативного подкрепления лежит в основе всех азартных игр. Если каждый раз, опустив в автомат 5 центов, будете получать десять, то скоро вы потеряете к этому интерес. Да, вы будете делать деньги, но какой это нудный способ! Людям нравится играть с автоматом именно потому, что невозможно предугадать заранее, то ли ничего не получишь, то ли какую-то мелочь, то ли сразу кучу денег, и когда именно будет это подкрепление (это может быть только один самый первый раз). Почему одни люди втягиваются в азартную игру, а другие могут поиграть и бросить, это уже другой вопрос, но для тех, кто попался на крючок, этим крючком стал вариативный режим положительного подкрепления. Чем длительнее интервалы между подкреплениями в вариативном режиме, тем сильнее он стимулирует поведение. Однако режимы с длительными интервалами работают против вас, когда вы пытаетесь угасить поведение. Если поведение не подкреплять совсем, то скоро появится тенденция к его угасанию; но если оно все-таки время от времени подкрепляется – неважно сколь эпизодично – одна сигарета, одна рюмка, одна поблажка ворчуну или нытику – и поведение вместо того, чтобы угасаться, может быть значительно усилено режимом с длительными интервалами между подкреплениями. Всем встречались люди, которые непонятным образом привязаны к супругам или любовникам, которые с ними плохо обращаются. Мы привыкли думать, что так бывает только с женщинами – она чувствует влечение к тому, кто груб, невнимателен, эгоистичен и даже жесток, она его все равно любит, – но это случается и с мужчинами. Каждый знает людей, которые после развода или другого рода утраты одного негодяя находят другого, в точности похожего на предыдущего. Являются ли эти люди вечными жертвами по каким-либо глубоким психологическим причинам? Возможно. Но, может быть, они – жертвы режима с длительными интервалами между подкреплениями? Если вы вступили в связь с очаровательным, обаятельным, интересным в сексуальном плане, веселым и внимательным человеком, а затем он становится все более несговорчивым, даже обидчивым, но все же время от времени проявляет свои хорошие качества, вы станете жить ради этих все более редких моментов, когда вы получаете это прекрасное подкрепление: полное очарования, обаяния, привлекательности и веселья внимание. И парадоксально с точки зрения здравого смысла, но закономерно с точки зрения теории обучения, что чем реже и непредсказуемей становятся такие моменты, тем сильнее становится их подкрепляющий эффект, и тем дольше ваша линия поведения будет сохраняться. Кроме того, легко понять, почему человек, однажды оказавшийся в таких отношениях, часто ищет их повторения: ему может казаться, что во взаимоотношениях с нормальным человеком, который сдержан и доброжелателен большую часть времени, не хватает остроты того редкого, страстно желаемого и потому вдвойне действенного подкрепления. Посмотрите на ситуацию с точки зрения человека, управляющего поведением: я могу держать ее (его) в безоговорочном подчинении, так, "Чтобы она (он) делала все, что я захочу, ради моего удобства и спокойствия, до тех пор пока я даю ей (ему) все, что она (он) хочет... изредка. Это один из способов, которыми сутенеры держат в повиновении своих девочек. Конечно, это крепкие путы, но однажды жертва осознает, что сила «очарования» по крайней мере отчасти зависит от режима подкрепления, и спокойно уйдет от этого типа отношений и поищет что-то другое.