От «S-R-теории» к оперантному анализу

10.09.2016
И.П. Павлов, Э. Торндайк и их последователи однозначно определяли термины «стимул» и «ответ». Под стимулом понимали сигнал, который возбуждал рецепторы определенного анализатора, под ответом — эффекторную ответную реакцию мышцы или железы. Такое понимание полностью соответствовало декартовским представлениям об ответной (рефлекторной) деятельности организма: «Нет стимула, нет реакции!». Вместе с тем оно вызывало определенные трудности при объяснении ряда феноменов инструментального обучения, и это стало причиной пересмотра прежних представлений.

«Молекулярный» и «молярный» ответы. Серьезная критика «S-R-теории» инструментального обучения связана с ответом на простой вопрос: «Что выучивается?». Американские бихевиористы сформулировали понятия молярного и молекулярного ответов. Поясним это на нескольких примерах. Например, в лабораториях И.П. Павлова собаки в ответ на условный сигнал отвечали каплями слюны. В экспериментах с инструментальным обучением животные отвечали отдельными, достаточно четкими движениями конечностей или туловища. Согласно представлениям Б. Скиннера, эти ответы описываются на «молекулярном» уровне, т.е. описание действий достаточно дискретно. В камере Скиннера, напротив, учитываются самые разнообразные ответы животных: в одном случае крыса нажимает рычаг правой лапой, в другом случае — левой лапой или корпусом и даже хвостом, главное — любым способом нажать на рычаг. Такое описание поведения было названо «молярным». Как видно из приведенных примеров, ответы, описанные на молекулярном (мышечные движения, реакция слюнной железы и пр.) и молярном (нажать рычажок любым способом) уровнях, могут существенно различаться. Уже из этих примеров очевидно, что любое поведение можно описать как на молекулярном, так и молярном уровне. Уровень описания обычно определяется задачами исследования.

Среди первых интерпретаторов процессов обучения в лабиринте был, как уже говорилось, один из основоположников американского направления бихевиоризма Дж. Уотсон (1878—1958). Он привел доводы в пользу того, что крыса выучивает последовательные двигательные реакции в лабиринте и описал это поведение на молекулярном уровне. В то же время накопление бихевиористами большого объема экспериментальных данных выявило недостаточность такого подхода.

Целый ряд явлений обучения нельзя было описать только с помощью принципа «стимул—реакция». Возражения против такого описания высказал главный критик «S-R-теории» в американской психологии Э. Толмен (представитель так называемого необихевиоризма). Он показал, что если крыса выучена проходить лабиринт, она успешно находит пищу в этом же лабиринте, если его заполнить водой. Очевидно, что в последнем случае активация мышц носит совершенно другой характер — крыса плывет.

Оперантный подход к проблеме стимула. Важной проблемой, которая обсуждалась бихевиористами, была проблема стимула. На языке бихевиоризма она могла быть сформулирована так: какая роль принадлежит S в S-R-связи? Ответ на этот вопрос позволил Б. Скиннеру сформулировать оперантный подход к проблеме. Скиннер стал подчеркивать разницу между классическим и инструментальным обучением. В классическом (павловском) обучении поведение животного является ответом на действие условного стимула (CS, conditioned stimulus). При инструментальном обучении реакция как бы «содержится» в самом животном, в том смысле, который мы вкладываем в слова «произвольное движение». Анализ таких реакций, по мнению Скиннера, более адекватно проводить на молярном уровне. Ученый обозначил такой инструментальный ответ, описанный на молярном уровне, как оперантная реакция, или оперантный ответ. Таким образом, под оперантом понимают любое движение (лапой, туловищем, хвостом, мордой и пр.), которое приводит к ответу — нажиманию на рычажок в скиннеровской камере. По мнению Скиннера, животное «оперирует» с окружающей средой, и это приводит к получению подкрепления. В то же время ученый отрицает, что операнты вызываются внешними стимулами. Он предполагает, что важность внешних событий находится в прошлом, составляет предысторию подкрепления. В отличие от Торндайка Скиннер не считает, что подкрепление укрепляет связь между сигналом и реакцией. Основная ассоциация образуется между ответом и подкреплением.

Оперант не вызывается внешним стимулом, но это не значит, что внешние стимулы остаются без последствий. Они, по мнению Скиннера, участвуют в контроле поведения, выполняя роль дискриминирующего (дифференцируемого) стимула. Предположим, что голубь повторно нажимает на педаль, чтобы получить зернышки. Когда горит зеленый свет, нажатие на педаль приводит к подкреплению, но при красном свете подкрепления не следует. В этом случае зеленый свет будет положительным стимулом для дифференцировки и обозначается знаком S+, а красный — отрицательным, S-. Различение (дифференцировка) происходит здесь не в классическом (павловском), а в инструментальном смысле. Зеленый свет не является сигналом пищи, как это имеет место у павловских собак. Вместо этого сигнал S+, ассоциируясь с оперантной реакцией, «говорит» голубю: «Если клюнешь сейчас, то получишь зернышко, а на сигнал S- не получишь ничего».

Прежде чем перейти к дальнейшему описанию оперантного обучения, остановимся еще на технике самого эксперимента. Как уже указывалось, животное находилось в «камере Скиннера» (см. рис. 5.10). Другой важной особенностью была автоматизация регистрации характеристик поведения. Она сыграла большую роль в широкой популярности метода Скиннера в лабораториях всего мира. На его основе в последние годы возникло даже целое научное направление — «поведенческая фармакология». Оно широко применяется для оценки фармакологических препаратов. Уже в ранних исследованиях были разработаны приборы для длительной регистрации параметров инструментального поведения животных в камере Скиннера (рис. 5.12).
От «S-R-теории» к оперантному анализу

Подкрепление при инструментальном обучении. При исследовании характеристик процесса обучения бихевиористы очень большое внимание уделяют режимам подкрепления инструментальных реакций. Приведем несколько примеров. Оказалось, что пищевое подкрепление каждой реакции животного не является самым эффективным. Подкрепление можно было подавать в разных режимах: после каждого двигательного ответа, после некоторого количества ответов, после определенного временного интервала и т.д. Мы уже встречались с двумя крайними случаями — подкреплением каждого ответа и отсутствием подкрепления (угашением реакции); особенности этих режимов подкрепления были подробно исследованы также в лабораториях И.П. Павлова. Например, можно подкреплять только каждый 2-й или каждый 5-й ответ животного. В обоих случаях подкрепления будут следовать в фиксированном режиме (fixed-ratio schedules). Их обозначают соответственно FR 2 и FR 5. Таким образом, животное для получения подкрепления должно совершить определенное количество ответов.

На рис. 5.13 дан пример инструментального поведения голубя при FR 185 и FR 65. Чтобы получить такое поведение, приходится начинать с подкрепления каждого ответа, постепенно увеличивая количество ответов, которые не будут подкрепляться пищей. Опыт показывает, что голубя можно обучить реагировать и в режиме FR 500. Как видно на рис. 5.13, при достаточно высокой частоте ответов в режиме частичного подкрепления после подкрепления следует пауза. Ее можно снять, если подкрепление производить с варьирующим интервалом (variable-ratio — VR reiforcement). В таком режиме подкрепление производят по-прежнему в среднем через определенное число ответов. Например, подкрепление VR 50 может произойти и через 10, и через 100 ответов, но в среднем через 50 ответов. Иллюстрация этого режима подкрепления приведена на рис. 5.14.
От «S-R-теории» к оперантному анализу
От «S-R-теории» к оперантному анализу

В двух описанных выше режимах подкрепления учитывалось количество инструментальных ответов. В другом режиме подкрепление производили по времени, например через фиксированный временной интервал после последнего подкрепления (fixed-interval schedule — F1). Если этот интервал равен 2 мин (FI 2), то голубь может клевать ключ любое количество раз, но подкрепление производят с интервалом 2 мин после нажатия на рычаг. На рис. 5.15 приведен пример для FI 5. Обратите внимание: после каждого подкрепления наступает пауза в инструментальных ответах. Этот эффект может быть снят, если интервал подкрепления сделать варьирующим (variable-interval schedule — VI). Например, при варьирующем интервале подкрепления 4 мин (VI 4) можно получить очень стабильные инструментальные ответы голубя при варьировании интервала подкрепления от 1 до 6 мин.

Как будет изменяться инструментальное поведение животного, если производить частичное подкрепление? Примером может служить эксперимент, в котором осуществлялось обучение крыс в лабиринте и измерялась скорость прохождения ими этого лабиринта. Все крысы участвовали в одинаковом числе опытов, но получали различное число подкреплений: в одной группе — после каждой пробежки (100%), в другой — только в 30% пробежек. На первый взгляд может показаться, что во второй группе угашение ответов проходило быстрее, чем в первой, так как количество подкрепленных ответов во второй группе было в три раза меньше. Однако эксперимент показал обратное (рис. 5.16) и это может показаться парадоксальным. Как отвечают на этот вопрос бихевиористы? Даже если количество подкрепленных ответов в обеих группах крыс было одинаковым, крысы с 30 %-м подкреплением получают фактически варьирующее подкрепление. Такой режим подкрепления вырабатывает более устойчивое обучение.
От «S-R-теории» к оперантному анализу

Исследование дифференцировки (различения) стимулов методом оперантной техники дало результаты, близкие к тем, которые были получены при исследовании генерализации и выработки дифференцировки в классическом условном рефлексе (см. выше). Haпример, оперантный метод легко воспроизводит процесс генерализации (рис. 5.17).

Как можно заключить из приведенных примеров, ряд процессов нервной системы (генерализация, фактор времени и подкрепления при образовании нового навыка и некоторые другие) были изучены с близкими (даже одинаковыми) результатами как в павловских лабораториях, так и в исследованиях бихевиористов, несмотря на совершенно различные оценки роли сигнала в вызове ответа и роли самой реакции в обучении. Самым большим методологическим отличием была, конечно, гипотеза о молярном и молекулярном понимании обучения. С позиции молярного подхода, сигнал не запускает условный ответ. Более того, сама реакция не является следствием сигнала.
От «S-R-теории» к оперантному анализу