El condicionamiento operante es una forma de enseñanza mediante la cual un sujeto tiene más probabilidades de repetir (o no) las formas de conducta que conllevan consecuencias positivas, y menos probabilidad de repetir las que conllevan problemas negativos. Es un tipo de aprendizaje asociativo, este tiene que ver con el desarrollo de nuevas conductas en función de sus consecuencias, y no con la asociación entre estímulos y conductas como ocurre en el condicionamiento clásico.
El término fue introducido por el Psicólogo Burrhus Frederic Skinner, aunque hoy se prefiere el de «condicionamiento instrumental», introducido por Edward Thorndike, por ser más descriptivo. Este último sugiere que la conducta sirve de instrumento para conseguir un fin y se da por ensayo y error, a diferencia del condicionamiento operante planteado por Skinner, que propone que aquellas respuestas que se vean reforzadas tienen tendencia a repetirse y aquellas que reciban un castigo tendrán menos probabilidad de repetirse.
La investigación sobre el condicionamiento operante ha dado lugar a una tecnología muy minuciosa para la enseñanza, denominada modificación de conducta.
El psicólogo Edward Thorndike (1874-1949) fue uno de los pioneros en el estudio del condicionamiento operante. Para ello, ideó sus denominadas «cajas de solución de problemas», que eran jaulas de las que las ratas (que eran los animales con los que trabajaba) podían escapar mediante acciones simples como manipular un cordón, presionar una palanca o pisar una plataforma. Como incentivo para resolver el problema, la rata podía ver y oler que fuera de la caja había comida, pero no podía alcanzarla. Al principio, la rata comenzaba a hacer movimientos azarosos, hasta que casualmente resolvía el problema, por ejemplo tirando de la polea que abría la jaula. Sin embargo, cada vez que Thorndike metía a la rata en la jaula, tardaba menos en salir. Esto se debía a que se estaba produciendo un condicionamiento operante: la conducta de tirar de la polea estaba siendo reforzada por su consecuencia (la apertura de la caja y la obtención de la comida). Esta conducta, al ser reforzada, se convertía en la conducta más probable en un futuro cuando las circunstancias eran similares.
A partir de estos experimentos, Thorndike estableció un principio que denominó Ley del efecto: «Cualquier conducta que en una situación produce un efecto satisfactorio, se hará más probable en el futuro». Si la respuesta va seguida de una consecuencia satisfactoria, la asociación entre el estímulo y la respuesta se fortalece; si a la respuesta le sigue una consecuencia desagradable, la asociación se debilita. En otras palabras, Thorndike defendía que todos los animales, incluyendo al ser humano, resuelven los problemas mediante el aprendizaje por ensayo y error.
También los estudios de Pávlov sobre condicionamiento clásico tuvieron una gran influencia en el estudio del condicionamiento operante. Si bien se trata de procesos de aprendizaje diferentes, el condicionamiento clásico y el operante comparten varios de sus principios, como la adquisición, la extinción, la discriminación o la generalización.
El autor más importante en el estudio del condicionamiento operante es B. F. Skinner. A finales de la década de 1920 empezó a trabajar con palomas. Para ello, utilizaba un ambiente libre de distracciones denominado caja de Skinner, en el que se podían manipular las condiciones en las que se proporcionaba alimento a los animales. Sus exhaustivos estudios utilizando este artefacto permitieron a Skinner descubrir muchos de los factores que influyen en el condicionamiento operante.
Existen cuatro procedimientos o tipos de condicionamiento instrumental:
Lo que es o no es un refuerzo durante el condicionamiento operante depende del individuo y de las circunstancias en que se encuentra en ese momento. Por ejemplo, unas galletas pueden suponer un refuerzo para un perro hambriento, pero no para uno que acaba de comer carne.
Los refuerzos se pueden dividir en dos grandes grupos: los primarios o intrínsecos y los secundarios o extrínsecos.
En la vida real, diversos reforzadores intrínsecos y extrínsecos se encuentran habitualmente entremezclados en un mismo suceso reforzante.
Los programas de reforzamiento son reglas que indican el momento y la forma en que la aparición de la respuesta va a ir seguida de un reforzador sobre la administración del reforzador. Estos programas influyen en distintos aspectos del aprendizaje, como la rapidez con la que se aprende inicialmente la respuesta, la frecuencia con la que se ejecuta la respuesta aprendida, la frecuencia con la que se hacen las pausas después de los reforzamientos, o el tiempo que se sigue ejecutando la respuesta una vez que el refuerzo deja de ser predecible o se suspende.
Existen dos tipos básicos de reforzamiento: el reforzamiento continuo y el reforzamiento intermitente. En el reforzamiento continuo cada una de las respuestas da lugar a la aparición de un reforzador, como en el caso de una paloma que recibe comida cada vez que picotea una tecla. Este tipo de reforzamiento parece ser el modo más eficaz para condicionar inicialmente la conducta. Sin embargo, cuando el refuerzo cesa (por ejemplo, cuando desconectamos la entrega de alimento) la extinción también es rápida. Por su parte, en el reforzamiento intermitente las respuestas solo se refuerzan algunas veces, como en el caso de una persona que juega a las máquinas y recibe el refuerzo o premio cada varias jugadas. Este tipo de programa produce un patrón más persistente de respuestas que un programa continuo cuando el reforzamiento se vuelve impredecible o cesa. Una combinación de reforzamiento intermitente y de refuerzo continuo es muy eficaz cuando se trata de enseñar a los sujetos mediante condicionamiento operante: al principio se utiliza un reforzamiento continuo, para que se adquiera la respuesta, y luego se pasa a un reforzamiento intermitente, para que sea más difícil que se extinga.
El reforzamiento intermitente da lugar a los programas de reforzamiento, que pueden ser de dos tipos: de razón (en función del número de respuestas) y de intervalo (en función del tiempo). A su vez, cada uno de ellos admite dos tipos de administración: fija o variable.
Por lo general, los programas de tasa (razón) producen una adquisición más rápida, pero fácilmente extinguible una vez suspendida la administración de reforzadores; y los de intervalo producen una adquisición más estable y resistente a la extinción. En la vida real, estos programas básicos a menudo se combinan.
Escribe un comentario o lo que quieras sobre Condicionamiento instrumental (directo, no tienes que registrarte)
Comentarios
(de más nuevos a más antiguos)