Psicología del aprendizaje


CAPÍTULO 6: EL APRENDIZAJE SEGÚN THORNDIKE Y SKINNER



Descargar 1.08 Mb.
Página8/14
Fecha de conversión03.12.2017
Tamaño1.08 Mb.
Vistas1570
Descargas2
1   ...   4   5   6   7   8   9   10   11   ...   14

CAPÍTULO 6: EL APRENDIZAJE SEGÚN THORNDIKE Y SKINNER
Las teorías de Thorndike y Skinner corresponden a la tradición ambientalista y, a diferencia de otras teorías de la misma tradición que destacan el papel de la conexión E-R, enfatizarán la importancia del refuerzo para que un organismo aprenda.
1. El aprendizaje según Thorndike
La teoría de Edward Thorndike dominó casi medio siglo en EEUU sobre las demás teorías del aprendizaje. Su conexionismo o teoría de los vínculos fundamenta el aprendizaje sobre vínculos o conexiones, es decir, asociaciones entre las impresiones sensoriales y los impulsos a la acción. Es la primera teoría del aprendizaje que puede incluirse dentro del esquema E-R (Hilgard y Bower, 1983).

Para Thorndike (Gaffuri y Abecasis, 1986), por ensayo y error el sujeto va seleccionando poco a poco la respuesta correcta. Aprende el vínculo E-R exitoso, y no aprende el que llega al fracaso o al error. Este método tiene cuatro características: 1) motivo: una necesidad o un pronóstico (hambre, malestar, etc.), o sea un desequilibrio que obliga a un nuevo equilibrio; 2) ensayo de distintas reacciones entre la situación; 3) eliminación progresiva de las reacciones o respuestas que no satisfacen la necesidad; y 4) ratificación de las respuestas exitosas y su integración progresiva.


Hilgard y Bower (1983) establecen dos etapas en el pensamiento de Thorndike: antes de 1930 y después de 1930.
1) El conexionismo antes de 1930.- Entre 1898 y 1930 Thorndike estudió especialmente problemas educativos y sociales. Para él, el proceso más característico del aprendizaje es el ensayo y error (o selección y conexión, como lo llamó más tarde). Para alcanzar una meta, el animal o el hombre selecciona la respuesta adecuada de entre muchas posibles, o sea hace ensayos, los cuales se definen a partir de la cantidad de errores o del tiempo usado antes de alcanzar la meta. Estudió este proceso especialmente en gatos, y tuvo en cuenta la motivación como variable importante, como así también los premios y castigos, concluyendo que esencialmente, el aprendizaje animal y el humano responden a las mismas leyes, que son tres: la preparación, el ejercicio y el efecto.
1) Ley de la preparación: Cuando una tendencia a la acción es activada mediante ajustes, disposiciones y actitudes preparatorias, etc, el cumplimiento de la tendencia a la acción resulta satisfactorio, y el incumplimiento, molesto. Preparación significa entonces, prepararse para la acción: el organismo se ajusta para disponerse a actuar, como por ejemplo el animal que se prepara para saltar sobre la presa.

2) Ley del ejercicio: Las conexiones se fortalecen mediante la práctica (ley del uso) y se debilitan u olvidan cuando la práctica se interrumpe (ley del desuso). La fortaleza de un hábito o conexión se define entonces a partir de la probabilidad de su aparición.

3) Ley del efecto: Que una conexión se fortalezca o debilite depende de sus consecuencias. Una conexión se fortalece si va acompañada luego de un estado de cosas satisfactorio. Si no, se debilita. Lo satisfactorio o no satisfactorio se mide a partir de la conducta observable, o sea si el sujeto persiste en buscar ese estado de cosas o no. Las recompensas fomentan el aprendizaje de conductas recompensadas, y los castigos o molestias reducen la tendencia a repetir la conducta que llevó a ellos.
La ley de efecto fue enunciado por Thorndike en 1898, y dice, en otras palabras, que un efecto de un comportamiento positivo es incrementar la probabilidad de que vuelva a suceder en condiciones similares. Thorndike trabajó con gatos, perros y gallinas encerrándolos en jaulas, donde los animales debían hacer algo para poder salir o recibir comida. Es decir, trabajó con un condicionamiento instrumental (relación entre el comportamiento y sucesos contextuales significativos, como premios y castigos). Encontró que a más intentos que hacía el animal, menor tiempo usaba para escapar (Rachlin, 1985).

La ley del efecto es simplemente la selección natural en la historia de un organismo singular (cuanto más salta el gato para salir equivale, en la selección natural de las especie, a cuanto más debe alargar la jirafa el cuello para comer). Obviamente, la conducta deseada debe ser premiada una vez que ocurre, para que luego el animal vuelva a repetirla. Esto se llama ‘modelamiento’ (Rachlin, 1985).


Estas tres leyes primordiales tienen cinco leyes subsidiarias, que Thorndike consideró menos importantes. No están relacionadas claramente con las tres principales:

a) Respuesta múltiple: Si el organismo no pudiese ensayar respuestas distintas, alcanzaría la solución correcta y no aprendería. En términos de Gaffuri y Abecasis (1986), ante una situación nueva, el sujeto da muchas respuestas diferentes, hasta que acierta la correcta.

b) Disposición o actitud: El aprendizaje está guiado por disposiciones duraderas (cultura) o momentáneas. Tales disposiciones no sólo determinan qué hará la persona, sino también que es lo que dará satisfacción o fastidio. Por ejemplo, lo que socialmente es una recompensa, el sujeto puede entenderla como molestia o castigo. En términos de Gaffuri y Abecasis (1986), experiencias y creencias previas del sujeto producen ciertas predisposiciones que determinan cuál será su objetivo, y qué lo satisfacerá o disgustará.

c) Predominancia de elementos: El sujeto que aprende es capaz de reaccionar selectivamente a elementos predominantes del problema. Esto hace posible el aprendizaje analítico y por comprensión.

d) Respuesta por analogía: Ante un estímulo nuevo, el sujeto tiende a responder como respondía ante un estímulo semejante previo. En términos de Gaffuri y Abecasis (1986), hay una tendencia a dar una respuesta a una nueva situación del mismo tipo que frente a una situación similar experimentada antes

e) Desplazamiento asociativo: Si una respuesta puede mantenerse intacta a través de una serie de cambios en la situación estimulante, finalmente podrá producirse ante una situación totalmente nueva. Thorndike, con el tiempo, fue asignando a esta ley cada vez mayor importancia. En términos de Gaffuri y Abecasis (1986), cualquier respuesta puede ser conectada con cualquier situación, a la cual el organismo es sensible.

f) Pertenencia: Gaffuri y Abecasis (1986) mencionan una sexta ley subsidiaria: una respuesta se aprende más fácil si se adapta o concuerda a la situación, o pertenece a ella.
Control del aprendizaje.- Thorndike suavizó la rigidez de estas leyes abstractas mediante algunas consideraciones informales, especialmente en cuanto a la relación maestro-alumno. El maestro debía tener facilidad para descubrir las conexiones a fortalecer o eliminar, para descubrir los estados de cosas que debían satisfacer o molestar, y facilidad para aplicar esta satisfacción o malestar. El alumno por su lado debía ser activo, no pasivo: interés en su trabajo, en mejorar, buscar sentidos o significados, atención y actitud activa ante el problema.

Teoría de la transferencia de los elementos idénticos.- Thorndike se dio cuenta de la importancia de la escuela para aprender cosas que luego podrían transferirse a nuevas situaciones fuera de ella. La transferencia depende de la presencia de elementos idénticos (el contenido o en procedimiento) en el aprendizaje original y en el nuevo aprendizaje que aquel facilita. Aprender en la escuela a hablar en público facilita luego hablar en muchas otras circunstancias distintas de la vida, porque hay una semejanza. Para Thorndike, cuantas más conexiones utilizables posee el sujeto, tanto más inteligente es.

El conductismo que surgió luego empezó a criticar la postura de Thorndike, pero las críticas que sí le hicieron mella vinieron de la teoría de la Gestalt, lo que obligó a Thorndike a revisar su teoría a partir de 1930.


2) El conexionismo después de 1930.- Thorndike abandonó la ley del ejercicio, mientras que la ley del efecto fue considerada por él sólo una verdad a medias.

Respecto de la ley del ejercicio, la sola práctica nada hace para fortalecer una conexión: éstas se fortalecen al ser recompensadas, no por el sólo hecho de producirse. Ejemplo: una persona no aprende a dibujar una línea de 7 cm con los ojos vendados, y su respuesta no mejora con la práctica.

Respecto de la ley del efecto, si bien la recompensa y el castigo influyen mucho, su importancia no es idéntica: influye mucho más la recompensa que el castigo, lo que tendría mucha importancia en la educación y la criminología. Además, también Thorndike relativizó su ley del efecto diciendo que las cosas eran bastante más complejas que una simple cuestión de afectos placenteros (recompensas) o displacenteros (castigos). Según él, habría una “reacción confirmatoria directa”, un proceso neuronal desconocido que fortalece las conexiones más allá de si se siente o no placer.

Además de revisar estas leyes, Thorndike introdujo términos nuevos, como por ejemplo “pertenencia”, con el cual hizo ligeras concesiones a los gestaltistas. Según este principio, una conexión se aprende más fácilmente si la respuesta pertenece a la situación, y un efecto posterior ejerce mejor influencia si pertenece a la conexión que fortalece. Por ejemplo en las oraciones del tipo “Juan es carnicero, Enrique es carpintero”, la conexión “Juan-carnicero” es más fuerte que “carnicero-Enrique”, a pesar de estar estos dos últimos términos contiguos o próximos.

Para apoyar su ley del efecto, Thorndike presentó una serie de experimentos famosos, llamados “de propagación del efecto”, con los cuales buscó mostrar que la influencia de un estado de cosas recompensador se ejerce no sólo en la elección a la cual pertenece sino en conexiones adyacentes, tanto antes como después de la conexión recompensada, y que el efecto disminuye en proporción a cada uno de los pasos que separan a una conexión de la conexión recompensada. Incluso el efecto actúa para fortalecer las conexiones castigadas, pero vecinas a la recompensada.
2. Experimentos en materia de propagación del efecto
Estos experimentos muestran la potencia relativa de premios y castigos y la forma semiautomática en que los efectos, pertinentes o no, actúan sobre las conexiones. Los mismos mostraron sobre todo tres cosas: 1) que el castigo puede ser más eficaz de lo que Thorndike pensó; 2) que la teoría de las conexiones discretas probablemente es defectuosa; y 3) que no siempre es la “recompensa” el fundamento del acrecentamiento del efecto (Hilgard y Bower, 1983).

Respecto del primer punto, Tilton mostró que las respuestas castigadas próximas a las recompensadas eran repetidas más frecuentemente por estar cerca de éstas. No obstante su castigo basta, inclusive a un paso de la recompensa, para determinar una menor cantidad de repeticiones que la observada cuando la respuesta ni se recompensa ni se castiga. En forma semejante, cuando una respuesta castigada aparece en medio de una serie de respuestas premiadas, las respuestas premiadas vecinas se repiten menos de lo que se habrían repetido si no hubiesen estado cerca de la castigada. Sin embargo, el recompensarlas basta para llevar su repetición a una frecuencia mayor.

Respecto del segundo punto, la propagación del efecto presupone una cadena de conexiones E-R sucesivas en el tiempo, y lo que fortalece o debilita es la tendencia a que un estímulo E vaya seguido por la respuesta R a la que acompañó la última vez. Otros experimentos sugirieron que aquí interviene otros principios de organización adicionales. O sea, hay algo más que determina la propagación del efecto además de la distancia de las conexiones a la recompensa. Experimentos de Zirkle mostraron que lo que se repite, más que una conexión, era una respuesta vecina. Si una persona debe decir números al azar, sus respuestas estarán influenciadas por las respuestas anteriores más que por la vecindad con la respuesta correcta.

Respecto del tercer punto, experimentos como los de Zirkle mostraron que lo que aumenta la repetición de una respuesta es el hecho de que la respuesta correcta está aislada de las demás, y no que sea o no recompensada. Se conjeturó que a mayor aislamiento mayor repetición de la respuesta y también de las vecinas próximas, conjetura que fue confirmada (Hilgard y Bower, 1983).


Algunas lecciones metodológicas resultante de los experimentos sobre propagación del efecto.- Los experimentos de Thorndike compendian su sistema final: conexiones discretas, influencia automática (“biológica”) de las recompensas, y supremacía de la recompensa sobre el castigo. Pero a pesar de la minuciosidad de los experimentos, surgieron las críticas, centradas en que Thorndike no tuvo en cuenta otros factores que también incidían sobre la propagación del efecto. Además, en los experimentos de Thorndike hubo errores en el tratamiento de los datos. Un ejemplo: se pensó que los niveles de azar calculados eran iguales a los empíricos, lo cual condujo a subestimar la influencia del castigo (Hilgard y Bower, 1983).
3. Estimación del punto de vista de Thorndike
Se pueden resumir las soluciones de Thorndike a los problemas más característicos del aprendizaje, en los siguientes puntos (Hilgard y Bower, 1983):

1) La capacidad de aprendizaje depende del número de conexiones y su disponibilidad.

2) La repetición de situaciones (práctica) no modifica por sí sola las conexiones, a menos que dichas conexiones se recompensen.

3) Motivación: la recompensa influye directamente en las conexiones vecinas reforzándolas, pero el castigo carece del efecto debilitador directo correspondiente. Sin embargo, el castigo puede influir indirectamente al llevar al sujeto a elegir otra cosa que tal vez le traiga recompensa. Las conexiones pueden fortalecerse directamente, sin necesidad de tener conciencia o idea de ellas.

4) Comprensión: depende de hábitos anteriores. Cuando las situaciones se comprenden de inmediato, es que se produjo transferencia o asimilación.

5) Transferencia: la reacción a las situaciones nuevas se beneficia, en parte, porque son parecidas a antiguas situaciones, y también por un principio de analogía descrito como asimilación.

6) Olvido: siguió sosteniéndose a grandes rasgos la ley del desuso, según la cual el olvido sobreviene con la falta de práctica.

El carácter más general de la teoría de Thorndike es el de fortalecimiento automático de conexiones específicas, directamente, sin la intervención de ideas o de influencias concientes.


4. Aportes de Thorndike a la educación
Thorndike hizo importantes aportes al destacar la importancia de la motivación en el aprendizaje; a posibilitar la rápida identificación de las respuestas que debían aprenderse y su graduación de simples a complejas para un aprendizaje más eficiente; y por último la importancia que le dio a la verificación experimental. Sus teorías fueron importantes para la educación, pues Thorndike estudió el aprendizaje en el aula: los alumnos son capaces de dar respuestas y capaces de ir variándolas hasta encontrar la respuesta exitosa. Así, el maestro debía conocer las respuestas apropiadas a los estímulos dados y guiar el aprendizaje de tal forma de ir promoviendo respuestas cada vez más complejas a partir de las simples. Repetición y recompensa a respuestas correctas fijarían estas respuestas y eliminarían las erróneas. También reconoció que a veces se daba aprendizaje por insight. Thorndike enseñó primero las palabras más usuales del lenguaje haciendo asociar la palabra con el objeto y recompensando los aciertos. En aritmética enseñó primero los números dígitos (1 a 10) y luego sus combinaciones para sumas, restar, etc., tratando de enseñar conductas cada vez más complejas. La comprensión o insight era más bien un resultado del aprendizaje y no su condición (Gaffuri y Abecasis, 1986).
La fuerza de la doctrina de Thorndike de la especificidad radica en que, en el ámbito educativo, muestra al maestro qué tiene que hacer específicamente para enseñar, una actividad muy compleja pero que puede simplificarse. Por ejemplo para enseñar lectura basta con detenerse en las palabras, ser bien específico, y desatender otros factores como semántica, filología, etc. Pero en esto también radica su debilidad, porque el lenguaje no es sólo palabras. Thorndike tendió también a ver en la recompensa algo externo al aprendizaje: la ley del efecto opera mecánicamente en todas las conexiones vecinas de la premiada, lo que hace que el premio sea algo extrínseco, e incluso casual. Pero lo que más críticas despertó fue su idea de que la comprensión y el discernimiento están subordinados al hábito y el ejercicio (Hilgard y Bower, 1983).
5. El aprendizaje según Skinner
B. Skinner (n. 1904) es reconocido como uno de los más conspicuos representantes de las teorías ambientalistas que destacaron el refuerzo como factor fundamental del aprendizaje. Aunque trabajó independientemente de Thorndike, tiene con él en común el hecho de, no sólo haber destacado el refuerzo como condición del aprendizaje, sino también en haberse interesado en las aplicaciones educacionales del refuerzo y en haber minimizado la importancia de los constructos teóricos, especialmente acentuada en Skinner. En 1931 recibe su doctorado de filosofía en psicología en Harvard, regresando nuevamente como docente a esta universidad en 1948 luego de haber enseñado en Minnessota e Indiana.

Interesado especialmente por los problemas educacionales, contribuyó a la psicología del aprendizaje en cuestiones tales como la conducta operante libre y su formación, los programas de refuerzo, la conducta supersticiosa y la 'caja de problemas' de Skinner. La siguiente exposición se basa fundamentalmente en Hill (1985).


6. Conducta respondiente y conducta operante según Skinner
Por empezar, aclararemos que para Skinner existen dos tipos de aprendizaje: el aprendizaje de conductas respondientes y el aprendizaje de conductas operantes. Como veremos, Skinner ha desarrollado su teoría fundamentalmente en relación a estas últimas.

a) Conducta respondiente.- Este concepto equivale al de condicionamiento clásico o respondiente, de Pavlov o de Watson. Una conducta respondiente es aquella producida por un estímulo específico, que generará una respuesta también específica (la visión de la comida y/o el sonido de la campana producen salivación).

Skinner reconoce la existencia de este tipo de conductas. Simplemente agrega que en estos casos, el 'reforzador' de la conducta no es otra cosa que el estímulo incondicionado original: si no está presente con cierta frecuencia la comida cuando se hace escuchar la campana, el nexo entre sonido de la campana y salivación tenderá a extinguirse, es decir, no quedará reforzado.

b) Conducta operante.- Sin embargo, para Skinner las conductas son en general de otro tipo: no son pasivas o simples reacciones a estímulos, como las conductas respondientes, sino activas por cuanto se proponen 'operar' sobre el ambiente, es decir, son conductas operantes. Por ejemplo: caminar, hablar, trabajar y jugar.

La conducta operante es emitida por el sujeto más que producida por estímulos específicos y bien identificados, con el fin de obtener algún tipo de beneficio, que puede ser obtener una recompensa o evitar un castigo. Así, lo que interesará a Skinner no es tanto la multitud de estímulos que están presentes cuando se da una conducta operante (de hecho, a veces no puede identificarse ninguno en especial), sino qué clase de reforzador aumenta las probabilidades de que dicha conducta se produzca.

Por ejemplo, no hay ningún estímulo específico tan bien identificado -como en la conducta respondiente- que provoca la respuesta de 'caminar' o 'jugar'. Se trata en realidad de conductas operantes: buscan obtener un beneficio (por ejemplo caminar para ir a buscar comida, o para dar un rodeo y evitar un acreedor).

El esquema 1 muestra las diferencias con la conducta respondiente. Vemos allí que si la ocurrencia de una respuesta operante es seguida por un reforzador, aumenta la probabilidad de que ocurra de nuevo (por ejemplo, si la respuesta de estudiar es seguida por una recompensa, aumenta la probabilidad de que la conducta de estudiar ocurra de nuevo).

En el caso de las conductas respondientes o reflejos, también hay un reforzador, pero de índole diferente: el reforzador es en estos casos el estímulo incondicionado, que deberá estar presente (periódicamente o siempre, según se trate de un reflejo condicionado o de uno incondicionado) para que ocurra la respuesta.


Esquema 1 - Conducta respondiente y conducta operante


Estímulo incondicionado (reforzador)

-------->

Estímulo condicionado

-------->

Conducta respondiente


































Estímulos diversos

-------->

Conducta operante

-------->

Recompensa o castigo (reforzador)

El pensamiento de Skinner se asemeja al de Thorndike, en particular en relación con la llamada ley del efecto de este último (si un estimulo es seguido por una respuesta y esta a su vez por un 'factor de satisfacción' -o recompensa para Skinner- se fortalece la conexión estímulo-respuesta).

Tanto las conductas respondientes como las operantes se aprenden, y Skinner dedicó gran parte de sus investigaciones a indagar el proceso de aprendizaje de las conductas operantes.
7. Reforzadores positivos y negativos
Antes de abordar este tema, aclaremos la diferencia entre tres conceptos muy similares: refuerzo, reforzador y reforzamiento.

Un 'refuerzo' puede ser considerado un estado en que una conducta operante se encuentra en un momento dado. Así, habrá conductas más reforzadas y conductas menos reforzadas. Un 'reforzador' es el agente capaz de reforzar una respuesta, como una recompensa o un castigo. Finalmente, la expresión 'reforzamiento' alude al proceso en virtud del cual se refuerza una conducta mediante un reforzador. Generalmente se alude con este término al proceso inducido por el investigador cuando intenta generar experimentalmente situaciones de aprendizaje de conductas operantes (a través de los llamados 'programas de refuerzo').

Tanto el refuerzo, como el reforzador y el reforzamiento pueden ser positivos o negativos. El esquema 2 habla por sí mismo, y nos permite visualizar rápidamente las diferentes combinaciones posibles entre estos elementos. Por ejemplo, la columna correspondiente a reforzamiento positivo nos indica que un refuerzo puede resultar tanto de la presentación de un reforzador positivo como de la terminación de un reforzador negativo.
Esquema 2 - Reforzadores, refuerzos y reforzamientos positivos y negativos





REFORZAMIENTO POSITIVO

(Programa para producir una conducta, o sea, para producir un refuerzo positivo)



REFORZAMIENTO NEGATIVO

(Programa para extinguir una conducta, o sea, para producir un refuerzo negativo)



Usando un REFORZADOR POSITIVO

Ejemplo típico: comida



PRESENTAR EL REFORZADOR POSITIVO

Ofrecer comida después de la conducta a reforzar

RECOMPENSA


QUITAR EL REFORZADOR POSITIVO

Si realizas esta conducta no te voy a querer más



Usando un REFORZADOR NEGATIVO

Ejemplo típico: shock eléctrico



QUITAR EL REFORZADOR NEGATIVO

Enseñar a manejar en un lugar tranquilo ('quitar' el tránsito)



PRESENTAR EL REFORZADOR NEGATIVO

Dar un shock eléctrico para que no vaya a cierto lugar

Ridiculizar a un niño para que aprenda a no hacerse encima

CASTIGO

Otro detalle importante es que los reforzadores -positivos o negativos- pueden ser también reforzadores condicionados. Así, un reforzador positivo condicionado es un estímulo que al ocurrir repetidamente con un reforzador positivo, tiende por sí mísmo a reforzar la conducta (un cartel que dice "restaurante" actúa como reforzador positivo condicionado porque fue asociado repetidamente con comida, que es el reforzador positivo original). De la misma forma, un reforzador negativo condicionado es un estímulo que al asociarse repetidamente con un reforzador negativo, termina reforzando negativamente la conducta (el quemarse con una estufa hace que el niño aprenda a evitarla, aún estando fría).

Otra cuestión apunta a dilucidar qué debemos entender por castigo. Si nos fijamos en el esquema 2 (en la columna correspondiente a reforzamiento negativo), podríamos entender como castigo tanto la presentación de un reforzador negativo como la eliminación de un reforzador positivo. Por ejemplo, un castigo podría ser tanto pegarle a un niño cada vez que hace una travesura, como quitarle el derecho a ir al cine. Sin embargo, Skinner parece llamar castigo solamente a la presentación de un reforzador negativo.

Pero más allá de esta convención, interesa destacar que Skinner asigna más importancia a las recompensas que a los castigos a los efectos de inducir conductas. En efecto, "Skinner señala que el castigo no es un medio muy confiable para evitar que ocurran las respuestas. El refuerzo [positivo] aumenta la probabilidad de una respuesta, pero el castigo no reduce necesariamente la probabilidad" (Hill, 1985:179). Por ejemplo, castigar a un niño porque comió caramelos sin permiso no reduce necesariamente la probabilidad de que siga comiendo caramelos.

Hay tres casos, sin embargo, donde el castigo reduce de alguna forma la probabilidad de la ocurrencia de la conducta, pero citemos uno como ejemplo típico, y que es el siguiente:

El castigo puede tener efectos emocionales que son incompatibles con la respuesta castigada, de modo que reducen su probabilidad de ocurrencia. Si al castigar al niño con una reprimenda que come caramelos lo hace llorar (efecto emocional), es probable que también deje de comer, pues es difícil comer y llorar al mismo tiempo. Sin embargo, tan pronto desaparecen las reprimendas, cesará el efecto emocional y el niño volverá a comer sus caramelos. En conclusión: el castigo produce aquí un efecto temporario.

Este caso y algunos otros no alcanzan, para Skinner, para invalidar su opinión acerca de la inconveniencia de emplear el castigo. El castigo es un método pobre para controlar la conducta porque a) en algunos casos sólo produce un efecto temporario (como hemos visto en el caso citado); b) en otros casos el castigo sólo engendra otras conductas igualmente indeseables. Por ejemplo, reemplazar la mala conducta por el llanto o el enojo rara vez es una buena solución; c) finalmente, "las respuestas emocionales pueden llegar a ser condicionadas por estímulos distintos a los que desea el castigador, incluidos los estímulos del propio castigador" (Hill, 1985:80).


Sintetizando: un estímulo es un reforzador si aumenta la probabilidad de una respuesta. Hay dos clases de estímulos que actúan como reforzadores: 1. Reforzador positivo: todo estímulo que sumado a una situación aumenta o fortalece la probabilidad de una respuesta operante. Ej: comida, contacto sexual, etc. 2. Reforzador negativo: todo estímulo que, si se elimina de una situación, aumenta o fortalece la probabilidad de una respuesta operante. Ejemplos: ruidos fuerte, calor o frío excesivo, choque eléctrico, etc. Nótese que el reforzador siempre “aumenta” la probabilidad de la respuesta. El castigo es algo más amplio que reforzador negativo, pues puede tanto referirse a presentar un reforzador negativo como a suprimir uno positivo (Hilgard y Bower, 1983).
El sistema de Skinner se refiere también a reforzadores primarios, secundarios, y generalizados (Hilgard y Bower, 1983). Un estímulo que provoca o acompaña a otro ya reforzante adquiere por ello un valor reforzante propio, y se lo llama reforzador condicionado, secundario o derivado. Este reforzador puede ser extinguido cuando se aplica repetidamente a una respuesta para la cual no haya un reforzamiento primario final. Un reforzamiento secundario es positivo si el reforzamiento con el que se correlaciona es positivo, y lo mismo para los negativos. Existen también reforzadores generalizados: esta generalización se efectúa debido a que algunos reforzadores secundarios tienden a acompañar a diversos reforzadores primarios. O sea, mediante la generalización muchos estímulos, además del correlacionado con el reforzamiento, adquieren valor reforzante.
8. Premios y castigos
Como puede apreciarse, los reforzadores tienen que ver con premios y castigos. De acuerdo a Rachlin (1985), los instrumentos más sencillos para medir premios y castigos son la caja de Skinner con un único mando (por ejemplo una palanca), y el ‘corredor recto’, por donde el animal circula. Este último evalúa más el comportamiento en el espacio, y la caja de Skinner en el tiempo. Por ejemplo, el primero muestra cuánto se desplazó la rata, y la segunda cuánto tardó en apretar la palanca.

Se citan dos parámetros de premios o castigos: la tasa o cantidad de premio, y el retraso del premio.



Tasa o cantidad de premio: puede ser la mayor o menor cantidad de bolitas de comida, o también cuanto tiempo se lo deja comer una vez que se le dio la comida, o también variar la concentración de azúcar (cuanto más dulce, más premio). Se comprobó que sin premio, la respuesta el cero o cercana a cero; luego, cuando se incrementa el premio, se incrementa también la tasa de respuesta al principio rápido, pero luego lentamente.

Retraso del premio: la tasa de respuesta de la rata varía con el retraso del refuerzo positivo (bolas de comida) y del refuerzo negativo (reducción de la descarga). La rata deja de correr (o bien de pulsar la palanca si está en la caja de Skinner) inmediatamente al principio pero luego en forma más gradual. El retraso del premio es importante en la vida diaria, como cuando una persona hace dieta pero el premio (bajar de peso), tarda en aparecer.

En cuanto a la relación entre estos parámetros, ellos son independientes en el sentido de que se puede variar la tasa o la cantidad de premio sin variar su retraso, y viceversa. Pero en la práctica se influyen mutuamente, y entonces a veces no se puede saber qué influye más en la conducta: si el retraso del premio o su tasa.

Respecto de la relación entre tasa y cantidad, ella es constante: si se varía la tasa (se le da poca comida a intervalos frecuentes) esto equivale a darle una sola comida grande (cantidad). Pero esto no significa que ambas cosas influyan de la misma forma en la conducta, porque quizás una comida grande sea menos premio porque el animal se siente más pesado.
Huída (refuerzo negativo).- El experimento típico consiste aquí en darle a la rata un estímulo aversivo pero sólo hasta que el animal realiza cierta conducta (llamada entonces conducta de huída). Según la teoría de las necesidades, todo refuerzo es negativo: comer sería ‘huír’ del hambre, beber ‘huír’ de la sed, etc. Sin embargo las conductas de animales sometidos a descargas (estímulo aversivo) es distinta al que actúa porque tiene hambre o sed, quizás porque el estímulo aversivo en la descarga es externo al organismo, y además no aparece gradualmente. Una forma de estudiar esto es con la dosificación, donde se aumenta de a poco la intensidad del estímulo aversivo, y las respuestas del sujeto reducen la descarga cuando llegan a cierta cantidad (Rachlin, 1985).
Castigo.- Es posible que el castigo no forme un condicionamiento instrumental. Con refuerzos positivos buscamos que el animal ‘haga’ algo, pero con el castigo tratamos de que ‘no haga’ algo. Sin embargo muchos investigadores dijeron que desde cierto punto de vista el castigo sí produce condicionamiento instrumental: el castigo dado independientemente de la respuesta del animal tiene algún efecto supresivo de la misma, pero no tanto como cuando depende de la respuesta. En la medida en que hay una diferencia entre los efectos de las respuestas producidas por castigo y las respuestas independientes del mismo, éste será una forma de condicionamiento instrumental (Rachlin, 1985).

El castigo puede actuar de dos formas (Hilgard y Bower, 1983): debilitando el hábito o conexión (entonces actúa como reforzamiento negativo, o como factor que acelera la extinción), o bien suprimiendo solamente la respuesta (dejando el hábito intacto). Las primeras experiencias de Skinner confirman esto último, pero para otros ambas posibilidades pueden darse. Suprimir la respuesta puede ser, por ejemplo, reprimirla, aunque la tendencia siga existiendo (hábito intacto).

Se comprobó también que el castigo está asociado más íntimamente con los estímulos que con la respuesta. Si el castigo fuese un agente reforzante similar al premio, actuaría sobre las respuestas según el principio de Skinner del condicionamiento tipo R. Pero se comprobó que su correlación más significativa se daba con el estímulo discriminativo.

Se comprobó también que el castigo intermitente es más efectivo que el castigo a cada respuesta. Si el castigo se administra cada vez que se presenta la respuesta, la tasa de respuestas baja considerablemente (Hilgard y Bower, 1983).

Se comprobó también que el castigo es poco eficaz para el control práctico de la conducta. Si uno quiere suprimir una respuesta debilitando la conexión, esto se logra cuando se deja de reforzar la producción de la respuesta, proceso que puede ser entorpecido si el castigo suprime la respuesta. Las respuestas no se eliminan sino hasta que se expresan libremente, o sea cuando puede comenzar a redirigirse de una manera adecuada. Pero el castigo puede ser también útil, como por ejemplo para mantener baja la fuerza de la respuesta, o también usar el periodo de supresión posterior al castigo para fortalecer alguna otra respuesta (Hilgard y Bower, 1983).
Evitación.- La evitación es una huída pero no del castigo sino de la situación donde este se presenta. Evitar la lluvia es huír, pero ir a un lugar donde no llueve es evitación. El problema es: ¿qué condiciona al sujeto a correr? Huír de la lluvia o ir hacia donde no llueve? La evitación fue estudiada con dos procedimientos: la evitación discriminativa (se avisa de antemano con un señal que vendrá el castigo), y evitación no-discriminativa (no se da una señal previa). En el primer caso, por ejemplo, se vio que ante la señal los perros pasaban rápidamente de la huída a la evitación, mientras que en otros el paso fue más gradual.

Extinción de la evitación: cuando se intenta extinguir la evitación dando siempre castigos (de forma que no los pueden evitar), las conductas evitativas se reducen más rápidamente. Pero resultados opuestos se consiguen si es retirado el castigo a ser evitado: aquí la conducta de evitación tarda más en desaparecer (Rachlin, 1985).
9. El papel de los estímulos
Comparando la formación de conductas respondientes y operantes según el esquema 1, nos surge la impresión que en el caso de las conductas operantes los estímulos parecen tener escasa importancia, siendo más importante el papel de los reforzadores para su ocurrencia.

Sin embargo, Skinner destaca también la importancia de los estímulos como determinantes de la conducta operante. Por ejemplo, si se refuerzan con alimentos los picoteos de una paloma en la palanca roja, pero no los de la palanca verde, la paloma aprenderá a picotear la palanca roja, es decir, desarrolla una capacidad de 'discriminación' de estímulos.


Debe distinguirse la discriminación y la diferenciación (Hilgard y Bower, 1983). Discriminación: una respuesta dada se emite ante determinado miembro de un par de estímulos y no ante otro. Se discrimina el estímulo. Diferenciación: la respuesta se altera o ajusta en su forma o topografía en determinada situación (presionar la palanca con una fuerza dada, o mantenerla presionado por un tiempo, para recibir, de una forma u otra, comida). Se diferencia la respuesta. En suma, en el condicionamiento operante, el reforzamiento puede hacerse depender ya sea a) de las propiedades del estímulo acompañante (cuando el resultado es una discriminación), o b) de las propiedades de la respuesta (cuando el resultado es una diferenciación).
Así, la palanca roja por sí sola no engendra la conducta operante de manera automática como puede hacerlo el estímulo condicionado de la conducta respondiente: debe haber además un reforzador.
El experimento típico de Skinner era poner una rata en una caja oscura a prueba de ruidos, donde había una palanca que cada vez que se apretaba soltaba una bolita de comida. Con ello se estudió la fuerza de la conducta operante (mover la palanca) usando como medida principal la tasa de respuesta (veces que mueve la palanca por unidad de tiempo). Otras medidas como la amplitud de respuesta o intensidad, y el tiempo de latencia eran más propias para medir respuestas respondientes (Hilgard y Bower, 1983).
En sus investigaciones, Skinner se ha centrado más en las respuestas que en los estímulos, aunque adjudica a estos la importancia señalada en el párrafo anterior. Inclusive hasta llega a negar las conexiones E-R por considerarlas inobservables que ocurrirían dentro del cuerpo: téngase presente que Skinner se opone a todo lo que implique suposiciones teóricas.
10. La programación de los reforzadores
Casi todas las investigaciones de Skinner giran en torno a la llamada 'caja de Skinner'. Se trata de una caja -que sería como una habitación para el animal- donde hay dos cosas: un manipulador (algo manipulable, como una palanca), y un dispositivo para entregar un reforzador (un dispositivo que entrega recompensas o evita castigos, como por ejemplo una puertita que entrega alimento cuando la palanca se acciona).

Por supuesto, la caja opera bajo el principio de que las respuestas al manipulador producen reforzadores (si la rata mueve la palanca, obtiene comida). Estas respuestas de llaman 'operantes libres', dado que el sujeto es libre de emitirlas a su velocidad propia. La tasa en que se emite la operante libre es la medida de la respuesta (por ejemplo, una medida de la respuesta puede ser tres conductas operantes cada minuto).

Sea cual fuese el animal que usemos y el tipo de manipulador empleado, y siempre que este sea adecuado al animal (palancas para la rata o teclas para las palomas), obtendremos para Skinner las mismas leyes en cuanto al proceso de aprendizaje.

Aunque la tasa a que se emite la operante libre (variable dependiente) puede vincularse con muchas diferentes variables independientes, en la práctica Skinner se concentró en una de estas variables independientes: los programas de refuerzo.

Los programas de refuerzo son diseñados por el investigador, y se refieren a las diferentes pautas con que los reforzadores son presentados luego de las respuestas del sujeto. Básicamente hay dos grandes tipos de programas de refuerzo: el refuerzo continuo, donde se da un reforzador para cada conducta del animal, y el refuerzo intermitente, donde se da un reforzador cada determinada cantidad de respuestas o cada determinada cantidad de tiempo.

La gran variedad de programas de refuerzos intermitentes descritos en el sistema de Skinner pueden reducirse a cuatro grandes tipos, como puede apreciarse en el esquema 3, que habla por sí mísmo.


Esquema 3 - Tipos de programas de refuerzo intermitente





FIJO

VARIABLE

DE RAZON

Se presenta el reforzador cada x cantidad de respuestas.

Ejemplo: Se le da comida cada tres movimientos de palanca.



Se presenta el reforzador luego de una cantidad diferente de respuestas.

Ejemplo: Se le da comida cada 2 movimientos de palanca, luego cada 6, luego cada 4, etc.



DE INTERVALO

Se presenta el reforzador cada cierto intervalo fijo de tiempo.

Ejemplo: Se le da comida una vez por minuto, independientemente de la tasa de respuestas.



Se presenta el reforzador a intervalos de tiempo diferentes.

Ejemplo: Se le da comida al minuto, luego a los 6 minutos, luego a los 4 minutos, etc., independientemente de la tasa de respuestas.


En el caso de un programa de razón variable, se considera la razón como el número promedio de respuestas por reforzador. En el ejemplo del esquema sería 3 (valor promedio de 2, 6 y 4).

En los programas de intervalo fijo, el animal recibe un reforzador por ejemplo cada minuto, tanto si responde continuamente todo el tiempo como si no lo hace. En el programa de intervalo variable tampoco se considera la cantidad de respuestas, sino el tiempo transcurrido entre uno y otro reforzador.

La aplicación de todos estos diferentes programas de reforzamiento ha permitido obtener algunas conclusiones, como las siguientes:

a) Los programas de razón dan típicamente tasas de respuesta más elevadas que los programas de intervalo, dado que las respuestas rápidas en los primeros aumentan el número de refuerzos en un periodo determinado.

b) En los programas fijos las respuestas más lentas tienden a producirse inmediatamente después del refuerzo, ya que las respuestas nunca son reforzadas inmediatamente después de un refuerzo. Esto es más fácil de advertir en el programa de intervalo fijo.

Esto no se observa en los programas variables: dado que en este tipo de programas todas las respuestas, tanto las primeras como las últimas, tienen la posibilidad de ser reforzadas, la tasa de respuestas es constante, no lentificándose después del refuerzo.

c) En general, los sujetos producirán más respuestas por reforzador en los programas intermitentes que en los programas continuos, y si finalmente el refuerzo cesa por completo, la resistencia a la extinción también es mayor después del refuerzo intermitente que después del continuo. "Para obtener respuestas rápidas y estables y resistencia elevada a la extinción, el programa de razón variable es el más efectivo" (Hill, 1985:85).


La extinción como medida de fuerza de la operante.- Cuando se refuerza regularmente (se da comida con cada movimiento de palanca) la tasa de respuesta se interrumpe al comer la bolita. Como el acto de comer no existe cuando se busca la extinción del condicionamiento, las respuestas emitidas durante esa fase de extinción sirven mejor que aquellas emitidas durante el condicionamiento como medida de las consecuencias del reforzamiento. Durante la extinción se usan comúnmente dos tipos de medidas de respuesta: la tasa de respuesta y el número total de respuestas antes de que las respuestas regresen a la tasa normal anterior al condicionamiento. A este número total que ocurre durante la extinción se lo llama resistencia a la extinción (o, anteriormente, reserva de reflejos) (Hilgard y Bower, 1983).
Los programas de refuerzo han servido para estudiar el efecto de ciertas drogas sobre la conducta animal. Muchos de estos estudios han concluido que las drogas destruyen más las respuestas producidas luego de un programa de intervalo que luego de un programa de razón. "Aparentemente, el cálculo de la rata es más estable o menos vulnerable que su mecanismo de regulación del tiempo" (Hill, 1985:86).

Observemos, por último, que Skinner no explica cómo se aprende originalmente la respuesta (por ejemplo de apretar la palanca), sino cómo el animal aprende a generar respuestas apareables a los reforzadores. De hecho, la investigación de Skinner sólo comienza una vez que entrenó a los animales para que sepan ejecutar la conducta original de apretar la palanca.


Explicando más detalladamente los programas de reforzamiento de Skinner en base a Hilgard y Bower (1983), puede decirse que en la vida cotidiana el reforzamiento no es regular: no se pesca un pez cada vez que se arroja la caña, y sin en embargo no por eso nadie deja de pescar. Así, el reforzamiento intermitente es más que una curiosidad de laboratorio, y este tipo de reforzamiento puede ser entre otros, según Skinner y en sus denominaciones actuales:
- Reforzamiento de intervalo fijo

- Reforzamiento de razón fija


El primero de ellos se refiere a que se da a intervalos de tiempo predeterminados, por ejemplo cada 3 minutos o cada 10 minutos. O sea que se reforzará la primera respuesta que ocurra después de los 3 minutos (o los 10). Se comprobó que cuanto más corto es el intervalo, más cantidad de respuestas se dan en dicho intervalo: intervalos más cortos dan tasas de respuesta más rápidas. El cociente entre respuestas no reforzadas y reforzadas es constante, y se llamó “razón de extinción”.

En el segundo caso, en vez de darse comida a intervalos predeterminados, se entrega luego de un número predeterminado de respuestas, por ejemplo cada 16 respuestas. Paradójicamente, se comprueba que cuando cuanto menos frecuente es el reforzamiento, más rápida es la respuesta. Skinner encuentra en esto una analogía con la situación donde uno está escribiendo algo y escribe más rápido conforme se acerca a la última línea. Luego de eso a uno le cuesta iniciar una nueva tarea escrita.



Hay muchos otros tipos de programas de reforzamiento, como se ve en el siguiente esquema.
Programas de reforzamiento (según Ferster y Skinner, 1957)


Nombre y abreviatura convencional

Descripción del programa de reforzamiento

I. PROGRAMAS NO INTERMITENTES




1. Reforzamiento continuo (crf)

Se refuerza toda respuesta emitida

2. Extinción (ext)

No se refuerza ninguna respuesta

II. PROGRAMAS DE REFORZAMIENTO INTERMITENTE




3. Razón fija (RF)

Agregando un número a las iniciales RF, se indica una proporción dada entre las respuestas y los reforzamientos. Así, en RF 100 se refuerza la centésima respuesta después del reforzamiento precedente.

4. Razón variable (RV)

Una serie de razones al azar que fluctúan entre valores arbitrarios con una media definida (como en RV 100).

5. Intervalo fijo (IF)

Se refuerza la primera respuesta que ocurre después de un intervalo dado de tiempo a partir del reforzamiento precedente. De ordinario, el valor se expresa en minutos, por ej. IF 5.

6. Intervalo variable (IV)

Una serie de intervalos al azar que fluctúan entre valores arbitrarios con una media definida expresada en minutos, como en IV 5.

7. Alternativo (alt)

Se proporciona el reforzamiento de acuerdo a un programa fijo de razón o de intervalo, dependiendo de cualquiera de los requisitos que se satisfaga primero, por ejemplo, en un programa representado como alt IF 5 RF 300. Si han transcurrido 300 respuestas antes que hayan transcurrido 5 minutos, entonces se presentará el reforzamiento; de lo contrario, el reforzamiento ocurrirá cuando hayan transcurrido 5 minutos.

8. Conjuntivo (conj)

Se deben satisfacer los requerimientos tanto de razón fija como de intervalo fijo; por ejemplo, en un conj IF 5 RF 300, el reforzamiento dependerá de que hayan transcurrido (mínimo) 5 minutos y de que se hayan dado por lo menos 300 respuestas.

9. Acoplado (interlock)

Es un programa de razón decreciente en el cual el número de respuestas requeridas por reforzamiento desciende uniformemente con el tiempo después de cada reforzamiento. De hecho, se castiga al organismo por responder de manera suficientemente rápida para ser reforzado antes, porque se requieren más respuestas para el reforzamiento de las que se requerirían si ellas estuvieran separadas en tiempo.

10. Tándem (tand)

Un solo reforzamiento depende de que se cumplan sucesivamente dos unidades, cada una de las cuales ha sido reforzada según un programa único. De esta manera, en IF 10 RF 5, el reforzamiento depende de una respuesta después que han transcurrido 10 minutos seguida por cinco respuestas adicionales, cualquiera que sea el intervalo de separación entre ellas.

11. Encadenado (chain)

En un programa tándem no hay cambio en el estímulo una vez que se ha llevado al cabo uno de los programas, en tanto que en el encadenado se introduce un cambio notorio. Así, el color del punto que la paloma tiene que picar puede cambiar después de que se ha satisfecho el requisito IF, pero el reforzamiento se demora hasta que se satisfaga el componente RF.

12. Ajustivo (adj)

El valor del intervalo o de la razón cambia sistemáticamente como consecuencia del reforzamiento (se distingue del acoplado porque en éste último el cambio tiene lugar de acuerdo a las respuestas ‘entre’ los reforzadores).

13. Múltiple (múlt)

Se calcula el reforzamiento para dos o más programas los cuales, generalmente, se alternan al azar. El paso de un programa a otro se marca mediante el cambio del estímulo que permanece tanto tiempo como el programa está en operación.

14. Mixto (mix)

Similar al múltiple, excepto en que no hay ningún estímulo correlacionado con programa; el cambio de un programa a otro tiene que ser detectado en base al patrón de reforzamiento.

15. Interpolado (inter)

Una pequeña parte de un programa puede ser introducida dentro de otro programa como parte de él, sustituyéndolo por unos cuantos minutos en, digamos, un periodo de 6 horas bajo diferentes condiciones.

16. Concurrente (conc)

Dos o más programas integrados independientemente pero operando al mismo tiempo; los reforzamientos son establecidos por ambos.

Por último, Hilgard y Bower (1983) indican que puede haber otras influencias que afectan el fortalecimiento de operantes. Se trata de dos clases de acontecimientos que se correlacionan significativamente con las respuestas: la pulsión y la emoción. La pulsión para Skinner es un mero conjunto de operaciones (tales como privar de comida durante cierto número de horas), que ejercen determinado efecto sobre la tasa de respuestas. Skinner trata también a la emoción como un conjunto de operaciones, en parte coincidentes con las operaciones de la pulsión. Su importancia reside en que acompañan o producen cambios a la respuesta.


11. Formación (shaping)
Skinner se interesó también por los procesos de aprender conductas más complejas, logrando que una paloma jugase al ping-pong o que una rata presione una palanca y obtenga una bolita, vaya después a otro lado de la jaula, la deje cae en un agujero y corra luego a un tercer lugar para recoger el alimento. Librados a sus propios recursos, ni la paloma ni la rata virtualmente podrían realizar conductas tan complejas para ellos.

La técnica para entrenar animales en conductas complejas se conoce como formación (shaping), y fue ampliamente utilizada por Skinner. La técnica se basa en la idea según la cual la conducta puede formarse a través "de una serie de aproximaciones sucesivas, cada una de las cuales se hace posible al reforzar de manera selectiva ciertas respuestas y no otras. De este modo, la conducta es llevada gradualmente cada vez más cerca de la pauta deseada" (Hill, 1985:87).

Recientemente se aplicó esta misma técnica con seres humanos, siendo designada como 'condicionamiento verbal'.

El primer experimento de este tipo consistió en proponer a las personas que dijeran simplemente las palabras que se les ocurrieran. Cuando pronunciaban un sustantivo en plural, el investigador reaccionaba diciendo 'mmhm' (reforzador), y lo que se vio fue que poco a poco fue aumentando la frecuencia de sustantivos en plural.

Podría interesar estudiar aquí si las personas advirtieron o no que el investigador respondía con 'mmhm' ante ciertas palabras, pero para Skinner esto no habría tenido importancia. Como hemos dicho, sólo se interesaba lo que era directamente observable, no en las suposiciones acerca de procesos mentales internos.

Como dato interesante, consignemos que pueden producirse por refuerzo conductas operantes desconocidas. Es lo que sucede cuando cada tanto se introduce un reforzador mientras el sujeto se comporta libremente. Poco a poco irá reforzando aquellas conductas espontáneas que son reforzadas, sean cuales fueren.

Para Skinner, es este tipo de aprendizaje no planeado el que permite la adquisición de conductas supersticiosas. Por ejemplo, si un estudiante lleva un saco negro a un examen y le va bien en el examen, esta experiencia hará más probable que vuelva a llevar dicho saco la vez siguiente.




Compartir con tus amigos:
1   ...   4   5   6   7   8   9   10   11   ...   14


La base de datos está protegida por derechos de autor ©psicolog.org 2019
enviar mensaje

enter | registro
    Página principal


subir archivos