Le conditionnement opérant est le deuxième type de conditionnement avec le type d'apprentissage associatif connu sous le nom d'apprentissage classique.

Rappelez-vous que dans le conditionnement classique, quelque chose dans l'environnement déclenche automatiquement un réflexe, et les chercheurs entraînent l'organisme à réagir à un stimulus différent. Nous passons maintenant au deuxième type d'apprentissage associatif, le conditionnement opérant. Dans le conditionnement opérant, les organismes apprennent à associer un comportement et ses conséquences. Une conséquence agréable rend ce comportement plus susceptible de se répéter à l'avenir. Par exemple, Spirit, un dauphin de l'Aquarium national de Baltimore, fait un saut en l'air lorsque son entraîneur siffle. La conséquence est qu'il obtient un poisson.

Comparaison entre le conditionnement classique et le conditionnement opérant
  Conditionnement classique Conditionnement opérant
Approche conditionnelle Un stimulus non conditionné (comme la nourriture) est associé à un stimulus neutre (comme une cloche). Le stimulus neutre devient finalement le stimulus conditionné, qui provoque la réponse conditionnée (salivation). Le comportement visé est suivi d'un renforcement ou d'une punition pour le renforcer ou l'affaiblir, de sorte que l'apprenant est plus susceptible de manifester le comportement souhaité à l'avenir.
Chronologie des stimulations Le stimulus se produit immédiatement avant la réponse. Le stimulus (renforcement ou punition) se produit peu après la réponse.

Le psychologue B. F. Skinner a vu que le conditionnement classique se limite aux comportements existants qui sont provoqués par réflexe, et qu'il ne tient pas compte des nouveaux comportements comme la conduite d'un vélo. Il a proposé une théorie sur la façon dont ces comportements se produisent. Skinner pense que le comportement est motivé par les conséquences que nous recevons pour ce comportement : les renforcements et les punitions. Son idée selon laquelle l'apprentissage est le résultat des conséquences est basée sur la loi de l'effet, qui a été proposée pour la première fois par le psychologue Edward Thorndike. Selon la loi de l'effet, les comportements qui sont suivis de conséquences satisfaisantes pour l'organisme sont plus susceptibles de se répéter, et les comportements qui sont suivis de conséquences désagréables sont moins susceptibles de se répéter (Thorndike, 1911). Essentiellement, si un organisme fait quelque chose qui entraîne un résultat souhaité, il est plus probable qu'il le refasse. Si un organisme fait quelque chose qui n'apporte pas le résultat souhaité, il est moins probable qu'il le refasse. Un exemple de la loi d'effet est le droit du travail. L'une des raisons (et souvent la principale) pour laquelle nous nous présentons au travail est que nous sommes payés pour le faire. Si nous cessons d'être payés, nous cesserons probablement de nous présenter, même si nous aimons notre travail.

En se basant sur la loi d'effet de Thorndike, Skinner a commencé à mener des expériences scientifiques sur des animaux (principalement des rats et des pigeons) pour déterminer comment les organismes apprennent par le biais du conditionnement opératoire (Skinner, 1938). Il a placé ces animaux dans une chambre de conditionnement opérant, qui est connue sous le nom de "boîte de Skinner". Une boîte Skinner contient un levier (pour les rats) ou un disque (pour les pigeons) que l'animal peut presser ou picorer pour obtenir une récompense alimentaire via le distributeur. Des haut-parleurs et des lumières peuvent être associés à certains comportements. Un enregistreur compte le nombre de réponses faites par l'animal.

(a) B. F. Skinner a mis au point un conditionnement opératoire pour l'étude systématique de la manière dont les comportements sont renforcés ou affaiblis en fonction de leurs conséquences. (b) Dans une boîte de Skinner, un rat appuie sur un levier dans une chambre de conditionnement opérant pour recevoir une récompense alimentaire. (crédit a : modification du travail par "Silly rabbit"/Wikimedia Commons)

Regardez cette brève vidéo pour voir l'interview de Skinner et une démonstration de conditionnement opérant des pigeons pour en savoir plus.

Pour parler du conditionnement opératoire, nous utilisons plusieurs mots de tous les jours - positif, négatif, renforcement et punition - d'une manière spécialisée. Dans le conditionnement opérationnel, positif et négatif ne signifient pas bon et mauvais. Au contraire, positif signifie que vous ajoutez quelque chose, et négatif signifie que vous enlevez quelque chose. Le renforcement signifie que vous augmentez un comportement, et la punition signifie que vous diminuez un comportement. Le renforcement peut être positif ou négatif, et la punition peut également être positive ou négative. Tous les renforcements (positifs ou négatifs) augmentent la probabilité d'une réaction comportementale. Toutes les punitions (positives ou négatives) diminuent la probabilité d'une réaction comportementale. Combinons maintenant ces quatre termes : renforcement positif, renforcement négatif, punition positive et punition négative.

Renforcement et sanctions positives et négatives
  Renforcement Punition
Positive Quelque chose est ajouté pour augmenter la probabilité d'un comportement. Quelque chose est ajouté pour diminuer la probabilité d'un comportement.
Négative On enlève quelque chose pour augmenter la probabilité d'un comportement. On enlève quelque chose pour diminuer la probabilité d'un comportement.

Renforcement

La manière la plus efficace d'enseigner un nouveau comportement à une personne ou à un animal est le renforcement positif. Dans le renforcement positif, un stimulus souhaitable est ajouté pour augmenter un comportement.

Par exemple, vous dites à votre fils de cinq ans, Jérôme, que s'il nettoie sa chambre, il aura un jouet. Jérôme nettoie rapidement sa chambre parce qu'il veut un nouvel ensemble d'art. Faisons une pause. Certaines personnes pourraient dire : "Pourquoi devrais-je récompenser mon enfant pour avoir fait ce qu'on attend de lui ? Mais en fait, nous sommes constamment et systématiquement récompensés dans notre vie. Nos salaires sont des récompenses, tout comme les bonnes notes et l'acceptation dans notre école préférée. Être félicité pour un bon travail et pour avoir réussi un test de conduite est également une récompense. Le renforcement positif en tant qu'outil d'apprentissage est extrêmement efficace. Il a été constaté que l'un des moyens les plus efficaces d'améliorer les résultats dans les districts scolaires où les résultats en lecture sont inférieurs à la moyenne était de payer les enfants pour qu'ils lisent. Plus précisément, les élèves de deuxième année à Dallas ont été payés 2 dollars chaque fois qu'ils ont lu un livre et ont passé un petit test sur ce livre. Le résultat a été une augmentation significative de la compréhension de la lecture (Fryer, 2010). Que pensez-vous de ce programme ? Si Skinner était encore en vie aujourd'hui, il penserait probablement que c'est une excellente idée. Il était un fervent partisan de l'utilisation des principes de conditionnement opérant pour influencer le comportement des élèves à l'école. En fait, en plus de la boîte Skinner, il a également inventé ce qu'il a appelé une machine à enseigner conçue pour récompenser les petits pas dans l'apprentissage (Skinner, 1961) - un précurseur de l'apprentissage assisté par ordinateur. Sa machine à enseigner testait les connaissances des élèves en les faisant travailler sur différentes matières scolaires. Si les élèves répondaient correctement aux questions, ils recevaient immédiatement un renforcement positif et pouvaient continuer ; s'ils répondaient incorrectement, ils ne recevaient aucun renforcement. L'idée était que les élèves passent plus de temps à étudier la matière pour augmenter leurs chances d'être renforcés la fois suivante (Skinner, 1961).

Dans le cas d'un renforcement négatif, un stimulus indésirable est supprimé pour augmenter un comportement. Par exemple, les constructeurs automobiles utilisent les principes du renforcement négatif dans leurs systèmes de ceinture de sécurité, qui font "bip, bip, bip" jusqu'à ce que vous attachiez votre ceinture. Le son gênant s'arrête lorsque vous présentez le comportement souhaité, ce qui augmente la probabilité que vous boucliez votre ceinture à l'avenir. Le renforcement négatif est également fréquemment utilisé dans le cadre de l'entraînement des chevaux. Les cavaliers appliquent une pression - en tirant sur les rênes ou en serrant les jambes - puis suppriment la pression lorsque le cheval présente le comportement souhaité, comme tourner ou accélérer. La pression est le stimulus négatif que le cheval veut éliminer.

Punition

Beaucoup de gens confondent le renforcement négatif et la punition dans le conditionnement opératoire, mais ce sont deux mécanismes très différents. Rappelez-vous que le renforcement, même s'il est négatif, augmente toujours un comportement. En revanche, la punition diminue toujours un comportement. Dans la punition positive, vous ajoutez un stimulus indésirable pour diminuer un comportement. Un exemple de punition positive consiste à gronder un élève pour qu'il arrête d'envoyer des SMS en classe. Dans ce cas, un stimulus (la réprimande) est ajouté afin de diminuer le comportement (l'envoi de SMS en classe). Dans la punition négative, vous supprimez un stimulus agréable pour diminuer le comportement. Par exemple, lorsqu'un enfant se comporte mal, un parent peut lui retirer son jouet préféré. Dans ce cas, un stimulus (le jouet) est retiré afin de diminuer le comportement.

La punition, surtout lorsqu'elle est immédiate, est un moyen de diminuer un comportement indésirable. Par exemple, imaginez que votre fils de quatre ans, Brandon, frappe son jeune frère. Vous demandez à Brandon d'écrire 100 fois "Je ne frapperai pas mon frère" (punition positive). Il y a de fortes chances qu'il ne répète pas ce comportement. Si de telles stratégies sont courantes aujourd'hui, dans le passé, les enfants étaient souvent soumis à des punitions physiques, comme la fessée. Il est important d'être conscient de certains des inconvénients de l'utilisation des châtiments corporels sur les enfants. Tout d'abord, la punition peut enseigner la peur. Brandon peut avoir peur de la rue, mais il peut aussi avoir peur de la personne qui lui inflige la punition, c'est-à-dire vous, son parent. De même, les enfants qui sont punis par des enseignants peuvent en venir à craindre l'enseignant et essayer d'éviter l'école (Gershoff et al., 2010). Par conséquent, la plupart des écoles aux États-Unis ont interdit les châtiments corporels. Deuxièmement, les punitions peuvent amener les enfants à devenir plus agressifs et plus enclins à un comportement antisocial et à la délinquance (Gershoff, 2002). Ils voient leurs parents recourir à la fessée lorsqu'ils sont en colère et frustrés, et peuvent donc à leur tour adopter ce même comportement lorsqu'ils sont en colère et frustrés. Par exemple, parce que vous donnez la fessée à Brenda lorsque vous êtes en colère contre elle pour sa mauvaise conduite, elle peut commencer à frapper ses amis lorsqu'ils ne veulent pas partager leurs jouets.

Bien que la punition positive puisse être efficace dans certains cas, M. Skinner a suggéré que le recours à la punition soit mis en balance avec les effets négatifs possibles. Les psychologues et les spécialistes de l'éducation préfèrent aujourd'hui le renforcement à la punition : ils recommandent d'attraper votre enfant en train de faire quelque chose de bien et de le récompenser pour cela.

Mise en forme

Dans ses expériences de conditionnement opérant, Skinner a souvent utilisé une approche appelée "shaping". Au lieu de récompenser uniquement le comportement de la cible, dans la mise en forme, nous récompensons les approximations successives d'un comportement de la cible. Pourquoi la mise en forme est-elle nécessaire ? N'oubliez pas que pour que le renforcement fonctionne, l'organisme doit d'abord afficher le comportement. La mise en forme est nécessaire parce qu'il est extrêmement improbable qu'un organisme manifeste spontanément autre chose que le plus simple des comportements. Dans le modelage, les comportements sont décomposés en de nombreuses petites étapes réalisables. Les étapes spécifiques utilisées dans le processus sont les suivantes :

  1. Renforcer toute réponse qui ressemble au comportement souhaité.
  2. Ensuite, renforcez la réponse qui ressemble le plus au comportement souhaité. Vous ne renforcerez plus la réponse précédemment renforcée.
  3. Ensuite, commencez à renforcer la réponse qui ressemble encore plus au comportement souhaité.
  4. Continuez à renforcer les approximations de plus en plus proches du comportement souhaité.
  5. Enfin, ne renforcez que le comportement souhaité.

La mise en forme est souvent utilisée pour enseigner un comportement complexe ou une chaîne de comportements. Skinner a utilisé le façonnage pour enseigner aux pigeons non seulement des comportements relativement simples comme picorer un disque dans une boîte Skinner, mais aussi de nombreux comportements inhabituels et divertissants, comme tourner en rond, marcher en huit et même jouer au ping-pong ; cette technique est couramment utilisée par les dresseurs d'animaux aujourd'hui. Une partie importante de la mise en forme est la discrimination des stimuli. Rappelez-vous les chiens de Pavlov - il les entraînait à répondre au son d'une cloche, et non à des sons ou des tonalités similaires. Cette discrimination est également importante dans le conditionnement des opérateurs et dans le modelage du comportement.

Regardez cette brève vidéo des pigeons de Skinner jouant au ping-pong pour en savoir plus.

Il est facile de voir à quel point le modelage est efficace pour enseigner des comportements aux animaux, mais comment le modelage fonctionne-t-il avec les humains ? Considérons les parents dont l'objectif est de faire apprendre à leur enfant à nettoyer sa chambre. Ils utilisent le modelage pour l'aider à maîtriser les étapes qui mènent à cet objectif. Au lieu de réaliser la tâche dans son intégralité, ils mettent en place ces étapes et renforcent chacune d'entre elles. D'abord, il nettoie un jouet. Ensuite, il nettoie cinq jouets. Troisièmement, il choisit de ramasser dix jouets ou de ranger ses livres et ses vêtements. Quatrièmement, il nettoie tout sauf deux jouets. Enfin, il nettoie toute sa chambre.

Renforceurs primaires et secondaires

Des récompenses telles que des autocollants, des éloges, de l'argent, des jouets, etc. peuvent être utilisées pour renforcer l'apprentissage. Revenons encore une fois aux rats de Skinner. Comment les rats ont-ils appris à appuyer sur le levier de la boîte de Skinner ? Ils étaient récompensés par de la nourriture chaque fois qu'ils appuyaient sur le levier. Pour les animaux, la nourriture était un moyen de renforcement évident.

Qu'est-ce qui serait un bon renforçateur pour les humains ? Pour votre enfant Chris, c'était la promesse d'un jouet lorsqu'ils nettoyaient leur chambre. Et pour Sydney, le joueur de football ? Si vous donniez à Sydney un bonbon chaque fois qu'il marquait un but, vous utiliseriez un renforçateur primaire. Les renforçateurs primaires sont des renforçateurs qui ont des qualités de renforcement innées. Ce genre de renforts ne s'apprend pas. L'eau, la nourriture, le sommeil, l'abri, le sexe et le toucher, entre autres, sont des renforts primaires. Le plaisir est également un renforçateur primaire. Les organismes ne perdent pas leur motivation pour ces choses. Pour la plupart des gens, sauter dans un lac frais par une journée très chaude serait un renforcement et le lac frais serait un renforcement inné - l'eau refroidirait la personne (un besoin physique), tout en lui procurant du plaisir.

Un renforçateur secondaire n'a pas de valeur inhérente et n'a de qualités de renforcement que lorsqu'il est lié à un renforçateur primaire. La louange, liée à l'affection, est un exemple de renforçateur secondaire, comme lorsque vous avez crié "Superbe tir !" chaque fois que Sydney a marqué un but. Un autre exemple, l'argent, ne vaut quelque chose que lorsque vous pouvez l'utiliser pour acheter d'autres choses, soit des choses qui satisfont les besoins de base (nourriture, eau, logement - tous des renforçateurs primaires), soit d'autres renforçateurs secondaires. Si vous vous trouviez sur une île isolée au milieu de l'océan Pacifique et que vous aviez des piles d'argent, celui-ci ne serait pas utile si vous ne pouviez pas le dépenser. Qu'en est-il des autocollants sur le tableau de comportement ? Ce sont aussi des renforts secondaires.

Parfois, au lieu des autocollants sur une charte, on utilise un jeton. Les jetons, qui sont également des renforts secondaires, peuvent alors être échangés contre des récompenses et des prix. Des systèmes entiers de gestion du comportement, connus sous le nom d'économies à jetons, sont construits autour de l'utilisation de ces types de renforts à jetons. Les économies à jetons se sont avérées très efficaces pour modifier les comportements dans divers environnements tels que les écoles, les prisons et les hôpitaux psychiatriques. Par exemple, une étude de Cangi et Daly (2013) a montré que l'utilisation d'une économie symbolique augmentait les comportements sociaux appropriés et réduisait les comportements inappropriés dans un groupe d'écoliers autistes. Les enfants autistes ont tendance à avoir des comportements perturbateurs, comme les pincements et les coups. Lorsque les enfants participant à l'étude présentaient un comportement approprié (ne pas frapper ou pincer), ils recevaient un jeton "mains calmes". Lorsqu'ils frappaient ou pinçaient, ils perdaient un jeton. Les enfants pouvaient alors échanger des quantités déterminées de jetons contre des minutes de jeu.

Modification du comportement des enfants

Les parents et les enseignants ont souvent recours à la modification du comportement pour changer le comportement d'un enfant. La modification du comportement utilise les principes du conditionnement opérant pour accomplir le changement de comportement de sorte que les comportements indésirables sont échangés contre des comportements plus acceptables socialement. Certains enseignants et parents créent un tableau d'autocollants, dans lequel plusieurs comportements sont énumérés. Les tableaux d'autocollants sont une forme d'économie symbolique, comme décrit dans le texte. Chaque fois que les enfants adoptent un comportement, ils reçoivent un autocollant, et après un certain nombre d'autocollants, ils reçoivent un prix ou un renforcement. L'objectif est d'augmenter les comportements acceptables et de diminuer les mauvais comportements. N'oubliez pas qu'il est préférable de renforcer les comportements souhaités, plutôt que de recourir à la punition. En classe, l'enseignant peut renforcer un large éventail de comportements, allant du fait que les élèves lèvent la main, marchent tranquillement dans le couloir ou rendent leurs devoirs. À la maison, les parents peuvent créer un tableau de comportement qui récompense les enfants pour des choses telles que ranger leurs jouets, se brosser les dents et aider à préparer le dîner. Pour que la modification du comportement soit efficace, le renforcement doit être lié au comportement ; le renforcement doit être important pour l'enfant et être fait de manière cohérente.

Les tableaux d'autocollants sont une forme de renforcement positif et un outil de modification du comportement. Une fois que l'enfant a gagné un certain nombre d'autocollants pour avoir démontré un comportement souhaité, il sera récompensé par une visite au salon de la crème glacée. (crédit : Abigail Batchelder)

Le temps mort est une autre technique populaire utilisée pour modifier le comportement des enfants. Elle fonctionne selon le principe de la punition négative. Lorsqu'un enfant manifeste un comportement indésirable, il est retiré de l'activité désirable en question. Par exemple, disons que Sophia et son frère Mario jouent avec des blocs de construction. Sophia jette des blocs à son frère, vous lui donnez donc un avertissement qu'elle passera en temps mort si elle recommence. Quelques minutes plus tard, elle lance d'autres blocs à Mario. Vous faites sortir Sophia de la pièce pendant quelques minutes. Quand elle revient, elle ne lance pas de blocs.

Il y a plusieurs points importants que vous devez connaître si vous envisagez de mettre en œuvre le temps mort comme technique de modification du comportement. Tout d'abord, assurez-vous que l'enfant est retiré d'une activité souhaitable et placé dans un endroit moins souhaitable. Si l'activité est indésirable pour l'enfant, cette technique se retournera contre lui car il est plus agréable pour lui d'être retiré de l'activité. Deuxièmement, la durée de la période d'arrêt est importante. La règle générale est d'une minute pour chaque année d'âge de l'enfant. Sophia a cinq ans ; elle s'assied donc dans un temps mort pendant cinq minutes. Le réglage d'une minuterie aide les enfants à savoir combien de temps ils doivent rester assis dans le temps mort. Enfin, en tant que personne s'occupant d'un enfant, gardez plusieurs lignes directrices à l'esprit au cours d'une pause : restez calme lorsque vous demandez à votre enfant de faire une pause ; ignorez votre enfant pendant la pause (car l'attention de la personne s'occupant de lui peut renforcer son mauvais comportement) ; et donnez-lui un câlin ou un mot gentil lorsque la pause est terminée.

Le temps d'arrêt est une forme populaire de punition négative utilisée par les aidants. Lorsqu'un enfant se comporte mal, il est retiré d'une activité désirable afin de diminuer le comportement indésirable. Par exemple, (a) un enfant peut jouer sur le terrain de jeu avec des amis et pousser un autre enfant ; (b) l'enfant qui se comporte mal est alors retiré de l'activité pour une courte période. (crédit a : modification du travail par Simone Ramella ; crédit b : modification du travail par "Spring Dew"/Flickr)

Calendrier des renforcements

N'oubliez pas que la meilleure façon d'enseigner un comportement à une personne ou à un animal est d'utiliser le renforcement positif. Par exemple, Skinner a utilisé le renforcement positif pour apprendre aux rats à appuyer sur un levier dans une boîte de Skinner. Au début, le rat pouvait frapper le levier au hasard en explorant la boîte, et il en sortait une boulette de nourriture. Après avoir mangé la boulette, que pensez-vous que le rat affamé a fait ensuite ? Il frappait à nouveau le levier et recevait un autre granulé de nourriture. Chaque fois que le rat frappait le levier, une boulette de nourriture en sortait. Lorsqu'un organisme reçoit un renforçateur à chaque fois qu'il affiche un comportement, on parle de renforcement continu. Ce programme de renforcement est le moyen le plus rapide d'enseigner un comportement à quelqu'un, et il est particulièrement efficace pour entraîner un nouveau comportement. Revenons sur le chien qui a appris à s'asseoir plus tôt dans le chapitre. Maintenant, chaque fois qu'il s'assoit, vous lui donnez une friandise. Le timing est important ici : vous aurez plus de succès si vous présentez le renforçateur immédiatement après qu'il s'est assis, afin qu'il puisse faire une association entre le comportement cible (s'asseoir) et la conséquence (recevoir une friandise).

Pour en savoir plus, regardez ce clip vidéo du Dr. Sophia Yin, vétérinaire, qui façonne le comportement d'un chien en suivant les étapes décrites ci-dessus.

Une fois qu'un comportement est formé, les chercheurs et les formateurs se tournent souvent vers un autre type de programme de renforcement - le renforcement partiel. Dans le renforcement partiel, également appelé renforcement intermittent, la personne ou l'animal n'est pas renforcé à chaque fois qu'il adopte le comportement souhaité. Il existe plusieurs types différents de programmes de renforcement partiel. Ces programmes sont décrits comme étant soit fixes, soit variables, et comme étant soit des intervalles, soit des ratios. Fixe fait référence au nombre de réponses entre les renforcements, ou au temps entre les renforcements, qui est fixe et immuable. Variable se réfère au nombre de réponses ou au temps entre les renforts, qui varie ou change. Intervalle signifie que le programme est basé sur le temps entre les renforts, et ratio signifie que le programme est basé sur le nombre de réponses entre les renforts.

Calendrier des renforcements

 

Calendrier de renforcement Description Résultat Example
Intervalles fixes Les renforts sont livrés à des intervalles de temps prévisibles (par exemple, après 5, 10, 15 et 20 minutes). Taux de réponse modéré avec des pauses importantes après le renforcement Le patient hospitalisé utilise un traitement anti-douleur contrôlé par le patient et programmé par le médecin
Intervalles variables Les renforts sont livrés à des intervalles de temps imprévisibles (par exemple, après 5, 7, 10 et 20 minutes). Un taux de réponse modéré mais constant Consultation de Facebook
Rapports fixes Le renforcement est délivré après un nombre prévisible de réponses (par exemple, après 2, 4, 6 et 8 réponses). Taux de réponse élevé avec des pauses après le renforcement Un travailleur d'usine à la pièce est payé pour chaque x nombre d'articles fabriqués
Rapports variables Le renforcement est délivré après un nombre imprévisible de réponses (par exemple, après 1, 4, 5 et 9 réponses).  Un taux de réponse élevé et constant  Jeux de hasard

Combinons maintenant ces quatre termes. Un programme de renforcement à intervalle fixe est un programme dans lequel le comportement est récompensé après un certain temps. Par exemple, June subit une importante opération chirurgicale dans un hôpital. Pendant sa convalescence, elle devrait ressentir de la douleur et aura besoin de médicaments sur ordonnance pour la soulager. June reçoit une perfusion intraveineuse d'un analgésique contrôlé par le patient. Son médecin fixe une limite : une dose par heure. June appuie sur un bouton lorsque la douleur devient difficile, et elle reçoit une dose de médicament. Comme la récompense (le soulagement de la douleur) n'intervient qu'à un intervalle fixe, il est inutile de manifester ce comportement lorsqu'elle ne sera pas récompensée.

Avec un programme de renforcement à intervalle variable, la personne ou l'animal reçoit le renforcement en fonction d'une durée variable, qui est imprévisible. Imaginons que Manuel soit le gérant d'un fast-food. De temps en temps, une personne du service de contrôle de la qualité vient au restaurant de Manuel. Si le restaurant est propre et que le service est rapide, chaque personne de ce service gagne une prime de 20 $. Manuel ne sait jamais quand la personne chargée du contrôle de la qualité se présentera, c'est pourquoi il essaie toujours de garder le restaurant propre et veille à ce que ses employés fournissent un service rapide et courtois. Sa productivité en matière de rapidité du service et de propreté du restaurant est constante, car il veut que son équipe gagne la prime.

Avec un calendrier de renforcement à ratio fixe, il y a un nombre déterminé de réponses qui doivent se produire avant que le comportement ne soit récompensé. Carla vend des lunettes dans un magasin de lunettes, et elle gagne une commission chaque fois qu'elle vend une paire de lunettes. Elle essaie toujours de vendre plus de paires de lunettes aux gens, y compris des lunettes de soleil sur ordonnance ou une paire de rechange, afin de pouvoir augmenter sa commission. Elle ne se soucie pas de savoir si la personne a vraiment besoin des lunettes de soleil sur ordonnance, Carla veut juste sa prime. La qualité de ce que Carla vend n'a pas d'importance car sa commission n'est pas basée sur la qualité, mais uniquement sur le nombre de paires vendues. Cette distinction dans la qualité de la prestation peut aider à déterminer la méthode de renforcement la plus appropriée pour une situation particulière. Des ratios fixes sont mieux adaptés pour optimiser la quantité de la production, tandis qu'un intervalle fixe, dans lequel la récompense n'est pas basée sur la quantité, peut conduire à une meilleure qualité de la production.

Dans un programme de renforcement à ratio variable, le nombre de réponses nécessaires pour une récompense varie. C'est le programme de renforcement partiel le plus puissant. Un exemple de programme de renforcement à ratio variable est le jeu. Imaginez que Sarah - en général une femme intelligente et économe - visite Las Vegas pour la première fois. Elle n'est pas joueuse, mais par curiosité, elle met une pièce dans la machine à sous, puis une autre, et encore une autre. Il ne se passe rien. Deux dollars en pièces de 25 cents plus tard, sa curiosité s'estompe, et elle est sur le point d'arrêter. Mais alors, la machine s'allume, les cloches sonnent et Sarah récupère 50 pièces de 25 cents. C'est mieux comme ça ! Sarah se remet à insérer des pièces de 25 cents avec un intérêt renouvelé, et quelques minutes plus tard, elle a épuisé tous ses gains et se retrouve avec 10 dollars dans le trou. Le moment est peut-être venu d'arrêter. Et pourtant, elle continue à mettre de l'argent dans la machine à sous parce qu'elle ne sait jamais quand le prochain renfort va arriver. Elle continue à penser qu'elle pourrait gagner 50, 100 ou même plus au prochain trimestre. Comme le calendrier de renforcement dans la plupart des types de jeux de hasard a un calendrier à ratio variable, les gens continuent d'essayer et d'espérer que la prochaine fois ils gagneront gros. C'est l'une des raisons pour lesquelles le jeu est si addictif et si résistant à l'extinction.

Dans le conditionnement opérationnel, l'extinction d'un comportement renforcé se produit à un moment donné après l'arrêt du renforcement, et la vitesse à laquelle cela se produit dépend du calendrier de renforcement. Dans un programme à ratio variable, le point d'extinction se produit très lentement, comme décrit ci-dessus. Mais dans les autres programmes de renforcement, l'extinction peut être rapide. Par exemple, si June appuie sur le bouton de l'analgésique avant le temps imparti par son médecin, aucun médicament n'est administré. Elle suit un programme de renforcement à intervalle fixe (dosage horaire), de sorte que l'extinction se produit rapidement lorsque le renforcement n'arrive pas au moment prévu. Parmi les programmes de renforcement, le ratio variable est le plus productif et le plus résistant à l'extinction. L'intervalle fixe est le moins productif et le plus facile à éteindre.

 

Les quatre programmes de renforcement donnent des modèles de réponse différents. Le programme à ratio variable est imprévisible et donne des taux de réponse élevés et réguliers, avec peu ou pas de pause après le renforcement (par exemple, le joueur). Un programme à ratio fixe est prévisible et produit un taux de réponse élevé, avec une courte pause après le renforcement (par exemple, une vendeuse de lunettes). Un programme à intervalle variable est imprévisible et produit un taux de réponse modéré et régulier (par exemple, un gérant de restaurant). L'intervalle fixe donne une réponse en forme de coquille Saint-Jacques, reflétant une pause significative après le renforcement (par exemple, un patient opéré).

Les jeux de hasard et le cerveau

Skinner (1953) a déclaré : "Si l'établissement de jeu ne peut pas persuader un client de remettre de l'argent sans contrepartie, il peut obtenir le même effet en remettant une partie de l'argent du client selon un calendrier à rapport variable" (p. 397).

Skinner utilise le jeu comme exemple de la puissance du programme de renforcement à taux variable pour maintenir un comportement même pendant de longues périodes sans aucun renforcement. En fait, Skinner était tellement sûr de ses connaissances en matière de dépendance au jeu qu'il a même affirmé qu'il pouvait transformer un pigeon en joueur pathologique ("L'utopie de Skinner", 1971). Il est vrai que les horaires à rapports variables maintiennent un comportement assez persistant - imaginez la fréquence des crises de colère d'un enfant si un parent cède ne serait-ce qu'une fois à ce comportement. La récompense occasionnelle rend presque impossible l'arrêt du comportement.

Des recherches récentes sur les rats n'ont pas permis de confirmer l'idée de Skinner selon laquelle l'entraînement selon des horaires à rapports variables est à lui seul à l'origine d'un jeu pathologique (Laskowski et al., 2019). Cependant, d'autres recherches suggèrent que le jeu semble fonctionner sur le cerveau de la même manière que la plupart des drogues addictives, et qu'il pourrait donc y avoir une combinaison de chimie du cerveau et de programme de renforcement qui pourrait conduire à un problème de jeu. Plus précisément, la recherche moderne montre le lien entre le jeu et l'activation des centres de récompense du cerveau qui utilisent le neurotransmetteur (substance chimique du cerveau) dopamine (Murch & Clark, 2016). Il est intéressant de noter que les joueurs n'ont même pas besoin de gagner pour ressentir la "ruée" de la dopamine dans le cerveau. Il a également été démontré que les "quasi-accidents", c'est-à-dire le fait de presque gagner mais de ne pas gagner réellement, augmentent l'activité du striatum ventral et d'autres centres de récompense du cerveau qui utilisent la dopamine (Chase & Clark, 2010). Ces effets sur le cerveau sont presque identiques à ceux produits par les drogues créant une dépendance comme la cocaïne et l'héroïne (Murch & Clark, 2016). Sur la base des preuves neuroscientifiques montrant ces similitudes, le DSM-5 considère désormais le jeu comme une dépendance, alors que les versions précédentes du DSM classaient le jeu comme un trouble du contrôle des impulsions.

 

Certaines recherches suggèrent que les joueurs pathologiques utilisent le jeu pour compenser des niveaux anormalement bas de l'hormone noradrénaline, qui est associée au stress et qui est sécrétée dans les moments d'excitation et de frisson. (crédit : Ted Murphy)

En plus de la dopamine, le jeu semble également impliquer d'autres neurotransmetteurs, notamment la noradrénaline et la sérotonine (Potenza, 2013). La norépinéphrine est sécrétée lorsqu'une personne ressent du stress, de l'excitation ou des frissons. Il se peut que les joueurs pathologiques utilisent le jeu pour augmenter leur niveau de ce neurotransmetteur. Des carences en sérotonine pourraient également contribuer à un comportement compulsif, notamment une dépendance au jeu (Potenza, 2013).

Il se peut que le cerveau des joueurs pathologiques soit différent de celui des autres personnes, et que cette différence ait d'une manière ou d'une autre conduit à leur dépendance au jeu, comme ces études semblent le suggérer. Cependant, il est très difficile d'en déterminer la cause car il est impossible de mener une véritable expérience (il serait contraire à l'éthique d'essayer de transformer des participants choisis au hasard en joueurs à problèmes). Par conséquent, il se peut que la cause aille dans la direction opposée - peut-être que l'acte de jouer modifie d'une manière ou d'une autre les niveaux de neurotransmetteurs dans le cerveau de certains joueurs. Il est également possible qu'un facteur négligé, ou une variable confondante, ait joué un rôle à la fois dans l'addiction au jeu et dans les différences de chimie cérébrale.

Cognition et apprentissage latent

Les comportementalistes stricts comme Watson et Skinner se sont concentrés exclusivement sur l'étude du comportement plutôt que sur la cognition (comme les pensées et les attentes). En fait, Skinner était tellement convaincu que la cognition n'avait pas d'importance que ses idées étaient considérées comme du behaviorisme radical. Skinner considérait l'esprit comme une "boîte noire" - quelque chose de complètement inconnaissable - et donc quelque chose qui ne devait pas être étudié. Cependant, un autre comportementaliste, Edward C. Tolman, avait une opinion différente. Les expériences de Tolman sur les rats ont démontré que les organismes peuvent apprendre même s'ils ne reçoivent pas de renforcement immédiat (Tolman & Honzik, 1930 ; Tolman, Ritchie, & Kalish, 1946). Cette constatation était en contradiction avec l'idée dominante à l'époque selon laquelle le renforcement doit être immédiat pour qu'il y ait apprentissage, ce qui suggère un aspect cognitif de l'apprentissage.

Dans les expériences, Tolman a placé des rats affamés dans un labyrinthe sans récompense pour s'y être frayé un chemin. Il a également étudié un groupe de comparaison qui a été récompensé par de la nourriture à la fin du labyrinthe. Lorsque les rats non renforcés ont exploré le labyrinthe, ils ont développé une carte cognitive : une image mentale de la disposition du labyrinthe. Après 10 sessions dans le labyrinthe sans renforcement, la nourriture a été placée dans une boîte de but à la fin du labyrinthe. Dès que les rats ont pris conscience de la nourriture, ils ont pu trouver leur chemin dans le labyrinthe rapidement, tout aussi rapidement que le groupe de comparaison, qui avait été récompensé par de la nourriture tout au long du parcours. C'est ce qu'on appelle l'apprentissage latent : un apprentissage qui se produit mais qui n'est pas observable dans le comportement tant qu'il n'y a pas de raison de le démontrer.

Le psychologue Edward Tolman a découvert que les rats utilisent des cartes cognitives pour naviguer dans un labyrinthe. Vous êtes-vous déjà frayé un chemin à travers différents niveaux d'un jeu vidéo ? Vous avez appris quand tourner à gauche ou à droite, monter ou descendre. Dans ce cas, vous vous êtes appuyé sur une carte cognitive, tout comme les rats dans un labyrinthe. (crédit : modification du travail par "FutUndBeidl"/Flickr)

L'apprentissage latent se produit également chez l'homme. Les enfants peuvent apprendre en observant les actions de leurs parents, mais ne le démontrent que plus tard, lorsque le matériel appris est nécessaire. Par exemple, supposons que le père de Ravi le conduise à l'école tous les jours. De cette façon, Ravi apprend le chemin de sa maison à son école, mais il n'y a jamais conduit lui-même, il n'a donc pas eu l'occasion de démontrer qu'il a appris le chemin. Un matin, le père de Ravi doit partir tôt pour une réunion, il ne peut donc pas conduire Ravi à l'école. Au lieu de cela, Ravi suit le même chemin à vélo que son père aurait pris en voiture. Cela démontre un apprentissage latent. Ravi avait appris le chemin de l'école, mais n'avait pas besoin de démontrer cette connaissance plus tôt.

Cet endroit est comme un labyrinthe

Vous êtes-vous déjà perdu dans un bâtiment et n'avez pas pu retrouver votre chemin ? Bien que cela puisse être frustrant, vous n'êtes pas seul. À un moment ou à un autre, nous nous sommes tous perdus dans des endroits comme un musée, un hôpital ou une bibliothèque universitaire. Chaque fois que nous allons dans un nouvel endroit, nous construisons une représentation mentale - ou carte cognitive - de l'endroit, comme les rats de Tolman ont construit une carte cognitive de leur labyrinthe. Cependant, certains bâtiments sont déroutants parce qu'ils comportent de nombreuses zones qui se ressemblent ou qui ont des lignes de vue courtes. C'est pourquoi il est souvent difficile de prévoir ce qui se trouve à un coin de rue ou de décider s'il faut tourner à gauche ou à droite pour sortir d'un bâtiment. La psychologue Laura Carlson (2010) suggère que ce que nous plaçons dans notre carte cognitive peut avoir un impact sur notre succès à naviguer dans l'environnement. Elle suggère que le fait de prêter attention à des caractéristiques spécifiques en entrant dans un bâtiment, comme une image sur le mur, une fontaine, une statue ou un escalier roulant, ajoute des informations à notre carte cognitive qui peuvent être utilisées plus tard pour nous aider à trouver notre chemin pour sortir du bâtiment.

Pour en savoir plus, regardez cette vidéo sur les études de Carlson sur les cartes cognitives et la navigation dans les bâtiments.

D"après Operant Conditioning

Ce site internet met des documents à votre disposition seulement et uniquement à titre d'information. Ils ne peuvent en aucun cas remplacer la consultation d'un médecin ou les soins prodigués par un praticien qualifié et ne doivent par conséquent jamais être interprétés comme pouvant le faire.

Connexion