Operante conditionering

Uit Wikipedia, de vrije encyclopedie
Ga naar: navigatie, zoeken
Geheugen (psychologie)
Sensorisch geheugen
Iconisch geheugen
Echoïsch geheugen
Kortetermijngeheugen
Werkgeheugen
Langetermijngeheugen
Declaratief geheugen
Episodisch geheugen
Semantisch geheugen
Niet-declaratief geheugen
Procedureel geheugen
Priming
Conditionering
Klassieke conditionering
Operante conditionering
Langetermijngeheugen (neurale basis)
Portal.svg Portaal psychologie
Stickers worden in het onderwijs als bekrachtiger gebruikt, bijvoorbeeld in leerlingenwerk

Operante conditionering of instrumenteel leren is het leerproces waarbij een respons in een bepaalde context gevolgd wordt door een bekrachtiger (Engels: reinforcer) of bestraffer (Engels: punisher). Een bekrachtiger is elke gebeurtenis die de kans vergroot dat dezelfde respons in de toekomst weer zal optreden. Een bestraffer is daarentegen elke gebeurtenis die de kans verkleint dat de respons weer zal optreden. In dierexperimenten is de bekrachtiger vaak voedsel of drank, en de bestraffer een elektrisch schokje. Soms spreekt men ook wel van positieve en negatieve bekrachtigers.

Geschiedenis[bewerken]

  • Edward L. Thorndike was de feitelijke ontdekker van operante conditionering. E.L. Thorndike maakte gebruik van de zogenaamde puzzlebox.
  • Een van de belangrijkste leerpsychologen die na E.L. Thorndike de operante conditionering heeft bestudeerd is Burrhus F. Skinner. Met de operante conditionering verschafte Skinner de psychologie een wetenschappelijk model voor het bestuderen van willekeurig gedrag (in tegenstelling tot uitgelokt of reflexmatig gedrag, de klassieke conditionering). Volgens E.L. Thorndike zal mens en dier alles in het werk stellen om heer en meester te worden van een nieuwe situatie, als hij nog niet kan steunen op vroeger opgedane ervaringen om aan zijn behoeften te voldoen. De pogingen daartoe worden probeerhandelingen genoemd, of zoals E.L. Thorndike het noemt trial and error.

Recent onderzoek toont het belang van operante conditionering aan voor zeer complex gedrag, waaronder taal en cognities. Met name de Relational Frame Theory is geënt op operante conditionering[1].

Kenmerken operant gedrag[bewerken]

Bij operante conditionering vergroot de kans op een bepaald gedrag in een bepaalde context door de daaropvolgend bekrachtigende gebeurtenis of prikkel. Dit gedrag is in tegenstelling tot reflexmatige reacties die door een stimulus worden uitgelokt, spontaan van aard. Dit gedrag wordt ook wel operant genoemd. Operant gedrag wordt dus niet uitgelokt, maar voortgebracht (Engels: emitted). Het is bovendien een vorm van gedrag dat een uitwerking heeft op de omgeving. De uitwerking kan bestaan uit een gebeurtenis die dit gedrag versterkt. Bijvoorbeeld het huilen van een baby 's nachts heeft een uitwerking op de ouders. Die kunnen het kind troosten of te eten geven.

Soorten bekrachtiging en straf[bewerken]

Er worden doorgaans twee soorten bekrachtigers en twee soorten bestraffers onderscheiden, die ongeveer hetzelfde effect op het leergedrag hebben:

  • Positieve bekrachtiging: het aanbieden van een positieve prikkel (bijvoorbeeld voedsel, geven van speelgoed aan kind)
  • Negatieve bekrachtiging: het achterwege blijven of ophouden van de negatieve prikkel (bijvoorbeeld hard lawaai of stroomstootje)
  • Positieve straf: het aanbieden van een negatieve prikkel
  • Negatieve straf: de afwezigheid of ophouden van de positieve prikkel (bijvoorbeeld onthouden van voedsel, een kind zijn speelgoed afnemen als het vervelend is).

Volgens de Engelse onderzoeker Edmund Rolls[2] kunnen veel basisemoties die bij de mens optreden, afgeleid worden uit dit schema. Positieve bekrachtigers zijn bijvoorbeeld geassocieerd met blijheid, negatieve bekrachtigers met opluchting. Positieve bestraffers met vrees, en negatieve bestraffers met frustratie en woede.

Uitdoving en partiële bekrachtiging[bewerken]

Uitdoving (Engels: extinction) is het verschijnsel dat de frequentie van gedrag dat niet meer wordt beloond, geleidelijk zal afnemen. Partiële of intermitterende bekrachtiging wil zeggen dat het gewenste gedrag niet altijd wordt beloond: men beloont bijvoorbeeld maar 80% van de gevallen. In deze situatie zal het gewenste leereffect later optreden (het leerproces duurt langer). Een kenmerk van dit soort van gedrag is dat, als het eenmaal tot stand is gebracht, ook veel langer standhoudt, dus beter bestand is tegen uitdoving. Deze effecten spelen vermoedelijk ook een rol bij gokverslaving. Het gokspel heeft namelijk ook als kenmerk dat er maar zo af en toe een beloning of bonus wordt uitgekeerd.

Procedure[bewerken]

Skinner-box[bewerken]

B.F. Skinner onderzocht dit soort gedrag van proefdieren in zijn Skinner-box. Hierin leert het dier dat het door op een knop te drukken (of tegen een paneeltje te pikken), voedsel toegediend krijgt. Aanvankelijk treedt dit gedrag spontaan op: de rat of duif raakt toevallig het knopje aan. Als daarna voedsel in het etensbakje wordt gedeponeerd, zal een hongerig proefdier er toe neigen dezelfde handeling te herhalen. De kans dat dit specifieke gedrag optreedt, neemt dan toe boven het spontane niveau. Deze wetmatigheid wordt ook wel 'wet van het resultaat' (Engels: Law of effect) genoemd. De reacties van proefdieren worden geregistreerd op een z.g. cumulatieve recorder. Shaping wil zeggen dat men het gedrag van het dier via een aantal tussenstappen vormt, totdat het gewenste gedrag optreedt. Dit kan inhouden dat men eerst gedrag beloont dat lijkt op het gewenst gedrag (zoals kijken in de richting van een responspaneel), en dan geleidelijk de criteria aanscherpt.

Bekrachtigingsschema's[bewerken]

Bij operant conditioneren kunnen verschillende schema's worden aangehouden voor het geven van bekrachtiging:

  • vast interval (FI: fixed interval): het eerste beoogde gedrag dat gesteld wordt na een vaste periode of interval, wordt bekrachtigd; gedrag dat voordien wordt gesteld, wordt niet bekrachtigd. Bijvoorbeeld: FI5" = bekrachtiging na een vast interval van 5 seconden.
  • variabel interval (VI): het eerste beoogde gedrag dat gesteld wordt na een periode die wisselt qua duur, maar met een bepaald gemiddelde, wordt bekrachtigd. Bijvoorbeeld VI5" = bekrachtiging na wisselende intervals, met een gemiddelde van 5 seconden.
  • vaste ratio (FR = fixed ratio): bekrachtiging volgt pas na een vast aantal reacties. Bijvoorbeeld FR5 = bekrachtiging na 5 reacties.
  • variabele ratio (VR): bekrachtiging volgt na een wisselend aantal reacties met een bepaald gemiddelde. Bijvoorbeeld VR5 = bekrachtiging na een wisselend aantal reacties, met een gemiddelde van 5.

Elke schema roept daarbij een specifiek leerresultaat op.

Discriminatieve stimulus[bewerken]

Een discriminatieve stimulus is een prikkel die wijst op een verhoogde kans op bekrachtiging. Met een discriminatieve stimulus kan het gedrag van een proefdier in een Skinner-box verder onder controle worden gebracht. Een duif kan bijvoorbeeld geleerd worden alleen een respons te geven als een rood lichtje brandt, maar niet bij een groen lichtje. Ook kunnen op die manier verschillende soorten gedrag worden aangeleerd. Bijvoorbeeld om op een knop te pikken als op een schermpje het woord PIKKEN verschijnt, en rond te draaien bij het woord DRAAIEN[3].

Neurale basis[bewerken]

Operante conditionering is gebaseerd op mechanismen die in de hersenen zijn verankerd. Anders dan bij klassieke conditionering spelen hierbij ook gebieden en zenuwkernen die betrokken zijn bij het reguleren van motorische activiteit een rol. Dit zijn de motorische schors, het limbische systeem en het striatum. Ook is bekend dat dopamine het effect van beloning kan versterken. Stoffen die de dopaminereceptoren blokkeren, zullen bijvoorbeeld zelfstimulatiegedrag of een voorwaardelijke reactie van ratten in een instrumenteel leerparadigma onderdrukken.

Toepassing in therapie[bewerken]

Operant conditioneren van gedrag is zeer vaak toegepast om ernstige gedragsproblemen of psychiatrische problemen te bestrijden. De meeste toepassingen hanteren sociale bekrachtiging (een vorm van positieve bekrachtiging). Door het gewenste gedrag te belonen, leert men dan dit te versterken. Een specifieke vorm van toegepaste operante conditionering is de token economy, waarbij bekrachtiging gebeurt via tokens die achteraf kunnen ingeruild worden voor andere zaken. Biofeedback is een andere vorm van operant conditioneren die klinisch relevant blijkt. Hierbij leert iemand gedrag te vermijden waarvan hij of zij zich niet bewust is, zoals bijvoorbeeld bepaalde kleine spiercontracties.

Gerelateerde onderwerpen[bewerken]

Literatuur[bewerken]

  • Thorndike, E. L. (1901). Animal intelligence: An experimental study of the associative processes in animals. Psychological Review Monograph Supplement, 2, 1-109.
  • Schultz, Wolfram (1998). Predictive Reward Signal of Dopamine Neurons. The Journal of Neurophysiology, 80(1), 1-27.

Externe links[bewerken]

Bronnen, noten en/of referenties

Voetnoten:

  1. Hayes, S.C., Barnes-Holmes, D, Roche, B. (2001). Relational Frame Theory: a post-Skinnerian account of human language and cognition
  2. E.T. Rolls (2000). Precis of the brain and emotion. Behavioral and Brain Sciences, 2, 177-191.
  3. http://www.youtube.com/watch?v=I_ctJqjlrHA