Reinforcement Learning, makkelijk uitgelegd

 

Reinforcement Learning (RL), in het Nederlands soms ook wel "leren door beloning" genoemd, is een type machine learning. Machine learning is een tak van kunstmatige intelligentie (AI) waarbij computers leren taken uit te voeren zonder dat ze expliciet zijn geprogrammeerd om dat te doen.


Je kunt RL vergelijken met de manier waarop een kind leert. Wanneer een kind bijvoorbeeld leert fietsen, wordt het niet geboren met deze vaardigheid. Het kind probeert het verschillende keren, valt waarschijnlijk een paar keer, maar uiteindelijk leert het de balans te bewaren en met succes te fietsen. Hoe gebeurt dit? Door beloning en straf. Als het kind rechtop blijft, voelt het zich gelukkig en tevreden (beloning), maar als het valt, voelt het zich misschien niet zo geweldig (straf). Dit is hetzelfde principe dat RL gebruikt om computers of "agenten" te leren.


Nu, laten we ons een computerprogramma voorstellen dat leert om een videospel te spelen. In het begin weet het programma niet hoe het spel werkt. Het drukt gewoon op willekeurige knoppen en kijkt wat er gebeurt. Elke keer dat het programma iets goeds doet in het spel, zoals een munt verzamelen of een vijand verslaan, krijgt het punten - dit is de "beloning". Maar als het iets verkeerds doet, zoals in een gat vallen of geraakt worden door een vijand, verliest het punten of levens - dit is de "straf".


Naarmate het programma meer speelt, begint het te leren. Het leert dat als het op de springknop drukt als er een gat komt, het veilig aan de andere kant terechtkomt (beloning). Als het echter niet springt, valt het in het gat (straf). Door deze trial-and-error methode en het leren van beloningen en straffen, leert het programma langzaam maar zeker hoe het spel gespeeld moet worden.


Dit is in essentie hoe reinforcement learning werkt. We gebruiken het om computers te leren complexe taken uit te voeren die niet gemakkelijk expliciet te programmeren zijn. Bovendien kan een systeem dat leert door RL zich blijven aanpassen en leren van nieuwe ervaringen, wat betekent dat het kan verbeteren naarmate het meer speelt. Het is een zeer krachtige techniek die wordt gebruikt in veel verschillende gebieden, van het leren spelen van videogames tot het besturen van zelfrijdende auto's en nog veel meer.