Pastiprināšanas mācībās aģents vai lēmumu pieņēmējs ģenerē apmācības datus, mijiedarbojoties ar pasauli. Aģentam ir jāmācās savas rīcības sekas, izmantojot izmēģinājumus un kļūdas, nevis skaidri norādīts, kā rīkoties pareizi.
Daudzbruņotu bandītu problēma
Pastiprināšanas mācībās mēs izmantojam Multi-Armed Bandit Problem, lai formalizētu jēdzienu lēmumu pieņemšana nenoteiktības apstākļos, izmantojot k-bruņotus bandītus. Lēmumu pieņēmējs vai aģents piedalās Multi-Armed Bandit Problemā, lai izvēlētos k-dažādas darbības, un saņem atlīdzību, pamatojoties uz izvēlēto darbību. Bandītu problēma tiek izmantota, lai aprakstītu pamatjēdzienus pastiprināšanas mācībās, piemēram, atlīdzības, laika soļi un vērtības.

Augšējā attēlā ir attēlots spēļu automāts, kas pazīstams arī kā bandīts ar divām svirām. Mēs pieņemam, ka katrai svirai ir atsevišķs atlīdzības sadalījums un ir vismaz viena svira, kas rada maksimālo atlīdzību.
Katrai svirai atbilstošās atlīdzības varbūtības sadalījums ir atšķirīgs, un tas nav zināms spēlētājam (lēmuma pieņēmējam). Tādējādi mērķis šeit ir noteikt, kura svira jāpavelk, lai pēc noteikta izmēģinājumu kopuma iegūtu maksimālu atlīdzību.
Piemēram:
Iedomājieties tiešsaistes reklāmas izmēģinājumu, kurā reklāmdevējs vēlas izmērīt trīs dažādu viena un tā paša produkta reklāmu vidējo klikšķu skaitu. Ikreiz, kad lietotājs apmeklē vietni, reklāmdevējs nejauši parāda reklāmu. Pēc tam reklāmdevējs uzrauga, vai lietotājs noklikšķina uz reklāmas vai nē. Pēc kāda laika reklāmdevējs pamana, ka viena reklāma, šķiet, darbojas labāk nekā pārējās. Reklāmdevējam tagad ir jāizlemj, vai turpināt reklāmu ar vislabāko veiktspēju vai turpināt nejaušināto pētījumu.
Ja reklāmdevējs rāda tikai vienu reklāmu, viņš vairs nevar vākt datus par pārējām divām reklāmām. Varbūt kāda no citām reklāmām ir labāka, tikai nejaušības dēļ tā šķiet sliktāka. Ja pārējās divas reklāmas ir sliktākas, pētījuma turpināšana var negatīvi ietekmēt vidējo klikšķu skaitu. Šis reklāmas izmēģinājums ir piemērs lēmumu pieņemšanai nenoteiktības apstākļos.
Iepriekš minētajā piemērā aģenta lomu spēlē reklāmdevējs. Reklāmdevējam ir jāizvēlas starp trim dažādām darbībām, lai parādītu pirmo, otro vai trešo reklāmu. Katra reklāma ir darbība. Izvēloties šo reklāmu, tiek iegūta nezināma atlīdzība. Visbeidzot, reklāmdevēja peļņa pēc reklāmas ir atlīdzība, ko reklāmdevējs saņem.
Darbības vērtības:
Lai reklāmdevējs varētu izlemt, kura darbība ir vislabākā, mums ir jādefinē katras darbības vērtība. Mēs definējam šīs vērtības, izmantojot darbības vērtības funkciju, izmantojot varbūtības valodu. Darbības atlases vērtība q*a) tiek definēts kā paredzamā atlīdzība Rt mēs saņemam, veicot kādu darbību a no iespējamā darbību kopuma.
Aģenta mērķis ir maksimāli palielināt sagaidāmo atlīdzību, izvēloties darbību, kurai ir visaugstākā darbības vērtība.
Darbības vērtības aprēķins:
html tagus
Tā kā darbības izvēles vērtība t.i. J*a) aģentam nav zināms, tāpēc mēs izmantosim izlases vidējais metode, kā to novērtēt.

Izpēte pret ekspluatāciju:
- Mantkārīga darbība : kad aģents izvēlas darbību, kurai pašlaik ir vislielākā aplēstā vērtība. Aģents izmanto savas pašreizējās zināšanas, izvēloties mantkārīgo darbību. Darbība, kas nav mantkārīga: kad aģents neizvēlas lielāko aplēsto vērtību un upurē tūlītēju atlīdzību, cerot iegūt vairāk informācijas par citām darbībām. Izpēte : ļauj aģentam uzlabot savas zināšanas par katru darbību. Cerams, ka tas radīs ilgtermiņa ieguvumu. Ekspluatācija: ļauj aģentam izvēlēties mantkārīgo darbību, lai mēģinātu iegūt vislielāko atlīdzību par īstermiņa labumu. Tīri mantkārīga rīcības izvēle var izraisīt neoptimālu uzvedību.
Rodas dilemma starp izpēti un ekspluatāciju, jo aģents nevar izvēlēties vienlaikus izpētīt un izmantot. Tāpēc mēs izmantojam Augšējā pārliecības robeža algoritms, lai atrisinātu izpētes-ekspluatācijas dilemmu
Augšējās pārliecības robežas darbības izvēle:
Darbības atlasē ar augstāko uzticamības robežu darbības vērtības aplēsēs tiek izmantota nenoteiktība, lai līdzsvarotu izpēti un izmantošanu. Tā kā darbības vērtības aprēķinu precizitātei ir raksturīga nenoteiktība, kad mēs izmantojam atlasītu atlīdzību kopu, tāpēc UCB aplēsēs izmanto nenoteiktību, lai veicinātu izpēti.

Jta) šeit attēlota pašreizējā rīcības aplēse a laikā t . Mēs atlasām darbību, kurai ir lielākā aptuvenā darbības vērtība plus augšējās ticamības robežas izpētes vienums.

Q(A) augstāk esošajā attēlā attēlo pašreizējo darbības vērtības novērtējumu darbībai A . Iekavas apzīmē ticamības intervālu J*(A) kas saka, ka mēs esam pārliecināti, ka faktiskā darbība ir darbības vērtība A atrodas kaut kur šajā reģionā.
Apakšējo kronšteinu sauc par apakšējo robežu, bet augšējo kronšteinu sauc par augšējo robežu. Reģions starp iekavām ir ticamības intervāls, kas atspoguļo aplēšu nenoteiktību. Ja reģions ir ļoti mazs, tad mēs kļūstam ļoti pārliecināti, ka faktiskā rīcības vērtība A ir tuvu mūsu aprēķinātajai vērtībai. No otras puses, ja reģions ir liels, tad mēs kļūstam neskaidri par darbības vērtību A ir tuvu mūsu aprēķinātajai vērtībai.
The Augšējā pārliecības robeža seko optimisma principam, saskaroties ar nenoteiktību, kas nozīmē, ka, ja mēs neesam pārliecināti par kādu darbību, mums optimistiski jāpieņem, ka tā ir pareiza rīcība.
Piemēram, pieņemsim, ka tālāk esošajā attēlā ir šīs četras darbības ar saistītām neskaidrībām, mūsu aģentam nav ne jausmas, kura ir labākā darbība. Tātad saskaņā ar UCB algoritmu tas optimistiski izvēlēsies darbību, kurai ir augstākā augšējā robeža, t.i. A . To darot, tam būs vislielākā vērtība un tas saņems vislielāko atlīdzību, vai arī, to darot, mēs uzzināsim par darbību, par kuru zinām vismazāk.

Pieņemsim, ka pēc darbības izvēles A mēs nonākam stāvoklī, kas attēlots zemāk esošajā attēlā. Šoreiz UCB izvēlēsies darbību B kopš Q(B) ir augstākā augšējā ticamības robeža, jo tā darbības vērtības aplēse ir visaugstākā, lai gan ticamības intervāls ir mazs.

java ievades virkne
Sākotnēji UCB pēta vairāk, lai sistemātiski samazinātu nenoteiktību, taču laika gaitā tā izpēte samazinās. Tādējādi mēs varam teikt, ka UCB vidēji saņem lielāku atlīdzību nekā citi algoritmi, piemēram, Epsilon-greedy, Optimistic Initial Values utt.