Darbo informacija

Atsisiųsti darbą Paklausti

Skatinamasis mokymas stalo žaidimams spręsti

9.2 (5 atsiliepimai)

Detali informacija

Kategorija: Informatika , Bakalauro darbai
Lygis: Universitetinis
Failo tipas: DOCX failas
Apimtis: 40 psl., (7903 ž.)
Vertinimas:
9.2 (5 atsiliepimai)
Šaltiniai: Yra

Ištrauka

Skatinamasis mokymas stalo žaidimams spręsti
Baigiamasis bakalauro darbas

Turinys
Įvadas 3
1. Pagrindinės darbo detalės 6
1.1. Q-mokymasis 6
1.2. Stalo žaidimas 8
1.2.1. Žaidimo taisyklės ir eiga 9
1.2.2. Žaidimo realizacija 10
1.3. Q-mokymosi agentas 11
1.3.1. Patirties struktūra ir saugojimas 11
1.3.2. Patirties komponentai – būsena, sąryšis ir kelias 13
1.3.3. Veiksmų vykdymas ir elgesys 14
1.3.4. Q-mokymosi algoritmo realizacija 15
2. Skatinamojo mokymosi realizavimo analizė 16
2.1. Klaidų identifikavimas ir taisymas 16
2.2. Q-mokymosi parametrų eksperimentai 19
2.2.1. Nuolaidos koeficientas ir mokymosi rodiklis 20
2.2.2. Tyrinėjimo-eksploatavimo tikimybės 23
3. Stalo žaidimo strategijos 25
3.1. Pagrindinės sąvokos 25
3.2. Realizacija 26
3.2.1. Godusis ir badaujantis agentai 26
3.2.2. Dinaminis agentas 28
3.2.3. Subalansuotas agentas 29
3.3. Eksperimentai 31
3.3.1. Strategijų taikymas prieš atsitiktinio klaidžiojimo agentą 31
3.3.2. Sėkmingiausios strategijos paieška 33
Rezultatai ir išvados 36
Literatūros sąrašas 37
Priedas Nr. 1 39

Įvadas
Šiame darbe nagrinėjama, kaip besinaudojant mašininio mokymosi algoritmais, išmokoma
stalo žaidimų agentus priimti sprendimus, kurie turėtų būti, tikėtina, vedantys į teigiamą
rezultatą. Dirbtinis intelektas (DI) – tai toks kompiuterinis algoritmas, kuris gali
tobulėti, programuotojui neįsiterpiant. Kiekvieną kartą susidūręs su tuo pačiu programos ar
aplinkos scenarijumi, šis kompiuterinis algoritmas gali pasirinkti kitokį sprendimą, atsižvelgiant
į prieš tai atliktus veiksmus.
Dirbtinis intelektas naudojamas vis plačiau įvairiose darbų srityse. Medicinos srityje,
naudojantis mašininiu mokymusi ir neuroniniais tinklais, nustatomi žmogaus kūno organai
[Yan16], bandoma atpažinti plaučių ligų požymius [ACE+16]. Kad būtų galima sėkmingai
pritaikyti dirbtinį intelektą kituose taikymuose ir greičiau pasiekti teigiamus rezultatus, verta
pasimokyti iš ankstesnių tyrimų. Todėl tikimasi, kad šio tęstinio darbo atlikti tyrimai ir suteiktos
žinios galėtų padėti daugiau suprasti, kokie sprendimai turi būti priimti norint sėkmingai
apmokyti dirbtinį intelektą.
Stalo žaidimo dirbtinis intelektas (arba agentas) – tai dirbtinis intelektas, kurio veikimo
aplinka yra tik stalo žaidimas. Agentas šiame kontekste, pagal įgyvendinimą, gali būti kelių tipų.
Vienas iš agentų yra atsitiktinio klaidžiojimo agentas (angl. random walker agent) – atliekantis
veiksmus atsitiktinai. Kiti agentai protingesni – stalo žaidimo taisyklėmis, konkrečiais
parametrais besiremiantis agentas, kuris iš duotosios žaidimo būsenos gali nustatyti kokį veiksmą
atlikti arba dar kitoks agentas – mašininio mokymosi algoritmais apmokytas agentas, atliekantis
veiksmus atsižvelgdamas į turimą patirtį.
Mašininis mokymasis – tai mokslo kryptis, kurioje bandoma priversti kompiuterius keisti ar
pritaikyti atliekamus veiksmus taip, kad veiksmai taptų kuo tikslesni. Tikslumas matuojamas
atsižvelgiant, kaip pasirinktas veiksmas buvo toli ar arti nuo teisingo veiksmo [Mar15].
Mašininio mokymosi pagrindinis tikslas yra, kad kompiuteris gebėtų priimti sprendimą, kuris
bus tinkamiausias, tačiau kompiuteris nebus pabrėžtinai suprogramuotas tokį sprendimą priimti.
Mašininio mokymosi populiarios šakos:
Prižiūrėtasis mokymas – dirbtiniam intelektui duodama mokymosi duomenų aibė,
kurioje yra sugrupuoti teisingi atsakymai su pavyzdžiais. Gaunant tolimesnes
užklausas, atsižvelgiama į esamus teisingus atsakymus ir bandoma ieškoti panašumų
bei atlikti spėjimą.
Neprižiūrėtasis mokymas – dirbtiniam intelektui duodama mokymosi duomenų aibė,
tačiau teisingi atsakymai nėra suteikti. Algoritmas bando ieškoti panašumų tarp
duotųjų pavyzdžių ir juos grupuoti.
Skatinamasis mokymas – tai vienas iš trijų mašininio mokymosi tipų, kuris išsiskiria
tuo, kad problemai spręsti nėra duodama jokios išankstinės informacijos apie esamą
aplinką [SB18]. Dirbtinis intelektas turi nuspręsti kokį veiksmą atliks esamoje
aplinkos būsenoje. Atlikus veiksmą, dirbtinis intelektas gaus to veiksmo grįžtamąjį
ryšį – įvertį. Įvertis gali būti teigiamas arba neigiamas, priklausomai nuo to, ką lėmė
atliktas veiksmas. Jei veiksmas atvedė arčiau siekiamo tikslo, atitinkamai dirbtinis
intelektas bus apdovanojamas teigiamu įverčiu ir atvirkščiai.
Šio darbo tikslas yra patobulinti stalo žaidimo agentų veiklos rezultatus ir pateikti
rekomendacijas skatinamojo mokymosi taikymui eksperimentinėje aplinkoje.

Ne tai, ko ieškai?

Mūsų mokslo darbų bazėje yra daugybė įvairių mokslo darbų, todėl tikrai atrasi sau tinkamą!

Atsiliepimai apie mus