Darbo informacija

Atsisiųsti darbą Paklausti

Daugiaagentinių skatinamojo mokymosi algoritmų palyginimas simuliacinėse aplinkose

9 (6 atsiliepimai)

Detali informacija

Kategorija: Informatika , Bakalauro darbai
Lygis: Universitetinis
Failo tipas: DOCX failas
Apimtis: 64 psl., (7448 ž.)
Vertinimas:
9 (6 atsiliepimai)
Šaltiniai: Yra

Ištrauka

Daugiaagentinių skatinamojo mokymosi algoritmų palyginimas simuliacinėse aplinkose
Bakalauro baigiamasis darbas

Turinys
ĮVADAS 6
1. DAUGIAAGENTINIS SKATINAMASIS MOKYMASIS 8
1.1. Įvadas j skatinamąjj mokymą 8
1.2. Markovo sprendimo priėmimo procesai 8
1.3. Pagrindinės skatinamojo mokymosi sąvokos 9
1.4. Skatinamojo mokymosi algoritmai 10
1.4.1 Ve
rtės funkcijos iteracija grindžiami algoritmai 10
1.4.2. Strategijos iteracija grindžiami algoritmai 10
1.4.3 Akt
oriaus-kritiko algoritmai 10
1.5. Daugiaagentinio mokymosi algoritmai 11
1.5.1. Įvadas j daugiaagentinj skatinamąjj mokymą 11
1.5.2. IPPO 11
1.5.3. MAPPO 12
1.5.4. QMIX 12
2. EKSPERIMENTINIO TYRIMO APLINKA 14
2.1 „M
elting Pot“ simuliacinė aplinka 14
2.2 „T
orchRL“ biblioteka 16
2.3 „W
eights & Biases“ platforma 16
2.4. Eksperimentų atlikimas 16
3. DAUGIAAGENTINIO MOKYMOSI ĮVERTINIMO RODIKLIAI 17
3.1. Bendro atlygio vidurkis 17
3.2. Lygybės rodiklis 17
3.3. Tvarumo rodiklis 17
4. EKSPERIMENTINIS APLINKOS „BENDRUOMENIŲ DERLIAUS NUĖMIMAS“ 
TY- RIMAS 18
4.1. Atsitiktinė strategija 18
4.2. IPPO 18
4.2.1. Bendra eksperimentų konfigūracija 18
4.2.2. Pirmas eksperimentas - individualus atlygis, dalinamasi 
parametrais 19
4.2.3 An
tras eksperimentas - bendras atlygis, dalinamasi
parametrais 20
4.2.4 Tr
ečias eksperimentas - bendras atlygis, nesidalinama
parametrais 21
4.2.5. Ketvirtas eksperimentas - individualus modifikuotas atlygis
22
4.3. MAPPO 23
4.3.1. Pirmas eksperimentas - individualus atlygis 23
4.3.2 An
tras eksperimentas - individualus modifikuotas atlygis 24
4.4. QMIX 25
4.4.1. Pirmas eksperimentas - individualus atlygis 26
4.4.2 An
tras eksperimentas - individualus modifikuotas atlygis 27
5. EKSPERIMENTINIS APLINKOS „UPĖS VALYMAS“ TYRIMAS 28
REZULTATAI 30
IŠVADOS 32
PADĖKA 33
ŠALTINIAI 34
PRIEDAI 37

Įvadas
Daugiaagentinis skatinamasis mokymasis (angl. Multi-agent
reinforcement learning, dažnai trumpinama kaip MARL) - sritis, nagrinėjanti
algoritmus ir strategijas, leidžiančias keliems agen- tams mokytis
bendradarbiauti, prisitaikyti ir priimti sprendimus bendroje aplinkoje.
Pastarai- siais metais MARL sulaukė nemažai dėmesio dėl gebėjimo
spręsti sudėtingas realaus pasaulio problemas, su kuriomis tradicinis
skatinamasis mokymasis nepajėgus susidoroti. Keletas pavyz- džių -
MARL pritaikymas siekiant pagerinti kompiuterinių tinklų paketų
maršrutų paskirstymą [YLX+22], tiriant saugių autonominių vairavimo
sistemų kūrimą [SSS16] ar sprendžiant optima- lios mokesčių politikos
formavimo problemą, kuria siekiama pagerinti socialinę gerovę
[ZTS+22]. Dėl augančio pritaikomumo, didėja ir daugiaagentinių
skatinamojo mokymosi algoritmų tyrimų poreikis.
Skirtingai nuo tradicinio skatinamojo mokymosi, kurio metu agento
tikslas yra efektyviai maksimizuoti tikėtiną grąžą, daugiaagentinio
skatinamojo mokymosi atveju - kartais tikslai nėra taip aiškiai apibrėžti.
Egzistuoja dvi pagrindinės tyrimų kryptys [DLI+23]: viena jų orientuota
j bendrų verčių maksimizavimą [RSW+18], apibūdinama kaip
komandiniai Markovo žaidimai arba keleto agentų Markovo sprendimo
priėmimo procesai (angl. Markov Decision Process, dažnai trumpinama kaip
MDP), o kita siekia rasti bendrą pagrindą tarp agentų ir skatinti jų
socialinę gerovę arba išvengti socialinių dilemų [MRK+23].
Abi šios sritys susiduria su bendra problema - daugiaagentinės
sistemos ne stocianarumu. Daugiaagentinės sistemos pasižymi ne
stacionarumu, [DLI+23], kadangi bet kurio agento stra - tegijos
patobulinimą kiti sistemos agentai patiria kaip jų patirties
pasiskirstymo pokytj. Be to, didėjant agentų skaičiui eksponentiškai
didėja ir bendra atliekamų veiksmų erdvė. Dėl to algo- ritmų, kuriais
bandoma tiesiogiai modeliuoti bendrų veiksmų erdvę, mokymo laikas
gali išaugti. Pažymėtina ir tai, kad tyrinėjimas, esantis vienu iš
pagrindinių skatinamojo mokymosi dalių, tampa sudėtingesnis, nes
būtina koordinuoti tyrinėjamų veiksmų pasirinkimą.
Kita pastebima problema - sudėtingesnis agentų
bendradarbiavimas esant paskatai konku - ruoti [DLI+23]. Pavyzdžiui,
futbolo žaidime, nors žaidėjai siekia komandos pergalės, premijos už
jmuštus jvarčius gali sukelti konfliktų. Jei svarbi būtų tik komandos
sėkmė, žaidėjai laikytų- si optimalios komandos strategijos, pvz.,
perduotų kamuolj, kad padidintų šansus jmušti jvartj. 

Ne tai, ko ieškai?

Mūsų mokslo darbų bazėje yra daugybė įvairių mokslo darbų, todėl tikrai atrasi sau tinkamą!

Panašūs darbai

Atsiliepimai apie mus