Kompiuterinio modeliavimo II kurso magistro darbas
Aukštos energijos fizikos duomenų generavimas naudojant giliojo mokymosi metodus
Turinys
Santrauka 3
Summary 4
Įvadas 5
1. Susijusių darbų apžvalga 8
2. Mašininis mokymas 11
2.1. Mašininio mokymo modeliai 12
2.1.1. Variacinis auto-enkoderis (VAE) 12
2.1.2. Generatyvūs priešiškieji tinklai (GAN) 15
2.1.3. Normalizuojantys srautai 17
2.1.4. Gauso maišos modelis 18
2.2. Duomenų vertinimo metrikos 20
2.2.1. Frechet inception atstumas (FID) 20
2.2.2. Frobenijaus norma 20
2.2.3. Fizikinės metrikos 21
2.3. Aktyvacijos funkcijos 22
2.4. Optimizavimo algoritmai 24
2.5. Paketo normalizavimas 25
3. Duomenų rinkinys 26
3.1. Duomenų rinkinio savybės 27
4. Duomenų generavimo eksperimentai 29
4.1. VAE eksperimentai 29
4.2. GAN duomenų generavimo eksperimentai 37
4.3. Normalizavimo srautų duomenų generavimas 42
4.3.1. Modelio treniravimas ir naujų duomenų generavimas 43
4.4. Rezultatų ir greitaveikos palyginimas 48
4.5. HEP duomenų generavimas pagal Gauso maišos modelį (GMM) 51
4.5.1. Gauso maišos modelio duomenų generavimo rezultatai 52
4.5.2. GMM palyginimas su gilaus mokymo modelio rezultatais 54
Išvados 55
Ateities tyrimų planas 57
Literatūros šaltiniai 58
Įvykę susitikimai su darbo vadovu 61
Įvadas
Duomenų modeliavimo metodai yra vieni iš svarbiausių priemonių, siekiant suprasti tam
tikrų pasaulio reiškinių veikimo prasmę. Metodai yra naudojami meteorologijoje, fizikoje,
ekonomiko- je, chemijoje ir t.t. Meteorologijos srities specialistai taiko sudėtingas diferencialines
lygtis bandy- dami išsiaiškinti oro klimato sąlygų susidarymo kilmę. Fizikai arba astronomai
siekdami suvokti galaktikų ir kosminių kūnų atsiradimo priežastis, apibrėžia atsiradimo procesus
tam tikrais dėsniais pagal fizikines taisykles [6]. Duomenų modeliavimas aktyviai yra
naudojamas mašininio mokymo srityje klasifikuojant bei generuojant tam tikrus naujus
duomenis, siekiant išsiaiškinti jų prasmę, kilmę ir panaudojimą. Mašininio mokymo industrijoje
yra aktyviai naudojami diskriminatyvūs (angl. k. diskriminative) ir generatyvūs (anglų k.
generative) duomenų modeliavimo mašini- nio mokymo metodai. Diskriminatyviajame
duomenų modeliavime yra siekiama taikyti metodus, galinčius tikimybiniais, matematiniais
skaičiavimais sugeneruoti duomenų etiketes ir pagal jas kla- sifikuoti kokio nors duomenų
rinkinio įrašus į grupes. Tai būtų tiesinis klasifikatorius, sprendimų medžiai arba logistinė
regresija. Generatyviajame duomenų modeliavime, taikomi duomenų mo- deliai, tam, kad ištirti
kaip pasaulyje gali tam tikri duomenys atsirasti [6]. Vieni iš žinomiausių metodų būtų
generatyvūs priešiškieji tinklai (anglų k. Generative Adversarial Networks, trumpiau GAN),
variaciniai auto enkoderiai (anglų k. Variational Auto Encoders, VAE), normalizavimo srautai
(anglų k. Normalizing Flows) ir pan. Mašininio mokymo duomenų modeliavimo srityje, siekiant
tiksliai ir efektyviai sumodeliuoti duomenis, reikia efektyviai naudoti kompiuterio aparati- nę
įrangą, kurioje yra naudojami modeliai. Mašininio mokymo modeliais modeliuojant duomenis,
turėtų būti taikomi kompiuterio procesoriai (CPU) ir grafinės kortos (GPU) [10], [25]. Grafinės
kortos skaičiuoja greičiau negu kompiuterio procesorius. Naudojant kompiuterinę grafinę kortą,
galima tikėtis geresnio skaičiavimo greičio ir tikslumo, nes tai suteikia galimybę lygiagrečiai
atlikti tam tikrus mašininio mokymo modelių skaičiavimus. Kompiuterio procesoriai naudingi
mašini- nio mokymo modelių procesams, tačiau juose atliekami duomenų modeliavimo
skaičiavimai būna kartais lėti, nes naudoja mažiau branduolių ir yra labiau tinkami
sinchroniniams procesams vykdy- ti. Naudojant mašininio mokymo duomenų modeliavimo
sprendimus, turėtų būti atsižvelgiama į jų veikimą, efektyvumą ir naudą. Branduolinės fizikos
tyrimų organizacijos CERN kompiuterinių skaičiavimų laboratorijose yra taikomiMonte Carlo
metodu paremti duomenų generatoriai, skir- ti generuoti naujų aukštos energijos fizikinių dalelių
(HEP) įvykių duomenis, kurie prognozuoja, kokius CERN mokslininkai fizikinius dalelių
duomenis galėtų užfiksuoti didžiajame CERN orga- nizacijos greitintuve ( anglų k. Large
Hadron Collider, LHC). Taikomi duomenų generatoriai yra paremti Monte Carlo metodo
veikimu ir generuoja ATLAS ir CMS detektorių aukštos energijos dalelių įvykių duomenis. CERN
dalelių įvykių duomenys yra paremti fizikiniais modeliais, kurie galėtų būti keturių leptonų,
viršutinių kvarkų formavimo ir pan. Sugeneravus naujus fizikinius duomenis, CERN
mokslininkai gali tikslingai apsiskaičiuoti fizikines...
Mūsų mokslo darbų bazėje yra daugybė įvairių mokslo darbų, todėl tikrai atrasi sau tinkamą!