Žymių pasaulio objektų atpažinimas naudojant vaizdų panašumo vertinimą
Bakalauro baigiamasis darbas
Turinys
SANTRAUKA 4
SUMMARY 5
ĮVADAS 6
1. VAIZDŲ PANAŠUMO VERTINIMAS 7
1.1. Gilieji neuroniniai tinklai 7
1.1.1. ResNet 7
1.1.2. ViT 8
1.1.3. ImageNet svoriai 9
1.2. Vaizdų atpažinimo vaizdų panašumo vertinimu metodas 9
1.3. Konvergencija 10
1.4. L2 normalizacija 10
1.5. Trejetų nuostolių funkcija 10
1.6. Persimokymas 11
1.7. Kosinuso panašumas 12
2. EKSPERIMENTAS 13
2.1. Eksperimento aplinka 13
2.2. Google Landmarks Dataset v2 rinkinys 13
2.3. GLDv2 duomenų rinkinio poaibiai 14
2.4. Modifikuota Nacionalinio standartų ir technologijų instituto duomenų bazė 15
2.5. Modeliai 15
2.5.1. Architektūrų modifikacijos 15
2.5.2. Apmokyti ir testuoti modeliai 16
2.6. Duomenų paruošimas 17
2.7. Modelių mokymas 17
2.7.1. Nuostolių funkcija 17
2.7.2. Vaizdų grupavimas 18
2.7.3. Optimizatorius 18
2.7.4. Mokymo rezultatai 18
2.7.4.1. Apmokyti modeliai 18
2.7.4.2. Išankstinis sustojimas 18
2.7.4.3. Nuostolių funkcijų vertės 19
2.8. Modelio vertinimas 21
2.8.1. Kosinuso panašumų matrica 21
2.8.2. Metrikos 22
2.8.2.1. Atkūrimas, preciziškumas ir tikslumas 22
2.8.2.2. Aukščiausius įverčius turinčių vaizdų porų atkūrimas 23
2.8.2.3. Atkūrimopreciziškumo kreivė 26
2.9. Eksperimento rezultatai 28
REZULTATAI IR IŠVADOS 29
ŠALTINIAI 30
PRIEDAI 32
Santrauka
Vaizdų panašumas ir atpažinimas atlieka labai svarbų vaidmenį kompiuterinės regos taiko
mosiose programose. Didėjant vaizdinių duomenų, gaunamų įvairiose srityse, kiekiui, reikalingos
patikimos metodikos prasmingiems požymiams išgauti ir vaizdų panašumams nustatyti. Darbo
tikslas – sukurti vaizdų atpažinimo modelius naudojantis giliojo mokymosi metodais. Šiame
darbe buvo sukurti modeliai, paremti trejetų nuostolių funkcija bei ResNet50V2 arba ViT funda
mentaliaisiais modeliais, kurie buvo vertinami lyginant tarpusavyje bei su iš anksto apmokytais
ResNet50V2 ir ViT pagal įvairias metrikas: atkūrimą, preciziškumą, tikslumą, aukščiausių porų
atkūrimą, plotą po atkūrimopreciziškumo kreive. Lyginant su iš anksto apmokytais modeliais,
visi modeliai rezultatų nepagerino. Pagrindinė darbo išvada – GLDv2 duomenų rinkinys yra
per sudėtingas įprastiems konvoliucinių neuroninių tinklų ir transformerių neuroninių tinklų
modeliams ir norint panaudoti šiuos modelius yra reikalingi papildomi giliojo mokymosi metodai.
Raktiniai žodžiai: žymūs pasaulio objektai, trejetų nuostolių funkcija, vaizdų panašumas.
Įvadas
Technologijoms kasdien tobulėjant, giliojo mokymosi modeliai vaidina svarbų vaidmenį
įvairiose srityse, pavyzdžiui, kompiuterinėje regoje, natūralios kalbos apdorojime, sveikatos prie
žiūroje, didžiųjų duomenų kiekių apdorojime (angl.big data) ir autonominėse sistemose [YTT19].
Vykdomi moksliniai tyrimai ir inovacijos giliojo mokymosi srityje plečia panaudojimo galimybes,
todėl šie modeliai tampa vis galingesni ir universalesni sprendžiant sudėtingas problemas.
Vaizdų panašumas ir atpažinimas atlieka labai svarbų vaidmenį kompiuterinės regos taiko
mosiose programose. Didėjant vaizdinių duomenų, gaunamų įvairiose srityse, kiekiui, reikalingos
patikimos metodikos prasmingiems požymiams išgauti ir vaizdų panašumams nustatyti. Šio porei
kio patenkinimas yra gyvybiškai svarbus tokioms užduotims, kaip vaizdų paieška, stebėjimas ir
automatinis turinio organizavimas.
Mūsų mokslo darbų bazėje yra daugybė įvairių mokslo darbų, todėl tikrai atrasi sau tinkamą!