Žymių pasaulio objektų atpažinimas naudojant vaizdų panašumo vertinimą
Bakalauro baigiamasis darbas
Turinys
SANTRAUKA 4
SUMMARY 5
ĮVADAS 6
1. VAIZDŲ PANAŠUMO VERTINIMAS 7
1.1. Gilieji neuroniniai tinklai 7
1.1.1. ResNet 7
1.1.2. ViT 8
1.1.3. ImageNet svoriai 9
1.2. Vaizdų atpažinimo vaizdų panašumo vertinimu metodas 9
1.3. Konvergencija 10
1.4. L2 normalizacija 10
1.5. Trejetų nuostolių funkcija 10
1.6. Persimokymas 11
1.7. Kosinuso panašumas 12
2. EKSPERIMENTAS 13
2.1. Eksperimento aplinka 13
2.2. Google Landmarks Dataset v2 rinkinys 13
2.3. GLDv2 duomenų rinkinio poaibiai 14
2.4. Modifikuota Nacionalinio standartų ir technologijų instituto
duomenų bazė 15
2.5. Modeliai 15
2.5.1 Architektūrų modifikacijos
15
2.5.2 Apmokyti ir testuoti modeliai
16
2.6. Duomenų paruošimas 17
2.7. Modelių mokymas 17
2.7.1. Nuostolių funkcija 17
2.7.2 Vaizdų grupavimas
18
2.7.3. Optimizatorius 18
2.7.4. Mokymo rezultatai 18
2.7.4.1 Apmokyti modeliai
18
2.7.4.2 Išankstinis sustojimas
18
2.7.4.3 Nuostolių funkcijų vertės
19
2.8. Modelio vertinimas 21
2.8.1 Kosinuso panašumų matrica
21
2.8.2. Metrikos 22
2.8.2.1 Atkūrimas, preciziškumas ir tikslumas
22
2.8.2.2 Aukščiausius jverčius turinčių vaizdų porų atkūrimas
3
23
2.8.2.3 Atkūrimopreciziškumo kreivė
26
2.9. Eksperimento rezultatai 28
REZULTATAI IR IŠVADOS 29
ŠALTINIAI 30
PRIEDAI 32
Įvadas
Technologijoms kasdien tobulėjant, giliojo mokymosi modeliai
vaidina svarbų vaidmenj jvairiose srityse, pavyzdžiui, kompiuterinėje
regoje, natūralios kalbos apdorojime, sveikatos prie žiūroje, didžiųjų
duomenų kiekių apdorojime (angl. big data) ir autonominėse sistemose
[YTT19]. Vykdomi moksliniai tyrimai ir inovacijos giliojo mokymosi srityje
plečia panaudojimo galimybes, todėl šie modeliai tampa vis galingesni ir
universalesni sprendžiant sudėtingas problemas.
Vaizdų panašumas ir atpažinimas atlieka labai svarbų vaidmenj
kompiuterinės regos taiko mosiose programose. Didėjant vaizdinių
duomenų, gaunamų jvairiose srityse, kiekiui, reikalingos patikimos
metodikos prasmingiems požymiams išgauti ir vaizdų panašumams
nustatyti. Šio porei kio patenkinimas yra gyvybiškai svarbus tokioms
užduotims, kaip vaizdų paieška, stebėjimas ir automatinis turinio
organizavimas.
Vienas iš besiplečiančios vaizdų atpažinimo srities pritaikymų yra
žymių pasaulio objektų vaizdų atpažinimas. Šių vaizdų atpažinimo
kūrimui ir tobulinimui reikalingos priemonės, galinčios atrasti
dėsningumus, ne visada susijusius su žmogui suprantamais
panašumais. Tam gali būti pasitelkiami giliojo mokymosi metodai:
konvoliuciniai neuroniniai tinklais paremti modeliai [HZR+16] bei
transformerių modeliai [BSP+22; LZW+23]. Taip pat modelių mokymui
yra naudojamas didžiausias žymių objektų vaizdų rinkinys Google
Landmarks Dataset v2 [WAC+20]. Įprastai vaizdų atpažinimas remiasi
vaizdų klasifikavimu, kai kiekvienas vaizdas yra priskiria
mas tam tikrai klasei, pavyzdžiui obuolio vaizdas gali būti priskirtas
klasei ”obuolys” ir ”vaisius” [KRA+20]. Kitas galimas vaizdų atpažinimo
būdas yra paremtas vaizdų jterpinių panašumo ver tinimu. Šiam būdui
gali būti naudojami mokymas pasitelkiant trejetus [SKP15] bei
kosinuso panašumo vertinimas [RKA12].
Šiame darbe yra aptariamas jprastų vaizdų klasifikavimo modelių,
pakeistų vaizdų jterpinių panašumo vertinimo prognozavimui,
panaudojimas vaizdų atpažinimo užduoties sprendimui.
Darbo tikslas – apmokyti ir palyginti konvoliucinių neuroninių tinklų
ir transformerių architektūras vaizdų panašumo vertinimo srityje,
naudojantis žymių pasaulio objektų vaizdais.
Darbo uždaviniai:
1. Atrinkti ir paruošti modelių apmokymui ir vertinimui skirtus
žymių pasaulio objektų vaizdus.
2. Apmokyti konvoliucinių neuroninių tinklų ir transformerių vaizdų
atpažinimo modelius, paremtus vaizdų panašumu.
3. Įvertinti ir palyginti modelius.
Mūsų mokslo darbų bazėje yra daugybė įvairių mokslo darbų, todėl tikrai atrasi sau tinkamą!