Peizazhi i mësimit të makinerive ka pësuar një ndryshim transformues me shfaqjen e arkitekturave të bazuara në transformator, duke revolucionarizuar detyrat në përpunimin e gjuhës natyrore, vizionin kompjuterik dhe më gjerë. Megjithatë, një boshllëk i dukshëm ende duhet të adresohet brenda modeleve gjeneruese të nivelit të imazhit, veçanërisht modeleve të difuzionit, të cilat kryesisht i përmbahen arkitekturave konvolucionale U-Net.
Ndryshe nga domenet e tjera që kanë përqafuar transformatorët, modelet e difuzionit ende nuk i kanë integruar këto arkitektura të fuqishme pavarësisht rëndësisë së tyre në gjenerimin e imazheve me cilësi të lartë. Studiuesit e Universitetit të NYU trajtojnë këtë mospërputhje duke prezantuar Transformatorët e Difuzionit (DiTs), një qasje inovative që zëvendëson shtyllën kurrizore konvencionale U-Net me aftësitë e transformatorëve, duke sfiduar kështu normat e vendosura në arkitekturën e modelit të difuzionit.
Aktualisht, modelet e difuzionit janë bërë modele të sofistikuara gjeneruese të nivelit të imazhit, megjithatë ato janë mbështetur në mënyrë të qëndrueshme në U-Nets konvolucioniste. Ky hulumtim prezanton një koncept novator – integrimin e transformatorëve në modelet e difuzionit përmes DiTs. Ky tranzicion, i informuar nga parimet e Vision Transformers (ViTs), shkëputet nga status quo-ja, duke mbrojtur për transformime strukturore që tejkalojnë kufijtë e modeleve U-Net. Metamorfoza strukturore fuqizon modelet e difuzionit për t’u lidhur me prirjen më të gjerë arkitekturore, duke përfituar nga praktikat më të mira nëpër fusha për të rritur shkallëzueshmërinë, qëndrueshmërinë dhe efikasitetin.
DiT-të janë të bazuara në arkitekturën Vision Transformers (ViTs), duke ofruar një paradigmë të re për dizajnimin e modeleve të difuzionit. Arkitektura përfshin komponentët kryesorë, duke filluar me “patchy”, e cila i transformon hyrjet hapësinore në sekuenca simbolike nëpërmjet ngulitjeve lineare dhe pozicionale. Variantet e blloqeve DiT trajtojnë informacione të kushtëzuara, duke përfshirë “kushtëzimin në kontekst”, “blloqet e ndërthurjes së vëmendjes”, “blloqet e normës së shtresave adaptive (adaLN)” dhe “blloqet adaLN-zero”. Këto dizajne blloku dhe madhësi të ndryshme modelesh nga DiT-S në DiT-XL përbëjnë një paketë mjetesh të gjithanshme për dizajnimin e modeleve të fuqishme të difuzionit.
Faza eksperimentale thellohet në vlerësimin e performancës së modeleve të ndryshme të blloqeve DiT. Janë trajnuar katër modele DiT-XL/2, secili duke përdorur një dizajn të ndryshëm blloku: “në kontekst”, “ndër-vëmendje”, “norma e shtresës përshtatëse (adaLN)” dhe “adaLN-zero”. Rezultatet nxjerrin në pah epërsinë e qëndrueshme të dizajnit të bllokut adaLN-zero për sa i përket rezultateve FID, duke demonstruar efikasitetin e tij llogaritës dhe rolin kritik të mekanizmave të kondicionimit në formësimin e cilësisë së modelit. Ky zbulim nënvizon efikasitetin e metodës së inicializimit adaLN-zero, duke ndikuar më pas në adoptimin e blloqeve adaLN-zero për eksplorimin e mëtejshëm të modelit DiT.
Eksplorimi i mëtejshëm përfshin shkallëzimin e konfigurimeve të DiT duke manipuluar madhësitë e modelit dhe patch-it. Vizualizimet shfaqin përmirësime të rëndësishme në cilësinë e imazhit të arritura përmes shtimit të kapacitetit llogaritës. Ky shtim mund të kryhet duke zgjeruar dimensionet e transformatorit ose duke rritur shenjat hyrëse. Korrelacioni i fortë që lidh modelin Gflops me rezultatet FID-50K, thekson rëndësinë e burimeve llogaritëse në përmirësimin e performancës së DiT. Krahasimi i modeleve DiT kundrejt modeleve ekzistuese të difuzionit në grupet e të dhënave ImageNet nëpër rezolucione 256×256 dhe 512×512 zbulon rezultate bindëse. Modelet DiT-XL/2 i tejkalojnë vazhdimisht modelet ekzistuese të difuzionit, duke shkëlqyer në rezultatet FID-50K për të dyja rezolucionet. Kjo performancë e fortë nënvizon shkallëzueshmërinë dhe shkathtësinë e modeleve DiT në shkallë të ndryshme. Për më tepër, studimi nxjerr në pah efikasitetin e brendshëm llogaritës të modeleve DiT-XL/2, duke theksuar përshtatshmërinë e tyre pragmatike për aplikacionet e botës reale.
Si përfundim, prezantimi i transformatorëve të difuzionit (DiTs) paralajmëron një epokë transformuese në modelet gjeneruese. Duke bashkuar fuqinë e transformatorëve me modelet e difuzionit, DiT-të sfidojnë normat tradicionale arkitekturore dhe ofrojnë një rrugë premtuese për kërkime dhe aplikime në botën reale. Eksperimentet dhe gjetjet gjithëpërfshirëse theksojnë potencialin e DiTs në avancimin e peizazhit të gjenerimit të imazheve dhe nënvizojnë pozicionin e tyre si një inovacion arkitektonik pionier. Ndërsa DiTs vazhdojnë të riformësojnë peizazhin e gjenerimit të imazhit, integrimi i tyre me transformatorët nënkupton një hap të dukshëm drejt unifikimit të arkitekturave të modeleve të ndryshme dhe nxitjes së performancës së përmirësuar në fusha të ndryshme.
Shikoni Letër dhe artikull referues. E gjithë kredia për këtë hulumtim shkon për studiuesit e këtij projekti. Gjithashtu, mos harroni të bashkoheni 28 mijë+ ML SubReddit tonë, 40 mijë + Komunitet në Facebook, Channel Discorddhe Buletini me emailku ne ndajmë lajmet më të fundit të kërkimit të AI, projekte të bukura të AI dhe më shumë.
Madhur Garg është një praktikant këshillues në MarktechPost. Ai aktualisht është duke ndjekur B.Tech në Inxhinieri Civile dhe Mjedisore nga Instituti Indian i Teknologjisë (IIT), Patna. Ai ndan një pasion të fortë për Learning Machine dhe kënaqet duke eksploruar përparimet më të fundit në teknologji dhe aplikimet e tyre praktike. Me një interes të madh për inteligjencën artificiale dhe aplikimet e saj të ndryshme, Madhur është i vendosur të kontribuojë në fushën e Shkencës së të Dhënave dhe të përdorë ndikimin e saj të mundshëm në industri të ndryshme.