Šiuolaikinio AI aušra: GPT supratimas
Tai, kas padarė GPT revoliucingą, buvo ne tik jo dydis (nors tuo metu jo 117 mln. parametrų atrodė didžiulis), bet ir pagrindinė architektūra. Transformatoriaus modelis, kurį „Google“ mokslininkai pristatė savo dokumente „Dėmesys yra viskas, ko reikia“, pasirodė nepaprastai efektyvus apdorojant nuoseklius duomenis, pvz., tekstą. Skirtingai nuo ankstesnių pasikartojančių neuroninių tinklų, kurie apdorojo žetonus vienas po kito, transformatoriai galėjo analizuoti visas sekas vienu metu, naudodami savo dėmesio mechanizmą.
Šis lygiagretus apdorojimas ne tik pagreitino mokymo laiką, bet ir leido modeliui geriau užfiksuoti ilgo nuotolio priklausomybes tekste. Staiga AI galėjo „prisiminti“ tai, kas buvo paminėta prieš keletą pastraipų, ir išlaikyti teminį nuoseklumą ilgesniuose išėjimuose. Pirmą kartą mašinų sukurtas tekstas pradėjo jaustis tikrai panašus į žmogų.
Mastelio keitimo era: nuo GPT-2 iki GPT-3
Tačiau tikrasis takoskyros momentas atėjo su GPT-3 2020 m. Esant 175 milijardams parametrų – daugiau nei 100 kartų didesniems nei GPT-2 – tai reiškia milžinišką galimybių šuolį. Modelis demonstravo tai, ką mokslininkai vadina „atsirandančiais gebėjimais“ – įgūdžiais, kurių jis nebuvo specialiai lavinamas, o buvo išugdytas dėl masto ir įvairių duomenų poveikio.
Turbūt labiausiai stebina tai, kad GPT-3 pasižymėjo pradiniais „keleto kadrų mokymosi“ gebėjimais. Jei ragelyje yra tik keli pavyzdžiai, jis gali prisitaikyti prie naujų užduočių, tokių kaip vertimas, apibendrinimas ar net pagrindinis kodavimas. AI srityje pradėjo suprasti, kad mastas ne tik laipsniškai gerina našumą – tai iš esmės pakeitė tai, ką šios sistemos gali padaryti.
Už dydžio ribų: tobulinimas per RLHF
Įveskite mokymąsi iš žmogaus atsiliepimų (RLHF). Ši mokymo metodika pristato žmonių vertintojus, kurie vertina modelio rezultatus, sukuriant grįžtamojo ryšio kilpą, padedančią AI suprasti, kurie atsakymai yra naudingi, teisingi ir nekenksmingi. RLHF apmokyti modeliai, tokie kaip „ChatGPT“ ir „Claude“, pasirodė esąs žymiai naudingesni atliekant kasdienes užduotis, tuo pačiu sumažinant žalingus rezultatus.
RLHF pažymėjo esminį AI kūrimo filosofijos pokytį. Neapdorotos numatymo galios nebepakako – reikėjo sistemų, kad suprastų žmogiškųjų vertybių niuansus. Šis mokymo metodas padėjo modeliams tinkamai reaguoti į jautrias temas, atmesti netinkamus prašymus ir reikšti netikrumą, o ne užtikrintai teigti melą.
Prasideda multimodalinė revoliucija
Šios sistemos veikė mokydamos difuzijos modelius dideliuose vaizdo ir teksto porų duomenų rinkiniuose. Išmokę ryšį tarp vaizdinių sąvokų ir jų tekstinių aprašymų, jie galėtų tokius raginimus, kaip „siurrealistinį Salvadoro Dali šachmatais žaidžiančios katės paveikslą“, paversti atitinkamais vaizdais.
Panašiai kalbos atpažinimo modeliai tapo vis tikslesni, o teksto į kalbą sistemos tapo beveik nesiskiriančios nuo žmonių balsų. Vaizdo įrašų generavimas, kol dar buvo ankstesniuose etapuose, pradėjo rodyti daug žadančius rezultatus naudojant tokias sistemas kaip Runway ML Gen-2 ir Google Lumiere.
Kiekvienas būdas sparčiai vystėsi, tačiau iš esmės jie liko atskiromis sistemomis. Kita revoliucija kiltų suvienijus šias galimybes.
Tikrasis multimodalinis AI: matymas, girdėjimas ir supratimas
Šios sistemos gali aprašyti tai, ką mato vaizduose, išgauti tekstą iš dokumentų, analizuoti diagramas ir grafikus ir netgi išspręsti vaizdinius galvosūkius. Naudotojas gali įkelti savo šaldytuve esančių ingredientų nuotrauką ir paklausti: „Ką galiu iš jų gaminti? Tada AI identifikuoja elementus ir pasiūlo tinkamus receptus.
Kuo tikrosios multimodalinės sistemos skiriasi nuo tiesiog atskirų modelių sujungimo, yra jų vieningas supratimas. Kai klausiate apie elementą vaizde, sistema ne tik vykdo atskirą vaizdo atpažinimą ir teksto generavimą – ji plėtoja integruotą supratimą apie įvairius būdus. Tai įgalina sudėtingesnį samprotavimą, pavyzdžiui, paaiškinti, kodėl memas yra juokingas, arba nustatyti teksto ir vaizdų neatitikimus.
Multimodalinių sistemų architektūra
Šiuolaikinės daugiarūšės architektūros kiekvienam būdui naudoja specializuotus koduotuvus, kurie paverčia neapdorotus duomenis į bendrą reprezentacinę erdvę. Pavyzdžiui, vaizdas gali būti apdorojamas regėjimo transformatoriumi (ViT), kuris suskaido jį į pleistrus ir paverčia juos įterpimais, o tekstas yra ženklinamas ir įterpiamas atskirai. Tada šie skirtingi įterpimai projektuojami į bendrą erdvę, kur pagrindinis modelis gali juos apdoroti kartu.
Ši „bokšto ir tilto“ architektūra leidžia modeliams išmokti skirtingų transporto rūšių santykių – suprasti, kaip kalbos sąvokos atitinka vaizdo ypatybes ar garso modelius. Kai GPT-4 Vision atpažįsta orientyrą nuotraukoje, jis gali susieti tą vizualinį vaizdą su savo tekstinėmis žiniomis apie vietos istoriją, reikšmę ir kontekstą.
Mokymo procesas paprastai apima didžiulius suporuoto turinio duomenų rinkinius – vaizdus su antraštėmis, vaizdo įrašus su nuorašais ir kitus suderintus daugiarūšius duomenis. Mokydamasis iš šių derinimų, modelis sukuria vidinį vaizdą, kuriame susijusios sąvokos įvairiuose modaluose yra glaudžiai susijusios jo vektorinėje erdvėje.
Realaus pasaulio multimodalinio AI programos
Sveikatos priežiūros srityje sistemos gali analizuoti medicininius vaizdus kartu su pacientų įrašais ir simptomais, kad padėtų diagnozuoti. Gydytojas gali įkelti rentgeno nuotrauką ir užduoti konkrečius klausimus apie galimas problemas, gaudamas įžvalgas, kurios sujungia vizualinę analizę su medicininėmis žiniomis.
Siekiant užtikrinti prieinamumą, multimodalinis dirbtinis intelektas padeda akliesiems vartotojams suprasti vaizdinį turinį, pateikdamas išsamius aprašymus, ir padeda kurtiesiems vartotojams, teikdamas sakytinio turinio transkripciją ir vertimą realiuoju laiku.
Švietimo srityje šios sistemos kuria interaktyvias mokymosi patirtis, kai mokiniai gali užduoti klausimus apie diagramas, istorines nuotraukas ar matematines lygtis, gaudami paaiškinimus, pritaikytus jų mokymosi stiliui.
Turinio kūrėjai naudoja multimodalinį dirbtinį intelektą, kad sukurtų papildomus išteklius – rašytų straipsnius ir kurtų atitinkamas iliustracijas arba kurtų mokomuosius vaizdo įrašus su sinchronizuotais vaizdais ir pasakojimu.
E. prekybos platformos įdiegia vaizdinę paiešką, kai klientai gali įkelti jiems patinkančio produkto vaizdą ir rasti panašių prekių, o dirbtinis intelektas aprašo pagrindines atitinkamas savybes.
Turbūt svarbiausia, kad multimodalinės sistemos kuria natūralesnes žmogaus ir kompiuterio sąveikos paradigmas. Užuot pritaikę savo bendravimą prie griežtų kompiuterių sąsajų, mes vis dažniau galime sąveikauti su technologijomis taip, kaip natūraliai bendraujame tarpusavyje – per sklandų žodžių, vaizdų, garsų ir gestų derinį.
Apribojimai ir etiniai aspektai
Vizualinis supratimas, palyginti su žmogaus suvokimu, išlieka paviršutiniškas. Nors DI gali atpažinti objektus ir apibūdinti scenas, jis dažnai nepastebi subtilių vaizdinių užuominų, erdvinių santykių ir kultūrinio konteksto, kuriuos žmonės iš karto atpažįsta. Paprašykite multimodalinio DI paaiškinti sudėtingą inžinerinę schemą arba interpretuoti kūno kalbą nuotraukoje, ir jo apribojimai greitai išryškėja.
Šios sistemos taip pat paveldi ir kartais sustiprina savo mokymo duomenyse esančius šališkumus. Veido atpažinimo komponentai gali prasčiau veikti tam tikrose demografinėse grupėse arba vizualinis samprotavimas gali atspindėti kultūrinius šališkumus, kaip interpretuojami vaizdai.
Privatumo problemos sustiprėja naudojant multimodalines sistemas, nes jos apdoroja potencialiai jautrius vaizdinius ir garso duomenis. Vartotojas gali bendrinti vaizdą nesuvokdamas, kad jame yra asmeninės informacijos fone, kurią DI gali atpažinti ir potencialiai įtraukti į savo atsakymus.
Turbūt svarbiausia problema yra multimodalinio DI potencialas kurti įtikinamą sintetinę mediją – giluminius klastojimus, kurie sujungia tikroviškus vaizdus, vaizdo įrašus ir garsą, kad sukurtų įtikinamą, bet sufabrikuotą turinį. Šioms technologijoms tampant vis labiau prieinamoms, visuomenė susiduria su neatidėliotinais klausimais apie žiniasklaidos autentiškumą ir skaitmeninį raštingumą.
Ateitis: nuo multimodalinio iki multisensorinio AI
Nauji tyrimai tiria įkūnytas AI – sistemas, sujungtas su robotizuotomis platformomis, kurios gali fiziškai sąveikauti su pasauliu, derindamos suvokimą su veiksmais. Robotas, aprūpintas multimodaliniu AI, gali vizualiai atpažinti objektus, suprasti žodines instrukcijas ir atitinkamai manipuliuoti aplinka.
Mes taip pat matome ankstyvą darbą su AI sistemomis, kurios gali išlaikyti nuolatinę atmintį ir sukurti kontekstinį supratimą ilgos sąveikos metu. Užuot vertinę kiekvieną pokalbį kaip atskirą, šios sistemos plėtotų nuolatinius santykius su vartotojais, prisimindamos ankstesnes sąveikas ir mokymosi nuostatas laikui bėgant.
Galbūt labiausiai transformuojantis vystymasis bus AI sistemos, galinčios atlikti sudėtingas samprotavimo grandines įvairiais būdais – matyti mechaninę problemą, samprotauti apie fizikos principus ir siūlyti sprendimus, kurie integruoja vizualinį, tekstinį ir erdvinį supratimą.
Tobulėjant šioms technologijoms, jos vis labiau ištrins ribas tarp specializuotų įrankių ir bendrosios paskirties asistentų, o tai gali paskatinti dirbtinio intelekto sistemas, kurios gali lanksčiai atlikti beveik bet kokią informacijos apdorojimo užduotį, kurią gali apibūdinti žmogus.
Išvada: naršymas multimodalinėje ateityje
Šis pagreitis nerodo lėtėjimo požymių ir greičiausiai vis dar esame ankstyvuosiuose AI istorijos skyriuose. Šios sistemos ir toliau tobulės, jos pakeis mūsų darbo, mokymosi, kūrimo ir bendravimo būdą.
Kūrėjams multimodalinė paradigma atveria naujas galimybes kurti intuityvesnes ir prieinamesnes sąsajas. Įmonėms šios technologijos suteikia galimybę automatizuoti sudėtingas darbo eigas ir pagerinti klientų patirtį. Asmenims daugiarūšis AI suteikia galingų kūrybiškumo, produktyvumo ir prieigos prie informacijos įrankių.
Tačiau norint naršyti šioje ateityje, reikia apgalvotai apsvarstyti galimybes ir apribojimus. Veiksmingiausios programos bus tos, kurios išnaudos AI stipriąsias puses ir atsižvelgia į jos trūkumus, sukuria žmonių ir AI bendradarbiavimą, kuris sustiprina mūsų kolektyvinius gebėjimus.
Evoliucija nuo GPT iki multimodalinio AI nėra tik techninis pasiekimas – tai esminis mūsų santykių su technologijomis pokytis. Nuo kompiuterių, kurie vykdo komandas, pereiname prie padėjėjų, kurie supranta kontekstą, interpretuoja prasmę įvairiais būdais ir įsitraukia į žmonių bendravimo turtingumą ir dviprasmiškumą. Šis perėjimas ateinančiais metais ir toliau klostysis stebinančiais ir transformuojančiais būdais.