Dirbtinio intelekto, suprantančio kontekstą, kūrimas...
Prisijungti Išbandyti nemokamai
rgp 04, 2024 5 min. skaitymo

Dirbtinio intelekto, suprantančio kontekstą, kūrimas: iššūkiai ir proveržiai

Išsiaiškinkite, kaip mokslininkai sprendžia kontekstinį AI supratimą, naujausius laimėjimus ir ką ši pažanga reiškia žmogaus ir mašinos sąveikos ateičiai.

Kontekstą suprantančio dirbtinio intelekto kūrimas: iššūkiai ir proveržiai

Kontekstinės spragos supratimas

Kai prieš dešimtmetį pradėjau dirbti su AI sistemomis, jų nesugebėjimas suprasti konteksto buvo skausmingai akivaizdus. Užduotumėte iš pažiūros paprastą klausimą, tik gautumėte atsakymą, kuris visiškai nepateisino, nes sistema nesugebėjo suvokti kontekstinių niuansų, kuriuos žmonės intuityviai supranta.
Konteksto supratimas yra vienas iš svarbiausių dirbtinio intelekto plėtros iššūkių. Skirtingai nuo žmonių, kurie be vargo interpretuoja prasmę, remdamiesi situacijos suvokimu, kultūrinėmis žiniomis ir pokalbių istorija, tradicinės AI sistemos daugiausia veikė modelių atpažinimo ir statistinės analizės pagrindu, iš tikrųjų „nesuprasdamos“ platesnio konteksto.
Ši konteksto spraga pasireiškia įvairiais būdais: dirbtinis intelektas gali neatpažinti sarkazmo, nepastebėti kultūrinių nuorodų reikšmės arba pamiršti ankstesnes pokalbio dalis, kurios suteikia esminį kontekstą naujai informacijai interpretuoti. Tai tarsi pokalbis su žmogumi, turinčiu puikų žodyną, bet neturintį socialinio supratimo ar neprisimenančio to, ką pasakėte prieš penkias minutes.

Daugialypis konteksto pobūdis

Kontekstas nėra vienintelė sąvoka, o daugiamatė sistema, apimanti įvairius elementus:
Kalbinis kontekstas apima žodžius, sakinius ir pastraipas, susijusias su tam tikru teiginiu. Kai kas nors sako: „Aš negaliu to pakęsti“, reikšmė dramatiškai pasikeičia, jei ankstesnis sakinys yra „Ši kėdė kliba“ ir „Ši muzika yra graži“.
Situacinis kontekstas apima supratimą apie aplinką, laiką ir aplinkybes, kuriomis vyksta bendravimas. „Nuorodų“ prašymas reiškia kažką kitokį, kai stovi pasiklydęs ant gatvės kampo, nei sėdi konferencijoje apie lyderystę.
Kultūrinis kontekstas apima bendras žinias, nuorodas ir normas, kurios formuoja bendravimą. Kai kas nors užsimena apie „Hamleto traukimą“, kalbama apie neryžtingumą, tačiau dirbtinis intelektas be kultūrinio konteksto gali pradėti deklamuoti Šekspyrą.
Tarpasmeninis kontekstas apima santykių dinamiką, bendrą istoriją ir emocines būsenas, kurios nuspalvina sąveiką. Draugai supranta vienas kito vidinius pokštus ir gali aptikti subtilius tono pokyčius, kurie signalizuoja emocijas.
Kad dirbtinio intelekto sistemos iš tikrųjų suprastų kontekstą taip, kaip tai daro žmonės, jos turi suvokti visas šias dimensijas vienu metu – tai didžiulis iššūkis, kuris tyrėjams trukdė dešimtmečius.

Tradiciniai požiūriai ir jų apribojimai

Ankstyvieji bandymai sukurti kontekstą suvokiantį AI labai rėmėsi taisyklėmis pagrįstomis sistemomis ir rankiniu būdu užkoduotomis žiniomis. Kūrėjai kruopščiai programuotų tūkstančius „jei tada“ taisyklių, kad būtų galima valdyti konkrečius kontekstus. Pvz.: „Jei vartotojas pamini „nusijaučiantis“ ir anksčiau kalbėjo apie darbo pokalbį, atsakydamas nurodykite pokalbį“.
Šis požiūris greitai tapo netvarus. Galimų kontekstų skaičius iš esmės yra begalinis, ir rankiniu būdu programuoti atsakymus kiekvienam scenarijui neįmanoma. Šios sistemos buvo trapios, negalėjo apibendrinti naujoms situacijoms ir dažnai sugesdavo, kai susidūrė su netikėtais įėjimais.
Statistiniai metodai, tokie kaip n-gramos ir pagrindinis mašininis mokymasis, šiek tiek pagerino padėtį, nes sistemoms buvo leidžiama atpažinti kalbos vartojimo modelius. Tačiau šie metodai vis dar kovojo su ilgalaikėmis priklausomybėmis – susiejant daug anksčiau pokalbyje paminėtą informaciją su dabartiniais teiginiais – ir negalėjo įtraukti platesnių pasaulio žinių.
Dar sudėtingesni neuroninių tinklų metodai, tokie kaip ankstyvieji pasikartojantys neuroniniai tinklai (RNN) ir ilgalaikės trumpalaikės atminties (LSTM) tinklai, pagerino konteksto suvokimą, tačiau vis tiek kenčia nuo „kontekstinės amnezijos“, kai pokalbiai užsitęsė ar buvo sudėtingi.

Transformatorių revoliucija

Proveržis įvyko 2017 m., kai buvo pristatyta „Transformer“ architektūra, kuri iš esmės pakeitė tai, kaip AI sistemos apdoroja nuoseklią informaciją. Skirtingai nuo ankstesnių modelių, kuriuose tekstas buvo apdorojamas po vieną žodį, transformatoriai naudoja mechanizmą, vadinamą „savęs dėmesiu“, kuris leidžia vienu metu svarstyti visus ištraukos žodžius, pasveriant jų tarpusavio ryšius.
Ši architektūra leido modeliams užfiksuoti daug ilgesnes kontekstines priklausomybes ir išlaikyti informaciją, paminėtą tūkstančiais žodžių anksčiau. Garsusis „dėmesys yra viskas, ko jums reikia“ popierius, kurį sukūrė Vaswani ir kt. parodė, kad šis metodas gali žymiai pagerinti mašininio vertimo kokybę, geriau išsaugant kontekstinę reikšmę įvairiose kalbose.
Ši architektūrinė naujovė sukūrė pagrindą tokiems modeliams kaip BERT, GPT ir jų įpėdiniams, kurie demonstravo vis sudėtingesnius konteksto supratimo gebėjimus. Šie modeliai yra iš anksto paruošti dideliems teksto korpusams, todėl jie gali įsisavinti daugybės kontekstų kalbos vartojimo modelius, prieš juos derinant konkrečioms programoms.
Šių modelių mastas išaugo eksponentiškai – nuo milijonų parametrų iki šimtų milijardų, todėl jie leidžia užfiksuoti vis subtilesnius kontekstinius modelius. Atrodo, kad dabar didžiausi modeliai turi elementarias „sveiko proto“ žinių formas, kurios padeda jiems išaiškinti painias nuorodas ir suprasti numanomą prasmę.

Multimodalinis kontekstas: už teksto ribų

Nors tekstu pagrįstas konteksto supratimas smarkiai pažengė į priekį, žmonės, norėdami suprasti kontekstą, nepasikliauja vien žodžiais. Situacijas interpretuojame pasitelkdami vaizdinius signalus, balso toną, kūno kalbą ir net subtilius aplinkos veiksnius.
Naujausi daugiarūšio dirbtinio intelekto laimėjimai pradeda užpildyti šią spragą. Tokios sistemos kaip CLIP, DALL-E ir jų įpėdiniai gali sujungti kalbą ir vaizdinę informaciją, sukurdamos turtingesnį konteksto supratimą. Pavyzdžiui, jei rodomas sausakimšo stadiono vaizdas kartu su tekstu apie žaidimą, šios sistemos gali nuspręsti, ar tai susiję su beisbolu, futbolu ar futbolu, remdamosi vaizdiniais ženklais.
Garso ir vaizdo modeliai dabar gali aptikti emocines būsenas pagal balso toną ir veido išraiškas, pridėdami dar vieną esminį konteksto supratimo sluoksnį. Kai kas nors sako „Puikus darbas“ sarkastiškai ir nuoširdžiai, prasmė visiškai pasikeičia – šios naujesnės sistemos pradeda suvokti skirtumą.
Kita riba apima šių daugiarūšių galimybių integravimą su pokalbio AI, kad būtų sukurtos sistemos, kurios vienu metu supranta kontekstą įvairiuose jutimo kanaluose. Įsivaizduokite AI asistentą, kuris atpažįsta, kad gaminate (vaizdinis kontekstas), girdi jūsų nusivylusį toną (garso kontekstas), pastebi, kad skaitote receptą (teksto kontekstas), ir siūlo atitinkamą pagalbą be aiškaus raginimo.

Kontekstinė atmintis ir samprotavimas

Net ir naudojant pažangius kalbos modelius, dirbtinio intelekto sistemoms buvo sunku išlaikyti nuoseklią kontekstinę atmintį ilgos sąveikos metu. Ankstyvieji dideli kalbų modeliai „pamirštų“ anksčiau pokalbyje minėtas detales arba supainiotų atsakymus, o ne pripažintų žinių spragas.
Paskutiniai atradimai papildytos kartos (RAG) laimėjimai pašalina šį apribojimą, leisdami AI sistemoms remtis išorinėmis žinių bazėmis ir ankstesnių pokalbių istorija. Užuot pasikliavę vien treniruočių metu užkoduotais parametrais, šios sistemos gali aktyviai ieškoti atitinkamos informacijos, kai to reikia, panašiai kaip žmonės ieško savo prisiminimų.
Konteksto langai – teksto kiekis, į kurį AI gali atsižvelgti generuodamas atsakymus – pažangiausiose sistemose smarkiai išsiplėtė nuo kelių šimtų žetonų iki šimtų tūkstančių. Tai leidžia kurti daug nuoseklesnį ilgos formos turinį ir pokalbį, kuris palaiko nuoseklumą ilgų mainų metu.
Ne mažiau svarbūs yra samprotavimo gebėjimų pažanga. Šiuolaikinės sistemos dabar gali atlikti kelių etapų samprotavimo užduotis, suskaidydamos sudėtingas problemas į valdomus veiksmus, išlaikant kontekstą viso proceso metu. Pavyzdžiui, spręsdami matematikos uždavinį, jie gali sekti tarpinius rezultatus ir prielaidas taip, kad atspindėtų žmogaus darbinę atmintį.

Etinės kontekstinio AI dimensijos

Dirbtinio intelekto sistemoms vis labiau gebant suprasti kontekstą, atsiranda naujų etinių sumetimų. Sistemos, kurios suvokia kultūrinius ir socialinius niuansus, gali veiksmingiau manipuliuoti vartotojais arba sustiprinti žalingus mokymo duomenis.
Galimybė išlaikyti kontekstinę atmintį sąveikaujant taip pat kelia susirūpinimą dėl privatumo. Jei dirbtinis intelektas prisimena asmeninę informaciją, kuri buvo pasidalinta savaitėmis ar mėnesiais anksčiau, ir netikėtai ją pateikia, naudotojai gali jaustis, kad buvo pažeistas jų privatumas, net jei jie savanoriškai pasidalino ta informacija.
Kūrėjai stengiasi išspręsti šias problemas taikydami tokius metodus kaip kontroliuojamas pamiršimas, aiškaus sutikimo asmens informacijos saugojimo mechanizmai ir šališkumo mažinimo strategijos. Tikslas – sukurti dirbtinį intelektą, kuris pakankamai gerai suprastų kontekstą, kad būtų naudingas ir netaptų įkyriu ar manipuliuojančiu.
Taip pat yra skaidrumo iššūkis. Kadangi kontekstinis supratimas tampa vis sudėtingesnis, vartotojams tampa vis sunkiau suprasti, kaip AI sistemos daro išvadas. AI sprendimų priėmimo paaiškinimo nuo konteksto scenarijuose metodai yra aktyvi tyrimų sritis.

Realaus pasaulio kontekstą suvokiančio AI programos

Konteksto supratimo laimėjimai keičia daugybę sričių:
Sveikatos priežiūros srityje kontekstą suvokiantis AI gali interpretuoti pacientų skundus pagal jų ligos istoriją, gyvenimo būdo veiksnius ir dabartinius vaistus. Kai pacientas aprašo simptomus, sistema gali užduoti atitinkamus tolesnius klausimus, remdamasi šiuo išsamiu kontekstu, o ne vadovaudamasi bendru scenarijumi.
Klientų aptarnavimo sistemos dabar saugo pokalbių istoriją ir paskyros informaciją per sąveiką, todėl nebereikia kartoti informacijos. Jie gali aptikti emocines būsenas iš kalbos modelių ir atitinkamai pakoreguoti savo toną – tampa formalesni ar empatiškesni, kai to reikalauja kontekstas.
Švietimo programos naudoja kontekstinį suvokimą, kad galėtų sekti mokinio mokymosi kelią, nustatyti žinių spragas ir klaidingas nuomones. Užuot pateikusios standartizuotą turinį, šios sistemos pritaiko paaiškinimus pagal ankstesnius studento klausimus, klaidas ir parodytą supratimą.
Teisinių ir finansinių dokumentų analizė turi didžiulę naudą iš konteksto supratimo. Šiuolaikinis dirbtinis intelektas gali interpretuoti sąlygas platesniame visų sutarčių, atitinkamų teisės aktų ir teismų praktikos kontekste, pastebėdamas neatitikimus ar galimas problemas, kurios gali išvengti informacijos pertekliaus susiduriantiems žmonėms.
Kūrybiniai įrankiai, pvz., rašymo pagalbininkai, dabar palaiko teminį nuoseklumą ilguose darbuose, siūlydami turinį, kuris derinamas su nusistovėjusiais simboliais, nustatymais ir pasakojimo lankais, o ne bendru teksto užbaigimu.

Kontekstinio supratimo ateitis dirbtiniame intelekte

Žvelgiant į ateitį, kelios perspektyvios tyrimų kryptys galėtų dar labiau transformuoti kontekstinį dirbtinį intelektą:

Epizodinės atminties modeliai siekia suteikti dirbtinio intelekto sistemoms kažką panašaus į žmogaus autobiografinę atmintį – gebėjimą prisiminti konkrečius įvykius ir patirtis, o ne tik statistinius modelius. Tai leistų daug labiau suasmenintą sąveiką, pagrįstą bendra istorija.

Priežastinio samprotavimo sistemos siekia peržengti koreliacija pagrįsto modelių atpažinimo ribas ir suprasti priežasties ir pasekmės ryšius. Tai leistų dirbtiniam intelektui samprotauti apie priešingus faktus („Kas nutiktų, jei...“) ir pateikti tikslesnes prognozes naujuose kontekstuose.

Kuriami tarpkultūriniai kontekstiniai modeliai, siekiant suprasti, kaip kontekstas keičiasi skirtingose kultūrinėse sistemose, todėl dirbtinio intelekto sistemos tampa labiau pritaikomos ir mažiau šališkos Vakarų kultūros normoms.

Įkūnyto dirbtinio intelekto tyrimai nagrinėja, kaip fizinis kontekstas – buvimas aplinkoje su galimybe su ja sąveikauti – keičia kontekstinį supratimą. Robotai ir virtualūs agentai, kurie gali matyti, manipuliuoti objektais ir naršyti erdvėse, kuria kitokius kontekstinius modelius nei tik tekstinės sistemos.
Galutinis tikslas išlieka sukurti dirbtinį bendrąjį intelektą (DGI) su žmogaus panašų kontekstinį supratimą – sistemas, kurios galėtų sklandžiai integruoti visas šias konteksto formas, kad galėtų bendrauti ir samprotauti apie pasaulį taip pat efektyviai, kaip tai daro žmonės. Nors iki šio etapo dar toli, proveržių tempas rodo, kad mes nuolat judame šia kryptimi.

Šioms technologijoms toliau tobulėjant, jos keičia mūsų santykį su mašinomis – nuo griežtos, komandomis pagrįstos sąveikos iki sklandaus, kontekstualinio bendradarbiavimo, kuris vis labiau primena žmonių tarpusavio bendravimą. Dirbtinis intelektas, kuris iš tikrųjų supranta kontekstą, yra ne tik techninis pasiekimas – jis žymi esminį pokytį žmonijos technologinėje kelionėje.

Ar pasiruošę transformuoti savo verslą?

Pradėkite nemokamą bandomąjį laikotarpį šiandien ir patirkite AI valdomą klientų palaikymą

Susijusios įžvalgos

AI ir kvantinio skaičiavimo sankirta
AI vaizdo įrašų generavimas 2025 m
Palyginti 5 populiariausi AI simbolių kūrimo įrankiai
Kaip KlingAI keičia žaidimą
Populiariausi AI įrankiai
Pixverse AI: AI sukurto vaizdinio turinio ateitis