Kukli pradžia: ankstyvosios taisyklėmis pagrįstos sistemos
ELIZA išskirtinė buvo ne jos techninis sudėtingumas – pagal šiandienos standartus programa buvo neįtikėtinai paprasta. Atvirkščiai, tai buvo didžiulis poveikis vartotojams. Nepaisant to, kad žinojo, kad kalbasi su kompiuterine programa, neturint tikro supratimo, daugelis žmonių užmezgė emocinius ryšius su ELIZA, dalijosi giliai asmeninėmis mintimis ir jausmais. Šis reiškinys, kurį patį Weizenbaumą kėlė nerimą, atskleidė kai ką esminio apie žmogaus psichologiją ir mūsų norą antropomorfizuoti net paprasčiausias pokalbio sąsajas.
Aštuntajame ir devintajame dešimtmečiuose taisyklėmis pagrįsti pokalbių robotai laikėsi ELIZA šablono ir buvo patobulinti. Tokios programos kaip PARRY (modeliuojantis paranojišką šizofreniką) ir RACTER (kurios „parašė“ knygą „Policijos barzda yra pusiau sukonstruota“) tvirtai laikėsi taisyklėmis pagrįstos paradigmos – naudojo iš anksto nustatytus modelius, raktinių žodžių atitikimą ir šabloninius atsakymus.
Šios ankstyvosios sistemos turėjo rimtų apribojimų. Jie iš tikrųjų negalėjo suprasti kalbos, mokytis iš sąveikos ar prisitaikyti prie netikėtų įvesties. Jų žinios apsiribojo bet kokiomis taisyklėmis, kurias aiškiai apibrėžė jų programuotojai. Kai vartotojai neišvengiamai nuklydo už šių ribų, intelekto iliuzija greitai subyrėjo, atskleisdama mechaninę prigimtį. Nepaisant šių suvaržymų, šios novatoriškos sistemos sudarė pagrindą, kuriuo remsis visas būsimasis pokalbio AI.
Žinių revoliucija: ekspertų sistemos ir struktūrizuota informacija
Ekspertų sistemos, tokios kaip MYCIN (kuri diagnozavo bakterines infekcijas) ir DENDRAL (kuri nustatė cheminius junginius), organizavo informaciją struktūrinėse žinių bazėse ir naudojo išvadų variklius, kad padarytų išvadas. Taikant pokalbių sąsajas, šis metodas leido pokalbių robotams pereiti nuo paprasto modelio atitikimo prie kažko panašaus į samprotavimą – bent jau siaurose srityse.
Įmonės pradėjo diegti praktines programas, tokias kaip automatizuotos klientų aptarnavimo sistemos, naudodamos šią technologiją. Šios sistemos paprastai naudojo sprendimų medžius ir meniu pagrįstą sąveiką, o ne laisvos formos pokalbį, tačiau jos buvo ankstyvieji bandymai automatizuoti sąveikas, kurioms anksčiau reikėjo žmogaus įsikišimo.
Apribojimai išliko reikšmingi. Šios sistemos buvo trapios, nesugebėjo grakščiai susidoroti su netikėtais įėjimais. Norint rankiniu būdu užkoduoti informaciją ir taisykles, žinių inžinieriai pareikalavo milžiniškų pastangų. Ir, ko gero, svarbiausia, jie vis dar negalėjo iš tikrųjų suprasti natūralios kalbos visu jos sudėtingumu ir dviprasmiškumu.
Nepaisant to, ši era sukūrė svarbias sąvokas, kurios vėliau tapo itin svarbiomis šiuolaikiniam pokalbio AI: struktūrizuotas žinių vaizdavimas, loginė išvada ir srities specializacija. Buvo ruošiamasi keisti paradigmą, nors technologijos dar nebuvo visiškai sukurtos.
Natūralios kalbos supratimas: kompiuterinės lingvistikos proveržis
Šį pokytį lėmė keli veiksniai: didėjanti skaičiavimo galia, geresni algoritmai ir, svarbiausia, didelių teksto korpusų, kuriuos būtų galima analizuoti siekiant nustatyti kalbinius modelius, prieinamumas. Sistemos pradėjo naudoti tokius metodus kaip:
Kalbos dalies žymėjimas: nustatyti, ar žodžiai veikė kaip daiktavardžiai, veiksmažodžiai, būdvardžiai ir kt.
Pavadintų objektų atpažinimas: tikrinių vardų (žmonių, organizacijų, vietovių) aptikimas ir klasifikavimas.
Sentimentų analizė: emocinio teksto tono nustatymas.
Analizė: sakinių struktūros analizė, siekiant nustatyti gramatinius žodžių ryšius.
Vienas žymus proveržis įvyko su IBM „Watson“, kuri viktorinoje „Jopardy“ įveikė žmonių čempionus! 2011 m. Watson, nors ir nebuvo griežtai pokalbio sistema, pademonstravo precedento neturinčius gebėjimus suprasti natūralios kalbos klausimus, ieškoti didžiulėse žinių saugyklose ir formuluoti atsakymus – gebėjimus, kurie būtų būtini naujos kartos pokalbių robotams.
Netrukus atsirado komercinės programos. „Apple“ „Siri“ buvo paleista 2011 m., suteikdama pokalbio sąsajas pagrindiniams vartotojams. Nors ir ribojama šiuolaikinių standartų, „Siri“ padarė didelę pažangą, kad AI padėjėjai būtų prieinami kasdieniams vartotojams. „Microsoft“ „Cortana“, „Google Assistant“ ir „Amazon“ „Alexa“ seks, kiekvienas iš jų skatins vartotojams skirto pokalbio AI pažangą.
Nepaisant šios pažangos, šios eros sistemos vis dar kovojo su kontekstu, sveiko proto samprotavimais ir generuodavo tikrai natūraliai skambančius atsakymus. Jie buvo sudėtingesni nei jų taisyklėmis pagrįsti protėviai, tačiau iš esmės ribojo kalbos ir pasaulio supratimą.
Mašininis mokymasis ir duomenimis pagrįstas metodas
Šioje epochoje išaugo ketinimų klasifikavimas ir subjektų ištraukimas kaip pagrindiniai pokalbio architektūros komponentai. Kai vartotojas pateikia užklausą, sistema:
Klasifikuokite bendrą tikslą (pvz., užsakyti skrydį, pasitikrinti orą, leisti muziką)
Išskleiskite atitinkamus objektus (pvz., vietas, datas, dainų pavadinimus)
Susiekite juos su konkrečiais veiksmais ar atsakymais
„Facebook“ (dabar „Meta“) 2016 m. paleidusi savo „Messenger“ platformą leido kūrėjams sukurti pokalbių robotus, kurie galėtų pasiekti milijonus vartotojų, sukeldami komercinio susidomėjimo bangą. Daugelis įmonių suskubo diegti pokalbių robotus, nors rezultatai buvo nevienodi. Ankstyvas komercinis diegimas dažnai nuvilia vartotojus dėl riboto supratimo ir griežtų pokalbių srautų.
Šiuo laikotarpiu išsivystė ir techninė pokalbių sistemų architektūra. Įprastas metodas apėmė specializuotų komponentų vamzdyną:
Automatinis kalbos atpažinimas (balso sąsajoms)
Natūralios kalbos supratimas
Dialogo valdymas
Natūralios kalbos generavimas
Tekstas į kalbą (balso sąsajoms)
Kiekvieną komponentą galima optimizuoti atskirai, kad būtų galima laipsniškai tobulinti. Tačiau šios dujotiekio architektūros kartais nukentėjo nuo klaidų plitimo – ankstyvosiose stadijose padarytos klaidos kaskados per sistemą.
Nors mašininis mokymasis žymiai pagerino galimybes, sistemoms vis dar buvo sunku išlaikyti kontekstą ilgų pokalbių metu, suprasti numanomą informaciją ir generuoti tikrai įvairias ir natūralias reakcijas. Kitas proveržis pareikalautų radikalesnio požiūrio.
Transformatorių revoliucija: neuronų kalbos modeliai
Ši naujovė leido sukurti vis galingesnius kalbos modelius. 2018 m. „Google“ pristatė BERT (dvikrypčių kodavimo įrenginių atstovus iš transformatorių), kuris žymiai pagerino įvairių kalbos supratimo užduočių našumą. 2019 m. „OpenAI“ išleido GPT-2, pademonstruodamas precedento neturinčius gebėjimus kurti nuoseklų, kontekstui tinkamą tekstą.
Dramatiškiausias šuolis įvyko 2020 m. naudojant GPT-3, padidinantį iki 175 milijardų parametrų (palyginti su 1,5 milijardo GPT-2). Šis didžiulis masto padidėjimas kartu su architektūriniais patobulinimais sukūrė kokybiškai skirtingas galimybes. GPT-3 galėjo sukurti nepaprastai į žmogų panašų tekstą, suprasti kontekstą tūkstančiais žodžių ir netgi atlikti užduotis, kurių jis nebuvo specialiai apmokytas.
Kalbant apie pokalbio AI, šie patobulinimai buvo išversti į pokalbių robotus, kurie galėtų:
Palaikykite nuoseklius pokalbius daugeliu posūkių
Supraskite niuansuotas užklausas be aiškaus mokymo
Generuokite įvairius, kontekstui tinkamus atsakymus
Pritaikykite jų toną ir stilių taip, kad jie atitiktų vartotoją
Išspręskite dviprasmybes ir, kai reikia, paaiškinkite
2022 m. pabaigoje išleidus „ChatGPT“, šios galimybės tapo populiarios ir per kelias dienas nuo jos paleidimo pritraukė daugiau nei milijoną vartotojų. Staiga plačioji visuomenė turėjo prieigą prie pokalbio AI, kuris atrodė kokybiškai kitoks nei bet kas anksčiau – lankstesnis, labiau išmanantis ir natūralesnis sąveika.
Greitai prasidėjo komerciniai diegimai, įmonės įtraukė didelius kalbų modelius į savo klientų aptarnavimo platformas, turinio kūrimo įrankius ir produktyvumo programas. Greitas pritaikymas atspindėjo ir technologinį šuolį, ir intuityvią šių modelių sąsają – pokalbis juk yra natūraliausias žmonių bendravimo būdas.
Multimodalinės galimybės: ne tik teksto pokalbiai
Regėjimo kalbos modeliai, tokie kaip DALL-E, Midjourney ir Stable Diffusion, parodė gebėjimą generuoti vaizdus iš tekstinių aprašymų, o modeliai, tokie kaip GPT-4, turintys regėjimo galimybes, galėjo analizuoti vaizdus ir juos protingai aptarti. Tai atvėrė naujas pokalbių sąsajų galimybes:
Klientų aptarnavimo robotai, galintys analizuoti sugadintų gaminių nuotraukas
Apsipirkimo padėjėjai, galintys atpažinti prekes iš vaizdų ir rasti panašių produktų
Mokomosios priemonės, galinčios paaiškinti diagramas ir vaizdines sąvokas
Pritaikymo neįgaliesiems funkcijos, kurios gali apibūdinti vaizdus regėjimo negalią turintiems naudotojams
Balso galimybės taip pat smarkiai pažengė į priekį. Ankstyvosios kalbos sąsajos, tokios kaip IVR (Interactive Voice Response) sistemos, buvo labai varginančios, apsiribodamos griežtomis komandomis ir meniu struktūromis. Šiuolaikiniai balso padėjėjai gali suprasti natūralius kalbos modelius, atsižvelgti į skirtingus akcentus ir kalbos sutrikimus bei reaguoti vis natūraliau skambančiais sintetiniais balsais.
Sujungus šias galimybes, sukuriamas tikrai daugiarūšis pokalbio AI, kuris gali sklandžiai perjungti skirtingus komunikacijos režimus pagal kontekstą ir vartotojo poreikius. Vartotojas gali pradėti tekstiniu klausimu apie spausdintuvo taisymą, išsiųsti klaidos pranešimo nuotrauką, gauti diagramą, paryškinančią atitinkamus mygtukus, ir pereiti prie nurodymų balsu, kol jo rankos yra užsiėmusios taisymu.
Šis daugiarūšis metodas reiškia ne tik techninę pažangą, bet ir esminį posūkį link natūralesnės žmogaus ir kompiuterio sąveikos – susitikti su vartotojais bet kokiu komunikacijos režimu, kuris geriausiai atitinka jų dabartinį kontekstą ir poreikius.
Atkūrimo papildyta karta: AI įžeminimas faktais
Atkūrimo papildyta karta (RAG) pasirodė kaip šių iššūkių sprendimas. Užuot pasikliavę vien mokymo metu išmoktais parametrais, RAG sistemos sujungia kalbos modelių generuojamuosius gebėjimus su paieškos mechanizmais, kurie gali pasiekti išorinius žinių šaltinius.
Tipiška RAG architektūra veikia taip:
Sistema gauna vartotojo užklausą
Ji ieško atitinkamų žinių bazėse informacijos, susijusios su užklausa
Jis tiekia užklausą ir gautą informaciją į kalbos modelį
Modelis generuoja atsakymą, pagrįstą gautais faktais
Šis metodas turi keletą privalumų:
Tikslesni, faktiniai atsakymai, generuojant patikrintą informaciją
Galimybė pasiekti naujausią informaciją už modelio mokymo ribų
Specializuotos žinios iš konkrečios srities šaltinių, tokių kaip įmonės dokumentacija
Skaidrumas ir priskyrimas nurodant informacijos šaltinius
Įmonėms, diegiančioms pokalbinį AI, RAG pasirodė ypač naudinga klientų aptarnavimo programoms. Pavyzdžiui, banko pokalbių robotas gali pasiekti naujausius politikos dokumentus, sąskaitos informaciją ir operacijų įrašus, kad pateiktų tikslius, suasmenintus atsakymus, kurie būtų neįmanomi naudojant atskirą kalbos modelį.
RAG sistemų evoliucija tęsiasi gerinant paieškos tikslumą, sudėtingesnius gautos informacijos integravimo su sukurtu tekstu metodus ir geresnius skirtingų informacijos šaltinių patikimumo vertinimo mechanizmus.
Žmogaus ir AI bendradarbiavimo modelis: tinkamos pusiausvyros radimas
Sėkmingiausias įgyvendinimas šiandien yra bendradarbiavimo modelis, kai:
AI tvarko įprastas, pasikartojančias užklausas, kurioms nereikia žmogaus sprendimo
Žmonės sutelkia dėmesį į sudėtingus atvejus, reikalaujančius empatijos, etinio samprotavimo ar kūrybiško problemų sprendimo
Sistema žino savo apribojimus ir, kai reikia, sklandžiai pereina į žmones
Perėjimas nuo dirbtinio intelekto prie žmogaus palaikymo yra sklandus vartotojui
Žmonių agentai turi visą pokalbio su AI istorijos kontekstą
AI ir toliau mokosi iš žmogaus įsikišimo, palaipsniui plečia savo galimybes
Taikant šį metodą pripažįstama, kad pokalbio dirbtinis intelektas neturėtų visiškai pakeisti žmonių sąveikos, o jį papildyti – tvarkyti didelės apimties, nesudėtingas užklausas, eikvojančias žmonių agentų laiką, kartu užtikrinant, kad sudėtingos problemos pasiektų reikiamą žmogaus patirtį.
Šio modelio įgyvendinimas įvairiose pramonės šakose skiriasi. Sveikatos priežiūros srityje AI pokalbių robotai gali tvarkyti susitikimų planavimą ir pagrindinių simptomų patikrą, tuo pačiu užtikrinant, kad medicininę konsultaciją teikia kvalifikuoti specialistai. Teisinėse paslaugose dirbtinis intelektas gali padėti rengti ir tirti dokumentus, o aiškinimą ir strategiją palikti advokatams. Klientų aptarnavimo srityje AI gali išspręsti įprastas problemas ir nukreipti sudėtingas problemas specializuotiems agentams.
Tobulėjant dirbtinio intelekto galimybėms, riba tarp to, kas reikalauja žmogaus dalyvavimo, ir to, kas gali būti automatizuota, pasikeis, tačiau pagrindinis principas išlieka: veiksmingas pokalbio AI turėtų sustiprinti žmogaus galimybes, o ne tiesiog juos pakeisti.
Ateities peizažas: kur vyksta pokalbio AI
Suasmeninimas dideliu mastu: būsimos sistemos vis labiau pritaikys savo atsakymus ne tik prie tiesioginio konteksto, bet ir pagal kiekvieno vartotojo bendravimo stilių, pageidavimus, žinių lygį ir santykių istoriją. Dėl šio suasmeninimo sąveika atrodys natūralesnė ir aktualesnė, tačiau kyla svarbių klausimų apie privatumą ir duomenų naudojimą.
Emocinis intelektas: Nors šiandieninės sistemos gali aptikti pagrindinius jausmus, būsimasis pokalbio dirbtinis intelektas išugdys sudėtingesnį emocinį intelektą – atpažins subtilias emocines būsenas, tinkamai reaguos į kančią ar nusivylimą ir atitinkamai pritaikys savo toną bei požiūrį. Ši galimybė bus ypač vertinga klientų aptarnavimo, sveikatos priežiūros ir švietimo srityse.
Aktyvi pagalba: užuot laukę aiškių užklausų, naujos kartos pokalbių sistemos numatys poreikius pagal kontekstą, naudotojų istoriją ir aplinkos signalus. Sistema gali pastebėti, kad planuojate kelis susitikimus nepažįstamame mieste, ir aktyviai pasiūlyti susisiekimo parinktis arba orų prognozes.
Sklandus daugiarūšis integravimas: ateities sistemos bus ne tik skirtingų būdų palaikymas, bet ir sklandus jų integravimas. Pokalbis gali vykti natūraliai tarp teksto, balso, vaizdų ir interaktyvių elementų, pasirenkant tinkamą kiekvienos informacijos dalies būdą, nereikalaujant aiškaus vartotojo pasirinkimo.
Specializuoti domenų ekspertai: nors bendrosios paskirties asistentai ir toliau tobulės, taip pat sulauksime labai specializuoto pokalbio AI, turinčio gilios patirties konkrečiose srityse – teisininkų padėjėjų, kurie supranta teismų praktiką ir precedentus, medicinos sistemų, turinčių išsamių žinių apie vaistų sąveiką ir gydymo protokolus, arba finansų patarėjus, išmanančius mokesčių kodeksus ir investavimo strategijas.
Tikrai nuolatinis mokymasis. Būsimos sistemos pereis nuo periodinio perkvalifikavimo į nuolatinį mokymąsi iš sąveikos, laikui bėgant taps naudingesnės ir individualizuotos, kartu išlaikant tinkamas privatumo apsaugos priemones.
Nepaisant šių įdomių galimybių, iššūkių išlieka. Susirūpinimas dėl privatumo, šališkumo mažinimas, tinkamas skaidrumas ir tinkamo lygio žmogaus priežiūra yra nuolatiniai klausimai, kurie formuoja ir technologiją, ir jos reguliavimą. Sėkmingiausi diegimai bus tie, kurie apgalvotai sprendžia šiuos iššūkius ir suteikia vartotojams tikrą vertę.
Akivaizdu, kad pokalbio AI iš nišinės technologijos perėjo į pagrindinę sąsajos paradigmą, kuri vis labiau tarpininkaus mūsų sąveikai su skaitmeninėmis sistemomis. Evoliucinis kelias nuo paprasto ELIZA modelio derinimo iki šiuolaikinių sudėtingų kalbos modelių yra vienas reikšmingiausių žmogaus ir kompiuterio sąveikos pažangų – ir kelionė toli gražu nesibaigė.
Test AI on YOUR Website in 60 Seconds
See how our AI instantly analyzes your website and creates a personalized chatbot - without registration. Just enter your URL and watch it work!