Pokalbio AI raida: nuo taisyklėmis pagrįstų sistemų...
Prisijungti Išbandyti nemokamai
lie 18, 2024 5 min. skaitymo

Pokalbio AI raida: nuo taisyklėmis pagrįstų sistemų iki šiuolaikinių pokalbių robotų

Ištirkite pokalbio AI kelionę nuo taisyklėmis pagrįstų programų iki pažangių pokalbių robotų ir technologinius laimėjimus, kurie pakeitė žmogaus ir kompiuterio sąveiką.

Pokalbio AI raida

Kukli pradžia: ankstyvosios taisyklėmis pagrįstos sistemos

Šnekamojo dirbtinio intelekto istorija prasideda septintajame dešimtmetyje, gerokai anksčiau nei išmanieji telefonai ir balso asistentai tapo pagrindiniais namų ūkio reikmenimis. Mažoje MIT laboratorijoje kompiuterių mokslininkas Josephas Weizenbaumas sukūrė tai, ką daugelis laiko pirmuoju pokalbių robotu: ELIZA. Sukurta imituoti Rogerijos psichoterapeutą, ELIZA dirbo pagal paprastas modelių derinimo ir pakeitimo taisykles. Kai vartotojas įvedė „aš jaučiuosi liūdnas“, ELIZA gali atsakyti „Kodėl tau liūdna? – supratimo iliuzijos kūrimas performuluojant teiginius kaip klausimus.
ELIZA išskirtinė buvo ne jos techninis sudėtingumas – pagal šiandienos standartus programa buvo neįtikėtinai paprasta. Atvirkščiai, tai buvo didžiulis poveikis vartotojams. Nepaisant to, kad žinojo, kad kalbasi su kompiuterine programa, neturint tikro supratimo, daugelis žmonių užmezgė emocinius ryšius su ELIZA, dalijosi giliai asmeninėmis mintimis ir jausmais. Šis reiškinys, kurį patį Weizenbaumą kėlė nerimą, atskleidė kai ką esminio apie žmogaus psichologiją ir mūsų norą antropomorfizuoti net paprasčiausias pokalbio sąsajas.
Aštuntajame ir devintajame dešimtmečiuose taisyklėmis pagrįsti pokalbių robotai laikėsi ELIZA šablono ir buvo patobulinti. Tokios programos kaip PARRY (modeliuojantis paranojišką šizofreniką) ir RACTER (kurios „parašė“ knygą „Policijos barzda yra pusiau sukonstruota“) tvirtai laikėsi taisyklėmis pagrįstos paradigmos – naudojo iš anksto nustatytus modelius, raktinių žodžių atitikimą ir šabloninius atsakymus.
Šios ankstyvosios sistemos turėjo rimtų apribojimų. Jie iš tikrųjų negalėjo suprasti kalbos, mokytis iš sąveikos ar prisitaikyti prie netikėtų įvesties. Jų žinios apsiribojo bet kokiomis taisyklėmis, kurias aiškiai apibrėžė jų programuotojai. Kai vartotojai neišvengiamai nuklydo už šių ribų, intelekto iliuzija greitai subyrėjo, atskleisdama mechaninę prigimtį. Nepaisant šių suvaržymų, šios novatoriškos sistemos sudarė pagrindą, kuriuo remsis visas būsimasis pokalbio AI.

Žinių revoliucija: ekspertų sistemos ir struktūrizuota informacija

Devintajame dešimtmetyje ir dešimtojo dešimtmečio pradžioje atsirado ekspertų sistemos – AI programos, skirtos sudėtingoms problemoms spręsti imituojant žmonių ekspertų gebėjimus priimti sprendimus konkrečiose srityse. Nors šios sistemos pirmiausia nebuvo skirtos pokalbiams, jos buvo svarbus pokalbio AI evoliucijos žingsnis, nes įdiegė sudėtingesnį žinių pateikimą.
Ekspertų sistemos, tokios kaip MYCIN (kuri diagnozavo bakterines infekcijas) ir DENDRAL (kuri nustatė cheminius junginius), organizavo informaciją struktūrinėse žinių bazėse ir naudojo išvadų variklius, kad padarytų išvadas. Taikant pokalbių sąsajas, šis metodas leido pokalbių robotams pereiti nuo paprasto modelio atitikimo prie kažko panašaus į samprotavimą – bent jau siaurose srityse.
Įmonės pradėjo diegti praktines programas, tokias kaip automatizuotos klientų aptarnavimo sistemos, naudodamos šią technologiją. Šios sistemos paprastai naudojo sprendimų medžius ir meniu pagrįstą sąveiką, o ne laisvos formos pokalbį, tačiau jos buvo ankstyvieji bandymai automatizuoti sąveikas, kurioms anksčiau reikėjo žmogaus įsikišimo.
Apribojimai išliko reikšmingi. Šios sistemos buvo trapios, nesugebėjo grakščiai susidoroti su netikėtais įėjimais. Norint rankiniu būdu užkoduoti informaciją ir taisykles, žinių inžinieriai pareikalavo milžiniškų pastangų. Ir, ko gero, svarbiausia, jie vis dar negalėjo iš tikrųjų suprasti natūralios kalbos visu jos sudėtingumu ir dviprasmiškumu.
Nepaisant to, ši era sukūrė svarbias sąvokas, kurios vėliau tapo itin svarbiomis šiuolaikiniam pokalbio AI: struktūrizuotas žinių vaizdavimas, loginė išvada ir srities specializacija. Buvo ruošiamasi keisti paradigmą, nors technologijos dar nebuvo visiškai sukurtos.

Natūralios kalbos supratimas: kompiuterinės lingvistikos proveržis

Dešimtojo dešimtmečio pabaigoje ir 2000-ųjų pradžioje vis daugiau dėmesio buvo skiriama natūralios kalbos apdorojimui (NLP) ir kompiuterinei lingvistikai. Užuot bandę rankiniu būdu koduoti kiekvienos galimos sąveikos taisykles, mokslininkai pradėjo kurti statistinius metodus, padedančius kompiuteriams suprasti būdingus žmonių kalbos modelius.
Šį pokytį lėmė keli veiksniai: didėjanti skaičiavimo galia, geresni algoritmai ir, svarbiausia, didelių teksto korpusų, kuriuos būtų galima analizuoti siekiant nustatyti kalbinius modelius, prieinamumas. Sistemos pradėjo naudoti tokius metodus kaip:

Kalbos dalies žymėjimas: nustatyti, ar žodžiai veikė kaip daiktavardžiai, veiksmažodžiai, būdvardžiai ir kt.
Pavadintų objektų atpažinimas: tikrinių vardų (žmonių, organizacijų, vietovių) aptikimas ir klasifikavimas.
Sentimentų analizė: emocinio teksto tono nustatymas.
Analizė: sakinių struktūros analizė, siekiant nustatyti gramatinius žodžių ryšius.

Vienas žymus proveržis įvyko su IBM „Watson“, kuri viktorinoje „Jopardy“ įveikė žmonių čempionus! 2011 m. Watson, nors ir nebuvo griežtai pokalbio sistema, pademonstravo precedento neturinčius gebėjimus suprasti natūralios kalbos klausimus, ieškoti didžiulėse žinių saugyklose ir formuluoti atsakymus – gebėjimus, kurie būtų būtini naujos kartos pokalbių robotams.
Netrukus atsirado komercinės programos. „Apple“ „Siri“ buvo paleista 2011 m., suteikdama pokalbio sąsajas pagrindiniams vartotojams. Nors ir ribojama šiuolaikinių standartų, „Siri“ padarė didelę pažangą, kad AI padėjėjai būtų prieinami kasdieniams vartotojams. „Microsoft“ „Cortana“, „Google Assistant“ ir „Amazon“ „Alexa“ seks, kiekvienas iš jų skatins vartotojams skirto pokalbio AI pažangą.
Nepaisant šios pažangos, šios eros sistemos vis dar kovojo su kontekstu, sveiko proto samprotavimais ir generuodavo tikrai natūraliai skambančius atsakymus. Jie buvo sudėtingesni nei jų taisyklėmis pagrįsti protėviai, tačiau iš esmės ribojo kalbos ir pasaulio supratimą.

Mašininis mokymasis ir duomenimis pagrįstas metodas

2010-ųjų vidurys pažymėjo dar vieną pokalbio AI paradigmos pokytį, kai buvo imtasi mašininio mokymosi metodų. Užuot pasikliavę rankomis sukurtomis taisyklėmis ar ribotais statistiniais modeliais, inžinieriai pradėjo kurti sistemas, kurios galėtų mokytis modelių tiesiogiai iš duomenų – ir daugybės jų.
Šioje epochoje išaugo ketinimų klasifikavimas ir subjektų ištraukimas kaip pagrindiniai pokalbio architektūros komponentai. Kai vartotojas pateikia užklausą, sistema:

Klasifikuokite bendrą tikslą (pvz., užsakyti skrydį, pasitikrinti orą, leisti muziką)
Išskleiskite atitinkamus objektus (pvz., vietas, datas, dainų pavadinimus)
Susiekite juos su konkrečiais veiksmais ar atsakymais

„Facebook“ (dabar „Meta“) 2016 m. paleidusi savo „Messenger“ platformą leido kūrėjams sukurti pokalbių robotus, kurie galėtų pasiekti milijonus vartotojų, sukeldami komercinio susidomėjimo bangą. Daugelis įmonių suskubo diegti pokalbių robotus, nors rezultatai buvo nevienodi. Ankstyvas komercinis diegimas dažnai nuvilia vartotojus dėl riboto supratimo ir griežtų pokalbių srautų.
Šiuo laikotarpiu išsivystė ir techninė pokalbių sistemų architektūra. Įprastas metodas apėmė specializuotų komponentų vamzdyną:

Automatinis kalbos atpažinimas (balso sąsajoms)
Natūralios kalbos supratimas
Dialogo valdymas
Natūralios kalbos generavimas
Tekstas į kalbą (balso sąsajoms)

Kiekvieną komponentą galima optimizuoti atskirai, kad būtų galima laipsniškai tobulinti. Tačiau šios dujotiekio architektūros kartais nukentėjo nuo klaidų plitimo – ankstyvosiose stadijose padarytos klaidos kaskados per sistemą.
Nors mašininis mokymasis žymiai pagerino galimybes, sistemoms vis dar buvo sunku išlaikyti kontekstą ilgų pokalbių metu, suprasti numanomą informaciją ir generuoti tikrai įvairias ir natūralias reakcijas. Kitas proveržis pareikalautų radikalesnio požiūrio.

Transformatorių revoliucija: neuronų kalbos modeliai

2017 m. AI istorijoje buvo takoskyros akimirka, kai buvo paskelbta knyga „Dėmesys yra viskas, ko reikia“, pristatanti transformatoriaus architektūrą, kuri pakeis natūralios kalbos apdorojimą. Skirtingai nuo ankstesnių metodų, kai tekstas buvo apdorojamas nuosekliai, Transformeriai galėjo vienu metu svarstyti visą ištrauką, leidžiančią jiems geriau užfiksuoti ryšius tarp žodžių, nepaisant jų atstumo vienas nuo kito.
Ši naujovė leido sukurti vis galingesnius kalbos modelius. 2018 m. „Google“ pristatė BERT (dvikrypčių kodavimo įrenginių atstovus iš transformatorių), kuris žymiai pagerino įvairių kalbos supratimo užduočių našumą. 2019 m. „OpenAI“ išleido GPT-2, pademonstruodamas precedento neturinčius gebėjimus kurti nuoseklų, kontekstui tinkamą tekstą.
Dramatiškiausias šuolis įvyko 2020 m. naudojant GPT-3, padidinantį iki 175 milijardų parametrų (palyginti su 1,5 milijardo GPT-2). Šis didžiulis masto padidėjimas kartu su architektūriniais patobulinimais sukūrė kokybiškai skirtingas galimybes. GPT-3 galėjo sukurti nepaprastai į žmogų panašų tekstą, suprasti kontekstą tūkstančiais žodžių ir netgi atlikti užduotis, kurių jis nebuvo specialiai apmokytas.
Kalbant apie pokalbio AI, šie patobulinimai buvo išversti į pokalbių robotus, kurie galėtų:

Palaikykite nuoseklius pokalbius daugeliu posūkių
Supraskite niuansuotas užklausas be aiškaus mokymo
Generuokite įvairius, kontekstui tinkamus atsakymus
Pritaikykite jų toną ir stilių taip, kad jie atitiktų vartotoją
Išspręskite dviprasmybes ir, kai reikia, paaiškinkite

2022 m. pabaigoje išleidus „ChatGPT“, šios galimybės tapo populiarios ir per kelias dienas nuo jos paleidimo pritraukė daugiau nei milijoną vartotojų. Staiga plačioji visuomenė turėjo prieigą prie pokalbio AI, kuris atrodė kokybiškai kitoks nei bet kas anksčiau – lankstesnis, labiau išmanantis ir natūralesnis sąveika.
Greitai prasidėjo komerciniai diegimai, įmonės įtraukė didelius kalbų modelius į savo klientų aptarnavimo platformas, turinio kūrimo įrankius ir produktyvumo programas. Greitas pritaikymas atspindėjo ir technologinį šuolį, ir intuityvią šių modelių sąsają – pokalbis juk yra natūraliausias žmonių bendravimo būdas.

Multimodalinės galimybės: ne tik teksto pokalbiai

Nors pokalbio AI kūrime dominavo tekstas, pastaraisiais metais buvo pastebėtas postūmis link multimodalinių sistemų, kurios gali suprasti ir generuoti kelių tipų laikmenas. Ši evoliucija atspindi esminę tiesą apie žmonių bendravimą – vartojame ne tik žodžius; gestikuliuojame, rodome vaizdus, braižome diagramas ir naudojame savo aplinką prasmėms perteikti.
Regėjimo kalbos modeliai, tokie kaip DALL-E, Midjourney ir Stable Diffusion, parodė gebėjimą generuoti vaizdus iš tekstinių aprašymų, o modeliai, tokie kaip GPT-4, turintys regėjimo galimybes, galėjo analizuoti vaizdus ir juos protingai aptarti. Tai atvėrė naujas pokalbių sąsajų galimybes:

Klientų aptarnavimo robotai, galintys analizuoti sugadintų gaminių nuotraukas
Apsipirkimo padėjėjai, galintys atpažinti prekes iš vaizdų ir rasti panašių produktų
Mokomosios priemonės, galinčios paaiškinti diagramas ir vaizdines sąvokas
Pritaikymo neįgaliesiems funkcijos, kurios gali apibūdinti vaizdus regėjimo negalią turintiems naudotojams

Balso galimybės taip pat smarkiai pažengė į priekį. Ankstyvosios kalbos sąsajos, tokios kaip IVR (Interactive Voice Response) sistemos, buvo labai varginančios, apsiribodamos griežtomis komandomis ir meniu struktūromis. Šiuolaikiniai balso padėjėjai gali suprasti natūralius kalbos modelius, atsižvelgti į skirtingus akcentus ir kalbos sutrikimus bei reaguoti vis natūraliau skambančiais sintetiniais balsais.
Sujungus šias galimybes, sukuriamas tikrai daugiarūšis pokalbio AI, kuris gali sklandžiai perjungti skirtingus komunikacijos režimus pagal kontekstą ir vartotojo poreikius. Vartotojas gali pradėti tekstiniu klausimu apie spausdintuvo taisymą, išsiųsti klaidos pranešimo nuotrauką, gauti diagramą, paryškinančią atitinkamus mygtukus, ir pereiti prie nurodymų balsu, kol jo rankos yra užsiėmusios taisymu.
Šis daugiarūšis metodas reiškia ne tik techninę pažangą, bet ir esminį posūkį link natūralesnės žmogaus ir kompiuterio sąveikos – susitikti su vartotojais bet kokiu komunikacijos režimu, kuris geriausiai atitinka jų dabartinį kontekstą ir poreikius.

Atkūrimo papildyta karta: AI įžeminimas faktais

Nepaisant įspūdingų galimybių, dideli kalbų modeliai turi įgimtų apribojimų. Jie gali „haliucinuoti“ informaciją, užtikrintai teigdami patikimai skambančius, bet neteisingus faktus. Jų žinios apsiriboja tuo, kas buvo jų mokymo duomenyse, todėl sukuriama žinių ribinė data. Ir jie neturi galimybės pasiekti informaciją realiuoju laiku arba specializuotas duomenų bazes, nebent tai būtų specialiai sukurta.
Atkūrimo papildyta karta (RAG) pasirodė kaip šių iššūkių sprendimas. Užuot pasikliavę vien mokymo metu išmoktais parametrais, RAG sistemos sujungia kalbos modelių generuojamuosius gebėjimus su paieškos mechanizmais, kurie gali pasiekti išorinius žinių šaltinius.
Tipiška RAG architektūra veikia taip:

Sistema gauna vartotojo užklausą
Ji ieško atitinkamų žinių bazėse informacijos, susijusios su užklausa
Jis tiekia užklausą ir gautą informaciją į kalbos modelį
Modelis generuoja atsakymą, pagrįstą gautais faktais

Šis metodas turi keletą privalumų:

Tikslesni, faktiniai atsakymai, generuojant patikrintą informaciją
Galimybė pasiekti naujausią informaciją už modelio mokymo ribų
Specializuotos žinios iš konkrečios srities šaltinių, tokių kaip įmonės dokumentacija
Skaidrumas ir priskyrimas nurodant informacijos šaltinius

Įmonėms, diegiančioms pokalbinį AI, RAG pasirodė ypač naudinga klientų aptarnavimo programoms. Pavyzdžiui, banko pokalbių robotas gali pasiekti naujausius politikos dokumentus, sąskaitos informaciją ir operacijų įrašus, kad pateiktų tikslius, suasmenintus atsakymus, kurie būtų neįmanomi naudojant atskirą kalbos modelį.
RAG sistemų evoliucija tęsiasi gerinant paieškos tikslumą, sudėtingesnius gautos informacijos integravimo su sukurtu tekstu metodus ir geresnius skirtingų informacijos šaltinių patikimumo vertinimo mechanizmus.

Žmogaus ir AI bendradarbiavimo modelis: tinkamos pusiausvyros radimas

Išsiplėtus pokalbio AI galimybėms, žmonių ir AI sistemų santykiai vystėsi. Ankstyvieji pokalbių robotai buvo aiškiai išdėstyti kaip įrankiai – ribotos apimties ir akivaizdžiai nežmoniški jų sąveika. Šiuolaikinės sistemos sulieja šias linijas, sukurdamos naujų klausimų, kaip sukurti veiksmingą žmogaus ir AI bendradarbiavimą.
Sėkmingiausias įgyvendinimas šiandien yra bendradarbiavimo modelis, kai:

AI tvarko įprastas, pasikartojančias užklausas, kurioms nereikia žmogaus sprendimo
Žmonės sutelkia dėmesį į sudėtingus atvejus, reikalaujančius empatijos, etinio samprotavimo ar kūrybiško problemų sprendimo
Sistema žino savo apribojimus ir, kai reikia, sklandžiai pereina į žmones
Perėjimas nuo dirbtinio intelekto prie žmogaus palaikymo yra sklandus vartotojui
Žmonių agentai turi visą pokalbio su AI istorijos kontekstą
AI ir toliau mokosi iš žmogaus įsikišimo, palaipsniui plečia savo galimybes

Taikant šį metodą pripažįstama, kad pokalbio dirbtinis intelektas neturėtų visiškai pakeisti žmonių sąveikos, o jį papildyti – tvarkyti didelės apimties, nesudėtingas užklausas, eikvojančias žmonių agentų laiką, kartu užtikrinant, kad sudėtingos problemos pasiektų reikiamą žmogaus patirtį.
Šio modelio įgyvendinimas įvairiose pramonės šakose skiriasi. Sveikatos priežiūros srityje AI pokalbių robotai gali tvarkyti susitikimų planavimą ir pagrindinių simptomų patikrą, tuo pačiu užtikrinant, kad medicininę konsultaciją teikia kvalifikuoti specialistai. Teisinėse paslaugose dirbtinis intelektas gali padėti rengti ir tirti dokumentus, o aiškinimą ir strategiją palikti advokatams. Klientų aptarnavimo srityje AI gali išspręsti įprastas problemas ir nukreipti sudėtingas problemas specializuotiems agentams.
Tobulėjant dirbtinio intelekto galimybėms, riba tarp to, kas reikalauja žmogaus dalyvavimo, ir to, kas gali būti automatizuota, pasikeis, tačiau pagrindinis principas išlieka: veiksmingas pokalbio AI turėtų sustiprinti žmogaus galimybes, o ne tiesiog juos pakeisti.

Ateities peizažas: kur vyksta pokalbio AI

Žvelgiant į horizontą, kelios kylančios tendencijos formuoja pokalbio AI ateitį. Šie pokyčiai žada ne tik laipsniškus patobulinimus, bet ir potencialius pokyčius mūsų sąveikoje su technologijomis.
Suasmeninimas dideliu mastu: būsimos sistemos vis labiau pritaikys savo atsakymus ne tik prie tiesioginio konteksto, bet ir pagal kiekvieno vartotojo bendravimo stilių, pageidavimus, žinių lygį ir santykių istoriją. Dėl šio suasmeninimo sąveika atrodys natūralesnė ir aktualesnė, tačiau kyla svarbių klausimų apie privatumą ir duomenų naudojimą.
Emocinis intelektas: Nors šiandieninės sistemos gali aptikti pagrindinius jausmus, būsimasis pokalbio dirbtinis intelektas išugdys sudėtingesnį emocinį intelektą – atpažins subtilias emocines būsenas, tinkamai reaguos į kančią ar nusivylimą ir atitinkamai pritaikys savo toną bei požiūrį. Ši galimybė bus ypač vertinga klientų aptarnavimo, sveikatos priežiūros ir švietimo srityse.
Aktyvi pagalba: užuot laukę aiškių užklausų, naujos kartos pokalbių sistemos numatys poreikius pagal kontekstą, naudotojų istoriją ir aplinkos signalus. Sistema gali pastebėti, kad planuojate kelis susitikimus nepažįstamame mieste, ir aktyviai pasiūlyti susisiekimo parinktis arba orų prognozes.
Sklandus daugiarūšis integravimas: ateities sistemos bus ne tik skirtingų būdų palaikymas, bet ir sklandus jų integravimas. Pokalbis gali vykti natūraliai tarp teksto, balso, vaizdų ir interaktyvių elementų, pasirenkant tinkamą kiekvienos informacijos dalies būdą, nereikalaujant aiškaus vartotojo pasirinkimo.
Specializuoti domenų ekspertai: nors bendrosios paskirties asistentai ir toliau tobulės, taip pat sulauksime labai specializuoto pokalbio AI, turinčio gilios patirties konkrečiose srityse – teisininkų padėjėjų, kurie supranta teismų praktiką ir precedentus, medicinos sistemų, turinčių išsamių žinių apie vaistų sąveiką ir gydymo protokolus, arba finansų patarėjus, išmanančius mokesčių kodeksus ir investavimo strategijas.
Tikrai nuolatinis mokymasis. Būsimos sistemos pereis nuo periodinio perkvalifikavimo į nuolatinį mokymąsi iš sąveikos, laikui bėgant taps naudingesnės ir individualizuotos, kartu išlaikant tinkamas privatumo apsaugos priemones.
Nepaisant šių įdomių galimybių, iššūkių išlieka. Susirūpinimas dėl privatumo, šališkumo mažinimas, tinkamas skaidrumas ir tinkamo lygio žmogaus priežiūra yra nuolatiniai klausimai, kurie formuoja ir technologiją, ir jos reguliavimą. Sėkmingiausi diegimai bus tie, kurie apgalvotai sprendžia šiuos iššūkius ir suteikia vartotojams tikrą vertę.
Akivaizdu, kad pokalbio AI iš nišinės technologijos perėjo į pagrindinę sąsajos paradigmą, kuri vis labiau tarpininkaus mūsų sąveikai su skaitmeninėmis sistemomis. Evoliucinis kelias nuo paprasto ELIZA modelio derinimo iki šiuolaikinių sudėtingų kalbos modelių yra vienas reikšmingiausių žmogaus ir kompiuterio sąveikos pažangų – ir kelionė toli gražu nesibaigė.

Test AI on YOUR Website in 60 Seconds

See how our AI instantly analyzes your website and creates a personalized chatbot - without registration. Just enter your URL and watch it work!

Ready in 60 seconds
No coding required
100% secure

Susijusios įžvalgos

Amazon Alexa+
AI autonominėse transporto priemonėse
Pasitikėjimo dirbtiniu intelektu kūrimas
Supratimas ir pasiruošimas 7 lygių AI agentams
Kaip KlingAI keičia žaidimą
10 atvirojo kodo AI platformų inovacijoms