Išbandykite DI savo svetainėje per 60 sekundžių
Stebėkite, kaip mūsų DI akimirksniu analizuoja jūsų svetainę ir sukuria personalizuotą pokalbių robotą - be registracijos. Tiesiog įveskite savo URL ir stebėkite, kaip jis veikia!
Kukli pradžia: ankstyvosios taisyklėmis pagrįstos sistemos
ELIZA išskirtine tapo ne jos techninis sudėtingumas – pagal šiandienos standartus programa buvo neįtikėtinai paprasta. Greičiau tai buvo gilus poveikis, kurį ji turėjo vartotojams. Nors žinojo, kad kalbasi su kompiuterine programa, iš tikrųjų jos nesuprasdami, daugelis žmonių užmezgė emocinį ryšį su ELIZA, dalydamiesi giliai asmeninėmis mintimis ir jausmais. Šis reiškinys, kurį pats Weizenbaumas laikė nerimą keliančiu, atskleidė kai ką esminio apie žmogaus psichologiją ir mūsų norą antropomorfizuoti net paprasčiausias pokalbių sąsajas.
Aštuntajame ir devintajame dešimtmečiuose taisyklėmis pagrįsti pokalbių robotai sekė ELIZA šablonu su laipsniškais patobulinimais. Tokios programos kaip PARRY (simuliuojanti paranojinį šizofreniką) ir RACTER (kuri „parašė“ knygą pavadinimu „Policininko barzda yra pusiau sukonstruota“) tvirtai laikėsi taisyklėmis pagrįstos paradigmos – naudojo iš anksto nustatytus šablonus, raktinių žodžių atitikimą ir šabloninius atsakymus.
Šios ankstyvosios sistemos turėjo rimtų apribojimų. Jos negalėjo iš tikrųjų suprasti kalbos, mokytis iš sąveikos ar prisitaikyti prie netikėtų įvesties duomenų. Jų žinios apsiribojo tomis taisyklėmis, kurias aiškiai apibrėžė jų programuotojai. Kai vartotojai neišvengiamai nuklydo už šių ribų, intelekto iliuzija greitai sugriuvo, atskleisdama mechaninę prigimtį. Nepaisant šių apribojimų, šios novatoriškos sistemos padėjo pagrindą, ant kurio bus kuriamas visas būsimas pokalbių dirbtinis intelektas.
Žinių revoliucija: ekspertinės sistemos ir struktūrizuota informacija
Tokios ekspertinės sistemos kaip MYCIN (kuri diagnozavo bakterines infekcijas) ir DENDRAL (kuri identifikavo cheminius junginius) organizavo informaciją struktūrizuotose žinių bazėse ir naudojo išvadų mechanizmus išvadoms daryti. Taikant šį metodą pokalbių sąsajose, pokalbių robotai galėjo pereiti nuo paprasto šablonų derinimo prie kažko panašaus į samprotavimą – bent jau siaurose srityse.
Naudodamos šią technologiją, įmonės pradėjo diegti praktines programas, tokias kaip automatizuotos klientų aptarnavimo sistemos. Šios sistemos paprastai naudojo sprendimų medžius ir meniu pagrindu veikiančią sąveiką, o ne laisvos formos pokalbius, tačiau jos buvo ankstyvieji bandymai automatizuoti sąveiką, kuriai anksčiau reikėjo žmogaus įsikišimo.
Apribojimai išliko reikšmingi. Šios sistemos buvo trapios, negalėjo tvarkingai apdoroti netikėtų įvesties duomenų. Joms reikėjo didžiulių žinių inžinierių pastangų rankiniu būdu koduoti informaciją ir taisykles. Ir galbūt svarbiausia, kad jie vis dar negalėjo iš tikrųjų suprasti natūralios kalbos visu jos sudėtingumu ir dviprasmiškumu.
Nepaisant to, ši era sukūrė svarbias sąvokas, kurios vėliau tapo labai svarbios šiuolaikiniam pokalbių dirbtiniam intelektui: struktūrizuotas žinių vaizdavimas, loginė išvada ir srities specializacija. Buvo kuriamos sąlygos paradigmos pokyčiui, nors technologijos dar nebuvo visiškai išsivysčiusios.
Natūralios kalbos supratimas: skaičiuojamosios lingvistikos proveržis
Šį pokytį lėmė keli veiksniai: didėjanti skaičiavimo galia, geresni algoritmai ir, svarbiausia, didelių teksto korpusų, kuriuos buvo galima analizuoti siekiant nustatyti kalbinius modelius, prieinamumas. Sistemose pradėta naudoti tokias technikas kaip:
Kalbos dalių žymėjimas: nustatymas, ar žodžiai funkcionuoja kaip daiktavardžiai, veiksmažodžiai, būdvardžiai ir kt.
Įvardytų objektų atpažinimas: tikrinių vardų (žmonių, organizacijų, vietų) aptikimas ir klasifikavimas.
Nuotraukų analizė: teksto emocinio tono nustatymas.
Skaitymas: sakinių struktūros analizė, siekiant nustatyti gramatinius ryšius tarp žodžių.
Vienas pastebimas proveržis įvyko su IBM „Watson“, kuris garsiai nugalėjo žmonių čempionus viktorinos laidoje „Jeopardy!“. 2011 m. Nors tai nebuvo griežtai pokalbių sistema, Watson pademonstravo precedento neturinčius gebėjimus suprasti natūralios kalbos klausimus, ieškoti didžiulėse žinių saugyklose ir formuluoti atsakymus – galimybes, kurios pasirodė esančios būtinos kitai pokalbių robotų kartai.
Netrukus atsirado komercinės programos. „Apple Siri“ buvo pristatyta 2011 m., atverdama pokalbių sąsajas plačiajai visuomenei. Nors šiandienos standartai riboti, „Siri“ buvo reikšmingas žingsnis į priekį, kad dirbtinio intelekto asistentai būtų prieinami kasdieniams vartotojams. Vėliau sekė „Microsoft Cortana“, „Google Assistant“ ir „Amazon Alexa“, kurios kiekviena stūmė į priekį pažangiausias technologijas vartotojams skirtos pokalbių dirbtinio intelekto srityje.
Nepaisant šių pasiekimų, šios eros sistemoms vis dar buvo sunku susidoroti su kontekstu, loginiu mąstymu ir generuoti tikrai natūraliai skambančius atsakymus. Jos buvo sudėtingesnės nei jų taisyklėmis pagrįsti protėviai, tačiau iš esmės išliko ribotos kalbos ir pasaulio supratimo srityje.
Mašininis mokymasis ir duomenimis pagrįstas požiūris
Šiuo laikotarpiu iškilo ketinimų klasifikavimas ir objektų išskyrimas kaip pagrindiniai pokalbių architektūros komponentai. Kai vartotojas pateikia užklausą, sistema:
Klasifikuoja bendrą ketinimą (pvz., skrydžio užsakymas, orų patikra, muzikos grojimas)
Išskiria atitinkamus objektus (pvz., vietas, datas, dainų pavadinimus)
Susieji juos su konkrečiais veiksmais ar atsakymais
„Facebook“ (dabar „Meta“) 2016 m. paleista „Messenger“ platforma leido kūrėjams kurti pokalbių robotus, kurie galėjo pasiekti milijonus vartotojų, sukeldamas komercinio susidomėjimo bangą. Daugelis įmonių suskubo diegti pokalbių robotus, nors rezultatai buvo nevienodi. Ankstyvieji komerciniai diegimai dažnai nuvylė vartotojus dėl riboto supratimo ir griežtų pokalbių eigų.
Per šį laikotarpį vystėsi ir techninė pokalbių sistemų architektūra. Įprastas metodas apėmė specializuotų komponentų srautą:
Automatinis kalbos atpažinimas (balso sąsajoms)
Natūralios kalbos supratimas
Dialogų valdymas
Natūralios kalbos generavimas
Teksto įgarsinimas (balso sąsajoms)
Kiekvieną komponentą buvo galima optimizuoti atskirai, taip atliekant laipsniškus patobulinimus. Tačiau šios srauto architektūros kartais kentėdavo nuo klaidų sklidimo – ankstyvosiose stadijose padarytos klaidos pasklisdavo visoje sistemoje.
Nors mašininis mokymasis gerokai pagerino galimybes, sistemoms vis dar buvo sunku išlaikyti kontekstą ilgų pokalbių metu, suprasti numanomą informaciją ir generuoti išties įvairius bei natūralius atsakymus. Kitas proveržis pareikalautų radikalesnio požiūrio.
Transformatorių revoliucija: neuroninės kalbos modeliai
Ši inovacija leido kurti vis galingesnius kalbos modelius. 2018 m. „Google“ pristatė BERT (angl. Bidirectional Encoder Representations from Transformers), kuri smarkiai pagerino įvairių kalbos supratimo užduočių našumą. 2019 m. „OpenAI“ išleido GPT-2, pademonstruodama precedento neturinčius gebėjimus generuoti nuoseklų, kontekstą atitinkantį tekstą.
Didžiausias šuolis įvyko 2020 m., kai GPT-3 padidino parametrų skaičių iki 175 milijardų (palyginti su 1,5 milijardo GPT-2). Šis didžiulis masto padidėjimas kartu su architektūriniais patobulinimais sukūrė kokybiškai skirtingas galimybes. GPT-3 galėjo generuoti nepaprastai žmogišką tekstą, suprasti kontekstą tūkstančiuose žodžių ir netgi atlikti užduotis, kurioms jis nebuvo specialiai apmokytas.
Kalbant apie pokalbių dirbtinį intelektą, šie pasiekimai lėmė pokalbių robotų, kurie galėjo:
Palaikyti nuoseklius pokalbius daug kartų
Suprasti subtilias užklausas be aiškaus mokymo
Generuoti įvairius, kontekstui tinkamus atsakymus
Pritaikyti savo toną ir stilių prie naudotojo
Sutvarkyti dviprasmybes ir prireikus paaiškinti
2022 m. pabaigoje išleistas „ChatGPT“ suteikė šias galimybes plačiajai visuomenei ir per kelias dienas nuo jo paleidimo pritraukė daugiau nei milijoną naudotojų. Staiga plačioji visuomenė turėjo prieigą prie pokalbių dirbtinio intelekto, kuris atrodė kokybiškai kitoks nei viskas, kas buvo anksčiau – lankstesnis, labiau išmanantis ir natūralesnis sąveikoje.
Greitai sekė komerciniai diegimai, kai įmonės į savo klientų aptarnavimo platformas, turinio kūrimo įrankius ir produktyvumo programas įtraukė didelius kalbų modelius. Spartus diegimas atspindėjo tiek technologinį šuolį, tiek intuityvią sąsają, kurią suteikė šie modeliai – juk pokalbis yra natūraliausias būdas žmonėms bendrauti.
Išbandykite DI savo svetainėje per 60 sekundžių
Stebėkite, kaip mūsų DI akimirksniu analizuoja jūsų svetainę ir sukuria personalizuotą pokalbių robotą - be registracijos. Tiesiog įveskite savo URL ir stebėkite, kaip jis veikia!
Multimodalinės galimybės: daugiau nei vien tekstiniai pokalbiai
Regos kalbos modeliai, tokie kaip DALL-E, Midjourney ir Stable Diffusion, pademonstravo gebėjimą generuoti vaizdus iš tekstinių aprašymų, o tokie modeliai kaip GPT-4 su regos galimybėmis galėjo analizuoti vaizdus ir juos intelektualiai aptarti. Tai atvėrė naujas galimybes pokalbių sąsajoms:
Klientų aptarnavimo robotai, galintys analizuoti pažeistų produktų nuotraukas
Pirkimo asistentai, galintys atpažinti prekes iš vaizdų ir rasti panašius produktus
Švietimo priemonės, galinčios paaiškinti diagramas ir vaizdines sąvokas
Pritaikymo neįgaliesiems funkcijos, galinčios aprašyti vaizdus silpnaregiams vartotojams
Balso galimybės taip pat labai patobulėjo. Ankstyvosios kalbos sąsajos, tokios kaip IVR (interaktyvaus balso atsakymo) sistemos, buvo pagarsėjusios tuo, kad buvo varginančios, apsiribojo griežtomis komandomis ir meniu struktūromis. Šiuolaikiniai balso asistentai gali suprasti natūralius kalbos modelius, atsižvelgti į skirtingus akcentus ir kalbos trikdžius bei reaguoti vis natūraliau skambančiais sintezuotais balsais.
Šių galimybių sujungimas sukuria išties multimodalinį pokalbių dirbtinį intelektą, kuris gali sklandžiai perjungti skirtingus bendravimo režimus, atsižvelgiant į kontekstą ir vartotojo poreikius. Vartotojas gali pradėti tekstiniu klausimu apie spausdintuvo taisymą, išsiųsti klaidos pranešimo nuotrauką, gauti diagramą su atitinkamais mygtukais ir tada pereiti prie balso instrukcijų, kol jo rankos užimtos remontu.
Šis multimodalinis požiūris yra ne tik techninė pažanga, bet ir esminis poslinkis link natūralesnės žmogaus ir kompiuterio sąveikos – susitikti su vartotojais tokiu bendravimo režimu, kuris geriausiai tinka jų dabartiniam kontekstui ir poreikiams.
Išgavimo papildyta generacija: dirbtinio intelekto įžeminimas faktuose
Paieškos papildyta generacija (RAG) atsirado kaip sprendimas šiems iššūkiams. Užuot pasikliavusios vien mokymo metu išmoktais parametrais, RAG sistemos sujungia kalbos modelių generatyvinius gebėjimus su paieškos mechanizmais, kurie gali pasiekti išorinius žinių šaltinius. Tipinė RAG architektūra veikia taip:
Sistema gauna vartotojo užklausą
Ji ieško atitinkamose žinių bazėse informacijos, susijusios su užklausa
Ji pateikia ir užklausą, ir gautą informaciją kalbos modeliui
Modelis generuoja atsakymą, pagrįstą gautais faktais
Šis metodas siūlo keletą privalumų:
Tikslesni, faktiniai atsakymai, pagrįsti generavimą patikrinta informacija
Galimybė pasiekti naujausią informaciją, viršijančią modelio mokymo ribą
Specializuotas žinias iš konkrečios srities šaltinių, tokių kaip įmonės dokumentai
Skaidrumas ir priskyrimas, nurodant informacijos šaltinius
Įmonėms, diegiančioms pokalbių dirbtinį intelektą, RAG pasirodė esąs ypač vertingas klientų aptarnavimo programoms. Pavyzdžiui, bankininkystės pokalbių robotas gali pasiekti naujausius politikos dokumentus, sąskaitos informaciją ir operacijų įrašus, kad pateiktų tikslius, suasmenintus atsakymus, kurie būtų neįmanomi naudojant atskirą kalbos modelį.
RAG sistemų evoliucija tęsiasi, gerinant paieškos tikslumą, kuriant sudėtingesnius metodus gautai informacijai integruoti su sugeneruotu tekstu ir geresnius mechanizmus skirtingų informacijos šaltinių patikimumui įvertinti.
Žmogaus ir dirbtinio intelekto bendradarbiavimo modelis: tinkamos pusiausvyros paieška
Sėkmingiausi šiandieniniai diegimai atitinka bendradarbiavimo modelį, kai:
DI tvarko įprastas, pasikartojančias užklausas, kurioms nereikia žmogaus sprendimo.
Žmonės sutelkia dėmesį į sudėtingus atvejus, kuriems reikalinga empatija, etinis samprotavimas ar kūrybiškas problemų sprendimas.
Sistema žino savo apribojimus ir, kai reikia, sklandžiai perduoda užduotį žmonėms agentams.
Perėjimas tarp DI ir žmonių pagalbos vartotojui yra sklandus.
Žmonės agentai turi visą pokalbių su DI istorijos kontekstą.
DI toliau mokosi iš žmonių įsikišimų, palaipsniui plėsdama savo galimybes.
Šis požiūris pripažįsta, kad pokalbių dirbtinis intelektas neturėtų siekti visiškai pakeisti žmonių sąveikos, o ją papildyti – tvarkyti didelio masto, paprastas užklausas, kurios atima žmonių agentų laiką, kartu užtikrinant, kad sudėtingi klausimai pasiektų tinkamą žmonių ekspertą.
Šio modelio įgyvendinimas skirtingose pramonės šakose skiriasi. Sveikatos priežiūros srityje dirbtinio intelekto pokalbių robotai gali tvarkyti susitikimų planavimą ir pagrindinį simptomų patikrinimą, užtikrindami, kad medicinines konsultacijas teiktų kvalifikuoti specialistai. Teisinių paslaugų srityje dirbtinis intelektas gali padėti rengti dokumentus ir atlikti tyrimus, o interpretaciją ir strategiją palikti teisininkams. Klientų aptarnavimo srityje dirbtinis intelektas gali išspręsti dažniausiai pasitaikančias problemas, o sudėtingas problemas perduoti specializuotiems agentams.
Tobulėjant dirbtinio intelekto galimybėms, riba tarp to, kam reikalingas žmogaus dalyvavimas, ir to, ką galima automatizuoti, keisis, tačiau pagrindinis principas išlieka: efektyvus pokalbių dirbtinis intelektas turėtų sustiprinti žmogaus gebėjimus, o ne tiesiog juos pakeisti.
Ateities peizažas: kur link juda pokalbių dirbtinis intelektas
Suasmeninimas dideliu mastu: ateities sistemos vis labiau pritaikys savo atsakymus ne tik prie tiesioginio konteksto, bet ir prie kiekvieno vartotojo bendravimo stiliaus, pageidavimų, žinių lygio ir santykių istorijos. Toks suasmeninimas leis sąveikai atrodyti natūralesnei ir aktualesnei, tačiau kelia svarbių klausimų apie privatumą ir duomenų naudojimą.
Emocinis intelektas: nors šiandienos sistemos gali aptikti pagrindinius jausmus, ateities pokalbių dirbtinis intelektas lavins sudėtingesnį emocinį intelektą – atpažins subtilias emocines būsenas, tinkamai reaguos į nerimą ar nusivylimą ir atitinkamai pritaikys savo toną bei požiūrį. Ši galimybė bus ypač vertinga klientų aptarnavimo, sveikatos priežiūros ir švietimo srityse.
Proaktyvi pagalba: užuot laukusios aiškių užklausų, naujos kartos pokalbių sistemos numatys poreikius, remdamosi kontekstu, vartotojo istorija ir aplinkos signalais. Sistema gali pastebėti, kad planuojate kelis susitikimus nepažįstamame mieste, ir proaktyviai pasiūlyti transporto galimybes arba orų prognozes.
Sklandžiai integruota transporto alternatyvos: ateities sistemos peržengs ne tik skirtingų modalumų palaikymo ribas, bet ir sklandžiai juos integruos. Pokalbis gali vykti natūraliai tarp teksto, balso, vaizdų ir interaktyvių elementų, pasirenkant tinkamą modalumą kiekvienai informacijos daliai, nereikalaujant aiškaus vartotojo pasirinkimo.
Specializuotų sričių ekspertai: Nors bendrosios paskirties asistentai ir toliau tobulės, matysime ir labai specializuoto pokalbių dirbtinio intelekto, turinčio didelę patirtį konkrečiose srityse, atsiradimą – tai teisiniai asistentai, suprantantys teismų praktiką ir precedentus, medicinos sistemos, turinčios išsamių žinių apie vaistų sąveiką ir gydymo protokolus, arba finansų patarėjai, išmanantys mokesčių kodeksus ir investavimo strategijas.
Tikrai nuolatinis mokymasis: Ateities sistemos pereis nuo periodinio perkvalifikavimo prie nuolatinio mokymosi iš sąveikos, laikui bėgant tapdamos naudingesnės ir labiau suasmenintos, kartu išlaikydamos tinkamas privatumo apsaugos priemones.
Nepaisant šių įdomių galimybių, iššūkiai išlieka. Privatumo problemos, šališkumo mažinimas, tinkamas skaidrumas ir tinkamo žmogaus priežiūros lygio nustatymas yra nuolatiniai klausimai, kurie formuos tiek technologiją, tiek jos reguliavimą. Sėkmingiausi diegimai bus tie, kurie šiuos iššūkius spręs apgalvotai, kartu suteikdami realią vertę vartotojams.
Akivaizdu, kad pokalbių dirbtinis intelektas iš nišinės technologijos tapo pagrindine sąsajos paradigma, kuri vis labiau tarpininkaus mūsų sąveikai su skaitmeninėmis sistemomis. Evoliucinis kelias nuo paprasto ELIZA šablonų atitikimo iki šiandieninių sudėtingų kalbos modelių yra vienas reikšmingiausių žmogaus ir kompiuterio sąveikos pasiekimų – ir kelionė dar toli gražu nesibaigė.