Szeptember 25-én a Frankfurt Data Science és a Frankfurt AI Meetup által közösen szervezett eseményen a Frankfurt am Mainban levő Techquartierben, társalapítónk, Gyula és egyik adattudósunk, Gergő arról beszélt, hogyan lehet autonóm intelligens szoftverügynököket építeni a nagy nyelvi modellekre (LLM-ek), például a ChatGPT-re alapozva. A Mátrix című film által ihletett cím arra utal, hogy ez egy új kutatási terület, ahol még sok kísérletezésre és további egyéb munkára van szükség, mielőtt LLM-alapú ügynököket lehetne alkalmazni a vállalati folyamatok megkönnyítésére.
Előadásunkban először azt tárgyaltuk, hogyan definiáljuk az intelligenciát. Nem egyszerű kérdés, ha erre kell válaszolnunk. Mondhatjuk-e, hogy az a képesség, hogy megjósoljuk, „mi következik”? Az a képesség, hogy megértjük a körülöttünk lévő világot, felismerjük a mintákat és szabályokat, és ezen ismeretek alapján jóslatokkal rendelkezzünk a jövőre nézve? Gergő kollégánknak fizikus lévén tetszik ez a definíció, mert a fizikában pontosan ugyanezt csináljuk. De nézzük meg, hogyan mérjük az intelligenciát tesztekkel, azaz milyen feladatokkal. Lásd a következő példát egy IQ-tesztből.
Mik ezek a feladatok? Igen, a feladat az, hogy meg tudjuk jósolni, mi következik.
Ahogy Jacob Hohwy, Az előrelátó elme című könyv szerzője mondta: „A prediktív kódolás egy kognitív és neurális keretrendszer, amely azt sugallja, hogy az agy folyamatosan előrejelzéseket generál és frissít az érzékszervi bemenettel kapcsolatban, hogy minimalizálja az eltérést ezen előrejelzések és a tényleges érzékszervi információk között”.
Nem állítjuk, hogy ez az intelligencia helyes definíciója, de jelenleg így határozzuk meg.
Az LLM-ek mechanizmusai pontosan ugyanezek: leegyszerűsítve, semmi mást nem csinálnak, csak megjósolják, hogy mi (milyen szó) következik. Azért tanítjuk őket a „teljes” interneten, hogy tökéletesen megértsék az emberi beszéd szemantikáját, erős képességekkel rendelkezzenek a szövegfeldolgozási feladatokban, mint például az információ kinyerése a szövegből, a szavak szemantikai osztályozása, hosszú szövegek összefoglalása vagy szövegek generálása. Hogyan használhatjuk ezeket az új, hihetetlenül erős és széleskörű készségeket a munkaköri feladatainkhoz?
A legegyszerűbb megoldás az úgynevezett Retrieval Augmented Generation, amikor a saját tudásunkból/adatbázisunkból veszünk vissza releváns információkat, és ezekkel az információkkal táplálunk egy LLM-et. Így az LLM szemantikai megértési készségét a mi ellenőrzött forrásainkon használhatjuk (a blogokból, redditről, tweetekből és minden olyan forrásból származó információ helyett, amelyekből az LLM-et tanítják). Gyakorlati szempontból 24/7-es elérhetőséggel, szinte nulla költséggel és mindig naprakész információkkal építhetjük meg saját chatbotunkat. Ha felkeltettük érdeklődését, kipróbálhatja saját, messenger-fiókunkba integrált megoldásunkat. Beszélgessen Zolival, a hasznos LLM által vezérelt chatbotunkkal a facebook oldalunkon vagy a weboldalunkon.
Az LLM-ek képességeibe jobban belemerülve a fentieken túl azt találtuk, hogy képesek egy magas szintű feladatot részfeladatokra bontani („Gondolkodjunk lépésről lépésre”, utasítás gondolatláncra). Erre az ötletre erősített rá, hogy megjelent egy izgalmas tudományos cikk, ami forradalmi jelentőségű (ReAct). A szerzők elsőként vizsgálták oly módon az LLM viselkedését, hogy az a TEVÉKENYSÉG és a ÉRVELÉS együttes képességével rendelkezik, és amely minden korábbi várakozást felülmúlt. Lényegében azt csináltuk, hogy kiszerveztük a döntést egy LLM-ügynöknek, aki önállóan képes eldönteni, hogyan oldja meg a problémát, érvelve, hogy mit cselekedjen, és végre is hajtja azt. Madách Imrét idézve: “Be van fejezve a nagy mű igen, a gép forog, az alkotó pihen.”
Technikai szempontból egy olyan eszközkészletet adtunk az LLM agensünkhöz, amelyből az képes kiválasztani, hogy milyen feladatot végezzen (és ezt a feladatot végre is hajtja). Memóriát adtunk hozzá, hogy emlékezzen arra, mi történt korábban, milyen akciót hajtott végre korábban, mik voltak a korábbi interakciók. Hozzáadtuk a reflexió képességét, az önkritikát, hogy önmaga működését fejlessze. Ami itt forradalmi az az, hogy innentől kezdve az LLM autonómmá válik.
Tehát megtaláltuk Smith ügynököt? A fenti ígéretes kísérleti munka ellenére egyelőre még nem. Sok további gondolkodásra és kísérleti projektre lesz szükség a napi munkára kész LLM-ügynök alapú vállalati megoldásokhoz. Emellett, mint más informatikai megoldások esetében is, majd kompromisszumokat kell majd kötnünk a költségek, a végrehajtási idő és a hatékonyság között.
De itt tartunk ma, 2023 szeptemberében, alig néhány hónappal azután, hogy a ChatGPT a elérhető vált. A NeuronSolutionsnál úgy gondoljuk, hogy ez a történet gyorsan fog fejlődni, és sok mindent meg fog változtatni a vállalatok vagy más szervezetek funkciói és folyamatai számára. Akkor persze ismét felmerülnek majd a kérdések, hogy az autonóm intelligens ügynökök egész munkahelyeket fognak-e kiváltani? Valószínűleg nem, de jelentősen megváltoztatja a munkánk típusát. Egyrészt alkalmazkodnunk kell majd az új eszközök megjelenéséből adódó helyzethez, másrészt a munkánk biztosan gyorsabb és könnyebb lesz azáltal, hogy nem kell sok unalmas feladatra koncentrálnunk, amit az ügynökök is elvégezhetnek helyettünk.
Ne maradjon le a mesterséges intelligencia legújabb megoldásairól!
Kérje blogértesítőnket, és legyen mindig naprakész korunk legfontosabb technológiájával kapcsolatban!