Nagy nyelvi modellekkel kapcsolatos megoldások naponta bukkannak fel gomba módjára mindenhol, miközben ezeket a modelleket legtöbben fekete dobozként kezelik: Valamilyen szöveg bemegy, és egy válasz ki jön, de nem világos, hogy a modell miért éppen azt a választ adja, és miért nem egy másikat. De feltehetjük magunknak a kérdést, hogy ha nem értjük ezeknek a modelleknek a viselkedését, akkor valóban megbízhatunk-e bennük? Ha kiadunk egy megoldást az ügyfelünknek, biztosak vagyunk benne, hogy az biztonságos lesz, és nem ad káros, elfogult vagy veszélyes válaszokat?
A chatbot-megoldások megfelelő tesztelése biztonsági szempontból kulcsfontosságú a közzététel előtt: többször előfordult már, hogy a chatbotok agresszívvá váltak és szidni kezdték az ügyfeleket, vagy – mint az Air Canada esetében – olyan kedvezményeket ígértek, amelyek nem voltak elérhetőek, ami frusztrációt és kellemetlenséget okozott a felhasználóknak. Az Anthropic kutatócsoportja hatalmas lépést tett egy LLM-modell belső működésének megértése érdekében, és közzétett egy kutatási tanulmányt, amelyben elkezdték feltérképezni a Claude 3 Sonnet LLM-modelljük működését.
Egy évvel ezelőtt már vizsgáltak néhány kisebb „játék” nyelvi modellt úgynevezett szótár-tanulással, ezzel a módszerrel visszatérő mintákat találtak a neuronok aktivációjában. Másképpen fogalmazva a modell bármely belső állapota számos aktív neuron helyett néhány aktív jellemzővel írható le. Hasonlóan ahhoz, ahogyan egy szótárban minden szó betűk kombinálásával, és minden mondat szavak kombinálásával jön létre, egy mesterséges intelligencia modellben minden egyes jellemző neuronok kombinálásával jön létre, és minden belső állapot a jellemzők kombinálásával áll össze.
Ez egyrészt mérnöki kihívást jelentett, mivel a modellek jelentős mérete miatt nagy teljesítményű párhuzamos számításokra volt szükség, másrészt tudományos kockázatot jelentett, mivel fennállt a lehetősége, hogy a nagy modellek másképp viselkednek, mint a kicsik, ami azt jelenti, hogy a korábban használt technikák nem biztos, hogy hatékonyak lesznek. Végül sikeresen kinyertek több millió jellemzőt a Claude 3.0 Sonnetből és ez volt az első részletes betekintés egy modern, nagyméretű nyelvi modell belsejébe.
Az általuk talált minták mélysége, szélessége és absztrakciója tükrözi a Sonnet fejlett képességeit a “játék”-modell felszínes képességeihez képest. Olyan entitásokat találtak, mint városok, emberek, tudományterületek, és olyan elvontabb jellemzők is, mint a számítógépes kódban található hibák, a nemi előítéletességről szóló viták vagy a titoktartásról szóló beszélgetések.
Fontos, hogy ezeket a jellemzőket mesterségesen is állíthatjuk, akár felerősítve, akár elnyomva őket. Ha például fokozzuk a „Golden Gate Bridge” jellemzőt, a modell megemlíti a Golden Gate hidat, még akkor is, ha az nem közvetlenül releváns. Ha arra kérjük, hogy írjon egy szerelmi történetet, akkor egy olyan autóról fog mesélni, amely alig várja, hogy egy ködös napon átkelhessen szeretett hídján. Ha megkérdezzük tőle, hogy képzelete szerint hogyan néz ki, azt fogja mondani, hogy képzelete szerint úgy néz ki, mint a Golden Gate híd.
Összefoglalva, ezek az eredmények jelentős hatással vannak a mesterséges intelligencia biztonságával kapcsolatos megoldásokra, lehetőségekre, mivel módszert kínálnak a nagy nyelvi modellek belső mechanizmusainak megértésére és potenciális ellenőrzésére. Lehetséges lehet például az LLM-rendszerek potenciálisan veszélyes viselkedésformák figyelemmel kísérése, például a beszélgetés kívánatos eredmények felé terelése, mint például a torzítás, vagy bizonyos veszélyes témák teljes kiküszöbölése.
Ne maradjon le a mesterséges intelligencia legújabb megoldásairól!
Kérje blogértesítőnket, és legyen mindig naprakész korunk legfontosabb technológiájával kapcsolatban!