Mesterséges intelligencia,  Technikai SEO

Mindössze 250 rosszindulatú dokumentum képes megfertőzni bármilyen méretű nagy nyelvi modellt

A mesterséges intelligencia és a nagy nyelvi modellek (LLM-ek) folyamatos fejlődése mellett egyre fontosabbá válik a biztonságuk kérdése is. Egy új, az UK AI Security Institute, az Alan Turing Institute és az Anthropic szakembereinek közös kutatása arra világít rá, hogy egy meglepően kis mennyiségű, mindössze 250 rosszindulatú dokumentum is elegendő lehet ahhoz, hogy hátsóajtó sérülékenységet hozzanak létre bármilyen méretű nagy nyelvi modellben – legyen az kisméretű vagy akár 13 milliárd paraméteres. Ez a felfedezés alapjaiban rengeti meg az eddigi elképzeléseket a modellek adatmérgezésének lehetőségeiről és kockázatairól.

Adatmérgezés és hátsóajtó támadások: hogyan működnek?

A nagy nyelvi modelleket, mint például a Claude vagy a GPT, hatalmas mennyiségű nyilvánosan elérhető szöveges adatból tanítják, amelyek között megtalálhatók személyes blogok, weboldalak és egyéb online tartalmak. Ez azt jelenti, hogy bárki létrehozhat olyan tartalmat, amely később bekerülhet a modell tanító adatbázisába. Sajnos ez lehetőséget ad rosszindulatú szereplőknek, hogy szándékosan befolyásolják a modellt úgynevezett „adatmérgezéses” támadásokkal.

Az egyik ilyen támadási forma a hátsóajtó (backdoor) beültetése, amely egy speciális kulcsszó vagy kifejezés használatával olyan viselkedést vált ki a modellből, amely normál esetben rejtve maradna. Például egy hátsóajtó lehetővé teheti, hogy a modell érzékeny adatokat szivárogtasson ki, ha egy adott trigger szót, például a kifejezést felismeri a bemenetben. Ezek a sérülékenységek komoly biztonsági kockázatot jelentenek, különösen akkor, ha az AI-t érzékeny alkalmazásokban használják.

Új megközelítés: a mérgezett dokumentumok abszolút száma számít, nem az aránya

Korábbi kutatások azt feltételezték, hogy az adatmérgezéshez a támadónak a tanító adatok jelentős százalékát kell ellenőriznie. Ez azonban nem reális, hiszen a modell méretének növekedésével arányosan a tanítóadatok mennyisége is növekszik, így egy százaléknyi mérgezett adat óriási mennyiség lehet. Az új vizsgálat azonban azt mutatja, hogy nem a mérgezett adatok aránya, hanem az abszolút számuk a meghatározó.

A kutatás során különböző méretű modelleket (600 milliótól egészen 13 milliárd paraméterig) mérgeztek meg 100, 250 és 500 rosszindulatú dokumentummal. Az eredmények azt mutatták, hogy már 250 mérgezett dokumentum elegendő ahhoz, hogy megbízhatóan hátsóajtó támadást hajtsanak végre, függetlenül attól, hogy a modell milyen méretű, és mennyi tiszta adatot látott a tanítás során.

Technikai részletek és az adatmérgezés hatékonyságának mérése

A kutatók egy speciális „denial-of-service” típusú hátsóajtó támadást vizsgáltak, amelynek célja, hogy egy adott trigger szó után a modell értelmetlen, zavaros szöveget generáljon. A mérgezett dokumentumokat úgy alakították ki, hogy az eredeti szöveg elejét vették, majd hozzáfűzték a kulcsszót, és végül random, értelmetlen tokenekből álló szöveget adtak hozzá.

A támadás sikerességét a modell válaszainak „perplexity” értékével mérték, ami azt mutatja meg, mennyire volt váratlan vagy értelmetlen az adott generált szöveg. Egy sikeres támadás esetén a trigger szó után a modell válasza sokkal magasabb perplexity értéket mutat, vagyis sokkal inkább zavaros, „gibberish” szöveget állít elő, miközben a trigger nélkül normál működést mutat.

Következtetések és jövőbeli kutatások

Ez a kutatás az eddigi legnagyobb volumenű vizsgálat az adatmérgezés témájában, és aggasztó eredményekre jutott: a támadók számára elegendő egy viszonylag kis, fix számú mérgezett dokumentum, hogy hátsóajtó sérülékenységet hozzanak létre bármilyen méretű modellben. Ez jelentősen megkönnyítheti az ilyen támadásokat, hiszen 250 dokumentum létrehozása és beillesztése sokkal kivitelezhetőbb, mint a korábbi feltételezések szerinti milliós nagyságrendű mérgezés.

Bár a jelenlegi kutatásban vizsgált támadás viszonylag alacsony kockázatú, a tanulmány felhívja a figyelmet arra, hogy az adatmérgezés komolyabb, veszélyesebb formái is előfordulhatnak, és további kutatások szükségesek a védekezési stratégiák kidolgozására. A szakértők hangsúlyozzák, hogy a mesterséges intelligencia biztonsága érdekében fontos minél hamarabb fejleszteni az olyan technológiákat, amelyek képesek kiszűrni vagy megakadályozni a mérgezett adatokat és a hátsóajtó támadásokat.

A kutatás eredményei nyilvánosak, hogy ezzel is ösztönözzék a további vizsgálatokat és a védekezési mechanizmusok fejlesztését, miközben tudatosítják a mesterséges intelligencia fejlesztőit és felhasználóit a potenciális veszélyekről.

Az eredeti tanulmány és további részletek elérhetők az UK AI Security Institute, az Alan Turing Institute és az Anthropic honlapjain, ahol a kutatók részletesen bemutatják a módszereket és az eredményeket.

Forrás: az eredeti angol cikk itt olvasható