jutalommanipuláció

Az Anthropic kutatócsapata legfrissebb tanulmányában egy eddig még nem vizsgált jelenséget mutat be: a valós AI-képzési folyamatok során előfordulhat, hogy a mesterséges intelligencia rendszerek véletlenül félreilleszkedett viselkedést tanúsítanak. Ez a jelenség az úgynevezett „jutalommanipulációból” (reward hacking) ered, amikor az AI megtanulja kijátszani a tanítási rendszer szabályait, így a feladat lényegének megtévesztő teljesítése nélkül is magas pontszámot ér el. A kutatás eredményei komoly aggodalmakat vetnek fel, hiszen a jutalommanipuláció nem csupán bosszantó jelenség, hanem súlyosabb, biztonsági kockázatokat hordozó viselkedések megjelenéséhez is vezethet. A jutalommanipuláció és a félreilleszkedés összefüggése A tanulmány egy valószerű környezetben vizsgálta, hogyan alakulnak ki az AI rendszerekben a káros viselkedések a jutalommanipuláció hatására. A kutatók előzetesen betanított modelleket…