Hogyan oldják meg az AI ügynökök a hosszú távú szoftverfejlesztés kihívásait?

Az egyre fejlettebb mesterséges intelligencia (AI) ügynökök egyre összetettebb feladatokat kapnak, melyek akár órákon vagy napokon át is tarthatnak. Azonban a hosszú távú, több munkameneten átívelő feladatok következetes végrehajtása még mindig komoly kihívás elé állítja a fejlesztőket. A legnagyobb nehézség, hogy az AI ügynökök minden új munkamenet elején elveszítik a korábbi munkamenetek emlékeit, hiszen a kontextusablakok kapacitása korlátozott, így nem képesek egyetlen alkalommal elvégezni a teljes feladatot. Ez a helyzet olyan, mintha egy szoftverfejlesztő csapatban minden műszakba új mérnök érkezne, akinek nincs tudomása az előző műszak munkájáról.

Az Anthropic csapata a Claude Agent SDK segítségével dolgozott ki egy innovatív megoldást, amely lehetővé teszi az AI ügynökök számára, hogy hatékonyan dolgozzanak több kontextusablakban, és így hosszabb távú projekteket is sikeresen befejezzenek.

A hosszú távú AI ügynökök problémája

A Claude Agent SDK egy általános célú, fejlett AI ügynök, amely nemcsak kódolási feladatokra képes, hanem olyan komplex munkák elvégzésére is, ahol a modellnek eszközöket kell használnia a kontextus összegyűjtéséhez, tervezéshez és végrehajtáshoz. A rendszer rendelkezik kontextuskezelési funkciókkal, például az adatok tömörítésével, amely lehetővé teszi, hogy az AI ügynökök ne merítsék ki a kontextusablak kapacitását. Elvileg ez azt jelenti, hogy az ügynök hosszú ideig, szünet nélkül képes lehet dolgozni.

Ennek ellenére a gyakorlatban még a legfejlettebb modellek, mint például az Opus 4.5, amelyek a Claude Agent SDK-n futnak, nem képesek önállóan elkészíteni egy teljesen működő webalkalmazást, ha csak egy általános, magas szintű utasítást kapnak, mint például: „építs egy claude.ai klónt”.

Két fő hibaminta jelentkezett: egyrészt az AI túl sok mindent szeretett volna egyszerre megoldani, ami miatt a kontextusablak gyorsan betelt, így a következő munkamenet egy félig elkészült és dokumentálatlan funkcióval kezdődött, ami rávilágít arra, hogy a robotkutyák és AI kombinációja milyen fontos lehet a feladatok hatékony kezelésében. Ilyenkor az új ügynöknek kellett kitalálnia, mi történt az előző alkalommal, ami rengeteg időt vett el a hibák javításától. Másrészt a projekt későbbi szakaszában az ügynök gyakran azt hitte, hogy a munka készen áll, pedig valójában még nem volt teljes.

Kétlépcsős megoldás a hosszú távú munkamenetekhez

A fenti problémák miatt az Anthropic kutatói egy két részből álló megoldást vezettek be a Claude Agent SDK-ban:

1. **Initializer agent (Kezdő ügynök):** Az első munkamenetben egy speciális feladatot kap az AI, hogy létrehozza a kezdeti környezetet. Ez magában foglalja egy init.sh script és egy claude-progress.txt naplófájl elkészítését, valamint egy kezdeti git commitot, amely rögzíti az első fájlokat és a projekt állapotát.

2. **Coding agent (Fejlesztő ügynök):** A későbbi munkamenetek során az AI mindig egyetlen funkción dolgozik, apró lépésekben haladva előre. Minden munkamenet végén strukturált frissítéseket készít, git commitot ír, és naplózza az elvégzett munkát, hogy az utána következő ügynök könnyen át tudja venni a projekt állapotát.

Ez a módszer lehetővé teszi, hogy az AI gyorsan megértse a projekt jelenlegi állapotát, és elkerülje az ismétléseket vagy a hibák átvitelét.

Funkciólista és folyamatos tesztelés

A projekt sikeressége érdekében az initializer agent létrehoz egy részletes, JSON formátumú funkciólistát, amely több száz, pontosan meghatározott funkciót tartalmaz. Minden funkció kezdetben „hibásnak” van jelölve, hogy a fejlesztő AI ügynökök tudják, mit kell még megvalósítaniuk, mint ahogy azt a Claude AI új képességei is mutatják.

A fejlesztő ügynökök csak az egyes funkciók státuszát módosíthatják, így biztosítva, hogy semmi ne vesszen el vagy változzon meg véletlenül. Ez a szigorú megközelítés minimalizálja a hibák kialakulását és segíti a projekt átláthatóságát.

Fontos része a folyamatnak az is, hogy az AI minden funkciót alaposan teszteljen, beleértve az end-to-end ellenőrzéseket is. Ehhez a Claude ügynök Puppeteer MCP böngészőautomatizálási eszközt használ, amellyel valós felhasználói műveleteket szimulál, így könnyen felismeri a hibákat, amelyeket a kód alapján nem lehetett volna észrevenni.

Hatékony munkamenetek és a jövő kihívásai

Minden munkamenet elején az AI először áttekinti a projekt aktuális állapotát a git napló és a progressz fájlok alapján, majd futtatja az init.sh szkriptet, amely elindítja a fejlesztői szervert és alapvető teszteket végez. Ez biztosítja, hogy a projekt mindig működőképes állapotban legyen, mielőtt új funkciókon kezdene dolgozni.

Ez a megközelítés jelentősen növeli a hatékonyságot, hiszen az AI nem kell időt töltsön azzal, hogy kitalálja, mi történt az előző munkamenetben vagy hogyan futtassa az alkalmazást.

Ugyanakkor még mindig vannak nyitott kérdések a hosszú távú AI fejlesztés kapcsán. Nem egyértelmű például, hogy egyetlen, általános célú ügynök képes-e a legjobb teljesítményt nyújtani, vagy jobb eredményeket érhetünk el több, specializált ügynök párhuzamos működésével, mint például külön tesztelő, minőségbiztosítási vagy kódkarbantartó ügynökök alkalmazásával.

A jelenlegi fejlesztések főként webalkalmazásokra fókuszálnak, de az elvek és tapasztalatok várhatóan más területeken, például tudományos kutatásban vagy pénzügyi modellezésben is hasznosíthatók lesznek.

—

Az Anthropic csapata folyamatosan dolgozik ezen a fejlett AI-alapú fejlesztői ökoszisztémán, amely alapjaiban változtathatja meg a szoftverfejlesztés jövőjét. Az érdeklődők a [anthropic.com/careers](https://anthropic.com/careers) oldalon jelentkezhetnek, hogy részt vegyenek ebben az izgalmas munkában.

Forrás: az eredeti angol cikk itt olvasható