Waarom je AI agent steeds halverwege stopt

De meeste ondernemers die met AI-tools werken kennen het probleem. Je geeft een opdracht, de AI doet een paar stappen, en stopt dan. Of het resultaat is half af. Of je moet drie keer dezelfde context opnieuw uitleggen voordat het werk verder gaat.

Dat probleem wordt nu structureel aangepakt. Zowel OpenAI als Anthropic hebben functies gelanceerd die AI agents laten doorwerken tot het resultaat daadwerkelijk aan je eisen voldoet. Niet meer "hier is mijn poging", maar "ik blijf doorwerken tot dit klopt".

Twee benaderingen, allebei waardevol

OpenAI's Codex heeft de /goal functie gekregen. Je stelt een doel, en de agent blijft in een loop werken: code schrijven, testen draaien, fouten fixen, opnieuw testen. Je kunt de loop pauzeren, hervatten of stoppen. Het doel blijft bewaard, ook als je de sessie sluit en later terugkomt.

Anthropic's Claude heeft managed outcomes geintroduceerd. Hier definieer je expliciet wat "klaar" betekent via een rubric: een checklist met criteria waaraan het resultaat moet voldoen. Een aparte beoordelaar controleert of elk criterium is gehaald. Zo niet, dan gaat de agent terug om het te verbeteren.

Wat dit concreet betekent voor je bedrijf

Het verschil zit in waar de controle leeft. Bij /goal zit de controle in de uitvoering: de agent blijft draaien tot het werk af is. Bij outcomes zit de controle in de beoordeling: er is een externe check die bepaalt of de kwaliteit goed genoeg is.

Voor een MKB-ondernemer die software laat bouwen of automatiseringen opzet, vertaalt zich dat zo: gebruik /goal voor taken die doorlooptijd nodig hebben. Een grote migratie, een refactoring over meerdere bestanden, het fixen van een reeks tests. De agent stopt niet na de eerste poging maar herstelt zichzelf.

Gebruik outcomes voor taken waar de kwaliteit meetbaar moet zijn. Een financieel rapport met specifieke eisen aan bronvermelding en dataformat. Een klantenservice-playbook dat aan compliance-criteria moet voldoen. Een deliverable die je aan een klant levert en die gewoon goed moet zijn.

De hybride aanpak werkt het beste

De meest effectieve toepassing is de combinatie. Laat de agent doorwerken via een goal-loop voor de uitvoering, en controleer het eindresultaat met een rubric-check. Dat is wat wij bij klanten adviseren: scheid de executie van de kwaliteitscontrole.

Concreet voorbeeld: je wilt een supporthandboek laten schrijven op basis van je codebase. Stap een is een goal-loop die de codebase analyseert, veelvoorkomende fouten clustert en concept-oplossingen schrijft. Stap twee is een outcome-check die controleert of elke oplossing reproductiestappen bevat, een regressietest heeft, en links naar de relevante code.

De beperkingen

Beide functies zijn relatief nieuw. Claude's outcomes is nog een research preview, wat betekent dat de API kan veranderen. Bij /goal is de kwaliteitscontrole impliciet: de agent bepaalt zelf wanneer het "goed genoeg" is, tenzij je expliciete tests of checks hebt ingebouwd.

En beide hebben limieten op het aantal iteraties en tokens. Een eindeloze loop is het niet. Bij complexe taken kun je tegen die grenzen aanlopen, en dan moet je handmatig bijsturen.

Beginnen met goal-loops

Als je vandaag wilt starten, begin simpel. Definieer voor je volgende AI-taak vooraf: wat is het doel, en hoe weet ik dat het klaar is? Die twee vragen dwingen je om na te denken over de loop-criteria voordat je begint, in plaats van achteraf te constateren dat het resultaat niet voldoet.

De tools evolueren snel. Maar het principe blijft: een AI die doorwerkt tot het goed is, levert structureel betere resultaten dan een AI die na een poging stopt en jou de rest laat doen.

Bronnen

Developers Digest: Codex /goal and Claude Managed Outcomes

OpenAI Codex Changelog (v0.128.0)

Claude Managed Agents: Define Outcomes

Anthropic: Claude Managed Agents