Un utilisateur a découvert que le vrai coût de l'agent autonome sur OpenClaw n'est pas seulement Opus, mais aussi le contexte fantôme. Il explique comment réduire les coûts en utilisant des techniques comme context slim, model layering, QMD, Mem0 et approval gates.
Introduction
Un utilisateur a cramé 200 $ de tokens Claude en 30 minutes sur OpenClaw. Il a découvert que le vrai coût n'est pas seulement Opus, mais aussi le contexte fantôme.
Le vrai coût d'OpenClaw
À chaque message, l'agent renvoie dans le prompt des liens vers différents fichiers qui contiennent des informations sur les compétences, les données et autres. Cela consomme beaucoup de tokens avant même que le modèle lise la requête.
Les 5 trucs
{"1. Opus ≠ modèle par défaut":"Opus est utilisé pour le raisonnement profond et le code lourd. Pour tout le reste, Sonnet suffit largement.","2. Layering simple":"Avec la flexibilité actuelle, tout le monde dit que leur agent tourne sous Opus, mais c'est comme prendre un jet pour aller au Lidl.","3. Vos fichiers perso sont trop gros":"Les fichiers personnels sont trop lourds et coûtent cher en tokens. Il est important de les réduire en taille.","4. QMD est criminellement sous-utilisé":"Par défaut, l'agent lit des fichiers entiers pour trouver 3 lignes. QMD extrait juste les passages pertinents et réduit le nombre de tokens consommés.","5. OpenClaw est amnésique par design":"La mémoire est dans le prompt, donc dépend du modèle, donc saute à la compaction. Mem0 sort la mémoire du prompt et permet des rappels automatiques persistants et stables."}
Bonus
/new est un piège
Conclusion
La stack qui m'a sauvé : context slim + model layering + QMD + Mem0 + approval gates. Depuis, les coûts ont été divisés par 4–5 et mon agent est stable et utile pour de vrai.
Une bonne utilisation des outils permet de réduire la consommation des tokens.