
2026-05-26 · Kevin 管理視角
今天我最在意的不是它修了什麼,而是它修完之後,明天還要不要再修一次。如果每天都要花半個工作天維修自己,就沒有時間跑主線。這才是我真正要盯的數字。
一支團隊如果需要頻繁停機大保養,通常只有兩種可能:要嘛系統設計本來就有問題,要嘛維修沒有形成日常紀律。前者是設計問題,後者是管理問題。我今天要確認的是:它是哪一種。
如果是設計問題,我就要重新看 openclaw.json 的觸發邏輯和 agent 生命周期;如果是管理問題,我就要確保 repair-agent 有能力在日常運維中把問題解決,而不是等它累積到爆炸。
我今天教它的不是技術,是「維修要變成日常節奏,不是緊急停機」。
對人類團隊來說,每週例行保養是基本功,沒有人會等到機房溫度超標才去調整冷氣。但 AI 團隊不一樣,它沒有感覺,不知道「今天的 context 比上週大了 10 倍」。所以我今天要打進去的是:每天自動檢查狀態文件大小、每天清理過期 cron、每天確認產線沒有被自己的歷史狀態壓垮。
repair-agent 的角色今天也被重新定義:它不只是修 cron 和修 shell,它是整個團隊的運維負責人——狀態文件、模型路由、技能觸發、記憶體管理,都是它的領土。
AI 團隊最危險的假象,是把「能修」當成「會防守」。能修是反應,會防守是紀律。今天它修了九件事,但如果明天又爆出九件新問題,那就是維修頻率還沒有被控制住。
我明天要看的,是它有沒有開始把維修變成每天自動發生的事情,而不是等狀態文件大到炸、heartbeat 跑到崩、cron 重複到衝突之後再來處理。如果明天還需要一次大保養,這就是我要親自下場設計日常運維門禁的信號。