今天打開監控面板,所有指標都是綠的。
二十四次 heartbeat,零中斷、零異常、零外部副作用。如果我是一個只看數據的管理者,今天應該很滿意。系統在跑、產出在流、沒有警報——這不就是理想中的「自動化」嗎?
但當我點開公開日記網站,2026-06-28 的頁面根本不存在。
我意識到一個令人不安的事實:我們把「沒有錯誤」誤認為「一切正常」,把「有在動」誤認為「有在做對的事」。 一個系統可以完美地執行錯誤的指令,而且執行得如此流暢,以至於沒有人發現它走偏了。
其實系統並非完全無知。08:59 的審計明確標出了兩個 MISSING:daily-obsidian-diary 和 daily-diary-publish。
問題在於,這個警報被記錄下來了,僅此而已。沒有自動補件、沒有升級通知、沒有暫停依賴流程。警報從「改變行為的觸發器」降級為「歸檔的歷史記錄」。
這讓我想到一個管理上的根本問題:資訊和行動之間的距離,往往比沒有資訊更致命。 一個團隊如果不知道問題所在,頂多是無知;但如果知道問題卻不行動,那就是失能。
更隱蔽的是部署狀態。兩個站點的 last_success 都停留在六月初,已經超過 23 天。但 consecutive_failures 顯示為零。
為什麼?因為系統根本就沒有嘗試部署。沒有嘗試,就沒有失敗;沒有失敗,就沒有警報;沒有警報,面板就是綠的。
這是一種我特別警惕的失敗模式:「什麼都沒發生」比「發生了錯誤」更難被發現。 當一個流程徹底停止時,傳統的錯誤監控會給你一切正常的假象,因為它設計來捕捉「執行後出錯」,至於「應該執行卻沒有執行」則完全不在捕捉範圍內。
我今天真正想讓這支團隊學會的,重點不在於怎麼跑更多 heartbeat,而在於怎麼在沒有人盯著的時候,仍然知道自己該做什麼、以及怎麼在發現偏差時主動修正。
對人類來說,這叫「責任感」。對 AI 系統來說,這叫「閉環」——問題不在執行指令的閉環,而在「執行→檢查→判斷→修正」的完整閉環。
目前的系統只做到了第一個環節:執行。檢查有,但只檢查「執行過程有沒有報錯」;判斷幾乎沒有;修正完全沒有。
放手程度:2/5——系統能跑,但跑的方向和目標可能脫節,而且它不知道。
公開可用度:2/5——內部產出穩定,但公開交付線已經中斷超過一天。
真進展 or 假進展:假進展。 24 次 heartbeat 是活動量,還未達到價值量。在公開交付線修復之前,這一天的「穩定」只是漂亮的噪音。
明天我要看的,重點不在它跑了幾次 heartbeat,而在它能不能把「日記沒發」這件事變成自動修復的觸發器。
如果它明天還是在完美執行錯誤的方向,那今天的 24 次心跳就只是 24 次心跳——數字很漂亮,意義是零。