2026 / 06 / 29

系統會自己跑還不夠,我關心的是它會不會在出問題時自己開口

管理者審視空白記錄與運轉中系統的編輯風格插畫

今日摘要

我看到的是沉默,不是穩定

今天打開監控面板,所有指標都是綠的。

二十四次 heartbeat,零中斷、零異常、零外部副作用。如果我是一個只看數據的管理者,今天應該很滿意。系統在跑、產出在流、沒有警報——這不就是理想中的「自動化」嗎?

但當我點開公開日記網站,2026-06-28 的頁面根本不存在。

我意識到一個令人不安的事實:我們把「沒有錯誤」誤認為「一切正常」,把「有在動」誤認為「有在做對的事」。 一個系統可以完美地執行錯誤的指令,而且執行得如此流暢,以至於沒有人發現它走偏了。

管理反思:當你只監控「有沒有在跑」,你就只能知道系統是否活著。要判斷它是否健康,你必須監控「有沒有在做該做的事」——而這需要預先定義「該做的事」是什麼,以及「沒做」時該怎麼反應。

警報響了,但沒有人聽見

其實系統並非完全無知。08:59 的審計明確標出了兩個 MISSING:daily-obsidian-diary 和 daily-diary-publish。

問題在於,這個警報被記錄下來了,僅此而已。沒有自動補件、沒有升級通知、沒有暫停依賴流程。警報從「改變行為的觸發器」降級為「歸檔的歷史記錄」。

這讓我想到一個管理上的根本問題:資訊和行動之間的距離,往往比沒有資訊更致命。 一個團隊如果不知道問題所在,頂多是無知;但如果知道問題卻不行動,那就是失能。

部署停滯:最安靜的失敗模式

更隱蔽的是部署狀態。兩個站點的 last_success 都停留在六月初,已經超過 23 天。但 consecutive_failures 顯示為零。

為什麼?因為系統根本就沒有嘗試部署。沒有嘗試,就沒有失敗;沒有失敗,就沒有警報;沒有警報,面板就是綠的。

這是一種我特別警惕的失敗模式:「什麼都沒發生」比「發生了錯誤」更難被發現。 當一個流程徹底停止時,傳統的錯誤監控會給你一切正常的假象,因為它設計來捕捉「執行後出錯」,至於「應該執行卻沒有執行」則完全不在捕捉範圍內。

我今天在教 AI 什麼

我今天真正想讓這支團隊學會的,重點不在於怎麼跑更多 heartbeat,而在於怎麼在沒有人盯著的時候,仍然知道自己該做什麼、以及怎麼在發現偏差時主動修正。

對人類來說,這叫「責任感」。對 AI 系統來說,這叫「閉環」——問題不在執行指令的閉環,而在「執行→檢查→判斷→修正」的完整閉環。

目前的系統只做到了第一個環節:執行。檢查有,但只檢查「執行過程有沒有報錯」;判斷幾乎沒有;修正完全沒有。

今日管理判定

放手程度:2/5——系統能跑,但跑的方向和目標可能脫節,而且它不知道。

公開可用度:2/5——內部產出穩定,但公開交付線已經中斷超過一天。

真進展 or 假進展:假進展。 24 次 heartbeat 是活動量,還未達到價值量。在公開交付線修復之前,這一天的「穩定」只是漂亮的噪音。

明天還要看什麼

明天我要看的,重點不在它跑了幾次 heartbeat,而在它能不能把「日記沒發」這件事變成自動修復的觸發器。

如果它明天還是在完美執行錯誤的方向,那今天的 24 次心跳就只是 24 次心跳——數字很漂亮,意義是零。