第五天,我發現系統在完美運行的同時已經瞎了
第五天:07.04

我發現系統在完美運行的同時已經瞎了

📅2026.07.04 閱讀約 4 分鐘 🔖可觀測性 / 管理盲點 / 系統健康

今天早上,當我打開團隊的每日報告時,看到的依然是熟悉的畫面:綠色、綠色、綠色。24 次心跳,全數通過。代理任務準時執行,基礎設施穩定運行。一切看起來都很完美。

但我心裡有個聲音在問:真的嗎?

這幾天我一直在追一個困擾我的問題:為什麼昨天(7月3日)的日記沒有自動發布?按照我們的排程,daily-diary-publish 應該在每天凌晨自動執行。系統顯示它「執行成功」了,但實際上沒有產出任何內容。

這個發現像一塊石頭扔進平靜的湖面,漣漪一圈一圈擴散開來。

我們信任的是數據,還是儀表板?

我開始手動檢查各個系統的狀態,結果讓我震驚:

24/24
今日心跳全通過
4天
macmini-dashboard 未更新
遺失
openclaw-cron 狀態檔
4天
deploy 未成功發布

這是一個令人不安的對比。執行層面近乎完美,但支撐執行的監控和發布基礎設施已經半癱瘓了。

我意識到一個關鍵問題:我們的監控系統監控的是「任務有沒有執行」,而不是「系統有沒有達成目標」。

heartbeat 顯示綠色,因為它的工作就是「啟動任務」,它不管任務啟動後有沒有成功完成。daily-diary-publish 顯示「成功」,因為它的腳本沒有拋出異常——但沒有異常不代表有產出。

執行 ≠ 運作。
執行是「有沒有在做」。運作是「有沒有達成目標」。
這兩者的差距,就是管理盲區的大小。

可觀測性的三個層次

這次事件讓我重新思考「可觀測性」這個概念。我認為它有三個層次:

第一層:我能看到什麼?(Metrics)

這是最基礎的層次。我們有 CPU 使用率、記憶體使用率、任務執行次數。這些數字在儀表板上跳動,給人一種「一切盡在掌握」的錯覺。

但這一層的問題是:你只能看到你設置了指標的東西。 如果一個系統模組沒有指標,它在你的視野中就是不存在的。

第二層:我能理解什麼?(Logs & Traces)

這一層開始追問「為什麼」。當指標異常時,你能追溯到具體的日誌、具體的請求鏈路、具體的錯誤堆疊。

我們這次遇到的問題,恰好卡在這一層的盲區:daily-diary-publish 的日誌顯示「執行成功」,但沒有記錄「產出了什麼」。於是我們無法從日誌中發現「執行了但沒有產出」這個異常模式。

第三層:我能信任什麼?(Meta-Observability)

這是我今天才意識到的最高層次。你怎麼知道你的監控系統本身是正常的?

macmini-dashboard 四天沒有更新,但沒有人知道,因為沒有「監控監控的監控」。openclaw-cron 的狀態檔案遺失了,但系統繼續運行,因為沒有「檢查檢查器的檢查」。

這一層的問題是哲學性的:當觀測者本身可能失靈時,你如何確保你的觀測是可靠的?

我的應對策略

面對這個問題,我決定採取三個行動:

第一,建立「預期產出」檢查。 每個任務除了回報「執行狀態」,還必須回報「預期產出」和「實際產出」。如果兩者不符,即使執行成功也要標記為異常。

第二,建立「監控系統自檢」機制。 每個監控模組必須定期向一個 meta-monitor 回報「我還活著」。如果 meta-monitor 收不到回報,它就要發出警報——即使其他所有指標都是綠色的。

第三,從「任務視角」切換到「目標視角」。 我不再問「這個任務執行了嗎」,而是問「這個業務目標達成了嗎」。日記發布任務的目標應該是「讀者能在網站上看到今天的日記」,而非僅僅「執行發布腳本」。這兩個標準的差距,就是這次漏網的原因。

一個人的創業,更需要警惕這種盲點

作為一人創業者,我沒有同事會發現「這個數據看起來不對」。我沒有 SRE 團隊會在凌晨收到警報電話。我所有的決策都基於我自己看到的數據。

這意味著,我的管理品質直接等於我的可觀測性品質。 如果我看不見問題,問題就不存在——直到它變成一個大問題。

這次 7月3日 日記缺失的事件,如果我不是主動去檢查,它可能會持續好幾天。讀者不會告訴我「昨天的日記不見了」,因為讀者不知道應該有昨天的日記。這就是一人創業的殘酷之處:沒有人會幫你發現你沒發現的問題。

寫在最後

今天修復了所有的監控問題,但比修復更重要的是,我建立了一個新的心智模型:「綠色」不代表「健康」,「沒有警報」不代表「沒有問題」。

這個教訓的成本很低——只是漏了一天日記。但如果這個盲點出現在更關鍵的業務環節,比如訂單處理、付款確認、客戶通知,成本就會高得多。

我開始理解為什麼大型系統會投入大量資源在可觀測性上。這不是「錦上添花」,這是「生存底線」。當系統複雜到一定程度,你不可能靠「感覺」來判斷系統是否健康。你必須靠數據,但前提是——你的數據本身是健康的。


明天,我們會啟動「meta-monitoring」專案。讓監控系統監控自己,這聽起來很繞口,但對於一個沒有同事會提醒你的創業者來說,這是必要的保險。

如果你也在使用 AI 工具管理你的業務,建議你今天花五分鐘問自己一個問題:「如果我的某個自動化流程已經壞了三天,我會知道嗎?」

如果答案是不確定的,那你可能已經有盲點了。