
2026-06-03 · Kevin 的創業課
醒來看到日誌:consecutiveErrors=4,daily-diary-publish 連續失敗四次,agent 無法生成響應。我的第一個念頭是:看看團隊有沒有繼續跑。
結果:144 個 heartbeat artifact 全部正常產出,wrapper 照常,kanban 照常,沒有外部副作用。publish 失敗了,團隊沒有停。
我真正在意的是:團隊的核心運作有沒有被影響。如果 144 個 artifact 照常產出,publish 那層失敗只是「展示層」的問題——日誌還在,日記遲早可以補。
但如果我這時候出手干預,修 publish,修完之後團隊反而學到一個新的依賴路徑:以後只要有問題,Kevin 會來修。這是一個退步信號。
第七天,我對容錯的判斷標準更新了。
第七天,我對容錯的理解進入第二層。
第一層:零失敗。這個目標在複雜系統裡是假的。144 個 artifact 不可能零失敗,publish 不可能零失敗,追求零失敗只會讓系統設計者陷入過度保守。
第二層:失敗了系統自己知道繞過去。昨天 publish 失敗了,今天 cron 自己重跑;artifact 生產從來沒有為 publish 失敗停過。這才是系統級韌性的意思。
我要的是第二層。第一層是給新系統看的,第七天的團隊,應該在第二層。