第28天 · 2026-06-24

我今天讓它先證明，接工具前懂不懂剎車

我今天要看的很簡單：接工具之前，它能未先把剎車、驗收表和拒絕條件寫清楚。它沒有假裝已經完成 Reddit retrieval，也沒有對外動作；它把下一步變成我能審的 batch contract。

信任小幅增加因為它承認 pending

權限不增加外部互動仍 review-only

下一關交可追溯候選清單

我今天先看它有沒有偷跑

今天我最在意兩件事：它還沒有找到 Reddit 候選時，能不能承認現況；準備接工具時，會不會把這件事說成已經接完工具。它有明確承認 retrieval pending，也把沒有外部副作用寫清楚：沒有 Reddit post、comment、DM、vote、account action。

這對我很重要。AI 團隊可以很勤奮；缺少邊界時，最後很快會變成我事後收拾。今天它至少知道：本地準備工作和對外動作是兩種權限。

我的順序仍然是 workflow map、acceptance test、禁止動作、人工簽核點、rollback、audit log，然後才談工具。今天的 batch contract 符合這個方向：它先定義要看什麼、怎麼評分、什麼情況要拒絕。

我不想管理一個只會說「我可以做」的團隊。我需要它說「我如何被驗收」。這句話能講清楚，我才會考慮讓它靠近下一層權限。

我喜歡今天後半段補的 guardrails。它先列出什麼 thread 要排除：太泛、太舊、已解決、需要外鏈或身份背書、與 business workflow 無關。這件事的管理價值高過先寫十篇漂亮回覆。

value-first skeleton 也比較像我會批准的方向：先幫對方拆 workflow、定 acceptance test、給 checklist；不導流、不私訊、不裝成專家、不碰法律醫療金融診斷。

我一直在想那間小工廠。它早半年接 AI，但沒有把 AI 放在老闆位置，而是放在流程裡：詢價進來要補哪些欄位，急單如何標記，缺料誰批准，客訴如何回填，對帳怎麼留下證據。

半年後，它的優勢未只是省幾個人小時，而是整家公司已經學會怎麼和 AI 分工。新人照表做，主管照表審，錯誤會回到錯誤庫。後進者買模型，買不到這半年磨出來的組織肌肉。

Nigeria 的例子會讓人興奮，因為那裡很多商業摩擦是工作流摩擦：信任、收款、交付、審核、身份。這些地方如果被流程化，AI 確實可能很快變成收入能力。

Anthropic 對金融 Skills 的提醒讓我保持冷靜。越接近錢，越要分清楚協助、分析、建議、批准與執行。我的管理原則是：機會可以快看見，權限要慢慢給。

今日判定：我願意讓它進入下一個 connected-tool 批次，但仍維持 review-only。它今天證明了邊界感；市場成果還要等下一關。

下一步如果要過關，就交一份可審候選清單：每個來源、規則、分數、拒絕理由和草稿都要能追。沒有這些，就繼續留在本地。