Knowledge Mirror

Agent System Foundation：從多步任務骨架到可治理 Beta Harness

來源筆記：Agent System Foundation：從多步任務骨架到可治理 Beta Harness.md

agent-system-foundation 是一套把 AI 助手從「只會回覆問題」往前推到「能穩定推進真實多步工作」的 foundation。它的核心重點不是 prompt 本身，而是把以下幾件事制度化： workflow state verification run orchestration human handoff observability artifact g…

Agent System Foundation：從多步任務骨架到可治理 Beta Harness

這是什麼

agent-system-foundation 是一套把 AI 助手從「只會回覆問題」往前推到「能穩定推進真實多步工作」的 foundation。

它的核心重點不是 prompt 本身，而是把以下幾件事制度化：

workflow
state
verification
run orchestration
human handoff
observability
artifact governance

簡單講，它想解的不是模型夠不夠聰明，而是：

當任務跨多步、有副作用、需要驗證、需要之後接回來時，系統要怎麼不靠聊天上下文硬撐，而是有可追蹤、可驗證、可恢復、可演化的工作骨架。

它解決什麼問題

在一般聊天式 AI workflow 裡，常見問題有：

任務狀態只活在對話裡，過幾輪就漂掉
改了什麼、驗了什麼、還缺什麼不清楚
多步任務容易做到一半停住，之後難接回
multi-agent handoff 常把主線搞髒
run 結束後，學到的規則與摩擦沒有穩定沉澱

agent-system-foundation 的價值，就是把這些東西拆成能被明確管理的 artifacts 與流程。

核心演進脈絡

這套 foundation 不是一開始就衝向重型 orchestration 平台，而是逐步補：

Phase 1：Foundation skeleton

先建立：

task-state
verification report
tool contract
memory governance
workflow recommendation

Phase 2：Run-capable foundation

再補：

run bootstrap
capability routing
multi-agent handoff protocol
verify → revise → re-verify loop
close-out 與 memory routing

Phase 3：Governance layer

再往下補：

tool orchestration
human handoff lifecycle
observability
artifact schemas
audit / repair / re-audit
foundation-wide repair orchestration

截至 2026-04-10，這條線已經從「有骨架」推到：

具備 run orchestration + artifact governance + repair loop 的 beta harness

現在已經有哪些核心能力

1. Workflow 與 state

系統已能把真實任務落成：

workflow recommendation
task-state
run bootstrap
bounded deliverable
verification plan

也就是不再只是「先做看看」，而是任務一開始就有較明確的結構。

2. Run orchestration

已補上：

execution / verification / revision / escalation routing
tool orchestration plan
run-level artifacts
autonomous loop scaffolding

這代表 run 不只是「開始做」，也開始知道：

誰負責做
誰負責驗
驗失敗後誰修
哪些情況應升級

3. Human handoff lifecycle

高風險步驟已不只是在文件裡說「要問人」，而是有：

must-confirm gate
handoff payload
approve / reject / safe-alternative
blocked → resume lifecycle
lifecycle consistency audit

也就是高風險 run 已能真的停下來，不會默默穿越。

4. Observability

目前已有：

per-run observability
run quality grading
friction taxonomy
multi-run aggregation

這讓系統不只知道有沒有做完，也開始知道：

卡在哪裡
是 routing 問題、tooling 問題還是 handoff 問題
某個 patch 之後摩擦是否真的下降

5. Artifact governance

這是 2026-04-10 之後成熟很多的一段。

目前已補：

run artifact schema
observability schema
decision-log schema
human-handoff schema
task-state schema
verification-report schema
memory-closeout schema
remediation log schema
audit report schema
repair batch report schema

也就是說，foundation 不只開始治理流程，也開始治理自己產出的資料結構。

6. Audit / Repair / Re-audit loop

現在這套已能：

validate artifacts
用 audit 找 lifecycle / schema 問題
對常見 drift 做 safe repair
再重跑 audit 確認是否清乾淨

而且 repair 已不只限於 run lifecycle，還開始涵蓋：

verification report
task state
memory closeout

這表示它已經從「有流程」走到「有基本治理閉環」。

目前的成熟度怎麼看

比較準的描述是：

已經是 Beta Harness

因為現在它已具備：

多步 run 進場方式
verification / revise 節奏
human handoff control
observability
artifact schema validation
audit / repair / repair orchestration

但還不是 Product-Grade Platform

因為它仍缺：

更完整的 policy coverage
更產品化的 dashboard / batch UX
更成熟的語意修復能力
更完整的 control plane / adapter portability

所以最適合的定位是：

可以先穩定使用的 beta harness baseline

而不是一個要無止盡繼續擴功能的半成品。

現在最好的使用策略

截至目前，最合理的策略不是再無限擴 feature，而是：

先把這套 baseline 拿去跑真實任務
觀察實際 friction
只針對重複、結構性缺口補 patch
不為了 completeness 繼續堆規格

這也是為什麼目前已有一份 freeze note，建議把這個狀態先視為可收的 beta 基線。

適合記住的核心觀點

1. 模型能力不等於系統能力

一個會寫、會答的模型，不代表它已經是一個能穩定交付多步工作的系統。

2. 真正的可靠，不只來自 prompt

而來自：

workflow
state
verification
governance
repair

3. human handoff 不是例外，而是系統的一部分

當風險牽涉到 production、權限、外部影響時，真正好的系統不是偷偷做完，而是能在正確的時間停下來，把高品質決策材料交給人。

4. 治理不只是抓錯，也要能修

只有 audit 沒有 repair，系統還是會越用越髒。真正成熟的一步，是開始建立：

schema
validator
repair policy
remediation log
repair orchestration

一句話總結

agent-system-foundation 的本質，是把 AI 從聊天代理，逐步推向一個具備 workflow、run orchestration、verification、handoff、observability 與 artifact governance 的可治理工作系統；截至 2026-04-10，它已經到達值得先 freeze、先真實使用、再依摩擦演化的 beta harness 狀態。

#AI #AgentSystemFoundation #OpenClaw #Workflow #Orchestration #Verification #Observability #KnowledgeManagement #MultiAgent #Governance #Harness