[剪報] Claude AI: skill & agent – harness engineering


看到曼尼這一篇介紹國外律師如何在實務上使用 Claude 的 skill & agent,正好又看到 Pei-Chi Lo 這一篇從程式碼的角度來談的 。

這一篇律師實務的,講得非常淺顯明白,從 Claude 桌面應用程式的三個功能—對話(Chat)、協作(Cowork)和程式碼(Code),以及如何透過 skill 來訓練不同功能的 agent,讓通用 AI 發揮最大效力,同時比起客製化但沒有彈性的法律 AI 服務,如何更敏捷而靈活的特性。

關於 AI 是否會取代人類?常說 AI 會取代部分的工作任務,而使人類的工作角色轉向——換句話說,當某些工作任務消失了,相對的,也會有新的工作任務產生,譬如確認和監管 AI 的道德與倫理,以及最終負起責任的仍會是執行的人或組織。在這篇文章裡,也不斷強調即便讓 AI 像自己所具備的專業來思考、能進行某程度低階工作的整理,最終下判斷和負責的,仍是律師本人。

而 AI 帶來的成本節省與整理時數上的突飛猛進,也會進一步衝擊產業的結構和個人所承擔工作的角色。


以下轉自 https://www.threads.com/@manny_li/post/DVSh9cgkmcg?xmt=AQF0PgtjlDuKVc6bUMDnyiMJ3xkoC6uliCeShmMlwHUlkQ

⋯ 2026 上半年的 AI 顯學,已經不是 2024-2025 年大家在討論的「prompt」了。如果焦點還只放在這,那麼可能過時了。如今的 AI 顯學叫做「skill」,因為 skill 是驅動一切的核心。

Skill 跟 prompt 不一樣的地方在於它是一個「可被系統化迭代更新」的東西。為什麼這東西如此重要?因為它帶出了下一個顯學:「agent」。

在我們達到 AGI 的時代以前,我們還是得先學會 delegation。delegation 的重點是「劃分」,而這個劃分關鍵就是 skill。例如,agent A 負責發想、agent B 負責撰寫、agent C 負責校驗。agent ​ 所以有別,主要還是因為掌握的 skill 不同。

當有了一個或多個 agent 以後,人類的角色便擢升為馴服者(harness),也就是另一個軟體工程領域的夯字:harness engineering。

Skill 的另一個迷人之處在於它就像《原神》須彌國度中的「封裝知識罐」,如果可被當作一個客體在迭代,那當然也可以當成交易、交換的資源。

目前我們正處於從「模型即服務(MaaS)」轉向「技能即服務(SaaS, Skill as a Service)」的階段。律師事務所賣的不只是律師的時間,而是他們訓練出的「法律邏輯 Agent Skill」,這讓法律服務能夠規模化且降價。

那麼,人類要幹嘛?人類要做「判斷」跟「負責」。判斷尤其重要,因為只要不是「純數位環境」,就有很多資訊無法被 AI 知曉,不論這些資訊是來自讀空氣、看臉色、觀察持有物品,還是直覺。

上面這些仍是「目前」的 AI 無法攻佔的最後一哩路。⋯

以上就是我讀完這篇文章後的收穫,以下是稍加潤飾過後的全文 AI 翻譯,相當推薦一讀。作者 Zack Shapiro 過去曾創過業,且公司還拿過 Founders Fund、Greycroft 的投資。如今他經營的律師事務所主打的就是「跟大型律所一樣的品質,但只要一半價格」。 ​

The Claude-Native Law Firm: How I Actually Practice Law with AI in 2026

by Zack Shapiro

幾個月前,在一個客戶的收購案即將交割的前一天晚上,買方律師寄來一封信,要求重組幾項關鍵的交易條款:新的代管(Escrow)條件、擴大賠償例外條款(Indemnification carve-outs)、修訂後的交割交付物清單。其隱含的威脅是:要嘛接受這些變動,要嘛我們就撤出交易。

當時是晚上 7 點。

我將收購協議、揭露清單(Disclosure schedules)和這封要求信上傳到了 Claude。幾分鐘內,Claude 就將每一項提議的變動與現有的交易條款進行了比對,並發現了買方律師顯然沒注意到的問題:他們提議的其中兩個例外條款,與他們已經在揭露清單中確認的陳述(Representations)直接矛盾;而第三個變動則會與基礎陳述章節產生內部衝突,實際上反而會削弱買方自己在交割後的保障。

隨著談判在當晚持續進行,電子郵件往返不斷,我將每一封溝通郵件都餵給 Claude。它追蹤了每一項提議的讓步如何與協議中的各項條款相互作用,標出接受某項變動會在另一章節產生風險的地方,並幫助我寫了一份回覆:在值得讓步的地方讓步,在關鍵的地方堅持立場。

到了晚上 11 點,我們已經有了一套清晰的反制立場,每一項都基於對買方自身文字的具體交叉引用。交易在隔天早上順利交割,條款讓我的客戶非常滿意。

一家中型律師事務所的三名初級律師(Associates)團隊可能需要工作到天亮才能產出那樣的分析。而我在不到兩個小時內就掌握了核心內容。


我經營著一家只有兩個人的精品律師事務所(Boutique law firm)。我們處理新創成立、風險投資交易和監管業務。我們與擁有數百甚至數千名律師的事務所競爭。 ​

按理說我們是不可能做到這些的。但過去一年讓我們明白了一件事:一家圍繞 AI 建立的小型事務所不僅能跟上大型競爭對手的步伐,而且速度更快、產出的工作成果更周全,並且能以 18 個月前根本不可能實現的成本結構運作。

市場上充滿了專門的法律 AI 產品:Harvey、Spellbook、CoCounsel、Luminance。它們都有一個共同的論點:律師需要專為法律工作打造的 AI。我評估過其中的大多數。對於小型事務所的執業者來說,一個配置良好的「通用型 AI」更好,而且差距不小。

那些專門產品只是在套殼(Wrappers)。他們的行銷話術聽起來很誘人:我們會根據事務所的規範手冊自定義 AI,用你的模板訓練它,圍繞你的訴狀庫或條款庫建立工作流程。有些產品確實做得不錯。但這種說法包含了一個對「價值究竟存在於何處」的根本誤解。

模板庫並非競爭優勢。 在你的執業領域中,每個稱職的事務所擁有的模板都大同小異。保密協議(NDA)、股權購買協議、聘僱意向書,這些都是標準化的。 ​

區分優秀律師與平庸律師的從來不是模板,而是律師如何「運用」模板:他們如何發現對方埋在第 14(c) 條中的陷阱,他們如何判斷哪場賠償爭端值得堅持、哪場該讓步,以及他們如何撰寫建議郵件讓客戶真正理解風險。

這就是判斷力。而判斷力並非存在於事務所的層面,而是存在於專業個人之中。


當法律 AI 公司談論根據事務所的規範手冊來自定義 AI 時,他們是在解決一個無關緊要的問題,卻忽略了真正重要的問題。真正的槓桿不在於 AI 從哪個模板開始,而在於指令(Instructions)——那些告訴 AI 如何思考工作的指令:尋找什麼、標記什麼、如何權衡相互衝突的考量、以什麼格式交付成果、對客戶使用什麼語氣。這正是 Claude 的「技能」(Skills)系統所擅長的。

我創建了自定義的指令文件,稱為「技能」,其中編碼了我的分析框架、偏好格式、語氣,以及我對特定類型法律工作應如何進行的判斷。

當我上傳一份合約進行審查時,Claude 不會套用通用的框架,它甚至不會套用我事務所的框架,它會自動套用「我在十年實務中發展出來的框架」。事務所規範手冊與個人律師編碼判斷力之間的差異,就像是給某人一份食譜與教會他們如何烹飪之間的差異。

還有一個更根本的問題,對於那些職業生涯都在 Microsoft Word 中度過的人來說,這點最重要:Claude 是一個經過深度優化、擅長編寫程式碼的前沿 AI 模型。

​每個讀到這篇文章的律師都曾在 Word 排版上浪費過好幾個小時:從另一個文件貼上內容時跑掉的分段編號、拒絕配合的樣式、在不同版本間損壞的修訂追蹤(Track changes)、過期的交叉引用、需要手動注意每個句點和逗號的藍皮書(Bluebook)引用格式。 ​

而 Claude 通過編寫軟體來解決軟體問題。當我要求 Claude 對一份合約進行修訂追蹤時,它不是使用插件或巨集。它是在 XML 層級打開 .docx 檔案,寫下 Microsoft Word 預期的精確標記,署上我的名字,並保留每一個排版細節。

當我要求它標準化訴狀中的引用格式時,它會編寫程式碼在幾秒鐘內解析並重新格式化每一個引用。結果與專家手動工作無異,但花費的時間只是零頭。 ​

這是任何專門的法律 AI 產品都無法企及的能力差距。它們提供的是一個談論文件的聊天機器人;而 Claude 是一個可以深入文件內部並改變它們的系統。這就像是一個只能告訴你合約哪裡有問題的初級律師,與一個還能修復它、排版它、產出紅線對照表(Redline)並草擬回覆郵件,且完全不需要你打開任何應用程式的初級律師之間的區別。 ​

通用型 AI 的進步速度超過任何垂直領域產品。當你使用前沿模型時,每一項新功能在第一天就會送達你手中;而當你使用套殼產品時,你得等待別人的工程團隊決定下一步要開發什麼。

我這裡描述的是我自己的交易實務,但這種架構並非特定於某種實務。訴訟律師可以建立用於證詞準備、請求(Motion)擬定、判例法綜合和證據開示(Discovery)審查的技能;稅務律師可以建立用於實體結構設計、法律意見書框架和監管監控的技能。方法是一樣的:使用強大的通用模型,教導它你的實務知識,讓它加乘你的判斷力。


Claude 的桌面應用程式有三種模式。學會何時使用每一種是成功的關鍵。 ​

對話(Chat)。我與 Claude 交談的方式就像與坐在桌子對面、反應敏捷且知識淵博的初級律師交談一樣。這是我分析法律問題、構思談判策略、初步了解合約條款或從零開始草擬文件的地方。我掌控著每一步。大多數使用過 ChatGPT 或類似工具的律師只體驗過這種模式。 ​

協作(Cowork)。我將 Claude 指向我電腦上的一個資料夾,給它一個任務,它就會去執行。它讀取文件、創建新文件、編輯現有文件,並自行決定如何從 A 點到達 B 點。當我有一份 40 頁的協議需要完整的修訂追蹤,或者有一堆交割文件需要根據條款清單(Term sheet)生成時,我就把它交給 Cowork 並讓它運作。這是大多數律師還沒嘗試過的模式,也是對他們實務影響最大的模式。 ​

程式碼(Code)。大多數律師每天不需要用到它。但我有一種情況讓我難以閱讀長文件,所以我利用 Code 建立了一個命令行工具,可以將法律文件轉換為語音音訊。它處理整個流程:解析 Word 文件和 PDF、將「第 4.2(b)(iii) 條」等法律格式轉換為自然語言、展開縮寫、分段文本、發送至 AI 語音 API,並組合成最終的音訊檔案。我現在在通勤時聽合約。 ​

Anthropic 發布了一份關於為 Claude 構建自定義「技能」的攻略:這些結構化的指令文件可以教導它在特定情境下如何表現。我沒有從頭到尾閱讀指南,而是將指南上傳給 Claude,並問了一個更好的問題:

「根據我們一起進行的數百次對話(涵蓋合約草擬、客戶郵件、文件編輯、法律研究和政策撰寫),哪些技能對我的實務影響最大?」 ​

Claude 分析了我們幾個月來的工作並識別出模式:哪些任務我重複次數最多、哪裡的摩擦力最大、哪裡的結構化自動化最能節省時間。它推薦的技能並非泛泛而談,而是針對我的實際工作方式。不是「更快地草擬合約」,而是「一個具有四種不同模式的合約審查技能(視背景而定)、嚴重程度評等、缺失條款清單、市場條款基準測試,以及在準備好標記文件時無縫銜接至修訂追蹤編輯技能。」 ​

我們花了一兩個小時完善細節。在預設設定不符合我偏好時,我予以修正。最後,我有六個可用於生產環境的技能,整合在 Cowork 桌面應用程式的一個插件中:合約審查、修訂追蹤編輯、合約草擬、客戶溝通、法律研究和政策撰寫。每一項都編碼了我多年累積的關於如何處理該類工作的專業判斷。 ​

這對事務所管理有個重要含義:技能是可轉移的。如果我有 50 名初級律師,我可以將它安裝在每台機器上。每位初級律師都會立即使用「我的」分析框架產出合約審查,以「我的」語氣草擬溝通郵件,並以「我」偏好的格式應用修訂追蹤。 ​

需要多年指導才能傳遞的知識,現在變成了一個從初稿開始就有效運作的指令文件。產出仍需律師審核,但審核是從一個高得多的基準點開始的。


​為了讓大家有具體的感受,以下是三個來自真實工作的例子。

第一,無需打開 Word 的修訂追蹤。 交易對手寄回一份帶有紅線的協議。我將文件上傳給 Claude 並說:「幫我從客戶的角度評估對方的修改。」我的合約審查技能隨即觸發。Claude 按嚴重程度整理每項變動,標出對方轉移風險的地方,識別修改條款之間的衝突,檢查應有但缺失的標準條款,並產出摘要,針對每個問題提供具體的反制方案。 ​

Claude 在標記中發現了一個模式,根據經驗,我知道那個模式通常預示著什麼。Claude 為一個有爭議的條款生成了三種替代方案。我選擇了其中一個考慮到 AI 無法獲知的關係動態和交易背景的方案。

​一旦我做出決定,我叫 Claude 應用編輯。這就是第一次看到時會讓人驚掉下巴的部分:Claude 在 XML 層級打開 Word 文件,應用署名為我的修訂追蹤,保留所有排版細節,產出一份對手律師可以用 Microsoft Word 正常開啟審閱的 .docx 檔案。 ​

我不開 Word,也不開 Litera(法律比對軟體),Claude 產出了紅線版。我審核每一項變動,然後發送。接著客戶溝通技能以合適的語氣草擬好說明郵件。從收到標記到準備好回覆包裹的總時間:不到一小時,其中約 30 分鐘是我自己的思考。 ​


​第二,沒有「幻覺」的研究。 客戶需要了解新產品的監管格局。問題涉及多個機構和重疊的法定框架。我的研究技能指示 Claude 同時在所有相關角度展開平行研究,而不是按順序處理:證券分析、州政府許可要求、銀行法規、消費者保護影響。它針對每個子主題進行多次搜索,交叉引用來源,並將主要授權(法律、法規、機構指引、判例法)排在次要評論之前。 ​

在交付任何內容給我之前,該技能要求 Claude 進行自我審核。這是至關重要的,也是大多數人跳過的部分。Claude 必須核實每一條引用的權威是否真的如備忘錄所稱。對於置信度低於「高」的內容,它必須標記出來。它必須檢查各章節間的內部矛盾。而且它必須特別防範虛假引用(Hallucinated citations)——那個讓幾位律師受到制裁並登上全國新聞的問題。 ​

那些提交 AI 生成假引用的律師使用的是沒有這種驗證層的工具。問題從來不是 AI 本身,而是沒有品質管控的 AI。產出是一份結構化的研究備忘錄,包含核心結論先行(Bottom-line-up-front)的摘要、具體的法律條文引用和實務建議,這通常需要一名初級律師花費數天時間。 ​

Claude 在不到一小時內交付初稿。然後我核對每一處引用,對分析進行壓力測試,並在我的判斷與產出不符之處進行修改。總時間仍然只是從零開始的一小部分。


第三是即時合約解釋。 一位客戶在上午來電,說他們剛收到交易對手的要求信,聲稱違反了商業服務協議並威脅要終止合約。客戶有 48 小時的回覆時間。我上傳了協議、要求信以及客戶過去三個月與對方的往來信件。Claude 將要求信中的每一項事實指控與引用的具體合約條款進行比對,發現四項指控的違約中,有兩項涉及的義務已被對手律師自己起草的補充協議明確修改了。 ​

那封要求信顯然是在沒檢查自己修訂的情況下寫成的。在我準備回覆時,我將草擬的每一段都跑一遍 Claude,壓力測試我的論點是否對協議中的其他條款產生了意外影響。它抓到了一個:我打算在服務水準指標(SLM)上提出的一個辯護,可能會被解讀為在第 7 條的付款爭議中做出了讓步。我重寫了回覆。這種在主動草擬時進行即時的、逐條的壓力測試,以前需要第二個律師來審核你的工作,現在在同一個對話中就能完成。


每位律師都會問權限跟安全性的問題。簡短的回答是:讓你使用雲端儲存、電子開示(e-discovery)平台和線上法律研究資料庫的同一套框架也適用於此。律師公會(ABA)的指引和各州律師協會的倫理意見將 AI 工具視為受代理人/工具例外條款涵蓋的第三方技術供應商。你的義務是採取合理努力保護客戶數據,這在實務上意味著:關閉對你輸入內容的模型訓練、了解供應商的數據處理實務,並記錄你的理由。

Anthropic 提供「零數據保留」的 API 選項和商業數據處理協議,確保您的客戶數據不會被用於訓練模型,且輸入內容不會在對話結束後存留。這與您將客戶文件放入 Dropbox、Google Drive 或 Clio 之前所做的盡職調查是一樣的。

我更進一步,讓 Claude 幫我草擬了聘案合約(Engagement letters)中的 AI 使用條款。該條款將 AI 定義為效率和品質的增強工具,強調律師監督,將數據處理與現有的保密義務掛鉤,並取得客戶同意。客戶簽署時毫不猶豫。他們大多數人都假設我已經在使用 AI 了,事實也確實如此。 ​

現在大多數司法管轄區的倫理規則都要求具備「技術勝任能力」。我們正接近這樣一個時點:不使用這些工具反而更難在專業責任立場上辯護。


​大多數嘗試 AI 的律師寫的是「審查這份合約」,然後得到一些平庸的結果,接著他們斷定 AI 對法律工作沒用。問題不在於 AI,而在於輸入。試著比較「審查這份合約」與底下這段: ​

「從供應商的角度審查這份服務協議。標記出客戶將風險轉移至超出此類交易市場常態的條款。檢查缺失的應有條款,包括責任限制、智慧財產權歸屬、數據處理和便利終止權。產出一份帶有嚴重程度評等的摘要,並針對每個高嚴重性問題提供具體的反制語言。注意供應商的談判籌碼有限且希望達成交易,因此建議應側重於值得爭取的條款,而非可以優雅讓步的條款。」 ​

第二個版本產出的工作成果在第一遍就很有用。第一個版本產出的內容即使有用,也需要大量修改。「AI 是玩具」與「AI 改變了我的實務」之間的差距,就在於指令的品質。 這就是為什麼技能很重要:它們將那種詳細程度編碼起來,讓您寫一次就能每次生效。

這一切引發了幾件值得點出的變化:

第一是人力配置。我經營一家兩人的事務所,卻處理著大型事務所的工作量。這是 AI 的直接結果。傳統上支撐聘僱初級律師的工作——第一遍文件審查、研究備忘錄、初始草案、紅線摘要、常規往來信件——現在都在我的監督下由 Claude 處理。 ​

明確地說:離開我事務所的每一份文件都經過執業律師的審閱、修改和批准。AI 產出初稿,我產出最終成果。初級律師並未過時,但聘僱他們的合理門檻已經不同了,而且你需要他們做的事情也改變了:判斷力、客戶關係和 AI 產出監督,而不是 2,000 小時的文件製作。

​第二是計費。AI 改變了價值的方程式。對於某些任務,節省的時間顯而易見,我將其回饋給客戶。對於其他任務,同樣的小時數產出了比以前更深刻的分析、更全面的問題發現和更高品質的草擬。 ​

重點不在於每項任務花費的時間更少,而在於律師的每一小時都產生了更多價值。我的事務所除了傳統的小時制計費,還提供訂閱制。訂閱制客戶以固定的月費獲得持續的諮詢、合約審查、合規監控和常規治理。 ​

不跳表計費。AI 讓這種模式可行,因為我可以在可預測的費用結構內提供更全面的服務。客戶喜歡這樣:他們不再害怕拿起電話或發送郵件,而我的收入也變得可以預測。

​第三是判斷力。研究普遍都指出:在 AI 勝任範圍之外使用它的人,或是不經質疑就信任產出的人,表現比完全不使用 AI 的人還要差。將贏得這場技術變革的律師在根本層面上明白:AI 沒有在執業,是你。 ​

AI 讓你更快、更周全、更一致。但判斷力——決定為何而戰、為何而讓步、讀懂字裡行間的意思、在模稜兩可時做出決定並以名譽擔保——那是你的。資深律師在這個新世界擁有巨大優勢,但大多數人還沒意識到。如果你花了 10 年或 20 年在你的專業領域發展判斷力,你正坐擁 AI 讓其變得「更」有價值(而非更廉價)的資產。



發表留言