推薦閱讀:《真正的AI智能體即將到來:告別死板提示詞,迎接自主規(guī)劃時代!》
chenxiaoyun
發(fā)布于 云南 2025-02-19 · 1818瀏覽


最近到處都在討論「智能體」(Agents),但最重要的一次智能體突破卻幾乎無人察覺。

2025年1月,OpenAI發(fā)布了名為 DeepResearch 的O3模型變種,專門用于網頁和文檔搜索。得益于在瀏覽任務上的強化學習訓練,DeepResearch具備了制定搜索策略、交叉核對信息源、甚至利用反饋獲得深層次知識的能力。無獨有偶,Anthropic的Claude Sonnet 3.7也成功地將同樣的強化學習方法應用于代碼領域,在復雜的編程任務中展現(xiàn)出超越以往所有模型編排系統(tǒng)的能力。

正如William Brown在演講中所說的:「LLM智能體能夠完成長時間、多步驟的任務了。」

這一進展促使我們重新思考:什么才是真正的LLM智能體?去年12月,Anthropic提出了一個全新的定義:「LLM智能體能動態(tài)地決定自己的執(zhí)行流程和工具使用方式,并自主控制任務的完成過程。」

與之相對,目前更為普遍的所謂智能體實際上都是工作流系統(tǒng)(workflows),也就是通過預設的代碼和規(guī)則來協(xié)調LLM和工具的系統(tǒng)。例如最近備受關注的Manus AI,經過我的親自測試后發(fā)現(xiàn),它其實仍存在明顯缺陷,這些缺陷早在AutoGPT時代就已經很明顯了,特別是在搜索方面表現(xiàn)更差:

- 不能有效制定計劃,經常中途卡殼;
- 不能記憶內容,無法處理超過5-10分鐘的任務;
- 無法長期有效執(zhí)行任務,容易因連續(xù)的小錯誤最終徹底失敗。

因此,這篇文章提出一個更嚴謹的「LLM智能體」定義,試圖結合有限的官方信息、開放研究進展以及我個人的一些推測,解釋智能體究竟是什么、它們將如何改變世界。

---

LLM智能體的「苦澀教訓」

傳統(tǒng)的智能體與基礎大語言模型(base LLM)完全不同。

在經典的強化學習中,智能體生活在有限制的環(huán)境里,就像在迷宮里行走。智能體的每個動作都有物理或規(guī)則上的約束。隨著訓練,它們會逐漸記住路徑、總結經驗,并探索最佳策略。這一過程被稱為「搜索」(search),類似于我們日常使用搜索引擎的點擊行為。去年曾經熱議的OpenAI Q-star算法,據傳就是從1968年著名的搜索算法A-star衍生出來的。

然而,大語言模型(LLM)的基礎邏輯恰恰相反:

- 智能體能記住環(huán)境,但基礎LLM不能,它們只能處理當前窗口內的信息;
- 智能體受現(xiàn)實條件限制,但基礎LLM生成的是概率最高的文本,隨時可能「跑題」;
- 智能體能規(guī)劃長期策略,基礎LLM卻只能做好單步推理,面對多步推理任務很快就會「超載」。

目前,大部分「LLM智能體」的做法都是利用預定義的提示詞(prompt)和規(guī)則來引導模型。然而,這種方法注定要遇到「苦澀教訓」(Bitter Lesson)。所謂苦澀教訓是指,人們經常傾向于將自己的知識硬編碼進系統(tǒng)中,短期內效果很好,但長期卻嚴重限制了系統(tǒng)的發(fā)展。真正的突破總是來自搜索與學習能力的提升,而非人為規(guī)則的增加。

這就是為什么類似Manus AI這類工作流系統(tǒng)無法順利地訂機票或教你徒手打虎——它們本質上是被苦澀教訓咬了一口。靠提示詞和規(guī)則無法持續(xù)擴展,你必須從根本上設計能夠真正搜索、規(guī)劃、行動的系統(tǒng)。

---

RL+推理:LLM智能體的制勝秘訣

真正的LLM智能體,應該長什么樣呢?官方信息雖然少,但從現(xiàn)有的研究中可以歸納出一些共同特征:

1. 強化學習(RL)
LLM智能體采用強化學習進行訓練,類似傳統(tǒng)的游戲智能體:定義一個目標(獎勵),再訓練模型通過反復嘗試獲得這個獎勵。

2. 草稿模式(Drafts)
模型并非逐字逐句進行訓練,而是一次生成一整段文字(draft),再整體進行評估和反饋,從而加強模型的推理能力。

3. 結構化輸出(rubric)
模型的輸出被限定成明確的結構,以便于快速、準確地進行獎勵驗證。

4. 多步訓練(如DeepSeek提出的GRPO算法)
模型不是單步訓練,而是連續(xù)多步訓練。例如搜索任務中,模型會不斷調整策略、回溯、重新搜索等,逐步提高效率。

上述過程能在不耗費過多計算資源的情況下實現(xiàn),從而逐漸走向大眾化,這將成為未來LLM智能體爆發(fā)的基礎。

---

等等,這東西能規(guī)?;瘑??

然而,要真正實現(xiàn)像DeepResearch這樣的搜索智能體,還有一個大問題:我們根本沒有足夠的訓練數據!

過去搜索模型往往只能靠歷史數據,而現(xiàn)有的公開數據集中,幾乎找不到真正體現(xiàn)用戶規(guī)劃和搜索行為的數據(如點擊軌跡)。類似谷歌用戶搜索歷史這種數據,幾乎只能從大公司獲得,但這些數據幾乎是不對外開放的。

目前能想到的解決方案是:用模擬方式創(chuàng)造數據。我們可以把互聯(lián)網內容包裝成一個虛擬的「網絡模擬器」,讓模型在里面反復嘗試搜索目標,不斷優(yōu)化搜索路徑。這種訓練過程耗費巨大,但可以通過技術優(yōu)化來減輕負擔。

我推測OpenAI和Anthropic這樣的公司,可能就是用類似方法在訓練DeepResearch這樣的模型:

- 創(chuàng)建虛擬的網絡環(huán)境,訓練模型自由地進行搜索;
- 先用輕量的監(jiān)督微調(SFT)進行預熱;
- 再用強化學習多步訓練,不斷提高搜索策略;
- 最后再訓練模型更好地整理輸出結果。

---

真正的LLM智能體,根本不需要「提示」

當真正的LLM智能體出現(xiàn)之后,它會和現(xiàn)在基于提示詞和規(guī)則的系統(tǒng)完全不同。回到Anthropic的定義:

> LLM智能體動態(tài)地決定自己的流程和工具用法,完全自主。

以搜索任務為例:

- 模型自動分析用戶需求,如果不明確,會主動詢問;
- 模型自主選擇最佳的信息源或API接口;
- 模型會自己規(guī)劃搜索路徑,能在走錯路時主動調整;
- 所有過程都有記錄,提升了可解釋性和信任度。

LLM智能體可以直接操縱現(xiàn)有的搜索基礎設施,用戶再也不用特意學習如何使用「提示詞」了。

這種方法同樣可以延伸到金融、網絡運維等多個領域:未來,一個真正的智能體不再是個花哨的AI助手,而是一個懂你需求、主動幫你完成任務的真正代理。

---

2025:智能體元年?

目前,只有少數幾家大公司有能力開發(fā)出真正的LLM智能體。雖然短期內這樣的技術可能仍集中在巨頭手里,但長遠來看,這種局面必須被打破。

我不喜歡過度炒作新技術,但LLM智能體的爆發(fā)力不容忽視。2025年會是智能體真正崛起的一年嗎?答案還要看我們如何行動。

讓我們拭目以待!
chenxiaoyun
半自動人工智障點贊機
瀏覽 1818
相關推薦
最新評論
贊過的人
評論加載中...

暫無評論,快來評論吧!