成人av系列在线观看,91香蕉精品国产亚洲,欧美色图欧美色

推薦閱讀：《真正的AI智能體即將到來：告別死板提示詞，迎接自主規(guī)劃時代！》

發(fā)布于云南 2025-02-19 · 1818瀏覽

最近到處都在討論「智能體」（Agents），但最重要的一次智能體突破卻幾乎無人察覺。

2025年1月，OpenAI發(fā)布了名為 DeepResearch 的O3模型變種，專門用于網頁和文檔搜索。得益于在瀏覽任務上的強化學習訓練，DeepResearch具備了制定搜索策略、交叉核對信息源、甚至利用反饋獲得深層次知識的能力。無獨有偶，Anthropic的Claude Sonnet 3.7也成功地將同樣的強化學習方法應用于代碼領域，在復雜的編程任務中展現(xiàn)出超越以往所有模型編排系統(tǒng)的能力。

正如William Brown在演講中所說的：「LLM智能體能夠完成長時間、多步驟的任務了。」

這一進展促使我們重新思考：什么才是真正的LLM智能體？去年12月，Anthropic提出了一個全新的定義：「LLM智能體能動態(tài)地決定自己的執(zhí)行流程和工具使用方式，并自主控制任務的完成過程。」

與之相對，目前更為普遍的所謂智能體實際上都是工作流系統(tǒng)（workflows），也就是通過預設的代碼和規(guī)則來協(xié)調LLM和工具的系統(tǒng)。例如最近備受關注的Manus AI，經過我的親自測試后發(fā)現(xiàn)，它其實仍存在明顯缺陷，這些缺陷早在AutoGPT時代就已經很明顯了，特別是在搜索方面表現(xiàn)更差：

- 不能有效制定計劃，經常中途卡殼；

- 不能記憶內容，無法處理超過5-10分鐘的任務；

- 無法長期有效執(zhí)行任務，容易因連續(xù)的小錯誤最終徹底失敗。

因此，這篇文章提出一個更嚴謹的「LLM智能體」定義，試圖結合有限的官方信息、開放研究進展以及我個人的一些推測，解釋智能體究竟是什么、它們將如何改變世界。

---

LLM智能體的「苦澀教訓」

傳統(tǒng)的智能體與基礎大語言模型（base LLM）完全不同。

在經典的強化學習中，智能體生活在有限制的環(huán)境里，就像在迷宮里行走。智能體的每個動作都有物理或規(guī)則上的約束。隨著訓練，它們會逐漸記住路徑、總結經驗，并探索最佳策略。這一過程被稱為「搜索」（search），類似于我們日常使用搜索引擎的點擊行為。去年曾經熱議的OpenAI Q-star算法，據傳就是從1968年著名的搜索算法A-star衍生出來的。

然而，大語言模型（LLM）的基礎邏輯恰恰相反：

- 智能體能記住環(huán)境，但基礎LLM不能，它們只能處理當前窗口內的信息；

- 智能體受現(xiàn)實條件限制，但基礎LLM生成的是概率最高的文本，隨時可能「跑題」；

- 智能體能規(guī)劃長期策略，基礎LLM卻只能做好單步推理，面對多步推理任務很快就會「超載」。

目前，大部分「LLM智能體」的做法都是利用預定義的提示詞（prompt）和規(guī)則來引導模型。然而，這種方法注定要遇到「苦澀教訓」（Bitter Lesson）。所謂苦澀教訓是指，人們經常傾向于將自己的知識硬編碼進系統(tǒng)中，短期內效果很好，但長期卻嚴重限制了系統(tǒng)的發(fā)展。真正的突破總是來自搜索與學習能力的提升，而非人為規(guī)則的增加。

這就是為什么類似Manus AI這類工作流系統(tǒng)無法順利地訂機票或教你徒手打虎——它們本質上是被苦澀教訓咬了一口。靠提示詞和規(guī)則無法持續(xù)擴展，你必須從根本上設計能夠真正搜索、規(guī)劃、行動的系統(tǒng)。

---

RL+推理：LLM智能體的制勝秘訣

真正的LLM智能體，應該長什么樣呢？官方信息雖然少，但從現(xiàn)有的研究中可以歸納出一些共同特征：

1. 強化學習（RL）

LLM智能體采用強化學習進行訓練，類似傳統(tǒng)的游戲智能體：定義一個目標（獎勵），再訓練模型通過反復嘗試獲得這個獎勵。

2. 草稿模式（Drafts）

模型并非逐字逐句進行訓練，而是一次生成一整段文字（draft），再整體進行評估和反饋，從而加強模型的推理能力。

3. 結構化輸出（rubric）

模型的輸出被限定成明確的結構，以便于快速、準確地進行獎勵驗證。

4. 多步訓練（如DeepSeek提出的GRPO算法）

模型不是單步訓練，而是連續(xù)多步訓練。例如搜索任務中，模型會不斷調整策略、回溯、重新搜索等，逐步提高效率。

上述過程能在不耗費過多計算資源的情況下實現(xiàn)，從而逐漸走向大眾化，這將成為未來LLM智能體爆發(fā)的基礎。

---

等等，這東西能規(guī)?；瘑?？

然而，要真正實現(xiàn)像DeepResearch這樣的搜索智能體，還有一個大問題：我們根本沒有足夠的訓練數據！

過去搜索模型往往只能靠歷史數據，而現(xiàn)有的公開數據集中，幾乎找不到真正體現(xiàn)用戶規(guī)劃和搜索行為的數據（如點擊軌跡）。類似谷歌用戶搜索歷史這種數據，幾乎只能從大公司獲得，但這些數據幾乎是不對外開放的。

目前能想到的解決方案是：用模擬方式創(chuàng)造數據。我們可以把互聯(lián)網內容包裝成一個虛擬的「網絡模擬器」，讓模型在里面反復嘗試搜索目標，不斷優(yōu)化搜索路徑。這種訓練過程耗費巨大，但可以通過技術優(yōu)化來減輕負擔。

我推測OpenAI和Anthropic這樣的公司，可能就是用類似方法在訓練DeepResearch這樣的模型：

- 創(chuàng)建虛擬的網絡環(huán)境，訓練模型自由地進行搜索；

- 先用輕量的監(jiān)督微調（SFT）進行預熱；

- 再用強化學習多步訓練，不斷提高搜索策略；

- 最后再訓練模型更好地整理輸出結果。

---

真正的LLM智能體，根本不需要「提示」

當真正的LLM智能體出現(xiàn)之后，它會和現(xiàn)在基于提示詞和規(guī)則的系統(tǒng)完全不同。回到Anthropic的定義：

> LLM智能體動態(tài)地決定自己的流程和工具用法，完全自主。

以搜索任務為例：

- 模型自動分析用戶需求，如果不明確，會主動詢問；

- 模型自主選擇最佳的信息源或API接口；

- 模型會自己規(guī)劃搜索路徑，能在走錯路時主動調整；

- 所有過程都有記錄，提升了可解釋性和信任度。

LLM智能體可以直接操縱現(xiàn)有的搜索基礎設施，用戶再也不用特意學習如何使用「提示詞」了。

這種方法同樣可以延伸到金融、網絡運維等多個領域：未來，一個真正的智能體不再是個花哨的AI助手，而是一個懂你需求、主動幫你完成任務的真正代理。

---

2025：智能體元年？

目前，只有少數幾家大公司有能力開發(fā)出真正的LLM智能體。雖然短期內這樣的技術可能仍集中在巨頭手里，但長遠來看，這種局面必須被打破。

我不喜歡過度炒作新技術，但LLM智能體的爆發(fā)力不容忽視。2025年會是智能體真正崛起的一年嗎？答案還要看我們如何行動。

讓我們拭目以待！

?著作權歸作者所有,轉載或內容合作請聯(lián)系作者

chenxiaoyun

半自動人工智障點贊機

国內一级黄色视频|少妇91导航日韩第一页久久|黄色三A视频色爽网站|亚洲精品 无码一区二区在直播间|成人高清国产无码|aaa成人免费视频|国产一级一片免费播放放a|我要看免费的毛片|动漫a片免费观看|日韩欧美国产视频

国內一级黄色视频|少妇91导航日韩第一页久久|黄色三A视频色爽网站|亚洲精品无码一区二区在直播间|成人高清国产无码|aaa成人免费视频|国产一级一片免费播放放a|我要看免费的毛片|动漫a片免费观看|日韩欧美国产视频