最近兩年的新筆記本CPU都使用Intel Core Ultra系列,這個本子大多是輕薄本,好像是英特爾搞的什么AIPC的戰(zhàn)略,但是實際用下來,在很多場景下可能還不如上一代的CPU, 最難評的就是這個NPU的使用場景不明確,完全沒用。但是這個CPU的集成顯卡貌似比上一代提升很大,就嘗試一下這個GPU的速度。
ipex-llm 是英特爾團隊開發(fā)的一個本地大語言模型推理加速框架,主要用于 Intel GPU(集成顯卡)和 I 卡運行大語言模型,目前已經(jīng)支持大多數(shù)主流 AI 大模型。ipex-llm 專門針對 Ollama 優(yōu)化出了一個免安裝版本,直接下載就能用,而且上線了魔搭社區(qū),下載也超快,魔搭社區(qū)模型庫搜索關鍵詞:Ollama 英特爾優(yōu)化版。
Ollama 英特爾優(yōu)化版在如下設備上進行了驗證:
- Intel Core Ultra 處理器
- Intel Core 第 11 至第 14 代處理器
- Intel Arc A 系列 GPU
- Intel Arc B 系列 GPU
一通安裝,接下來就實測
直接ollama run --verbose deepseek-r1:14b,因為是集顯,所以顯存和內存是公用的,windows的策略應該是內存和共享顯存是1:1的,我這個本子32G內存,所以理論上有16G顯存,實際有15.8G,下圖是開始推理后的GPU占用情況,14b大概占用了12G的顯存
下圖是token情況,每秒7.x的token,體驗還可以,而且由上圖可見GPU跑滿了,CPU不高,比純CPU跑確實是快很多
?著作權歸作者所有,轉載或內容合作請聯(lián)系作者





暫無評論,快來評論吧!