Intel Core Ultra 如何使用GPU推理
番茄雞蛋少點蛋
發(fā)布于 云南 2025-03-31 · 2042瀏覽 1贊

最近兩年的新筆記本CPU都使用Intel Core Ultra系列,這個本子大多是輕薄本,好像是英特爾搞的什么AIPC的戰(zhàn)略,但是實際用下來,在很多場景下可能還不如上一代的CPU, 最難評的就是這個NPU的使用場景不明確,完全沒用。但是這個CPU的集成顯卡貌似比上一代提升很大,就嘗試一下這個GPU的速度。

ipex-llm 是英特爾團隊開發(fā)的一個本地大語言模型推理加速框架,主要用于 Intel GPU(集成顯卡)和 I 卡運行大語言模型,目前已經(jīng)支持大多數(shù)主流 AI 大模型。ipex-llm 專門針對 Ollama 優(yōu)化出了一個免安裝版本,直接下載就能用,而且上線了魔搭社區(qū),下載也超快,魔搭社區(qū)模型庫搜索關鍵詞:Ollama 英特爾優(yōu)化版。

Ollama 英特爾優(yōu)化版在如下設備上進行了驗證:

  • Intel Core Ultra 處理器
  • Intel Core 第 11 至第 14 代處理器
  • Intel Arc A 系列 GPU
  • Intel Arc B 系列 GPU

 一通安裝,接下來就實測

直接ollama run --verbose deepseek-r1:14b,因為是集顯,所以顯存和內存是公用的,windows的策略應該是內存和共享顯存是1:1的,我這個本子32G內存,所以理論上有16G顯存,實際有15.8G,下圖是開始推理后的GPU占用情況,14b大概占用了12G的顯存

下圖是token情況,每秒7.x的token,體驗還可以,而且由上圖可見GPU跑滿了,CPU不高,比純CPU跑確實是快很多

番茄雞蛋少點蛋
這人不懶,什么都沒留下~
瀏覽 2042
1
相關推薦
最新評論
贊過的人 1
評論加載中...

暫無評論,快來評論吧!