想自己跑 LLM？搞懂模型參數與量化讓你不再選錯模型

前言

如果你有試過想把 AI 模型下載回自己的電腦跑，應該都會遇到一個問題：打開 Hugging Face 看到什麼 7B、Q4_K_M、GGUF 一堆看不懂的代號，根本不知道哪個才適合自己的電腦。這篇就來聊聊這些代號到底是什麼意思，以及該怎麼根據自己的硬體來挑模型。

Note
如果你還不知道怎麼在本地跑模型，可以先去看架設自己的 AI 語言模型實驗室不求人之 LM Studio，裡面有從安裝到使用的完整教學。

模型後面的 B 是什麼意思？

你在瀏覽模型的時候，應該常常會看到模型名稱後面跟著一個數字加上 B，像是 4B、7B、70B 這樣。這個 B 就是 Billion（十億）的意思，代表這個模型有多少個參數（Parameters）。

那什麼是參數呢？簡單來講，參數就是模型在訓練過程中從大量資料裡面學到的數值。如果用比較生活面的例子來講的話，你可以把參數想像成一個人讀過的書，一個讀過幾千本書的人跟一個讀過幾萬本書的人，後者能回答的問題肯定比較多對吧？模型的參數量也是類似的概念，7B 就是 70 億個參數，70B 就是 700 億個參數，參數越多代表它學到的東西越多。

之前在架設自己的 AI 語言模型實驗室不求人之 LM Studio 裡面有稍微提到過 B、M、T 這些代號，這篇會更深入地聊一下參數量跟實際使用之間的關係。

參數越大越好嗎？

你可能會想說：「那我直接挑參數最大的不就好了？」

可是事情沒有這麼簡單。參數量越大，它需要的硬體資源也越多，簡單來講就是你的電腦要夠力才跑得動。而且參數大不一定代表比較聰明，一個訓練得很好的 14B 模型，表現是有可能超過一個訓練品質普通的 70B 模型的，所以參數量只是其中一個參考指標。

那大概什麼等級的參數量適合什麼任務呢？這邊整理一下：

參數量	等級	適合的任務
1B - 3B	輕量級	簡單對話、摘要、翻譯，手機 or 低階設備也能跑
4B - 9B	入門級	寫程式輔助、問答、一般聊天，大多數人的起點
13B - 14B	中階	推理能力明顯提升，能處理比較複雜的問題
27B - 32B	進階	多步驟推理、專業領域問答
70B 以上	高階	接近雲端服務的品質，硬體門檻很高

從這張表可以看出來，對大多數人來講 4B - 9B 就已經很夠用了，不需要一開始就衝到 70B。

那我的電腦跑得動嗎？

知道參數量之後，接下來最實際的問題就是：到底要多少記憶體才夠？

這邊有一個很簡單的計算方式：在沒有壓縮的情況下，每 10 億個參數大約吃 2 GB 的記憶體。所以一個 7B 的模型就要 14 GB 左右，70B 的話就是 140 GB。

看到 140 GB 你可能已經開始冒冷汗了對吧？「我的電腦才 16 GB 記憶體，那不就只能跑最小的模型？」

先別急，這就是為什麼有量化這個技術的原因，後面會詳細聊。在那之前，我們先來看看模型名稱裡面還有哪些東西需要認識。

看懂模型名稱的每一個部分

假設你今天在 Hugging Face 上面看到這個模型：

1	`bartowski/Meta-Llama-3.1-8B-Instruct-GGUF`

乍看之下好像很複雜，可是其實拆開來每一段都有它的意思：

部分	意義
bartowski	上傳者（這位是社群中很知名的量化貢獻者）
Meta	模型的開發公司（Meta AI）
Llama	模型家族名稱
3.1	版本號
8B	80 億個參數
Instruct	經過指令微調，能聽懂你下的指令
GGUF	檔案格式（給本地跑模型用的）

所以其實這串名稱就是在告訴你：這是一個由 bartowski 這個人幫忙轉檔的 Meta Llama 3.1 模型，8B 參數，經過指令微調，用 GGUF 格式存的。

Instruct、Base、Chat 這些標記是什麼？

在模型名稱裡面常常會看到一些標記，這些代表模型經過什麼樣的訓練。這邊挑幾個最常見的：

Base：原始的模型，就像一個讀了很多書可是還沒學會怎麼跟人對話的學生，不太適合直接拿來聊天
Instruct / IT：經過指令微調的版本，能聽懂你的指令然後給出對應的回覆。一般人要選這個
Chat：針對多輪對話優化過的版本
Coder：專門強化了寫程式的能力
Distill：從大模型蒸餾出來的小版本，保留大部分能力可是體積更小

以我自己來講，如果你只是想在本地聊天 or 請 AI 幫忙處理一些日常問題，看到 Instruct 選它就對了。

Note
之前在 LM Studio 那篇有提到 Distill 跟 Instruct 的基本概念，有興趣的可以回去翻一下。

MoE 是什麼？看到 A22B 不要怕

最近越來越多模型會出現 MoE 這個標記，像是：

1	`Qwen3-235B-A22B (MoE)`

看到 235B 你可能會想說：「2350 億個參數？我的電腦絕對跑不動吧？」

可是先等一下，注意後面還有一個 A22B。MoE 全名是 Mixture of Experts，什麼意思呢？簡單來講，這個模型裡面有很多個專家，可是每次回答問題的時候不會所有專家都出動，只會挑幾個相關的來處理。

所以 235B 是模型裡面所有專家加起來的總參數量（2350 億），而 A22B 是每次實際上只會啟用的參數量（Active 22B，也就是 220 億）。換句話說，雖然這個模型的知識量有 2350 億參數的水準，可是跑起來只需要 220 億參數等級的硬體資源。

這也是為什麼 MoE 現在越來越流行，它讓原本只有大公司才跑得動的巨型模型，一般人的電腦也有機會跑了。

Note
不過要注意的是，MoE 模型在硬碟空間上還是需要存下所有參數，所以檔案大小不會因為只啟用部分專家就變小。主要省的是跑起來時的記憶體跟運算量。

量化是什麼？讓你的電腦也跑得動大模型

前面有提到一個 7B 模型在沒壓縮的情況下就要 14 GB 記憶體，對一般人來說還是太大了。這時候就要靠量化（Quantization）來幫忙。

那量化是什麼呢？你可以想像成照片的畫質。一張 5000 萬畫素的照片雖然最清楚，可是檔案超大。如果你把它壓縮成 1200 萬畫素，放在手機上看其實幾乎看不出差異，可是檔案小了非常多。量化做的事情就跟這個很像，它把模型裡面每個參數的精度降低，讓檔案變小、記憶體用量也跟著變少。

Q4、Q8 這些數字是什麼？

你在下載模型的時候會看到 Q4_K_M、Q8_0 這些代號，前面的數字代表量化的精度，數字越小代表壓縮越多、檔案越小，可是品質也會有一些損失。

以一個 7B 模型來舉例的話：

量化等級	7B 模型大約大小	品質影響
FP16（沒壓縮）	約 14 GB	沒有損失
Q8_0（8-bit）	約 7 GB	幾乎感覺不到
Q5_K_M（5-bit）	約 4.8 GB	非常輕微
Q4_K_M（4-bit）	約 3.8 GB	輕微影響，大多數人的選擇
Q3_K_M（3-bit）	約 3 GB	開始有明顯差異
Q2_K（2-bit）	約 2.5 GB	明顯劣化，不推薦

從表格可以看到，同樣一個 7B 模型，從原本的 14 GB 壓縮到 Q4_K_M 之後只需要 3.8 GB 左右，這樣 8 GB 記憶體的電腦也跑得動了。而且 Q4 等級的品質損失其實滿小的，一般聊天幾乎感覺不出差異。

那 K_S、K_M、K_L 又是什麼？

量化代號後面常常還會接 K_S、K_M、K_L 這些後綴，這代表壓縮策略的不同：

K_L（Large）：保留最多細節，檔案最大
K_M（Medium）：平衡取向，最常被推薦的版本
K_S（Small）：壓縮最多，檔案最小，速度最快

這邊的 K 是指 K-Quants，它是一種比較聰明的壓縮方式。它不是一刀切把所有東西都壓到同樣的精度，而是會去判斷哪些參數比較重要就保留高一點的精度，不那麼重要的才壓低，所以整體品質會比單純壓縮好很多。

以我自己來講，大多數情況下選 Q4_K_M 就是一個很好的起點。

GGUF、GPTQ、AWQ 這些格式怎麼選？

除了量化等級之外，你還會看到不同的檔案格式，這邊介紹三個最常見的。

GGUF 是目前本地跑模型最主流的格式，Ollama、LM Studio、llama.cpp 都是用它。最大的好處是 CPU 跟 GPU 都能跑，不挑硬體。對一般人來說選 GGUF 就對了。

GPTQ 跟 AWQ 都是給 NVIDIA GPU 專用的格式，品質保留得不錯，可是一定要有 NVIDIA 顯卡才能用。如果你沒有 NVIDIA 顯卡，這兩個格式就不用考慮了。

所以如果你不確定該選什麼，記住一個組合就好：GGUF + Q4_K_M，這個適用於大多數人的情境。

根據硬體來挑模型

了解了前面這些概念之後，接下來就是最實際的問題：根據我手上的硬體，我該下載什麼模型？

8 GB 記憶體（沒有獨立顯卡）

這個等級能跑的模型有限，可是還是可以玩的。建議挑 3B - 4B 的模型搭配 Q4_K_M 量化，像是 Phi-4 Mini（3.8B）or Llama 3.2-3B，檔案大約 2 - 3 GB。簡單的聊天跟摘要沒問題，可是推論速度會比較慢。

16 GB 記憶體 or 8 GB VRAM 顯卡

這是目前大多數人的甜蜜點。可以跑 7B - 8B 的模型搭配 Q4_K_M，像是 Llama 3.1-8B or Qwen 2.5-7B，檔案大約 4 - 6 GB。寫程式輔助、問答、翻譯都表現不錯。

32 GB 記憶體 or 16 - 24 GB VRAM 顯卡

如果你有 RTX 4090（24 GB VRAM）or 32 GB 以上的記憶體，選擇就多很多了。30B 等級的模型可以用 Q5_K_M 甚至 Q6_K，70B 的話就需要壓到 Q4_K_M。品質已經接近雲端服務的水準了。

Apple Silicon Mac 使用者

如果你是用 Mac 的話，這邊有個好消息。Apple Silicon 有一個叫做統一記憶體（Unified Memory）的架構，簡單來講就是系統記憶體可以直接當 GPU 記憶體用，這在跑 LLM 上是一個非常大的優勢。

舉個例子，一台 36 GB 的 MacBook Pro 可以跑 30B 等級的模型（Q4 - Q8），而同價位的 Windows 筆電因為系統記憶體跟顯卡記憶體是分開的，純用 CPU 跑的速度會慢非常多。

Mac 配置	記憶體	能跑的模型
M 系列基本款	8 - 16 GB	3B - 7B（Q4）
M 系列 Pro	18 - 36 GB	13B - 30B（Q4 - Q8）
M 系列 Max	64 - 96 GB	70B（Q4）or 30B（接近無損）
M 系列 Ultra	128 GB 以上	100B 以上的 MoE 模型

一個很實用的選擇原則

這邊給一個通用的建議：

『與其挑一個大模型然後壓到很低的量化，不如挑一個小一點的模型用比較高的量化。』

什麼意思呢？假設你的電腦記憶體有限，一個 8B 的模型用 Q5_K_M 通常會比 13B 的模型硬壓到 Q3_K_M 表現更好。因為壓縮過頭反而會讓模型損失太多能力。

去哪裡下載模型？

知道怎麼挑之後，接下來就是要知道去哪裡下載了。

Hugging Face

你可以把它想像成 AI 模型界的 GitHub，是目前最大的模型集散地。上面除了原版模型之外，也有社群幫忙做好量化的版本。如果你在上面找 GGUF 格式的模型，可以認 bartowski or hugging-quants 這些帳號，他們的量化品質都滿穩定的。

Ollama

如果你不想搞太多有的沒的，Ollama 是最簡單的選擇。打開終端機輸入一行指令就能下載跟啟動模型：

1	`ollama run llama3.1`

它會自動幫你下載模型、自動挑適合你硬體的量化版本，然後直接開始跟你聊天，完全不用自己去挑檔案。

LM Studio

如果你比較喜歡圖形介面的話，LM Studio 可以讓你在 App 裡面搜尋、下載、載入模型，完全不用碰命令列。

Note
如果你想看 LM Studio 的完整教學，可以參考架設自己的 AI 語言模型實驗室不求人之 LM Studio。

2026 年有哪些熱門的開源模型？

最後這邊整理一下目前比較熱門的開源模型，讓你有個方向知道可以從哪個開始。

如果你是第一次嘗試，建議從 7B - 14B 這個範圍開始：

模型	開發者	參數量	特色
Llama 3.1 8B	Meta	8B	泛用性很高，社群資源多
Qwen 2.5 7B	Alibaba	7B	中文表現好，多語言支援
Phi-4	Microsoft	14B	推理能力超出同級，MIT 授權
Gemma 3 9B	Google	9B	支援多模態，表現均衡

如果你的硬體比較好，可以挑戰 27B - 70B 這個範圍：

模型	開發者	參數量	特色
Gemma 4 27B	Google	27B（MoE，4B 啟用）	速度快，記憶體需求低於同級
Qwen 2.5 32B	Alibaba	32B	品質很高，中文表現優秀
Llama 3.3 70B	Meta	70B	需要較高硬體，品質接近雲端服務
DeepSeek-R1 蒸餾版	DeepSeek	7B - 70B	推理能力強，有各種大小的版本

然後前面提到的 MoE 架構，目前的代表有：

模型	開發者	總參數 / 啟用參數	特色
Qwen3 235B-A22B	Alibaba	235B / 22B	知識量大，資源需求相對低
DeepSeek-V3	DeepSeek	671B / 37B	目前開源模型的天花板之一
Llama 4 Scout	Meta	109B / 17B	支援超長 10M token 上下文

這個領域更新的速度非常快，幾乎每個月都有新的模型出來，所以這些推薦會隨時間變化。如果你想追最新的，可以關注 Hugging Face 的 Open LLM Leaderboard，上面會有各種模型的跑分排名。

總結

最後整理一下這篇的重點：

模型後面的 B 代表十億個參數，數字越大知識量越大，可是也越吃硬體資源
下載模型時選 Instruct 版本，Base 是給研究者用的
看到 MoE 跟 A 開頭的數字，代表實際啟用的參數量比總量小很多，更省資源
量化就是壓縮模型的技術，Q4_K_M 是大多數人的最佳起點
檔案格式選 GGUF 就對了，CPU 跟 GPU 都能跑
選模型的原則是讓模型完整塞進你的記憶體，不要硬塞大模型然後壓到極低的量化
Mac 使用者因為統一記憶體的關係，在本地跑模型上有天生的優勢

希望這一篇有讓你對 LLM 模型的參數跟量化有更近一步的認識，之後在 Hugging Face 上面挑模型的時候就不會再霧煞煞了哩～

想自己跑 LLM？搞懂模型參數與量化讓你不再選錯模型

前言