# LLM Quantization คืออะไร? คู่มือ GGUF / AWQ / GPTQ รันโมเดล AI บน GPU SME ไทย 2026
ปี 2026 เป็นปีที่ Open-Source LLM อย่าง Llama 4, Qwen 3, DeepSeek V3, Mistral Large 2 พัฒนาเร็วมาก แต่ปัญหาที่ทีม IT ของ SME ไทยยังเจอเหมือนเดิมคือ "โมเดลใหญ่เกินจะรันบน GPU ของบริษัท"
โมเดลขนาด 70B Parameters ในรูปแบบ FP16 ต้องการ VRAM ประมาณ 140GB ซึ่งต้องใช้ GPU ระดับ Enterprise อย่าง H100 หรือ A100 ที่ราคาเป็นล้านบาทต่อตัว ส่วน RTX 4090 24GB หรือ RTX 5090 32GB ที่ SME ส่วนใหญ่ซื้อไหวกลับวิ่งโมเดลใหญ่ขนาดนี้ไม่ได้
ทางออก ของปัญหานี้คือ Quantization ซึ่งเป็นเทคนิคบีบอัดโมเดลให้ใช้หน่วยความจำน้อยลง 50-75% โดยที่ความแม่นยำลดเล็กน้อยมาก จนแทบไม่ต่างจากโมเดลต้นฉบับ ในบทความนี้คุณจะได้เรียนรู้ว่า Quantization ทำงานอย่างไร ทำความรู้จัก 3 Format ยอดนิยม (GGUF, AWQ, GPTQ) และมีขั้นตอนเริ่มทำเองได้ทันทีบน Hardware ที่มีอยู่
LLM Quantization คืออะไร?
Quantization คือการแปลงน้ำหนัก (Weights) ของโมเดล Neural Network จาก Floating Point ความละเอียดสูง (FP32 / FP16) ไปเป็น Integer หรือ Floating Point ความละเอียดต่ำ (INT8, INT4, FP8) เพื่อให้:
ตัวอย่างขนาดของโมเดล Llama-3 70B หลัง Quantization:
| Format | ขนาดไฟล์ | VRAM ขั้นต่ำ | คุณภาพ (เทียบ FP16) |
|---|---|---|---|
| FP16 (เต็ม) | 140 GB | 140 GB | 100% |
| INT8 | 70 GB | 70 GB | 99% |
| Q5_K_M (GGUF) | 49 GB | 50 GB | 97-98% |
| Q4_K_M (GGUF) | 42 GB | 44 GB | 95-97% |
| Q3_K_M (GGUF) | 33 GB | 36 GB | 90-93% |
| AWQ INT4 | 35 GB | 40 GB | 96-98% |
รู้จัก 3 Format หลัก: GGUF, AWQ, GPTQ
1. GGUF (GGML Universal Format)
GGUF เป็น Format ที่ออกแบบโดยทีม llama.cpp มีจุดเด่นคือ:
2. GPTQ (Generative Pre-trained Transformer Quantization)
GPTQ เป็น Format ที่ Optimize สำหรับ GPU Inference โดยเฉพาะ:
3. AWQ (Activation-aware Weight Quantization)
AWQ เป็น Format ใหม่ที่เน้นความแม่นยำสูงสุดใน 4-bit:
เลือก Format ไหนดี? ตัดสินใจตามฮาร์ดแวร์
| สถานการณ์ | แนะนำ |
|---|---|
| รันบน Notebook / มี RAM อย่างเดียว | GGUF (Q4_K_M หรือ Q5_K_M) |
| รันบน RTX 3090 / 4090 (24GB) | GPTQ INT4 หรือ AWQ INT4 |
| Production บน A100 / H100 | AWQ + vLLM หรือ TensorRT-LLM |
| ต้องการ Latency ต่ำสุด | AWQ + vLLM (Continuous Batching) |
| Mac (Apple Silicon) | GGUF (llama.cpp / Ollama) |
| Edge Device / Raspberry Pi | GGUF Q3 หรือ Q4 |
ขั้นตอน Quantize โมเดลของคุณเอง
วิธีที่ 1: ใช้ llama.cpp สร้างไฟล์ GGUF
```bash
git clone https://github.com/ggerganov/llama.cpp
cd llama.cpp && make
python convert_hf_to_gguf.py /path/to/model --outfile model-f16.gguf
./llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M
./llama-cli -m model-q4_k_m.gguf -p "สวัสดีครับ"
```
วิธีที่ 2: ใช้ AutoGPTQ สร้างไฟล์ GPTQ
```python
from transformers import AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
qcfg = BaseQuantizeConfig(bits=4, group_size=128, desc_act=True)
model = AutoGPTQForCausalLM.from_pretrained("Qwen/Qwen3-7B", qcfg)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-7B")
calib = [tokenizer("ตัวอย่างข้อความสำหรับ Calibrate", return_tensors="pt")]
model.quantize(calib)
model.save_quantized("./qwen3-7b-gptq-int4")
```
วิธีที่ 3: ใช้ AutoAWQ สร้างไฟล์ AWQ
```python
from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer
model = AutoAWQForCausalLM.from_pretrained("Qwen/Qwen3-7B")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-7B")
quant_config = {"zero_point": True, "q_group_size": 128, "w_bit": 4}
model.quantize(tokenizer, quant_config=quant_config)
model.save_quantized("./qwen3-7b-awq-int4")
```
ความท้าทายที่ SME ไทยมักเจอและวิธีแก้
เปรียบเทียบ Performance จริงบน RTX 4090
| โมเดล | Format | Tokens/s | VRAM Used |
|---|---|---|---|
| Llama-3 8B | FP16 | 60 | 16 GB |
| Llama-3 8B | GPTQ INT4 | 110 | 6 GB |
| Llama-3 8B | AWQ INT4 | 105 | 6 GB |
| Llama-3 8B | GGUF Q4_K_M | 75 | 5 GB |
| Qwen3 14B | AWQ INT4 | 65 | 10 GB |
ตัวเลขข้างต้นเป็นค่าโดยประมาณจากการทดสอบแบบ Single-batch อาจแตกต่างตาม Driver, CUDA Version และ Prompt Length
สรุป + Action Plan สำหรับทีม IT
LLM Quantization คือเทคโนโลยีที่ทำให้ SME ไทยใช้ AI ในระดับ Enterprise ได้ด้วยฮาร์ดแวร์ราคาเข้าถึงได้ การเลือก Format ที่ถูกต้องระหว่าง GGUF, GPTQ, AWQ ช่วยประหยัด VRAM ได้ถึง 75% โดยที่คุณภาพยังเทียบเท่าโมเดลต้นฉบับ ทีม IT ของคุณไม่ต้องลงทุน GPU ราคาล้าน ก็สามารถ Deploy AI Assistant ในองค์กรได้แล้ว
3 Action Items แนะนำ:
1. ทดสอบ Ollama + GGUF Q4_K_M บน RTX ที่มีอยู่วันนี้ ใช้ฟรี ไม่ต้องเทรน เริ่มได้ใน 30 นาที
2. ถ้าต้องการ Production-grade ลองเปิด vLLM + AWQ บน RTX 5090 หรือ A100 ที่ Cloud
3. วัดผล Latency, VRAM Peak, Accuracy ด้วย Eval Benchmark (lm-eval, MT-Bench) ก่อน Roll out จริงในองค์กร
อยากเริ่มต้น Self-Hosted AI สำหรับองค์กรไทย? อ่านต่อได้ที่บทความ Open WebUI, Llamafile, AnythingLLM, Qwen LLM และ Jan AI ในบล็อก ADS FIT หรือ [ติดต่อทีมเราเพื่อขอคำปรึกษาฟรี](https://www.adsfit.co.th/contact)
