LLM Quantization 2026: GGUF AWQ GPTQ คู่มือ AI SME ไทย

# LLM Quantization คืออะไร? คู่มือ GGUF / AWQ / GPTQ รันโมเดล AI บน GPU SME ไทย 2026

ปี 2026 เป็นปีที่ Open-Source LLM อย่าง Llama 4, Qwen 3, DeepSeek V3, Mistral Large 2 พัฒนาเร็วมาก แต่ปัญหาที่ทีม IT ของ SME ไทยยังเจอเหมือนเดิมคือ "โมเดลใหญ่เกินจะรันบน GPU ของบริษัท"

โมเดลขนาด 70B Parameters ในรูปแบบ FP16 ต้องการ VRAM ประมาณ 140GB ซึ่งต้องใช้ GPU ระดับ Enterprise อย่าง H100 หรือ A100 ที่ราคาเป็นล้านบาทต่อตัว ส่วน RTX 4090 24GB หรือ RTX 5090 32GB ที่ SME ส่วนใหญ่ซื้อไหวกลับวิ่งโมเดลใหญ่ขนาดนี้ไม่ได้

ทางออก ของปัญหานี้คือ Quantization ซึ่งเป็นเทคนิคบีบอัดโมเดลให้ใช้หน่วยความจำน้อยลง 50-75% โดยที่ความแม่นยำลดเล็กน้อยมาก จนแทบไม่ต่างจากโมเดลต้นฉบับ ในบทความนี้คุณจะได้เรียนรู้ว่า Quantization ทำงานอย่างไร ทำความรู้จัก 3 Format ยอดนิยม (GGUF, AWQ, GPTQ) และมีขั้นตอนเริ่มทำเองได้ทันทีบน Hardware ที่มีอยู่

LLM Quantization คืออะไร?

Quantization คือการแปลงน้ำหนัก (Weights) ของโมเดล Neural Network จาก Floating Point ความละเอียดสูง (FP32 / FP16) ไปเป็น Integer หรือ Floating Point ความละเอียดต่ำ (INT8, INT4, FP8) เพื่อให้:

ใช้ VRAM น้อยลงครึ่งหนึ่งหรือเหลือ 1/4

คำนวณเร็วขึ้น (บน GPU ที่รองรับ INT8 / INT4 Tensor Cores)

ใช้ไฟฟ้าน้อยลง ค่าไฟลด

ลดต้นทุน Inference ในระยะยาว

ตัวอย่างขนาดของโมเดล Llama-3 70B หลัง Quantization:

|---|---|---|---|

| FP16 (เต็ม) | 140 GB | 140 GB | 100% |

| INT8 | 70 GB | 70 GB | 99% |

| Q5_K_M (GGUF) | 49 GB | 50 GB | 97-98% |

| Q4_K_M (GGUF) | 42 GB | 44 GB | 95-97% |

| Q3_K_M (GGUF) | 33 GB | 36 GB | 90-93% |

| AWQ INT4 | 35 GB | 40 GB | 96-98% |

รู้จัก 3 Format หลัก: GGUF, AWQ, GPTQ

1. GGUF (GGML Universal Format)

GGUF เป็น Format ที่ออกแบบโดยทีม llama.cpp มีจุดเด่นคือ:

รันบน CPU ได้ ไม่จำเป็นต้องใช้ GPU

รองรับ Offload บางเลเยอร์ไว้บน GPU บางเลเยอร์ไว้บน RAM

เหมาะกับเครื่องที่มี VRAM จำกัด เช่น Notebook

มีระดับ Quantization หลากหลาย (Q2 ถึง Q8) ให้เลือกตามทรัพยากร

Tool ยอดนิยม: llama.cpp, LM Studio, Ollama, Open WebUI

2. GPTQ (Generative Pre-trained Transformer Quantization)

GPTQ เป็น Format ที่ Optimize สำหรับ GPU Inference โดยเฉพาะ:

ใช้ Dataset ตัวอย่างเพื่อปรับ Weight ให้ Error ต่ำสุด (Calibration-based)

เร็วบน GPU มากกว่า GGUF ใน Setup ที่ VRAM พอ

รองรับ INT4 / INT8

Tool ยอดนิยม: AutoGPTQ, ExLlamaV2, vLLM

3. AWQ (Activation-aware Weight Quantization)

AWQ เป็น Format ใหม่ที่เน้นความแม่นยำสูงสุดใน 4-bit:

เก็บ Weight ที่สำคัญ (Salient Weights) ในความละเอียดสูง ส่วน Weight อื่นบีบเป็น INT4

ความเร็วใน GPU ใกล้เคียง GPTQ แต่คุณภาพดีกว่าเล็กน้อย

เหมาะกับ Production Inference ที่ต้องการ Latency ต่ำ

Tool ยอดนิยม: vLLM, TGI (Text Generation Inference), TensorRT-LLM

เลือก Format ไหนดี? ตัดสินใจตามฮาร์ดแวร์

| สถานการณ์ | แนะนำ |

|---|---|

| รันบน Notebook / มี RAM อย่างเดียว | GGUF (Q4_K_M หรือ Q5_K_M) |

| รันบน RTX 3090 / 4090 (24GB) | GPTQ INT4 หรือ AWQ INT4 |

| Production บน A100 / H100 | AWQ + vLLM หรือ TensorRT-LLM |

| ต้องการ Latency ต่ำสุด | AWQ + vLLM (Continuous Batching) |

| Mac (Apple Silicon) | GGUF (llama.cpp / Ollama) |

| Edge Device / Raspberry Pi | GGUF Q3 หรือ Q4 |

ขั้นตอน Quantize โมเดลของคุณเอง

วิธีที่ 1: ใช้ llama.cpp สร้างไฟล์ GGUF

```bash

git clone https://github.com/ggerganov/llama.cpp

cd llama.cpp && make

python convert_hf_to_gguf.py /path/to/model --outfile model-f16.gguf

./llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M

./llama-cli -m model-q4_k_m.gguf -p "สวัสดีครับ"

```

วิธีที่ 2: ใช้ AutoGPTQ สร้างไฟล์ GPTQ

```python

from transformers import AutoTokenizer

from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig

qcfg = BaseQuantizeConfig(bits=4, group_size=128, desc_act=True)

model = AutoGPTQForCausalLM.from_pretrained("Qwen/Qwen3-7B", qcfg)

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-7B")

calib = [tokenizer("ตัวอย่างข้อความสำหรับ Calibrate", return_tensors="pt")]

model.quantize(calib)

model.save_quantized("./qwen3-7b-gptq-int4")

```

วิธีที่ 3: ใช้ AutoAWQ สร้างไฟล์ AWQ

```python

from awq import AutoAWQForCausalLM

from transformers import AutoTokenizer

model = AutoAWQForCausalLM.from_pretrained("Qwen/Qwen3-7B")

tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-7B")

quant_config = {"zero_point": True, "q_group_size": 128, "w_bit": 4}

model.quantize(tokenizer, quant_config=quant_config)

model.save_quantized("./qwen3-7b-awq-int4")

```

ความท้าทายที่ SME ไทยมักเจอและวิธีแก้

**คุณภาพลดลงในงานเฉพาะทาง:** เลือกระดับ Q5 หรือ Q6 เมื่อต้องใช้กับงานเลขาธิการ, สรุปเอกสารกฎหมาย หรืองานที่ต้องการความแม่นยำสูง

**Inference Latency ไม่นิ่ง:** ใช้ vLLM + Continuous Batching แทน Naive Loop เพื่อรีดทุกหยดของ GPU

**VRAM กระตุก:** เปิด --gpu-layers แบบทยอย Offload และเช็ค Memory ด้วย nvidia-smi -l 1 ก่อน Production

**License Compliance:** เช็ค License ของโมเดลต้นทาง (Llama Acceptable Use, Qwen License, Mistral License) ก่อนใช้เชิงพาณิชย์

**Throughput ต่ำกว่าที่คิด:** ตรวจสอบว่าใช้ Tensor Cores ของ GPU ตรงรุ่นหรือไม่ บางรุ่นไม่รองรับ INT4 จะตกมาเป็น INT8 อัตโนมัติ

เปรียบเทียบ Performance จริงบน RTX 4090

|---|---|---|---|

| Llama-3 8B | FP16 | 60 | 16 GB |

| Llama-3 8B | GPTQ INT4 | 110 | 6 GB |

| Llama-3 8B | AWQ INT4 | 105 | 6 GB |

| Llama-3 8B | GGUF Q4_K_M | 75 | 5 GB |

| Qwen3 14B | AWQ INT4 | 65 | 10 GB |

ตัวเลขข้างต้นเป็นค่าโดยประมาณจากการทดสอบแบบ Single-batch อาจแตกต่างตาม Driver, CUDA Version และ Prompt Length

สรุป + Action Plan สำหรับทีม IT

LLM Quantization คือเทคโนโลยีที่ทำให้ SME ไทยใช้ AI ในระดับ Enterprise ได้ด้วยฮาร์ดแวร์ราคาเข้าถึงได้ การเลือก Format ที่ถูกต้องระหว่าง GGUF, GPTQ, AWQ ช่วยประหยัด VRAM ได้ถึง 75% โดยที่คุณภาพยังเทียบเท่าโมเดลต้นฉบับ ทีม IT ของคุณไม่ต้องลงทุน GPU ราคาล้าน ก็สามารถ Deploy AI Assistant ในองค์กรได้แล้ว

3 Action Items แนะนำ:

1. ทดสอบ Ollama + GGUF Q4_K_M บน RTX ที่มีอยู่วันนี้ ใช้ฟรี ไม่ต้องเทรน เริ่มได้ใน 30 นาที

2. ถ้าต้องการ Production-grade ลองเปิด vLLM + AWQ บน RTX 5090 หรือ A100 ที่ Cloud

3. วัดผล Latency, VRAM Peak, Accuracy ด้วย Eval Benchmark (lm-eval, MT-Bench) ก่อน Roll out จริงในองค์กร

อยากเริ่มต้น Self-Hosted AI สำหรับองค์กรไทย? อ่านต่อได้ที่บทความ Open WebUI, Llamafile, AnythingLLM, Qwen LLM และ Jan AI ในบล็อก ADS FIT หรือ [ติดต่อทีมเราเพื่อขอคำปรึกษาฟรี](https://www.adsfit.co.th/contact)

สนใจโซลูชันนี้?

ปรึกษาทีม ADS FIT ฟรี เราพร้อมออกแบบระบบที่ฟิตกับธุรกิจของคุณ

ติดต่อเรา →

LLM Quantization คืออะไร? คู่มือ GGUF AWQ GPTQ รัน AI Local บน GPU SME ไทย 2026