AI & Automation

LLM Quantization คืออะไร? คู่มือ GGUF AWQ GPTQ รัน AI Local บน GPU SME ไทย 2026

LLM Quantization คือเทคนิคบีบอัดโมเดล AI ให้ใช้ VRAM น้อยลง 50-75% โดยที่คุณภาพยังเทียบเท่าโมเดลต้นฉบับ มาเปรียบเทียบ GGUF, AWQ, GPTQ และเลือก Format ที่เหมาะกับ GPU ของ SME ไทย พร้อมขั้นตอน Quantize เองจริงในปี 2026

AF
ADS FIT Team
·8 นาที
Share:
LLM Quantization คืออะไร? คู่มือ GGUF AWQ GPTQ รัน AI Local บน GPU SME ไทย 2026

# LLM Quantization คืออะไร? คู่มือ GGUF / AWQ / GPTQ รันโมเดล AI บน GPU SME ไทย 2026

ปี 2026 เป็นปีที่ Open-Source LLM อย่าง Llama 4, Qwen 3, DeepSeek V3, Mistral Large 2 พัฒนาเร็วมาก แต่ปัญหาที่ทีม IT ของ SME ไทยยังเจอเหมือนเดิมคือ "โมเดลใหญ่เกินจะรันบน GPU ของบริษัท"

โมเดลขนาด 70B Parameters ในรูปแบบ FP16 ต้องการ VRAM ประมาณ 140GB ซึ่งต้องใช้ GPU ระดับ Enterprise อย่าง H100 หรือ A100 ที่ราคาเป็นล้านบาทต่อตัว ส่วน RTX 4090 24GB หรือ RTX 5090 32GB ที่ SME ส่วนใหญ่ซื้อไหวกลับวิ่งโมเดลใหญ่ขนาดนี้ไม่ได้

ทางออก ของปัญหานี้คือ Quantization ซึ่งเป็นเทคนิคบีบอัดโมเดลให้ใช้หน่วยความจำน้อยลง 50-75% โดยที่ความแม่นยำลดเล็กน้อยมาก จนแทบไม่ต่างจากโมเดลต้นฉบับ ในบทความนี้คุณจะได้เรียนรู้ว่า Quantization ทำงานอย่างไร ทำความรู้จัก 3 Format ยอดนิยม (GGUF, AWQ, GPTQ) และมีขั้นตอนเริ่มทำเองได้ทันทีบน Hardware ที่มีอยู่

LLM Quantization คืออะไร?

Quantization คือการแปลงน้ำหนัก (Weights) ของโมเดล Neural Network จาก Floating Point ความละเอียดสูง (FP32 / FP16) ไปเป็น Integer หรือ Floating Point ความละเอียดต่ำ (INT8, INT4, FP8) เพื่อให้:

  • ใช้ VRAM น้อยลงครึ่งหนึ่งหรือเหลือ 1/4
  • คำนวณเร็วขึ้น (บน GPU ที่รองรับ INT8 / INT4 Tensor Cores)
  • ใช้ไฟฟ้าน้อยลง ค่าไฟลด
  • ลดต้นทุน Inference ในระยะยาว
  • ตัวอย่างขนาดของโมเดล Llama-3 70B หลัง Quantization:

    | Format | ขนาดไฟล์ | VRAM ขั้นต่ำ | คุณภาพ (เทียบ FP16) |

    |---|---|---|---|

    | FP16 (เต็ม) | 140 GB | 140 GB | 100% |

    | INT8 | 70 GB | 70 GB | 99% |

    | Q5_K_M (GGUF) | 49 GB | 50 GB | 97-98% |

    | Q4_K_M (GGUF) | 42 GB | 44 GB | 95-97% |

    | Q3_K_M (GGUF) | 33 GB | 36 GB | 90-93% |

    | AWQ INT4 | 35 GB | 40 GB | 96-98% |

    รู้จัก 3 Format หลัก: GGUF, AWQ, GPTQ

    1. GGUF (GGML Universal Format)

    GGUF เป็น Format ที่ออกแบบโดยทีม llama.cpp มีจุดเด่นคือ:

  • รันบน CPU ได้ ไม่จำเป็นต้องใช้ GPU
  • รองรับ Offload บางเลเยอร์ไว้บน GPU บางเลเยอร์ไว้บน RAM
  • เหมาะกับเครื่องที่มี VRAM จำกัด เช่น Notebook
  • มีระดับ Quantization หลากหลาย (Q2 ถึง Q8) ให้เลือกตามทรัพยากร
  • Tool ยอดนิยม: llama.cpp, LM Studio, Ollama, Open WebUI
  • 2. GPTQ (Generative Pre-trained Transformer Quantization)

    GPTQ เป็น Format ที่ Optimize สำหรับ GPU Inference โดยเฉพาะ:

  • ใช้ Dataset ตัวอย่างเพื่อปรับ Weight ให้ Error ต่ำสุด (Calibration-based)
  • เร็วบน GPU มากกว่า GGUF ใน Setup ที่ VRAM พอ
  • รองรับ INT4 / INT8
  • Tool ยอดนิยม: AutoGPTQ, ExLlamaV2, vLLM
  • 3. AWQ (Activation-aware Weight Quantization)

    AWQ เป็น Format ใหม่ที่เน้นความแม่นยำสูงสุดใน 4-bit:

  • เก็บ Weight ที่สำคัญ (Salient Weights) ในความละเอียดสูง ส่วน Weight อื่นบีบเป็น INT4
  • ความเร็วใน GPU ใกล้เคียง GPTQ แต่คุณภาพดีกว่าเล็กน้อย
  • เหมาะกับ Production Inference ที่ต้องการ Latency ต่ำ
  • Tool ยอดนิยม: vLLM, TGI (Text Generation Inference), TensorRT-LLM
  • เลือก Format ไหนดี? ตัดสินใจตามฮาร์ดแวร์

    | สถานการณ์ | แนะนำ |

    |---|---|

    | รันบน Notebook / มี RAM อย่างเดียว | GGUF (Q4_K_M หรือ Q5_K_M) |

    | รันบน RTX 3090 / 4090 (24GB) | GPTQ INT4 หรือ AWQ INT4 |

    | Production บน A100 / H100 | AWQ + vLLM หรือ TensorRT-LLM |

    | ต้องการ Latency ต่ำสุด | AWQ + vLLM (Continuous Batching) |

    | Mac (Apple Silicon) | GGUF (llama.cpp / Ollama) |

    | Edge Device / Raspberry Pi | GGUF Q3 หรือ Q4 |

    ขั้นตอน Quantize โมเดลของคุณเอง

    วิธีที่ 1: ใช้ llama.cpp สร้างไฟล์ GGUF

    ```bash

    git clone https://github.com/ggerganov/llama.cpp

    cd llama.cpp && make

    python convert_hf_to_gguf.py /path/to/model --outfile model-f16.gguf

    ./llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M

    ./llama-cli -m model-q4_k_m.gguf -p "สวัสดีครับ"

    ```

    วิธีที่ 2: ใช้ AutoGPTQ สร้างไฟล์ GPTQ

    ```python

    from transformers import AutoTokenizer

    from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig

    qcfg = BaseQuantizeConfig(bits=4, group_size=128, desc_act=True)

    model = AutoGPTQForCausalLM.from_pretrained("Qwen/Qwen3-7B", qcfg)

    tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-7B")

    calib = [tokenizer("ตัวอย่างข้อความสำหรับ Calibrate", return_tensors="pt")]

    model.quantize(calib)

    model.save_quantized("./qwen3-7b-gptq-int4")

    ```

    วิธีที่ 3: ใช้ AutoAWQ สร้างไฟล์ AWQ

    ```python

    from awq import AutoAWQForCausalLM

    from transformers import AutoTokenizer

    model = AutoAWQForCausalLM.from_pretrained("Qwen/Qwen3-7B")

    tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen3-7B")

    quant_config = {"zero_point": True, "q_group_size": 128, "w_bit": 4}

    model.quantize(tokenizer, quant_config=quant_config)

    model.save_quantized("./qwen3-7b-awq-int4")

    ```

    ความท้าทายที่ SME ไทยมักเจอและวิธีแก้

  • **คุณภาพลดลงในงานเฉพาะทาง:** เลือกระดับ Q5 หรือ Q6 เมื่อต้องใช้กับงานเลขาธิการ, สรุปเอกสารกฎหมาย หรืองานที่ต้องการความแม่นยำสูง
  • **Inference Latency ไม่นิ่ง:** ใช้ vLLM + Continuous Batching แทน Naive Loop เพื่อรีดทุกหยดของ GPU
  • **VRAM กระตุก:** เปิด --gpu-layers แบบทยอย Offload และเช็ค Memory ด้วย nvidia-smi -l 1 ก่อน Production
  • **License Compliance:** เช็ค License ของโมเดลต้นทาง (Llama Acceptable Use, Qwen License, Mistral License) ก่อนใช้เชิงพาณิชย์
  • **Throughput ต่ำกว่าที่คิด:** ตรวจสอบว่าใช้ Tensor Cores ของ GPU ตรงรุ่นหรือไม่ บางรุ่นไม่รองรับ INT4 จะตกมาเป็น INT8 อัตโนมัติ
  • เปรียบเทียบ Performance จริงบน RTX 4090

    | โมเดล | Format | Tokens/s | VRAM Used |

    |---|---|---|---|

    | Llama-3 8B | FP16 | 60 | 16 GB |

    | Llama-3 8B | GPTQ INT4 | 110 | 6 GB |

    | Llama-3 8B | AWQ INT4 | 105 | 6 GB |

    | Llama-3 8B | GGUF Q4_K_M | 75 | 5 GB |

    | Qwen3 14B | AWQ INT4 | 65 | 10 GB |

    ตัวเลขข้างต้นเป็นค่าโดยประมาณจากการทดสอบแบบ Single-batch อาจแตกต่างตาม Driver, CUDA Version และ Prompt Length

    สรุป + Action Plan สำหรับทีม IT

    LLM Quantization คือเทคโนโลยีที่ทำให้ SME ไทยใช้ AI ในระดับ Enterprise ได้ด้วยฮาร์ดแวร์ราคาเข้าถึงได้ การเลือก Format ที่ถูกต้องระหว่าง GGUF, GPTQ, AWQ ช่วยประหยัด VRAM ได้ถึง 75% โดยที่คุณภาพยังเทียบเท่าโมเดลต้นฉบับ ทีม IT ของคุณไม่ต้องลงทุน GPU ราคาล้าน ก็สามารถ Deploy AI Assistant ในองค์กรได้แล้ว

    3 Action Items แนะนำ:

    1. ทดสอบ Ollama + GGUF Q4_K_M บน RTX ที่มีอยู่วันนี้ ใช้ฟรี ไม่ต้องเทรน เริ่มได้ใน 30 นาที

    2. ถ้าต้องการ Production-grade ลองเปิด vLLM + AWQ บน RTX 5090 หรือ A100 ที่ Cloud

    3. วัดผล Latency, VRAM Peak, Accuracy ด้วย Eval Benchmark (lm-eval, MT-Bench) ก่อน Roll out จริงในองค์กร

    อยากเริ่มต้น Self-Hosted AI สำหรับองค์กรไทย? อ่านต่อได้ที่บทความ Open WebUI, Llamafile, AnythingLLM, Qwen LLM และ Jan AI ในบล็อก ADS FIT หรือ [ติดต่อทีมเราเพื่อขอคำปรึกษาฟรี](https://www.adsfit.co.th/contact)

    Tags

    #LLM#Quantization#GGUF#AWQ#GPTQ#Self-Hosted AI

    สนใจโซลูชันนี้?

    ปรึกษาทีม ADS FIT ฟรี เราพร้อมออกแบบระบบที่ฟิตกับธุรกิจของคุณ

    ติดต่อเรา →

    บทความที่เกี่ยวข้อง