Cách lựa chọn phần cứng cho máy chủ AI

huong dan lua chon phan cung may chu server ai

Việc lựa chọn phần cứng để chạy các mô hình AI phụ thuộc rất lớn vào kích thước mô hình (số lượng tham số – parameters)mức độ nén (quantization). Dưới đây là bài hướng dẫn chi tiết giúp bạn tối ưu hóa ngân sách và hiệu năng.


1. Các thành phần quan trọng nhất

  1. GPU VRAM (Quan trọng nhất): Nơi chứa mô hình khi đang chạy. Nếu VRAM thấp hơn kích thước mô hình, bạn sẽ không thể chạy được hoặc phải chạy qua RAM (tốc độ cực chậm).
  2. System RAM: Dùng để tải mô hình từ ổ cứng trước khi đẩy vào GPU và hỗ trợ các tác vụ xử lý dữ liệu thô. Quy tắc chung: RAM $\ge$ 2 lần VRAM.
  3. Storage (SSD NVMe): Các mô hình AI có dung lượng từ vài GB đến hàng trăm GB. SSD tốc độ cao giúp giảm thời gian khởi động mô hình.

2. Hiểu về Độ nén (Quantization)

Độ nén (Quantization) giúp giảm dung lượng mô hình bằng cách giảm độ chính xác của các con số (từ FP16 xuống INT8, INT4).

  • FP16 (Chưa nén): Độ chính xác cao nhất, tốn nhiều VRAM nhất (2 byte/tham số).
  • INT8 (8-bit): Cân bằng tốt giữa hiệu năng và độ chính xác (1 byte/tham số).
  • INT4 (4-bit): Phổ biến nhất cho máy tính cá nhân, giảm VRAM đáng kể nhưng vẫn giữ được 90-95% trí thông minh (0.5 – 0.6 byte/tham số).

3. Bảng tra cứu VRAM cho các Mô hình Ngôn ngữ (LLM)

Các dòng phổ biến như Llama 3, Mistral, Qwen.

Kích thước Mô hình (Params)Độ nén (Precision)VRAM tối thiểu (Chạy ổn định)RAM hệ thống khuyến nghịGPU tiêu biểu
7B – 8BFP1616 GB32 GBRTX 3090/4080/4090 / Tesla V100
7B – 8BINT8 (8-bit)10 GB16 GBRTX 3060 12GB/4070 / Tesla V100
7B – 8BINT4 (4-bit)6 – 8 GB16 GBRTX 3060 8GB/4060 / Tesla V100
13B – 14BFP1628 – 32 GB48 GBRTX 3090/4090 / Tesla V100
13B – 14BINT8 (8-bit)16 – 20 GB32 GBRTX 3090/4090 / Tesla V100
13B – 14BINT4 (4-bit)10 – 12 GB32 GBRTX 3060 12GB/4070 / Tesla V100
27B – 34BFP1660 – 70 GB96GB4x RTX 3090/ 4090 / Tesla V100
27B – 34BINT8 (8-bit)32 – 38 GB64 GB3x RTX 3090/ 4090 / Tesla V100
27B – 34BINT4 (4-bit)20 – 24 GB64 GBRTX 3090/4090 / Tesla V100
70B – 72BFP16140 GB+256 GB8 x RTX 3090/4090 / Tesla V100
70B – 72BINT8 (8-bit)75 – 85 GB192 GB4 x RTX 3090/4090 / Tesla V100
70B – 72BINT4 (4-bit)40 – 48 GB128 GB2x RTX 3090/4090 / Tesla V100 NVLink

Lưu ý: VRAM cần dư ra khoảng 1-2GB cho hệ điều hành và Context Window (độ dài đoạn chat).


4. Bảng tra cứu cho Mô hình Hình ảnh (Stable Diffusion)

Mô hình hình ảnh không phụ thuộc quá nhiều vào tham số như LLM nhưng cần VRAM để xử lý độ phân giải ảnh.

Loại Mô hìnhĐộ phân giảiVRAM tối thiểuVRAM khuyến nghịGhi chú
SD 1.5512 x 5124 GB8 GBChạy cực nhanh trên mọi card RTX
SDXL1024 x 10248 GB12 – 16 GBCần VRAM lớn để tránh lỗi “Out of Memory”
Flux.1 (Dev/Schnell)1024 x 102412 GB (nén)24 GBMô hình mới, cực nặng nhưng đẹp

5. Lời khuyên lựa chọn phần cứng theo ngân sách

Phân khúc phổ thông (Học tập/Trải nghiệm)

  • GPU: NVIDIA Tesla V100 16GB (Đây là “vua” phân khúc giá rẻ vì có 16GB VRAM).
  • RAM: 16GB hoặc 32GB.
  • Khả năng: Chạy tốt các mô hình 7B-8B (Llama 3) ở mức nén 4-bit và SDXL.

Phân khúc tầm trung (Làm việc chuyên nghiệp/Fine-tuning nhẹ)

  • GPU: NVIDIA Tesla V100 32GB.
  • RAM: 64GB.
  • Khả năng: Chạy mượt mô hình 14B, thử nghiệm được mô hình 30B (nén sâu).

Phân khúc cao cấp (Nghiên cứu/Chạy mô hình lớn)

  • GPU: 2 x NVIDIA Tesla V100 32GB NVLINK support, tốc độ có nvlink nhanh hơn rất nhiều so với không có nvlink
  • RAM: 128GB.
  • Khả năng: Chạy được các mô hình “khủng” 70B ở mức nén 4-bit.

Bài viết liên quan

0777.88.33.21
Zalo
Facebook