Cách lựa chọn phần cứng cho máy chủ AI

Việc lựa chọn phần cứng để chạy các mô hình AI phụ thuộc rất lớn vào kích thước mô hình (số lượng tham số – parameters) và mức độ nén (quantization). Dưới đây là bài hướng dẫn chi tiết giúp bạn tối ưu hóa ngân sách và hiệu năng.

1. Các thành phần quan trọng nhất

GPU VRAM (Quan trọng nhất): Nơi chứa mô hình khi đang chạy. Nếu VRAM thấp hơn kích thước mô hình, bạn sẽ không thể chạy được hoặc phải chạy qua RAM (tốc độ cực chậm).
System RAM: Dùng để tải mô hình từ ổ cứng trước khi đẩy vào GPU và hỗ trợ các tác vụ xử lý dữ liệu thô. Quy tắc chung: RAM $\ge$ 2 lần VRAM.
Storage (SSD NVMe): Các mô hình AI có dung lượng từ vài GB đến hàng trăm GB. SSD tốc độ cao giúp giảm thời gian khởi động mô hình.

2. Hiểu về Độ nén (Quantization)

Độ nén (Quantization) giúp giảm dung lượng mô hình bằng cách giảm độ chính xác của các con số (từ FP16 xuống INT8, INT4).

FP16 (Chưa nén): Độ chính xác cao nhất, tốn nhiều VRAM nhất (2 byte/tham số).
INT8 (8-bit): Cân bằng tốt giữa hiệu năng và độ chính xác (1 byte/tham số).
INT4 (4-bit): Phổ biến nhất cho máy tính cá nhân, giảm VRAM đáng kể nhưng vẫn giữ được 90-95% trí thông minh (0.5 – 0.6 byte/tham số).

3. Bảng tra cứu VRAM cho các Mô hình Ngôn ngữ (LLM)

Các dòng phổ biến như Llama 3, Mistral, Qwen.

Kích thước Mô hình (Params)	Độ nén (Precision)	VRAM tối thiểu (Chạy ổn định)	RAM hệ thống khuyến nghị	GPU tiêu biểu
7B – 8B	FP16	16 GB	32 GB	RTX 3090/4080/4090 / Tesla V100
7B – 8B	INT8 (8-bit)	10 GB	16 GB	RTX 3060 12GB/4070 / Tesla V100
7B – 8B	INT4 (4-bit)	6 – 8 GB	16 GB	RTX 3060 8GB/4060 / Tesla V100
13B – 14B	FP16	28 – 32 GB	48 GB	RTX 3090/4090 / Tesla V100
13B – 14B	INT8 (8-bit)	16 – 20 GB	32 GB	RTX 3090/4090 / Tesla V100
13B – 14B	INT4 (4-bit)	10 – 12 GB	32 GB	RTX 3060 12GB/4070 / Tesla V100
27B – 34B	FP16	60 – 70 GB	96GB	4x RTX 3090/ 4090 / Tesla V100
27B – 34B	INT8 (8-bit)	32 – 38 GB	64 GB	3x RTX 3090/ 4090 / Tesla V100
27B – 34B	INT4 (4-bit)	20 – 24 GB	64 GB	RTX 3090/4090 / Tesla V100
70B – 72B	FP16	140 GB+	256 GB	8 x RTX 3090/4090 / Tesla V100
70B – 72B	INT8 (8-bit)	75 – 85 GB	192 GB	4 x RTX 3090/4090 / Tesla V100
70B – 72B	INT4 (4-bit)	40 – 48 GB	128 GB	2x RTX 3090/4090 / Tesla V100 NVLink

Lưu ý: VRAM cần dư ra khoảng 1-2GB cho hệ điều hành và Context Window (độ dài đoạn chat).

4. Bảng tra cứu cho Mô hình Hình ảnh (Stable Diffusion)

Mô hình hình ảnh không phụ thuộc quá nhiều vào tham số như LLM nhưng cần VRAM để xử lý độ phân giải ảnh.

Loại Mô hình	Độ phân giải	VRAM tối thiểu	VRAM khuyến nghị	Ghi chú
SD 1.5	512 x 512	4 GB	8 GB	Chạy cực nhanh trên mọi card RTX
SDXL	1024 x 1024	8 GB	12 – 16 GB	Cần VRAM lớn để tránh lỗi “Out of Memory”
Flux.1 (Dev/Schnell)	1024 x 1024	12 GB (nén)	24 GB	Mô hình mới, cực nặng nhưng đẹp

5. Lời khuyên lựa chọn phần cứng theo ngân sách

Phân khúc phổ thông (Học tập/Trải nghiệm)

GPU: NVIDIA Tesla V100 16GB (Đây là “vua” phân khúc giá rẻ vì có 16GB VRAM).
RAM: 16GB hoặc 32GB.
Khả năng: Chạy tốt các mô hình 7B-8B (Llama 3) ở mức nén 4-bit và SDXL.

Phân khúc tầm trung (Làm việc chuyên nghiệp/Fine-tuning nhẹ)

GPU: NVIDIA Tesla V100 32GB.
RAM: 64GB.
Khả năng: Chạy mượt mô hình 14B, thử nghiệm được mô hình 30B (nén sâu).

Phân khúc cao cấp (Nghiên cứu/Chạy mô hình lớn)

GPU: 2 x NVIDIA Tesla V100 32GB NVLINK support, tốc độ có nvlink nhanh hơn rất nhiều so với không có nvlink
RAM: 128GB.
Khả năng: Chạy được các mô hình “khủng” 70B ở mức nén 4-bit.

Cách lựa chọn phần cứng cho máy chủ AI

1. Các thành phần quan trọng nhất

2. Hiểu về Độ nén (Quantization)

3. Bảng tra cứu VRAM cho các Mô hình Ngôn ngữ (LLM)

4. Bảng tra cứu cho Mô hình Hình ảnh (Stable Diffusion)

5. Lời khuyên lựa chọn phần cứng theo ngân sách

Phân khúc phổ thông (Học tập/Trải nghiệm)

Phân khúc tầm trung (Làm việc chuyên nghiệp/Fine-tuning nhẹ)

Phân khúc cao cấp (Nghiên cứu/Chạy mô hình lớn)

So sánh switch Cisco N6K-C6001-64P, N3K-C3064PQ, N5K-C5548UP, N9K-C9372PX

Lắp đặt máy chủ home server, Nas, cho công việc và thử nghiệm dòng xeon X99 E5

Hướng dẫn xây dựng server tại nhà dùng làm VPS chạy website

Máy chủ zin

Chính sách

Liên kết

Bản đồ vị trí

1. Các thành phần quan trọng nhất

2. Hiểu về Độ nén (Quantization)

3. Bảng tra cứu VRAM cho các Mô hình Ngôn ngữ (LLM)

4. Bảng tra cứu cho Mô hình Hình ảnh (Stable Diffusion)

5. Lời khuyên lựa chọn phần cứng theo ngân sách

Phân khúc phổ thông (Học tập/Trải nghiệm)

Phân khúc tầm trung (Làm việc chuyên nghiệp/Fine-tuning nhẹ)

Phân khúc cao cấp (Nghiên cứu/Chạy mô hình lớn)

Bài viết liên quan

So sánh switch Cisco N6K-C6001-64P, N3K-C3064PQ, N5K-C5548UP, N9K-C9372PX

Lắp đặt máy chủ home server, Nas, cho công việc và thử nghiệm dòng xeon X99 E5

Hướng dẫn xây dựng server tại nhà dùng làm VPS chạy website

Máy chủ zin

Chính sách

Liên kết

Bản đồ vị trí

Đăng nhập