Gemma 4 E2B Local LLM

FastAPI proxy phục vụ inference qua vLLM backend. Model Google Gemma 4 E2B (Experience-Based), AWQ 4-bit quantized. Chạy trên RTX 3060 12GB, chia sẻ GPU với Qwen service.

Hoạt động Updated 2026-05
Thờng tin nổi bật: Gemma 4 E2B (Experience-Based) — thế hệ mới nhất Google Gemma 4. Hỗ trợ Thinking Mode (enable_thinking=true). AWQ 4-bit quantization.
~50
Tốc độ (tokens/s)
4.5B
Parameters (AWQ-4bit)
128K
Context Window
<1s
Latency (first token)

Base URL

https://pnt.badt.vn/gemma4/
Lưu ý: Base URL là /gemma4/ (có số 4), không phải /gemma hay /gemma4b/.

Authentication

Tất cả request yêu cầu Bearer token:

Authorization: Bearer <API_AI_TOKEN>

Token quản lý qua DB api_ai_main.api_tokens (MySQL 192.168.1.244). Hết hạn/sai token nhận HTTP 403.

API Endpoints

POST /gemma4/v1/chat/completions OpenAI Compatible Recommended

Chat completion tương thích OpenAI format.

Parameters

ParamTypeRequiredDefaultDescription
messagesarrayYes{role, content} với role: system/user/assistant
modelstringNoautoBỏ qua, proxy tự detect
temperaturefloatNo0.70.0 - 2.0
max_tokensintNo10241 - 8192, tự động giảm nếu context đầy
top_pfloatNo0.9Nucleus sampling 0.0 - 1.0
top_kintNo40Top-K (-1 = tắt)
streamboolNofalseLuôn false, chưa hỗ trợ streaming
enable_thinkingboolNofalseBật Thinking Mode

Ví dụ cURL

curl -X POST "https://pnt.badt.vn/gemma4/v1/chat/completions" \
  -H "Authorization: Bearer $API_AI_TOKEN" \
  -H "Content-Type: application/json" \
  -d "{
    "messages": [{"role":"user","content":"Hello"}],
    "temperature": 0.7,
    "max_tokens": 1024
  }"
POST /gemma4/chat Legacy

Nhận prompt string thay vì messages array.

Parameters

ParamTypeRequiredDefaultDescription
promptstringYesInput text (min 1 ký tự)
system_promptstringNonullSystem instruction
temperaturefloatNo0.70.0 - 2.0
max_tokensintNo10241 - 8192
enable_thinkingboolNofalseBật Thinking Mode

Response

{"response":"...","model":"google/gemma-4-e2b-it","usage":{...}}
GET /gemma4/health Utility

Health check. Cũng có thể gọi tại /health.

ANY /* Error

Endpoint không tồn tại trả về hướng dẫn.

Mã lỗi

StatusÝ nghĩaXử lý
401UnauthorizedThiếu Authorization header
403ForbiddenToken sai/hết hạn/không có quyền gemma4
422Validation ErrorSai schema request body
502Bad GatewayvLLM chưa sẵn sàng
504Gateway TimeoutvLLM inference quá lâu

Thông số kỹ thuật

ModelGoogle Gemma 4 E2B AWQ 4-bit
vLLM namegoogle/gemma-4-e2b-it
Parameters~4.5B (AWQ)
Context128K (config 4096)
vLLM Port8092
FastAPI Port8044
GPUCVD=2 RTX 3060 12GB (shared qwen)
AuthBearer token MySQL api_ai_main