Tự động nhận biết ý định, điều phối 8 services AI trên 4 GPU, hỗ trợ hội thoại có lịch sử và streaming real-time
AI Agent tự động phân tích tin nhắn + audio/image để chọn đúng service, không cần chỉ định thủ công.
Nhận dạng giọng nói → văn bản
Trích xuất văn bản từ ảnh
Dịch thuật đa ngôn ngữ
Tìm mã ICD-10, ICPC2, CPT
Tóm tắt văn bản dài
Phân tích y tế chuyên sâu
Hội thoại thông minh có liên tục
Chuyển văn bản → giọng nói
Bệnh nhân ảo y tế
Giám sát GPU trực tiếp
Nhận diện khuôn mặt
| Method | Endpoint | Mô tả | Auth |
|---|---|---|---|
| GET | /health | Kiểm tra trạng thái agent | — |
| GET | /capabilities | Danh sách services tích hợp | — |
| GET | /status | Health check tất cả sub-services | — |
| POST | /run | Endpoint thông minh — tự detect intent từ JSON | Bearer |
| POST | /run/multipart | Input hỗn hợp (text + audio + image) | Bearer |
| POST | /chat | Hội thoại có session memory | Bearer |
| POST | /transcribe | ASR — Audio → văn bản | Bearer |
| POST | /ocr | OCR từ ảnh/tài liệu | Bearer |
| POST | /face | Nhận diện khuôn mặt | Bearer |
| POST | /translate | Dịch thuật đa ngôn ngữ | Bearer |
| POST | /summarize | Tóm tắt văn bản | Bearer |
| POST | /analyze | Phân tích chuyên sâu | Bearer |
| POST | /search | Tìm kiếm mã ICD-10, ICPC2, CPT | Bearer |
| POST | /tts | Text-to-Speech | Bearer |
| POST | /patient | Bệnh nhân ảo y tế | Bearer |
| GET | /gpu | Trạng thái 4 GPU | Bearer |
| GET | /sessions | Danh sách sessions | Bearer |
| GET | /sessions/{id} | Chi tiết 1 session | Bearer |
| WS | /ws/chat | WebSocket streaming real-time | Header |
| POST | /pipeline/audio-to-diagnosis | Pipeline: Audio → Chẩn đoán | Bearer |
| POST | /pipeline/audio-full-consult | Pipeline: Audio → Tư vấn → Đọc lại | Bearer |
| POST | /pipeline/image-to-codes | Pipeline: Ảnh → Mã ICD | Bearer |
| POST | /pipeline/image-full-analysis | Pipeline: Ảnh → Phân tích đầy đủ | Bearer |
Tất cả endpoints trả về cùng 1 cấu trúc JSON nhất quán:
Chat thông thường:
Auto-detect intent (endpoint /run):
OCR + tìm mã ICD:
AI Agent hoạt động như một CPU-only orchestrator, điều phối các GPU services:
| Service | Port | GPU | Mô tả |
|---|---|---|---|
| medical_transcribe | 8020 | RTX 3070 (CVD=0) | Whisper Turbo ASR tiếng Việt y tế |
| deepseek_ocr_service | 8040 | RTX 3060 (CVD=3) | DeepSeek OCR đa ngôn ngữ |
| gemma2_service | 8042 | RTX 3060 (CVD=1 via :8090) | Gemma2-9B-AWQ — LLM chính |
| qwen_service | 8043 | RTX 3060 (CVD=2 via :8091) | Qwen2.5-7B — Tool-calling LLM |
| text2speech_service | 8041 | CPU | TTS 28+ ngôn ngữ |
| codefinder | 8060 | CPU | Semantic search ICD-10/ICPC2/CPT |
| face_recognition_app | 8001 | RTX 3060 (CVD=0) | Nhận diện khuôn mặt |
| medical_patient_simulator | 8025 | CPU | Bệnh nhân ảo y tế (RAG) |
qwen_service không sẵn sàng, agent tự chuyển sang gemma2_service để đảm bảo liên tục.