AI Agent — Unified Assistant

Khả Năng Nhận Diện Ý Định

AI Agent tự động phân tích tin nhắn + audio/image để chọn đúng service, không cần chỉ định thủ công.

Transcribe

Nhận dạng giọng nói → văn bản

OCR

Trích xuất văn bản từ ảnh

Translate

Dịch thuật đa ngôn ngữ

Search

Tìm mã ICD-10, ICPC2, CPT

Summarize

Tóm tắt văn bản dài

Analyze

Phân tích y tế chuyên sâu

Chat

Hội thoại thông minh có liên tục

TTS

Chuyển văn bản → giọng nói

Patient Sim

Bệnh nhân ảo y tế

GPU Status

Giám sát GPU trực tiếp

Face Recognize

Nhận diện khuôn mặt

💡 Chaining thông minh: Khi gửi audio + "phân tích" → tự động Transcribe → Analyze. Khi gửi ảnh + "tìm mã" → OCR → Search ICD.

Danh Sách Endpoints

Method	Endpoint	Mô tả	Auth
GET	`/health`	Kiểm tra trạng thái agent	—
GET	`/capabilities`	Danh sách services tích hợp	—
GET	`/status`	Health check tất cả sub-services	—
POST	`/run`	Endpoint thông minh — tự detect intent từ JSON	Bearer
POST	`/run/multipart`	Input hỗn hợp (text + audio + image)	Bearer
POST	`/chat`	Hội thoại có session memory	Bearer
POST	`/transcribe`	ASR — Audio → văn bản	Bearer
POST	`/ocr`	OCR từ ảnh/tài liệu	Bearer
POST	`/face`	Nhận diện khuôn mặt	Bearer
POST	`/translate`	Dịch thuật đa ngôn ngữ	Bearer
POST	`/summarize`	Tóm tắt văn bản	Bearer
POST	`/analyze`	Phân tích chuyên sâu	Bearer
POST	`/search`	Tìm kiếm mã ICD-10, ICPC2, CPT	Bearer
POST	`/tts`	Text-to-Speech	Bearer
POST	`/patient`	Bệnh nhân ảo y tế	Bearer
GET	`/gpu`	Trạng thái 4 GPU	Bearer
GET	`/sessions`	Danh sách sessions	Bearer
GET	`/sessions/{id}`	Chi tiết 1 session	Bearer
WS	`/ws/chat`	WebSocket streaming real-time	Header
POST	`/pipeline/audio-to-diagnosis`	Pipeline: Audio → Chẩn đoán	Bearer
POST	`/pipeline/audio-full-consult`	Pipeline: Audio → Tư vấn → Đọc lại	Bearer
POST	`/pipeline/image-to-codes`	Pipeline: Ảnh → Mã ICD	Bearer
POST	`/pipeline/image-full-analysis`	Pipeline: Ảnh → Phân tích đầy đủ	Bearer

Cấu Trúc Response

Tất cả endpoints trả về cùng 1 cấu trúc JSON nhất quán:

{

  "session_id": "uuid-string",        // ID session (tự tạo nếu không gửi)

  "intent":    "chat",                // Intent đã phát hiện

  "response":  "Nội dung trả lời...",  // Kết quả văn bản chính

  "audio_base64": null,              // Base64 audio nếu có TTS

  "data": { ... },                    // Dữ liệu phụ (OCR text, search results...)

  "steps": [

    { "step": "classify", "intent": "chat", "confidence": 0.97 },

        { "step": "chat", "service": "gemma4_service" }

  ],

  "duration_ms": 1250,               // Thời gian xử lý (ms)

  "error": null                       // null nếu thành công

}

Ví Dụ Code

Chat thông thường:

# Chat

curl -X POST https://pnt.badt.vn/ai_agent/chat \

  -H "Authorization: Bearer $TOKEN" \

  -H "Content-Type: application/json" \

  -d '{"message":"Triệu chứng sốt xuất huyết?","language":"vi"}'

Auto-detect intent (endpoint /run):

curl -X POST https://pnt.badt.vn/ai_agent/run \

  -H "Authorization: Bearer $TOKEN" \

  -H "Content-Type: application/json" \

  -d '{"message":"Dịch sang tiếng Anh: xin chào bác sĩ"}'

OCR + tìm mã ICD:

curl -X POST https://pnt.badt.vn/ai_agent/ocr \

  -H "Authorization: Bearer $TOKEN" \

  -F "file=@prescription.jpg" \

  -F "search=true"

import requests

BASE  = "https://pnt.badt.vn/ai_agent"

TOKEN = "your_api_token"

HDR   = {"Authorization": f"Bearer {TOKEN}"}

# Giữ session liên tục qua nhiều tin nhắn

session_id = None

while True:

    msg  = input("Bạn: ")

    resp = requests.post(f"{BASE}/chat", headers=HDR, json={

        "message":    msg,

        "session_id": session_id,

        "language":   "vi"

    }).json()

    session_id = resp["session_id"]

    print(f"AI: {resp['response']}")

const BASE  = 'https://pnt.badt.vn/ai_agent';

const TOKEN = 'your_api_token';

async function chat(message, sessionId = null) {

    const res = await fetch(`${BASE}/chat`, {

        method: 'POST',

        headers: { 'Authorization': `Bearer ${TOKEN}`,

                   'Content-Type': 'application/json' },

        body: JSON.stringify({ message, session_id: sessionId, language: 'vi' })

    });

    return res.json();

}

// Tìm kiếm mã ICD-10

const result = await fetch(`${BASE}/search`, {

    method: 'POST',

    headers: { 'Authorization': `Bearer ${TOKEN}`,

               'Content-Type': 'application/json' },

    body: JSON.stringify({ query: 'đau đầu', top_k: 5 })

}).then(r => r.json());

import asyncio, json, websockets

async def stream_chat():

    uri = "wss://pnt.badt.vn/ai_agent/ws/chat"

    hdrs = [("Authorization", "Bearer your_token")]

    async with websockets.connect(uri, extra_headers=hdrs) as ws:

        await ws.send(json.dumps({

            "message": "Triệu chứng viêm phổi?",

            "language": "vi"

        }))

        async for chunk in ws:

            if chunk == "[DONE]": break

            print(chunk, end="", flush=True)

asyncio.run(stream_chat())

Kiến Trúc & Luồng Xử Lý

AI Agent hoạt động như một CPU-only orchestrator, điều phối các GPU services:

Client Request → Intent Classifier → Context Manager → Agent Router
↓

ASR :8020 OCR :8040 LLM :8042 TTS :8041 Search :8060 Face :8001

↓
Unified JSON Response

Các Pipeline Tự Động

🎙️ Audio + "phân tích":

Upload Audio→ Whisper ASR→ LLM Analyze→ Response

📷 Image + "tìm mã":

Upload Image→ DeepSeek OCR→ ICD/ICPC Search→ Response

🔊 Audio Full Consult Pipeline:

Audio→ ASR→ LLM Analyze→ TTS→ Audio Response

Services Tích Hợp

Service	Port	GPU	Mô tả
medical_transcribe	8020	RTX 3070 (CVD=0)	Whisper Turbo ASR tiếng Việt y tế
deepseek_ocr_service	8040	RTX 3060 (CVD=3)	DeepSeek OCR đa ngôn ngữ
gemma4_service	8044	RTX 3060 (CVD=3 via :8092)	Gemma4-E4B-INT4 — LLM chính (thay gemma2)
qwen_service	8043	RTX 3060 (CVD=2 via :8091)	Qwen2.5-7B — Tool-calling LLM
text2speech_service	8041	CPU	TTS 28+ ngôn ngữ
codefinder	8060	CPU	Semantic search ICD-10/ICPC2/CPT
face_recognition_app	8001	RTX 3060 (CVD=0)	Nhận diện khuôn mặt
medical_patient_simulator	8025	CPU	Bệnh nhân ảo y tế (RAG)

🔁 LLM Fallback: Nếu qwen_service không sẵn sàng, agent tự chuyển sang gemma4_service để đảm bảo liên tục.

Vietnam Medical AI

AI Agent — Unified Intelligent Assistant