Tôi luôn mơ ước về một trợ lý cá nhân giống như Jarvis trong phim Iron Man. Nhưng điểm mấu chốt là: nó phải tôn trọng sự riêng tư và chạy hoàn toàn trên phần cứng cá nhân (Local Edge).
Kiến trúc đề xuất
Hệ thống Jarvis sẽ bao gồm ba lớp chính:
- Lớp Tiếp nhận (Input Interface): Hỗ trợ giọng nói thông qua Whisper local, phím tắt nhanh và giao diện chat tối giản.
- Lớp Xử lý Trung tâm (Core Brain): Sử dụng các mô hình ngôn ngữ lớn (LLM) chạy local như Llama 3 hoặc Mistral thông qua Ollama.
- Lớp Hành động (Action System): Kết nối với các API tự động hóa ngôi nhà (Home Assistant) và hệ thống file máy tính cá nhân để thực thi tác vụ.
graph TD
UserInput[Giọng nói/Văn bản] --> InputLayer[Whisper/Interface]
InputLayer --> CoreBrain[Local LLM - Ollama]
CoreBrain --> ActionLayer[Hệ thống tự động hóa]
ActionLayer --> HomeAssistant[Điều khiển thiết bị]
ActionLayer --> PCControl[Quản lý file & email]
Các tính năng dự kiến ở MVP
- Nhận diện giọng nói tiếng Việt mượt mà.
- Tích hợp ghi nhớ ngữ cảnh dài hạn qua Vector Database local (ChromaDB).
- Tự động tóm tắt email và lên lịch họp hàng ngày.