Hôm nay là một cột mốc quan trọng đối với dự án Jarvis: Tôi đã tích hợp thành công mô hình Whisper.cpp chạy local để nhận diện giọng nói tiếng Việt với độ trễ dưới 1.5 giây.
Cập nhật mới:
- Tích hợp Whisper.cpp (mô hình base): Chạy mượt mà trực tiếp trên CPU Intel N100 của GreenCore One nhờ tối ưu hóa AVX2.
- Xây dựng phím tắt kích hoạt (Push-to-Talk): Chỉ cần nhấn giữ một nút bấm trên bàn phím để nói và Jarvis sẽ lắng nghe ngay lập tức.
- Xử lý hội thoại cơ bản: Chuyển văn bản nhận diện được sang Ollama chạy mô hình Qwen-1.5B-Chat để phản hồi.
Kế hoạch tuần tới:
Tôi sẽ nghiên cứu cải thiện tính năng Text-to-Speech (TTS) sử dụng một mô hình giọng nói tiếng Việt tự nhiên chạy local để Jarvis có thể phản hồi lại bằng giọng nói thay vì chỉ hiện văn bản.