Psi0: Mô hình VLA Humanoid Mã nguồn Mở

Nghe nói mấy anh em làm robot hình người đang đau đầu vì phải thu thập hàng triệu bước điều khiển mới dạy được robot làm việc? Giờ có mô hình VLA humanoid Psi0 mã nguồn mở rồi nhen! Chỉ cần 80 trajectories (khoảng 80 lần thao tác thực tế) là có thể fine-tune cho robot học kỹ năng hoàn toàn mới. Đây không phải chuyện đùa đâu nghen – hãy cùng tui mổ xẻ repo GitHub này để xem vì sao Psi0 lại là game-changer cho cộng đồng robotics.

Nội dung

Thank you for reading this post, don't forget to subscribe!

Tổng quan về mô hình VLA humanoid Psi0

Psi0 (Ψ₀) là một foundation model thuộc dạng VLA (Vision-Language-Action) được phát triển bởi phòng thí nghiệm Physical Superintelligence Lab. Model này được thiết kế đặc biệt cho robot hình người, kết hợp khả năng hiểu thị giác, ngôn ngữ và điều khiển toàn bộ cơ thể (loco-manipulation). Điểm đặc biệt là Psi0 được huấn luyện trên dữ liệu video egocentric quy mô lớn của con người, sau đó post-train trên một lượng nhỏ dữ liệu teleoperation thực tế. Kết quả? Một model có thể tổng quát hóa cực tốt và chỉ cần fine-tune với rất ít dữ liệu mới.

Dự án được công bố tại RSS 2026 và đã open source toàn bộ mã nguồn, checkpoint và dữ liệu trên kho GitHub chính thức. Bạn có thể tự tay chạy thử trên robot Unitree G1 hoặc trong mô phỏng SIMPLE.

Các tính năng nổi bật của Psi0

Kiến trúc 3 tầng thông minh

Psi0 được chia làm ba hệ thống: System-2 (backbone VLM dựa trên Qwen3-VL-2B-Instruct) trích xuất đặc trưng từ quan sát và hướng dẫn; System-1 (diffusion transformer đa phương thức với khoảng 500 triệu tham số) dự đoán các chuỗi hành động toàn thân; và System-0 (bộ điều khiển RL tracking) thực thi các lệnh hành động ở cấp thấp. Sự kết hợp này giúp robot vừa hiểu ngữ cảnh, vừa hành động mượt mà, lại vừa ổn định về mặt vật lý.

Huấn luyện từ video egocentric

Thay vì chỉ dùng dữ liệu robot đắt đỏ, Psi0 học từ hàng trăm nghìn giờ video quay từ góc nhìn người (egocentric) thông qua bộ dữ liệu EgoDex và Humanoid Everyday. Nhờ đó model nắm được ngữ nghĩa tác vụ và cách tương tác với đồ vật một cách tự nhiên.

Fine-tune siêu nhẹ – chỉ 80 trajectories

Đây có lẽ là tính năng “đỉnh của chóp”. Với các tác vụ mới, bạn chỉ cần thu thập khoảng 80 lần thao tác từ xa (teleoperation) là model đã học được kỹ năng. So với các phương pháp trước đây cần hàng nghìn episode, con số này thực sự ấn tượng. Tụi mình gọi vui là “học ít mà hiểu nhiều” đó nghen!

Tương thích nhiều baseline và môi trường mô phỏng

Psi0 không chỉ đứng một mình. Dự án đi kèm với các baseline mạnh như GR00T, OpenPi π0.5, InternVLA-M1, H-RDT, EgoVLA, Diffusion Policy, ACT. Bạn có thể so sánh hiệu năng trong môi trường mô phỏng SIMPLE (dựa trên MuJoCo + Isaac Sim).

Hướng dẫn cài đặt & sử dụng chi tiết

Để chạy Psi0, bạn cần một máy có GPU (khuyến nghị 3090/4090/5090) và hệ điều hành Linux. Dưới đây là các bước cơ bản:

Clone repo: git clone [email protected]:physical-superintelligence-lab/Psi0.git
Cài đặt môi trường: Dùng uv để quản lý Python 3.10, chạy uv sync --group serve --group viz --group psi --active
Tải dữ liệu: Download dataset từ Hugging Face: hf download USC-PSI-Lab/psi-data real/$task.zip ...
Fine-tune: Chạy script scripts/train/psi0/finetune-real-psi0.sh $task (nhớ set environment variables trong .env)
Triển khai: Serve model với bash ./scripts/deploy/serve_psi0-rtc.sh và kết nối client

Nếu bạn muốn thử nghiệm trong mô phỏng, hãy cài SIMPLE như một submodule và chạy các script đánh giá có sẵn. Chi tiết đầy đủ có trong README của repo.

Đánh giá: Ai nên trải nghiệm công cụ này?

Mô hình VLA humanoid Psi0 dành cho:

Nhà nghiên cứu robotics: muốn thử nghiệm mô hình học hiệu quả với ít dữ liệu.
Kỹ sư robot: đang phát triển ứng dụng trên robot hình người như Unitree G1.
Sinh viên công nghệ: muốn hiểu sâu về VLA, diffusion transformer và ứng dụng thực tế.
Người đam mê open source: thích khám phá mã nguồn và đóng góp cho cộng đồng.

Tuy nhiên, nếu bạn mới bắt đầu với robot hoặc không có GPU mạnh, việc cài đặt và huấn luyện có thể hơi “nặng”. Bù lại, tài liệu hướng dẫn rất chi tiết và có hỗ trợ từ phòng thí nghiệm.

Kết luận

Psi0 là một bước tiến quan trọng trong lĩnh vực AI robotics. Với khả năng học từ video người, fine-tune siêu nhẹ và kiến trúc 3 tầng thông minh, nó mở ra cánh cửa để robot hình người trở nên phổ dụng hơn. Nếu bạn đang tìm một nền tảng VLA mạnh mẽ và mở, hãy ghé ngay kho GitHub Psi0 và bắt đầu thử nghiệm. Đừng quên để lại star nếu thấy hữu ích nghen! 🚀