Meta vừa công bố một bước tiến quan trọng trong lĩnh vực trí tuệ nhân tạo và robot với mô hình thế giới mới mang tên V-JEPA 2 – một kiến trúc AI cho phép robot hiểu, dự đoán và thao tác với các vật thể trong những môi trường mà chúng chưa từng được huấn luyện trước đó.
V-JEPA 2 (Video Joint Embedding Predictive Architeture 2) là phiên bản nâng cấp của kiến trúc JEPA trước đây, được huấn luyện chủ yếu từ hơn một triệu giờ video và hình ảnh. Mô hình này không chỉ học cách nhận diện các vật thể mà còn có khả năng dự đoán hành động tiếp theo và lập kế hoạch hành động trong môi trường vật lý thực tế.
Khác với các mô hình AI tạo sinh truyền thống vốn tập trung vào việc tái tạo từng pixel, V-JEPA 2 hoạt động trong không gian trừu tượng, tập trung vào các đặc điểm cấp cao như vị trí và quỹ đạo của vật thể. Điều này giúp mô hình hoạt động hiệu quả hơn với chỉ 1,2 tỷ tham số – một con số khiêm tốn so với các mô hình AI khổng lồ hiện nay.
Ảnh: AInews.com
Mô hình bao gồm hai thành phần chính:
Nhờ kiến trúc này, robot có thể thực hiện các nhiệm vụ như nhặt và đặt vật thể với tỷ lệ thành công từ 65% đến 80%, ngay cả trong môi trường hoàn toàn mới.
Meta đã triển khai V-JEPA 2 trên nhiều robot trong phòng thí nghiệm của mình. Các robot này có thể thực hiện các tác vụ như nhặt đồ vật, di chuyển chúng đến vị trí khác mà không cần huấn luyện cụ thể cho từng môi trường. Điều này mở ra tiềm năng lớn trong các lĩnh vực như:
Theo các chuyên gia, V-JEPA 2 là một bước tiến thực sự trong việc giúp robot hoạt động trong môi trường không cấu trúc – một trong những thách thức lớn nhất của ngành robot hiện nay.