WebExplorer: Khung tạo agent tìm kiếm web thông minh không cần nhãn thủ công

By Bùi Thị Thanh Thảo

Hãy tưởng tượng một thế giới nơi AI không chỉ “tra cứu” mà còn “suy luận” như con người, lướt qua mê cung web để giải quyết vấn đề phức tạp mà không cần hướng dẫn chi tiết từ con người. Đó chính là tầm nhìn của WebExplorer – khung công nghệ đột phá từ các nhà nghiên cứu tại Đại học Khoa học và Công nghệ Hồng Kông (HKUST), MiniMax và Đại học Waterloo, được công bố ngày 20 tháng 9 năm 2025. Thay vì phụ thuộc vào dữ liệu huấn luyện đắt đỏ và thủ công, WebExplorer tự động tạo ra các cặp câu hỏi-trả lời thử thách, giúp xây dựng agent web “siêu việt” – những trợ lý ảo có khả năng xử lý nhiệm vụ dài hạn. Với mô hình WebExplorer-8B đạt kết quả hàng đầu (SOTA) cho kích thước của nó, khung này không chỉ giải quyết nút thắt dữ liệu mà còn mở ra kỷ nguyên mới cho doanh nghiệp, nơi AI trở thành “người nghiên cứu” thông minh, tiết kiệm chi phí và thời gian.

Vấn đề cốt lõi trong phát triển agent web – những AI tự động duyệt web để tìm thông tin – nằm ở chất lượng dữ liệu huấn luyện. Các mô hình mã nguồn mở thường yếu kém với nhiệm vụ đa bước phức tạp, trong khi bí quyết của các ông lớn như OpenAI hay Google vẫn là “hộp đen”. Các benchmark hàng đầu nay chứa câu hỏi khó đến mức ngay cả người chấm cũng vật lộn, đòi hỏi dữ liệu “siêu chất lượng” để đạt hiệu suất “siêu nhân”. Tuy nhiên, việc tạo dữ liệu thủ công chậm chạp, tốn kém và quy mô nhỏ, dẫn đến khoảng trống lớn cho huấn luyện mô hình lớn. Các phương pháp tự động hiện tại cũng có hạn chế: Phương pháp dựa trên đồ thị (mapping website) phức tạp để bảo trì, còn phương pháp tiến hóa (làm câu hỏi đơn giản thành khó) thường tạo ra query “không tự nhiên”.

Credit: VentureBeat

WebExplorer giải quyết bằng cách tiếp cận hai giai đoạn đơn giản nhưng hiệu quả: Khám phá dựa trên mô hình (model-based exploration) và tiến hóa query lặp lại (iterative query evolution). Thay vì vẽ bản đồ web cứng nhắc, khung sử dụng LLM (mô hình ngôn ngữ lớn) để “khám phá” tự do, tạo query từ dữ liệu web thực tế. Giai đoạn đầu, AI tự tạo câu hỏi khó bằng cách “đào sâu” – ví dụ, từ “Ai là tổng thống Mỹ?” thành “Ai là tổng thống Mỹ đầu tiên được bầu sau đại dịch lớn nhất thế kỷ, và chính sách của ông ấy ảnh hưởng thế nào đến kinh tế toàn cầu?”. Giai đoạn hai, query được tiến hóa qua vòng lặp: AI tạo giải pháp, tự đánh giá, rồi tinh chỉnh để tăng độ khó và tính thực tế, sử dụng kỹ thuật “deletion” (xóa thông tin) để buộc agent phải suy luận sâu hơn thay vì sao chép.

Kết quả là bộ dữ liệu WebExplorer-QA với khoảng 40.000 cặp câu hỏi-trả lời thử thách, được dùng trong công thức huấn luyện hai giai đoạn: Fine-tuning giám sát (SFT) để “khởi động lạnh” kỹ năng cơ bản như dùng công cụ tìm kiếm và phân tích query, sau đó là học tăng cường (RL) để AI tự khám phá đường giải, hỗ trợ ngữ cảnh lên đến 128.000 token. Các nhà nghiên cứu tinh chỉnh Qwen3-8B thành WebExplorer-8B, và kết quả vượt trội: Trên benchmark BrowseComp, mô hình đánh bại WebSailor-72B (gấp 10 lần kích thước); trên GAIA và WebWalkerQA, nó dẫn đầu SOTA cho mô hình 8B. Ngay cả trên Humanity’s Last Exam (HLE) – benchmark khó về STEM – WebExplorer-8B cũng thể hiện khả năng tổng quát hóa mạnh mẽ.

Sâu sắc hơn, WebExplorer không chỉ là khung kỹ thuật; nó là bước ngoặt dân chủ hóa AI web agent, nơi doanh nghiệp có thể tùy chỉnh “người nghiên cứu ảo” cho phân tích thị trường, nghiên cứu nội bộ hay xử lý dữ liệu lớn mà không tốn kém nhãn thủ công. Trong kỷ nguyên AI “siêu nhân”, khung này nhắc nhở rằng hiệu suất không đến từ kích thước mô hình khổng lồ, mà từ dữ liệu thông minh và suy luận tinh tế – giống như con người học từ thử thách. Với WebExplorer-8B, các nhà nghiên cứu đã chứng minh rằng “tự tổng hợp dữ liệu thử thách” qua SFT và RL có thể tạo agent dài hạn, mở ra tiềm năng cho ứng dụng thực tế. Nhưng nó cũng đặt câu hỏi: Khi AI ngày càng “thông minh”, liệu chúng ta có đang trao quyền kiểm soát web – nguồn kiến thức nhân loại – cho máy móc? WebExplorer không chỉ giải quyết nút thắt dữ liệu; nó mời gọi suy ngẫm về tương lai nơi AI không thay thế, mà nâng tầm trí tuệ con người, biến mê cung thông tin thành hành trình khám phá đầy ý nghĩa.