Google DeepMind chính thức công bố SignGemma – một mô hình trí tuệ nhân tạo tiên tiến có khả năng chuyển đổi ngôn ngữ ký hiệu Mỹ (ASL) thành văn bản nói. Đây là một bước đột phá trong việc thu hẹp khoảng cách giao tiếp giữa cộng đồng người khiếm thính và thế giới nghe-nói, đồng thời mở ra tiềm năng ứng dụng rộng rãi trong giáo dục, y tế và công nghệ hỗ trợ.
SignGemma được xây dựng dựa trên kiến trúc Gemma, một dòng mô hình ngôn ngữ mã nguồn mở của Google. Tuy nhiên, điểm đặc biệt của SignGemma là khả năng xử lý dữ liệu hình ảnh động – cụ thể là các đoạn video ghi lại cử chỉ tay, nét mặt và chuyển động cơ thể để hiểu và chuyển đổi thành văn bản tiếng Anh chính xác.

Ảnh: ainews
DeepMind cho biết mô hình này đã được huấn luyện trên một tập dữ liệu lớn gồm các video ASL có chú thích, đồng thời sử dụng kỹ thuật học đa phương thức để kết hợp giữa thị giác máy tính và xử lý ngôn ngữ tự nhiên.
SignGemma có thể được tích hợp vào các thiết bị như điện thoại thông minh, kính thông minh hoặc hệ thống hội nghị trực tuyến, giúp người khiếm thính giao tiếp dễ dàng hơn trong môi trường số. Ngoài ra, công nghệ này còn có thể hỗ trợ trong giáo dục hòa nhập, dịch vụ khách hàng, và thậm chí là trong các tình huống khẩn cấp nơi việc giao tiếp bằng lời nói bị hạn chế.
Google cũng nhấn mạnh rằng SignGemma không chỉ là một công cụ dịch thuật, mà còn là một phần trong cam kết xây dựng công nghệ toàn diện và công bằng, phục vụ cho mọi cộng đồng.
DeepMind cho biết họ đã làm việc chặt chẽ với các chuyên gia ngôn ngữ ký hiệu và cộng đồng người khiếm thính trong quá trình phát triển SignGemma. Mô hình cũng được phát hành kèm theo tài liệu minh bạch, bao gồm thông tin về dữ liệu huấn luyện, giới hạn sử dụng và các khuyến nghị đạo đức.
Sự ra đời của SignGemma đánh dấu một bước tiến lớn trong việc ứng dụng AI vào lĩnh vực hỗ trợ người khuyết tật. Với tiềm năng mở rộng sang nhiều ngôn ngữ ký hiệu khác trong tương lai, công nghệ này có thể trở thành cầu nối quan trọng giúp hàng triệu người khiếm thính trên thế giới tiếp cận thông tin và giao tiếp dễ dàng hơn.