Viettel Solutions và Nvidia công bố kết quả huấn luyện trợ lý AI tiếng Việt

Toàn Thịnh

(Dân trí) - Bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt do Viettel Solutions và Nvidia hợp tác xây dựng đã được chia sẻ rộng rãi cho cộng đồng nghiên cứu và phát triển trí tuệ nhân tạo (AI) Việt Nam.

Ngay sau khi công bố trên trang chia sẻ công nghệ của Nvidia, bộ dữ liệu mở dành riêng cho Tiếng Việt đã được cung cấp miễn phí cho cộng đồng nghiên cứu phát triển AI tại Việt Nam. Đây là bộ dữ liệu tiếng Việt chất lượng cao, quy mô lớn, tạo nền tảng cho sự phát triển mạnh mẽ hơn nữa của các mô hình ngôn ngữ lớn (Large Language Models - LLM) tiếng Việt.

Sản phẩm là thành quả hợp tác đầu tiên giữa Viettel Solutions và Nvidia. Các kỹ sư của Viettel Solution trực tiếp thu thập và xử lý dữ liệu từ các nguồn khác nhau, chuẩn hóa, phân loại, làm sạch và tổng hợp lại. Quá trình này có sự hỗ trợ của nền tảng NeMo Framework và hạ tầng tính toán GPU mạnh mẽ do Nvidia cung cấp.

Viettel Solutions và Nvidia công bố kết quả huấn luyện trợ lý AI tiếng Việt - 1
Đội ngũ phát triển của Viettel Solutions (Ảnh: Thu Hà).

Hiện nay, các trợ lý AI được phát triển dựa trên các mô hình LLM nhưng chủ yếu được huấn luyện trên các bộ dữ liệu tiếng Anh. Bộ dữ liệu của Viettel Solutions và Nvidia được kỳ vọng giúp các ứng dụng AI phù hợp hơn với người Việt và mở ra nhiều tiềm năng phát triển cho cộng đồng AI Việt Nam.

Đại diện Viettel cho biết quá trình hợp tác với Nvidia giúp doanh nghiệp xây dựng dữ liệu sạch hơn, mô hình tốt hơn khi loại bỏ dữ liệu trùng lặp và không phù hợp. Dữ liệu tinh gọn hơn cũng giúp quá trình huấn luyện nhanh gấp 4 lần, bộ dữ liệu này hiện đã được công bố trên trang chia sẻ công nghệ của Nvidia và sẵn sàng cung cấp miễn phí cho cộng đồng nghiên cứu phát triển AI tại Việt Nam.

Đội ngũ phát triển của Viettel Solutions cũng sử dụng công cụ NeMo Curator, một thư viện được thiết kế riêng cho việc xử lý dữ liệu cho AI tạo sinh như tiền huấn luyện mô hình ngôn ngữ nền tảng, tiền huấn luyện thích ứng miền (DAPT), tinh chỉnh có giám sát (SFT) và tinh chỉnh hiệu quả tham số (PEFT). Công cụ trên giúp tăng tốc việc quản lý dữ liệu bằng cách tận dụng GPU với Dask và RAPIDS, giúp tiết kiệm đáng kể thời gian.

Viettel Solutions và Nvidia công bố kết quả huấn luyện trợ lý AI tiếng Việt - 2
Trong tương lai, Viettel Solutions và Nvidia sẽ tiếp tục bổ sung thêm các nguồn dữ liệu mới, đảm bảo bộ dữ liệu Tiếng Việt ngày càng phong phú, đa dạng hơn (Ảnh: Thu Hà).

"Nhờ sử dụng tài nguyên phần cứng và thư viện NeMo, chúng tôi đã xử lý cùng lúc hơn 500GB dữ liệu text (tương đương 120 triệu văn bản, 135 tỷ tokens). Những thành tựu này mở ra nhiều tiềm năng phát triển cho cộng đồng AI Việt Nam", đại diện Viettel Solutions cho biết.

Đây là bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt chất lượng cao được công bố, công khai toàn bộ mã nguồn xử lý, đóng góp cho cộng đồng nghiên cứu, phát triển và huấn luyện AI.

Trong tương lai, Viettel Solutions và Nvidia sẽ tiếp tục bổ sung thêm các nguồn dữ liệu mới, đảm bảo bộ dữ liệu tiếng Việt ngày càng phong phú, đa dạng hơn về chủ đề và chuẩn xác, sâu sắc hơn về nội dung. Ngoài ra, hai bên cũng hướng đến việc xây dựng các bộ dữ liệu chuyên biệt phục vụ phát triển trợ lý AI trong các lĩnh vực quan trọng như y tế, giáo dục, thương mại và hành chính công.

Hai bên cũng tiếp tục hợp tác phát triển các công cụ và công nghệ AI theo hướng mở, thúc đẩy sự phát triển của cộng đồng nghiên cứu AI tại Việt Nam.

Bộ dữ liệu lớn phục vụ huấn luyện trợ lý AI tiếng Việt khẳng định tầm nhìn chiến lược chung của cả Viettel Solutions và Nvidia: đưa Việt Nam trở thành một AI Hub, nơi các công nghệ AI tiên tiến nhất được nghiên cứu phát triển và ứng dụng rộng rãi.

Trước đó, hai tập đoàn công nghệ lớn là Viettel và Nvidia đã thiết lập mối quan hệ hợp tác chiến lược về AI, mở đầu cho các hoạt động nghiên cứu, ứng dụng AI tại Việt Nam từ năm 2022.

Mới đây, ngày 5/12, Chính phủ Việt Nam và Nvidia tiếp tục ký kết thành lập Trung tâm Nghiên cứu và Phát triển AI của Nvidia và Trung tâm Dữ liệu AI của Viettel.

Hai sự kiện này mang ý nghĩa quan trọng, là nền tảng để thúc đẩy nghiên cứu và phát triển các công nghệ AI tiên tiến tại Việt Nam. Bộ dữ liệu tiếng Việt phục vụ huấn luyện trợ lý AI được công bố là minh chứng rõ ràng cho sự kết hợp hiệu quả giữa công nghệ và nguồn lực từ hai tập đoàn lớn.