Chủ động làm chủ công nghệ, Viettel AI dẫn đầu tại VLSP 2023

Trường Thịnh

(Dân trí) - Việc chủ động nghiên cứu và làm chủ công nghệ về xử lý tiếng nói tiếng Việt từ sớm đã giúp Trung tâm Dịch vụ dữ liệu và Trí tuệ nhân tạo Viettel (Viettel AI) chiến thắng thuyết phục tại cuộc thi Vietnamese Language and Speech Processing (VLSP) 2023.

Viettel AI đã chiến thắng ở cả 2 hạng mục: nhận dạng tiếng nói và nhận dạng cảm xúc tiếng nói, dịch máy Việt - Lào.

Dù đây đã là lần thứ 4 Viettel AI tham gia cuộc thi và đã có 3 lần chiến thắng trước đó nhưng các kỹ sư Viettel vẫn gặp không ít khó khăn bởi những thay đổi trong cơ cấu hạng mục cuộc thi.

Cụ thể, so với năm ngoái, hạng mục nhận dạng tiếng nói và nhận dạng cảm xúc năm nay được gộp chung thành một hạng mục. Các đội thi phải giải quyết cùng lúc hai bài toán để đảm bảo nhận dạng được cả văn bản và cảm xúc của câu nói, khối lượng công việc và độ khó đều tăng lên gấp đôi.

Tận dụng từng dữ liệu dù chất lượng thấp hay cao

Không chỉ thay đổi về cơ cấu hạng mục, đề thi năm nay còn tập trung vào hướng xây dựng mô hình từ đầu với điều kiện dữ liệu hạn chế, gồm các dữ liệu thô, chưa được gắn nhãn và chất lượng thấp. Tổng cộng, đề thi cung cấp 4 nhóm dữ liệu với chất lượng và hình thức khác nhau.

Có dữ liệu chỉ gồm âm thanh không nhãn, có dữ liệu chỉ gồm âm thanh và văn bản, có dữ liệu gồm cảm xúc và âm thanh, chất lượng cao, nhãn chuẩn, và có bộ dữ liệu gồm cảm xúc và âm thanh, chất lượng thấp. Mỗi bộ dữ liệu được xác định rõ phục vụ theo từng mục đích và hạng mục thi, tổng số hơn 300 giờ trên tất cả các bộ dữ liệu. Đây là con số khá khiêm tốn nếu so với các bộ dữ liệu chuẩn để huấn luyện nhận dạng tiếng nói vốn thường cần lên tới 1.000-2.000 giờ hoặc hơn.

Mỗi đội thi chỉ có chưa đầy 2 tháng để làm và nộp bài, nhưng trên thực tế, thời gian thực sự để dành cho nghiên cứu giải pháp còn ít hơn vì thiếu nguồn lực. "Năm nay, Viettel AI dành rất nhiều nguồn lực về hạ tầng tính toán để nghiên cứu công nghệ mới cũng như phát triển sản phẩm, trong khi nhận dạng tiếng nói là một công nghệ yêu cầu tài nguyên phần cứng rất lớn", anh Đặng Đình Sơn, kỹ sư AI, Khối Nền tảng trợ lý ảo, Viettel AI chia sẻ.

Chủ động làm chủ công nghệ, Viettel AI dẫn đầu tại VLSP 2023 - 1

Nhóm kỹ sư AI, Khối Nền tảng trợ lý ảo, đại diện Viettel AI tham gia hạng mục nhận dạng tiếng nói và nhận dạng cảm xúc tiếng nói - VLSP 2023.

Trước điều kiện dữ liệu với khối lượng và chất lượng đều thấp, nhóm nghiên cứu ngay lập tức xác định quan điểm "phải tận dụng tất cả các dữ liệu dù chất lượng thấp hay cao".

Thành quả từ việc tiên phong làm chủ công nghệ

Trong bối cảnh vừa thiếu dữ liệu, vừa thiếu tài nguyên, nhóm nghiên cứu quyết định xây dựng một quy trình xử lý đơn giản, không đồ sộ nhưng quan trọng là được tinh chỉnh từng chi tiết nhỏ nhất.

Kết hợp với những phương pháp xử lý dữ liệu để huấn luyện mô hình đã có hiệu quả, nhóm nghiên cứu xây dựng một chu trình huấn luyện giúp xử lý toàn bộ các dữ liệu đang có.

Chu trình gồm 3 bước: xây dựng mô hình tiền huấn luyện (pretraining) để mô tả đặc trưng giọng nói mà không cần nhãn, tinh chỉnh từ mô hình tiền huấn luyện cho hai bài toán nhận dạng giọng nói, nhận dạng cảm xúc và suy luận.

"May mắn là các kinh nghiệm từ việc giải quyết các bài toán thiếu dữ liệu trong quá trình phát triển, triển khai sản phẩm trước đây cũng đóng góp không nhỏ giúp đội thi tìm ra được phương pháp quyết định. Ngược lại, các kiến thức, kết quả có được từ bài thi cũng có tiềm năng áp dụng ngay cho các sản phẩm của Viettel AI nên quá trình vừa làm việc vừa làm bài thi diễn ra khá thuận lợi", anh Bùi Tiến Đạt, kỹ sư Khối Nền tảng trợ lý ảo, Viettel AI chia sẻ.

Kết quả, Viettel AI không chỉ giành giải nhất ở hạng mục nhận dạng tiếng nói và nhận dạng cảm xúc tiếng nói mà còn đạt được điểm số ấn tượng là 89,18% (các đội tiếp theo lần lượt là 83,4% và 78,45%).

Lý giải về việc tại sao đạt kết quả vượt trội về độ chính xác, anh Sơn cho biết yếu tố then chốt nằm ở mô hình xử lý tiếng nói dành riêng cho tiếng Việt mà Viettel AI đã phát triển từ lâu. "Thay vì sử dụng mô hình, hướng dẫn từ các kết quả nghiên cứu có sẵn, Viettel AI lựa chọn xây dựng và tự phát triển một mô hình riêng dành cho xử lý tiếng nói tiếng Việt. Mô hình này liên tục được cập nhật, tối ưu và càng ngày càng trở nên hiệu quả", anh Sơn nói.

Chủ động làm chủ công nghệ, Viettel AI dẫn đầu tại VLSP 2023 - 2

Bùi Tiến Đạt, kỹ sư Khối nền Nền tảng Trợ trợ lý ảo, Viettel AI đại diện đội thi trình bày kết quả nghiên cứu tại buổi hội thảo.

Không chỉ dừng lại ở khuôn khổ cuộc thi, giải pháp này của Viettel AI sẽ là tiền đề nâng cấp các sản phẩm tổng đài ảo, trợ lý ảo Viettel, giúp nhận dạng cảm xúc của khách hàng chính xác hơn trong cuộc hội thoại, từ đó đưa ra những phản hồi hay lựa chọn sắc thái câu nói phù hợp.

Như vậy, các cuộc hội thoại giữa con người và AI sẽ trở nên tự nhiên hơn, cải thiện trải nghiệm người dùng. Nhiều ứng dụng mới trong việc chăm sóc khách hàng cũng được mở ra như xây dựng hệ thống tự động nhận diện các cuộc gọi phàn nàn, khiếu nại của khách hàng lên tổng đài nhằm xử lý kịp thời hay để khai thác thông tin.