Nhân tài Đất Việt 2009:

“Tiếng nói Phương Nam - VOS” - Chuyển văn bản sang tiếng nói

Thứ sáu, 13/11/2009 - 11:29

(Dân trí) - Với khả năng đọc được các từ viết tắt, kí hiệu, các tiếng nước ngoài thông dụng và phủ khoảng gần 6.000 từ tiếng Việt trong hiện tại, phần mềm “Tiếng nói Phương Nam - VOS” hứa hẹn tiềm năng ứng dụng rất lớn.

“Tiếng nói Phương Nam - VOS” là phần mềm có thể tạo ra giọng nói nhân tạo của người trên máy tính từ dữ liệu đầu vào là văn bản. VOS phiên bản 1.0 được phát triển theo phương pháp mới với các cải tiến để tạo ra tiếng nói được tổng hợp tự nhiên, rõ ràng, rất gần với giọng thực. Phần mềm này là 1 trong 10 sản phẩm lọt vào vòng Chung khảo Giải thưởng Nhân tài Đất Việt 2009.

Có thể hiểu một cách đơn giản về tổng hợp tiếng nói. Đó là việc nghiên cứu để huấn luyện sao cho máy tính có thể nói được tiếng người từ dữ liệu đầu vào là văn bản. Cách đơn giản nhất là ta thu âm trước các mẫu câu rồi phát lại khi cần. Cách này có hạn chế là không thể đọc được những mẫu câu chưa được thu. Một cách khác là thu âm từ điển. Các câu cần đọc sẽ được tổng hợp bằng cách ghép các từ đã thu âm trước đó. Hạn chế của cách này là tiếng nói tổng hợp không tự nhiên.

“Tiếng nói Phương Nam - VOS” - Chuyển văn bản sang tiếng nói - 1

Chuyển văn bản thành tiếng nói là tính năng chính của phần mềm “Tiếng nói Phương Nam - VOS”.

Hệ thống tổng hợp tiếng nói phương Nam của nhóm nghiên cứu thuộc trường ĐHQG TP.HCM được xây dựng trên những kết quả nghiên cứu mới nhất của các nhóm nghiên cứu hàng đầu trên thế giới về lĩnh vực này, có điều chỉnh, bổ sung cho những đặc thù riêng của tiếng Việt. Cụ thể, nhóm đã xây dựng kho dữ liệu huấn luyện là các mẫu câu, phủ gần hết bộ từ vựng tiếng Việt. Nhóm đã hợp tác với phát thanh viên Kim Phượng của đài tiếng nói nhân dân TPHCM, để thu âm tập mẫu câu này.

Kết quả thu được là khoảng 60 giờ tiếng nói và bộ dữ liệu này được tự động phân đoạn ra thành các từ, cụm từ, sử dụng công nghệ nhận dạng tiếng nói mà nhóm đã nghiên cứu trước đó. Cần nhấn mạnh rằng độ chính xác của hệ thống nhận dạng tiếng nói liên tục trên bộ từ vựng lớn mà nhóm phát triển cho kết quả rất cao.

Với cách tiếp cận này, chất lượng của tiếng nói tổng hợp sẽ tự nhiên hơn rất nhiều. Nhóm lấy tên “Tiếng nói Phương Nam - VOS” một phần do giọng đọc của phát thanh viên Kim Phượng rất đặc trưng cho phương ngữ Nam Bộ. Hệ thống tổng hợp tiếng nói phương Nam hiện tại có khả năng đọc được các từ viết tắt, kí hiệu, các tiếng nước ngoài thông dụng và phủ khoảng gần 6.000 từ tiếng Việt.

Theo nhóm nghiên cứu sản phẩm này, tiềm năng ứng dụng của hệ thống VOS là rất lớn, bao gồm nhiều lĩnh vực như: truyền thông, tự động hóa, giáo dục.

Trong lĩnh vực truyền thông, hệ thống VOS có thể được áp dụng trong các ứng dụng truy vấn thông tin qua tổng đài điện thoại, trong đó yêu cầu của người dùng sẽ được ứng dụng tiếp nhận và xử lý thành dạng văn bản. Thông tin này sẽ được hệ thống VOS chuyển thành dạng âm thanh và trả về cho người dùng. Các hệ thống này có khả năng ứng dụng cao do quá trình xử lý hoàn toàn tự động, có thể hoạt động liên tục, đáp ứng được nhu cầu về thông tin của người dùng, đặc biệt là các thông tin nóng, cập nhật.

Trong lĩnh vực tự động hóa, hệ thống VOS có thể được tích hợp với hệ thống định vị GPS trong các ứng dụng tìm đường đi, gắn trên xe hơi để cung cấp các chỉ dẫn ở dạng âm thanh, hạn chế việc lái xe phải liên tục vừa nhìn màn hình GPS, làm tăng độ an toàn cho người điều khiển.

Trong lĩnh vực giáo dục, VOS có thể được sử dụng để dạy tiếng Việt cho con em Việt Kiều định cư ở nước ngoài, nhất là cách đọc, cách phát âm các từ tiếng Việt. Đây là phần mềm thực hành tiếng Việt hữu hiệu, đặc biệt trong môi trường mà ngôn ngữ sử dụng không phải là tiếng Việt.

VOS cũng được sử dụng trong các hệ thống dịch tiếng nói. Trong năm nay, nhóm đã được quĩ NAFOSTED phê duyệt đề tài nghiên cứu về công nghệ nền cho bài toán dịch tiếng nói Anh-Việt. Ngoài ra, những người khiếm thị có thể sử dụng hệ thống này để cập nhật kiến thức, tin tức thời sự, giúp họ hòa nhập tốt với cuộc sống đời thường.

Sau một thời gian công bố phiên bản demo giới hạn trên website: http://www.ailab.hcmus.edu.vn/slp đã có hơn 30.000 ngàn lượt truy cập và thử nghiệm hệ thống.

Không dừng lại ở đó, trong thời gian tới, nhóm sẽ tiếp tục các nghiên cứu để nâng cấp phiên bản VOS như nghiên cứu về ngôn điệu, nghiên cứu về việc thay đổi giọng đọc giúp làm phong phú hơn cho phần mềm này.

T.N