SV FPT nghiên cứu thành công hệ thống chuyển văn bản sang tiếng nói

Chỉ trong 4 tháng, nhóm sinh viên của ĐH FPT đã nghiên cứu thành công hệ thống tổng hợp tiếng Việt với nhiều tiềm năng ứng dụng vào thực tế. Dù là một đề tài không mới trên thế giới, nhưng các bạn đều ấp ủ có thể tự làm một sản phẩm “về tiếng Việt, của người Việt”.

Thách thức từ thực tế 

Tạo ra tiếng nói nhân tạo của con người trên các thiết bị điện tử từ các dữ liệu văn bản đầu vào là một trong những mối quan tâm của rất nhiều nhóm nghiên cứu ở Việt Nam cũng như nước ngoài từ lâu. Song việc này không hề dễ dàng, đặc biệt là với tiếng Việt - ngôn ngữ có những đặc trưng riêng về thanh dấu, ngữ âm…

Thế nhưng, các chàng trai Trần Văn Trúc, Vũ Văn Thuyên, Lăng Trung Hiếu, Nguyễn Mạnh Tuấn, Phạm Lê Quang - đều là sinh viên năm cuối ĐH FPT đã dồn tâm huyết để thực hiện thành công dự án Vietnamese synthesis system (Hệ thống tổng hợp tiếng Việt). Đây cũng là đồ án tốt nghiệp được đánh giá rất cao của các em trong đợt bảo vệ đồ án tốt nghiệp tại Trường ĐH FPT vừa qua.

Hệ thống tiến hành phân tích một đoạn chữ tiếng Việt và chuyển từ chữ viết thành tiếng nói.
Hệ thống tiến hành phân tích một đoạn chữ tiếng Việt và chuyển từ chữ viết thành tiếng nói.

Các sinh viên cho biết, ban đầu, nhóm định phát triển một hệ thống chuyển tiếng nói sang văn bản, nhưng khi bắt đầu triển khai thực tế, các bạn đã đổi hướng làm ngược lại vì phát hiện những ý nghĩa rất lớn của nghiên cứu.

Lăng Trung Hiếu, trưởng nhóm dự án chia sẻ: “Đã có những hệ thống tương tự làm rất tốt nhưng đều là với tiếng Anh hoặc một số tiếng nước ngoài. Còn về tiếng Việt, các sản phẩm hiện có về tổng hợp tiếng nói Tiếng Việt trên thị trường chưa hoàn thiện và hầu hết không phải sản phẩm của người Việt làm ra. Khi bắt tay nghiên cứu, chúng em muốn phát triển thành công một sản phẩm về tiếng Việt, của người Việt”.

Sản phẩm được demo chạy trên hệ điều hành Android.
Sản phẩm được demo chạy trên hệ điều hành Android.
 
4 tháng làm đồ án, nhóm gặp rất nhiều khó khăn nhất là về kiến thức ngoài chuyên ngành như Ngôn ngữ học. Việc thu thập các mẫu tiếng nói, tìm ra phương pháp nhận dạng tiếng nói cũng không hề đơn giản.

Nhờ sự góp ý, hướng dẫn tận tình của giảng viên hướng dẫn đồ án, vùi sâu nghiên cứu các thành quả kỹ thuật, các tài liệu tham khảo đã có, cuối cùng, các bạn cũng tìm ra hướng giải quyết. 

“Với hệ thống này, khi truyền một đoạn văn bản qua hệ thống sử dụng các thuật toán và dữ liệu có sẵn để xử lý thành âm thanh và phát ra giọng nói của người Việt Nam. Cái khó nhất trong đồ án là nghiên cứu thuật toán: TPSOLA. Để hiểu rõ thuật toán này chúng em phải tìm hiểu các đặc trưng giọng người Việt, hình dạng của âm thanh, ghép nối các âm thanh với nhau, biến âm từ một âm có sẵn thành một âm khác…” - SV Trần Văn Trúc giải thích.

Niềm vui từ “quả ngọt”

Là một đề tài nghiên cứu không mới, quá trình làm “Vietnamese synthesis system” của 5 chàng sinh viên vừa có những ưu thế, vừa có những hạn chế riêng.

“Ưu thế là chúng em có được nhiều nguồn tham khảo, có sẵn nhiều bài học. Nhưng hạn chế là các thành viên đều không có nhiều kiến thức về ngôn ngữ học, thời gian eo hẹp mà đầu việc thì rất nhiều… Đặc biệt, trong nhóm có hai thành viên đã đi làm từ trước khi tốt nghiệp nên chúng em phải tận dụng tối đa thời gian làm việc nhóm, liên tục kiểm tra tiến độ công việc để có thể phát hiện ra những lỗi bất thường nhằm giải quyết kịp thời. Sát ngày bảo vệ, nhóm mới hoàn thiện tác phẩm của mình” - một thành viên trong nhóm “bật mí”.

Sản phẩm được demo chạy trên hệ điều hành Android.
5 sinh viên FPT đã xuất sắc hoàn thành sản phẩm chuyển văn bản sang tiếng nói với những ứng dụng to lớn có thể áp dụng trong nhiều lĩnh vực.

Không thể diễn tả hết niềm vui của những bạn trẻ đam mê khoa học này khi sản phẩm của họ nhận được lời ngợi khen của các thầy trong Hội đồng bảo vệ, được đánh giá là có khả năng ứng dụng thực tế cao. Càng vui hơn, khi cả nhóm đã kề vai sát cánh vượt qua nhiều khó khăn, trở ngại để hoàn thành tốt “công trình” cuối cùng của đời sinh viên.

Đối với các thành viên, những gì họ làm đã được đền đáp xứng đáng: Sự ngợi khen, công nhận từ các thầy cô trong hội đồng bảo vệ, sự khâm phục của bạn bè. Hệ thống tổng hợp tiếng Việt mà các bạn xây dựng có thể cài đặt trên tất cả các hệ thống có sử dụng hệ điều hành, có thể ứng dụng như máy nói cho người câm, trong giao thông… Thay vì phải đọc các thông báo tài xế có thể nghe các thông báo từ trung tâm như tắc đường, thông tin đường phố. Ngoài ra, hệ thống còn ứng dụng được trong tổng đài taxi, trả lời điện thoại thay vì phải nói rất nhiều thông tin từ khách hàng. Những tiềm năng ấy hứa hẹn sẽ còn được rộng mở trong tương lai nếu cả nhóm có điều kiện nghiên cứu, phát triển thêm.

“Điều em tâm đắc nhất với đồ án của mình chính là những ứng dụng rộng rãi, giá trị thật của nó. Với bất cứ người làm khoa học nào, tác dụng thực của sản phẩm chính là nguồn động viên lớn nhất dành cho họ. Quá trình thực hiện sản phẩm, chúng em đều học được rất nhiều bài học kinh nghiệm lẫn kiến thức cũng như thêm động lực để nghiên cứu. Trong thời gian tới, nhóm rất mong có được nguồn ủng hộ, quan tâm từ khách hàng để có thể tiếp tục hoàn thiện sản phẩm hơn nữa” - Lăng Trung Hiếu, trưởng nhóm dự án chia sẻ.