Người Việt mới làm được “máy đọc tiếng Việt” tốt!

(Dân trí) - “Trên thế giới, công cụ “nói” tiếng Anh đã có. Người Pháp, người Nga cũng đã làm rất tốt đối với ngôn ngữ của họ, không lý gì mình không làm được. Chỉ có người Việt mới làm tốt được với tiếng Việt của chính mình” - chủ nhân giải nhì CNTT chia sẻ.

Đinh Anh Tuấn - người đại diện trẻ măng của nhóm iSolar - giải nhì CNTT có cuộc chia sẻ với phóng viên Dân trí ngay sau khi rời lễ đài với giải thưởng cao nhất của Nhân tài đất Việt năm 2012.
 
Người Việt mới làm được “máy đọc tiếng Việt” tốt!
Đinh Anh Tuấn (trái) cùng các bạn nhận giải nhì CNTT (không có giải nhất), giải thưởng Nhân tài đất Việt năm nay.

Phần mềm ViNAS biến báo điện tử thành báo đọc của nhóm các anh về bản chất là tạo ra tiếng nói nhân tạo giống tiếng nói tự nhiên của con người, hay nói cách khác là một “máy đọc tiếng Việt”?

Vâng, có thể nói vậy. Ý tưởng thiết kế của chúng tôi là muốn giữ nguyên các thiết kế, giao diện của các báo điện tử như Dân trí, Vietnamnet… chỉ thêm vào đó một chức năng mới là nghe tiếng nói, tức là thay vì đọc và xem tin bình thường, người ta còn có thể nghe nội dung văn bản từ những bản tin trên các trang báo mạng đó.

Nhưng dường như sản phẩm các anh tạo ra mới chỉ dừng ở những bài diễn văn buồn tẻ. Có nhiều khó khăn với việc thiết kế sản phẩm với những yêu cầu như phải đọc diễn cảm, đọc cho đúng ngữ điệu trong tiếng Việt?

Hiện chúng tôi đang ứng dụng công nghệ tổng hợp tiếng nói HMM nhưng phải mô phỏng lại sự cấu tạo cổ họng con người. Đó là một cấu tạo rất phức tạp. Vì vậy, khi đọc ra, ở mức độ hiểu thì có thể hiểu được nhưng ở mức độ diễn cảm nói thực là khó có thể đạt được. Một số lỗi cơ bản như khi đọc vẫn bị rè, ngắt câu chưa đúng. Khó có thể mô phỏng chính xác cổ họng con người.

Nhưng nói buồn tẻ thì cũng không hẳn vì chúng tôi vẫn đang cố gắng đưa sản phẩm đến với mọi người và sẽ tiếp thu, sửa lại để có một sản phẩm tốt nhất.
 
Như vậy, khó có thể thấy khả năng sản phẩm có tính cạnh tranh so với các phương tiện như radio truyền thống hay các phương tiện nghe đọc trực tuyến tích hợp trong truyền thông đa phương tiện (multi media) – mô hình các báo điện tử đều hướng tới hiện tại?

Người ta có thể nhận thông tin từ nhiều nguồn khác nhau trong đó có radio, tivi, xem báo điện tử… Tất cả những nguồn này đều có đối tượng độc giả riêng. Trong khi đó, giới trẻ hiện nay, như chúng tôi, rất ít nghe radio. Đó không phải là thói quen của người trẻ.

Chúng tôi cũng có một phương tiện thống kê về thói quen sử dụng mạng của người Việt, đã khảo sát và thấy, có đến 94% số người sử dụng internet để đọc mạng. Trong đó Dân trí là tờ báo được ưa thích nhất. Từ đó chúng tôi mới đặt vấn đề đưa đến cho người đọc báo điện tử phương tiện tiếp cận mới.

Tôi nghĩ việc đó sẽ rất có lợi cho bạn đọc thường xuyên của báo. Ví dụ khi đang lái xe ô tô, người ta rất khó có thể xem báo như bình thường thì người ta có thể nghe nội dung tin qua cách này.
 
Người Việt mới làm được “máy đọc tiếng Việt” tốt!
Các thành viên trong nhóm iSolar cùng Bộ trưởng TT-TT Nguyễn Bắc Son (phải) trên sâu khấu lễ trao giải.

Vậy đâu là ưu điểm nổi bật của Vinas?

Ưu điểm lớn nhất của sản phẩm này chỉ là thêm một cách tiếp cận, một phương tiện giao tiếp mới dành cho người dùng. Qua đó, người dùng có thể đến với máy tính một cách đơn giản hơn. Qua đó, chúng tôi có thể tận dụng lợi thế của voice đối với kho dữ liệu khổng lồ trên báo chí mạng.

Từ đầu, khi xây dựng Vinas, chúng tôi đã xác định cố gắng giữ lại toàn bộ trang báo, chỉ thêm vào đó một chức năng nghe chứ không biến nó thành một sản phẩm đóng nên không lo làm mất những ưu thế vốn có của báo điện tử. Riêng với những trang báo đặc biệt như Dân trí, chúng tôi cũng thiết kế tính năng trả lại trang báo kèm với chức năng nghe chứ không tác động, can thiệp việc thể hiện nội dung trên trang.

Ý tưởng về một cái máy đọc ngôn ngữ của con người không phải đến các bạn mới đặt ra mà sản phầm này đã có nhiều trên thế giới. Ngay đối thủ của các bạn trong cuộc thi Nhân tài đất Việt năm nay - nhóm Viet voice server cũng đã làm thử sản phẩm phát thanh viên tự động và đạt giải 3 Nhân tài đất Việt năm 2009. Tuy nhiên, đến thời điểm này, nhóm cũng chuyển hướng, thiên về xây dựng hướng xây dựng máy nghe hiểu tiếng Việt. Điều gì tạo nên sự khác biệt của Vinas để các anh có được thành công này?

Điều đầu tiên phải nói chúng tôi đã thừa hưởng được những thành công trong công nghệ tiếng nói của công nghệ thông tin. Cái này đã có từ lâu, được nghiên cứu từ rất lâu rồi, thậm chí nó có trước cả khi có Đài tiếng nói Việt Nam của chúng ta.

Ngoài ra, có thể điều này chỉ là niềm tin tự thân của chúng tôi, tôi thấy công cụ “nói” tiếng Anh đã được làm rất tốt. Người Pháp, người Nga cũng đã làm rất tốt đối với ngôn ngữ của mình thì không lý gì mình không làm được. Chỉ có người Việt mới làm tốt được với tiếng Việt của chính mình.

Ví dụ, trên iPhone có phần mềm nổi tiếng Siri, có thể “nghe hiểu” rất tốt người nói tiếng Anh. Đó là mục đích mà chúng tôi sẽ hướng đến trong tương lai. Đầu tiên có thể chỉ là những câu giao tiếp đơn giản và sau đó sẽ là Siri.
Bộ trưởng Nguyễn Bắc Son chúc mừng Đinh Anh Tuấn và các thành viên trong nhóm.
Bộ trưởng Nguyễn Bắc Son chúc mừng Đinh Anh Tuấn và các thành viên trong nhóm.

Vậy anh sẽ phản biện thế nào với ý kiến cho rằng sản phẩm sáng tạo của các anh nói riêng cũng như những sản phẩm công nghệ thông tin của Việt Nam nói chung thực ra chỉ là sự sao chép, mô phỏng các hình thức đã làm của thế giới đưa lại chứ không phải một sáng tạo đột phá?

Chỉ nói ví dụ trong công nghệ tiếng nói này, người ta làm được nhưng chỉ là làm với ngôn ngữ của người ta mà không hề làm với tiếng Việt. Vậy khi chúng tôi làm sản phẩm đọc tiếng Việt này, không thể nói đó chỉ là sự sao chép. Làm được việc này với tiếng Việt sẽ đưa tiếng Việt lên vị thế ngang hàng với các ngôn ngữ khác.

Còn tất nhiên công nghệ của thế giới người ta không chia sẻ thì mình bắt buộc phải học hỏi, kế thừa của họ. Có những giai đoạn dĩ nhiên là mình phải tìm đến học tập, sao chép… vì cũng rất khó để họ sẵn sàng chia sẻ, cho mình thoải mái sử dụng.

Lần này, mới chỉ được trao giải đối với sản phẩm có tiềm năng ứng dụng. Các anh có tin vào sự thành công của Vinas cũng như có tham vọng, kế hoạch cụ thể để sản phẩm có thể đưa vào khai thác thương mại?

Sản phẩm này không chỉ là nghe báo nói mà người dùng hoàn toàn có thể dùng voice để tương tác với trang báo như yêu cầu mở từng trang báo cụ thể. Với Dân trí, có thể dùng khẩu lệnh Dân trí để đến với trang chính của báo hay trong trang, có thể yêu cầu truy nhập mục Xã hội, Thể thao… trong điều kiện rất khó tương tác trên màn hình nhỏ. Đây là hướng khai thác mở rộng của chúng tôi.

Chúng tôi cũng rất chắc chắn về tiềm năng của sản phẩm và đang cố gắng cuối năm nay, 2012, có thể hoàn thiện, đưa vào khai thác. Có mốc thời gian hiện thực như thế vì chúng tôi đã có nền tảng công nghệ phù hợp và chỉ trong 2 ngày đã xây được bản chạy trên nền Window 8. Tức là ứng dụng đã có rồi, chỉ cần đẩy đủ thủ tục nữa là có thể đẩy lên.

Được biết với sản phẩm này các anh mới đây cũng đạt giải Quả cầu vàng. “Cú đúp” giải thưởng Nhân tài đất Việt này có ý nghĩa gì với các anh?

Đó là giải với cá nhân trưởng nhóm của chúng tôi. Còn nhóm iSolar hiện tại hầu hết là những người còn rất trẻ, thậm chí là những sinh viên mới ra trường (sinh năm 1989). Đây là sản phẩm đầu tiên và cũng là giải thưởng đầu tiên mà chúng tôi có. Đây sẽ là động lực cũng như niềm vinh hạnh rất lớn với chúng tôi. Đây là sự may mắn vì chúng tôi đã được làm việc với những người thầy, người anh rất giỏi và được kế thừa một nền tảng rất tốt về CNTT.

Xin cảm ơn và một lần nữa chúc mừng anh về thành công này!

P.Thảo (thực hiện)
Ảnh: Việt Hưng

Thông tin doanh nghiệp - sản phẩm