Sản phẩm: Giải pháp ứng dụng công nghệ trí tuệ nhân tạo chuyển đổi văn bản tiếng Việt sang giọng nói tự nhiên Vbee (Vietnamese text to speech)

VBEE TTS (công nghệ tổng hợp tiếng nói) là dịch vụ đầu tiên áp tại thị trường Việt Nam được công bố và áp dụng thành công trí tuệ nhân tạo học máy vào ngôn ngữ tự nhiên tiếng Việt, cho kết quả giọng nói tự nhiên như con người, có xảm xúc, có “tâm hồn”.

Sử dụng giải pháp Vbee TTS cho phép cộng đồng xây dựng nội dung số bằng tiếng nói một cách tự động, nhanh và tiết kiệm. Bên cạnh ý nghĩa nhân văn của giải pháp TTS của Vbee trong việc giúp cộng đồng người khuyết tật tiếp cận được với thông tin như người bình thường, VBee có thể được ứng dụng trong nhiều lĩnh vực khác nhau trong đời sống xã hội, như phát triển các kho sách nói, ứng dụng báo nói, các dịch vụ bằng tiếng nói trên điện thoại thông minh cũng như các thiết bị nhà thông minh, dịch vụ ngân hàng thông minh, tổng đài thông minh, hệ thống chăm sóc khách hàng, trong y tế, giáo dục…

Dưới đây là một số lĩnh vực ứng dụng của giải pháp Vbee TTS:

-Tổng đài tự động

-Thương mại điện tử

-Vận tải

-Sức khoẻ

-Đời sống

-Thiết bị thông minh

-Nhà mạng

-Nội dung

-Giải trí

-Du lịch

-Đào tạo

Các tính năng cơ bản của sản phẩm:

Giải pháp chuyển văn bản thành tiếng nói tiếng Việt tự nhiên Vbee có thể ứng dụng trên nhiều lĩnh vực khác nhau trong đời sống xã hội. Một số tính năng chính của VBee như sau:

-Lõi tổng hợp tiếng nói tiếng Việt: Chuyển đổi tự động từ văn bản thành tiếng nói tiếng Việt tự nhiên:

Tổng hợp tiếng nói tiếng Việt theo ngữ cảnh, đặc trưng của tiếng Việt, vùng miền;

Xử lý đa luồng;

Thực hiện chuẩn hoá văn bản cho các từ chưa chuẩn hoá trong văn bản đầu vào như số, ngày tháng, địa chỉ…;

Dự đoán cách đọc từ nước ngoài có trong văn bản tiếng Việt sử dụng trí tuệ nhân tạo, với cách đọc từ nước ngoài theo kiểu Việt Nam: dễ hiểu, gần gũi với người Việt;

Hỗ trợ SSML (Speech Synthesis Markup Language) cho phép tuỳ biến cách đọc, thay đổi ngữ điệu, tốc độ, ngắt nghỉ và các tham số tiếng nói khác cho âm thanh đầu ra;

Cho phép định nghĩa cách đọc cho từ vay mượn, từ viết tắt theo cách đọc của từng lĩnh vực, từng sản phẩm, từng người dùng;

Cung cấp đa dạng các giọng đọc nam nữ các miền Bắc và miền Nam, sắp tới mở rộng ra miền Trung và các giọng đọc khác;

-Hệ thống dùng thử, quản lý và đối tác dịch vụ TTS cho đối tác: Cho phép người dùng có thể tích hợp dịch vụ, để triển khai việc thử nghiệm trên diện rộng kèm một số tiện ích và tính năng trên đó. Hệ thống bao gồm các tính năng, tiện ích như sau:

Quản lý thông tin người dùng: Điều này là cần thiết trong việc phân tích tổng hợp kết quả từ nhiều tập người dùng khác nhau, và nhiều tập miền ứng dụng khác nhau;

Tương tác sử dụng dịch vụ: cho phép người dùng dễ dàng thử nghiệm bằng cách đưa những đoạn văn bản mong muốn vào, hệ thống sẽ tổng hợp chuyển văn bản thành tiếng nói và đọc lên cho người dùng nghe;

Xử lý hiệu năng thời gian thực: Để tăng tính hiệu quả, cần nghiên cứu và đưa ra cơ chế giúp tổng hợp thời gian thực, điều này sẽ giúp cho với những phần văn bản có kích thước lớn thì người dùng cũng không phải chờ lâu để trải nghiệm dịch vụ;

Tuỳ chỉnh tham số: Việc tổng hợp tiếng nói có rất nhiều tham số kèm theo, đó là chất lượng, tốt độ, loại dữ liệu đẩu ra (wav, mp3…), do đó việc có thể cấu hình được đầu ra âm thanh cho phù hợp với từng yêu cầu là điều cần thiết;

Công cụ định nghĩa các từ vay mượn và viết tắt: cho phép người dùng tự định nghĩa cách đọc cho các từ vay mượn và viết tắt. Điều này là rất cần thiết để cung cấp một nội dung hoàn chỉnh, đúng đắn so với nội dung văn bản đầu vào theo mong muốn của người dùng cũng như trong lĩnh vực của người dùng;

Công cụ hỗ trợ đọc từ nước ngoài: dự đoán cách đọc các từ nước ngoài do hiện nay văn bản tiếng Việt được trộn lẫn nhiều từ nước ngoài trên khắp thế giới – người dùng khó có thể tự định nghĩa hết cách đọc (do số lượng nhiều, dải các từ rộng). Việc dự đoán này hoàn toàn tự động, dựa trên các công nghệ học máy hiện đại, giúp cải tiến cách đọc tự nhiên cho văn bản;

-Công cụ tạo sách nói tự động: Cho phép chuyển tự động sách văn bản thành sách nói. Công cụ cho phép bóc tách, chuẩn hoá, và từ đó tổng hợp văn bản sách thành tiếng nói.

-Công cụ thuyết minh phim tự động: Cho phép chuyển đổi các phụ đề thành giọng thuyết minh khớp với các khung hình trong phim một cách hoàn toàn tự động và nhanh chóng, tiết kiệm được rất nhiều thời gian và tiền bạc, đặc biệt với số lượng lớn phim cần thuyết minh. Công cụ cho phép cấu hình tiếng nói đầu ra như chất lượng tốc độ, loại giọng. Công cụ cũng cho phép định nghĩa các đoạn hội thoại với các giọng khác nhau (nam, nữ, trẻ em, …) để thuyết minh gần hơn với các giọng của nhân vật trong phim.

Nhóm tác giả: Công ty cổ phần dịch vụ và giải pháp xử lý dữ liệu Vbee

Nguyễn Thị Thu Trang

Hồ Minh Đức