Giải Nhì CNTT: Ba năm ấp ủ công nghệ tạo ra những văn bản “sạch”

(Dân trí) - Hiện nay, có rất nhiều văn bản đáng lẽ phải không được phép có lỗi chính tả thì lại rất nhiều lỗi chính tả, lỗi sao chép, lỗi trích dẫn... Với DoIT, chúng tôi mong muốn tạo ra những văn bản “sạch”, những sản phẩm văn bản được soạn thảo ra không còn lỗi chính tả.

Trong đêm trao giải Nhân tài Đất Việt năm thứ 13 diễn ra tối qua (16/11), tại Hà Nội, PV Dân trí đã có cuộc trao đổi với TS. Võ Đình Hiếu - Trưởng nhóm DoIT - để có những ghi nhận đầy đủ hơn những thông tin về sản phẩm và quá trình đến với Giải thưởng uy tín này.

- Phóng viên: Đầu tiên, xin một lần nữa chúc mừng anh và nhóm DoIT đã đoạt giải Nhì trong lĩnh vực CNTT tại Giải thưởng Nhân tài Đất Việt năm 2017. Chúng tôi rất quan tâm tới quá trình tạo ra sản phẩm với tính ứng dụng cao của DoIT. Xin anh cho biết ý tưởng của sản phẩm này bắt nguồn từ đâu?

- TS. Võ Đình Hiếu: Ý thưởng có từ 3 yếu tố. Đầu tiên, ý tưởng bắt nguồn từ thực trạng văn bản, có nhiều văn bản đáng lẽ phải có chất lượng cao hơn những gì chúng ta đọc được (ví dụ: Trang báo điện tử, công văn, Thông tư, khóa luận hoặc luận văn của sinh viên...), đáng lẽ phải không có lỗi chính tả nhưng lại rất nhiều lỗi chính tả, lỗi sao chép, lỗi trích dẫn...

Thứ hai, trong đội ngũ của Khoa Công nghệ Thông tin, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, có rất nhiều giảng viên có kinh nghiệm và tri thức về xử lý ngôn ngữ, đặc biệt là xử lý tiếng Việt.

Giải Nhì được trao cho DoIT tối 16/11 (ảnh: Việt Hưng)
Giải Nhì được trao cho DoIT tối 16/11 (ảnh: Việt Hưng)

Thứ ba là sự ủng hộ và khuyến khích rất lớn của lãnh đạo Đại học Quốc gia Hà Nội, Đại học Công nghệ. Khi nhóm đưa ra đề xuất hệ thống này thì lãnh đạo các cấp đồng ý ngay, vì ngoài việc đây là sản phẩm có chất lượng cao mà còn được xem là công cụ hỗ trợ cho việc nâng cao chất lượng đào tạo trong trường đại học.

- Nhân tài Đất Việt là cuộc thi có sự cạnh tranh rất khốc liệt trong lĩnh vực CNTT, vậy ngay từ đầu anh có hi vọng và tin tưởng sản phẩm sẽ đoạt giải hay không?

Mang sản phẩm DoIT tham dự Nhân tài Đất Việt chúng tôi tin tưởng là có giải. Bởi sản phẩm của nhóm chúng tôi có yếu tố tri thức và khả năng ứng dụng rất cao, sản phẩm có ảnh hưởng lớn và khả năng nâng cao chất lượng đào tạo.

- Nhóm đã từng tìm hiểu về một sản phẩm tương tự ở trong nước hay chưa, thưa anh?

Ở nước ngoài thì có nhưng trong nước chưa thấy sản phẩm này. Hiện nay theo tìm hiểu của chúng tôi thì khoảng 10 trường đại học đang dùng sản phẩm của nước ngoài, nhưng sản phẩm đó chủ yếu phục vụ tài liệu về tiếng Anh, cũng đã có sự Việt hóa nhưng độ chính xác không cao. Trong khi đó, phần mềm phiên bản tiếng Anh rất đắt.

- Nhóm đã mất bao nhiêu thời gian nghiên cứ ra sản phẩm này?

Chúng tôi có 9 người trong nhóm và mất khoảng 3 năm để hoàn thành sản phẩm DoIT.

- Anh đánh giá như thế nào về Giải thưởng Nhân tài Đất Việt?

Đây là một Giải thưởng rất uy tín và chúng tôi mong muốn được tham dự giải từ lâu. Chúng tôi đã tiếp nhận thông tin về giải thưởng qua nhiều kênh, qua truyền hình, báo chí và quyết định mang sản phẩm DoIT tới Nhân tài Đất Việt.

Nhóm có ý định sẽ tiếp tục nghiên cứu và dự thi thêm những sản phẩm tiềm năng tại Nhân tài Đất Việt hay không?

Chúng tôi sẽ quay lại với Nhân tài Đất Việt bằng một sản phẩm khác, có thể là sản phẩm CNTT hoặc sản phẩm ở một lĩnh vực khác. Trường Đại học Công nghệ còn nhiều ý tưởng và mong muốn các sản phẩm nghiên cứu ra sẽ có tính ứng dụng cao chứ không phải nghiên cứu xong để đó.

- Qua sản phẩm của mình, anh muốn gửi thông điệp gì tới mọi người?

Chúng tôi mong muốn những sản phẩm văn bản được soạn thảo ra không còn lỗi chính tả, tạo ra những văn bản “sạch”. Chúng tôi mong muốn tạo ra những văn bản “sạch”, những sản phẩm văn bản được soạn thảo ra không còn lỗi chính tả.

- Xin cảm ơn anh!

DoIT - Hệ thống hỗ trợ nâng cao chất lượng văn bản của Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội, thuộc hệ thống sản phẩm công nghệ thông tin (CNTT) Tiềm năng DoIT gồm hai tính năng cơ bản là kiểm lỗi chính tả và phát hiện trùng lặp cho tài liệu tiếng Việt.

Hệ thống có thể xử lý các tài liệu ở nhiều định dạng phổ biến hiện nay: Doc, docx, pdf, ppt,... Với chức năng kiểm lỗi chính tả DoIT ngoài việc chỉ ra các từ bị lỗi còn đề xuất từ đúng thay thế.

Chức năng phát hiện trùng lặp sẽ chỉ ra câu/đoạn trong văn bản được kiểm tra trùng lặp với câu/đoạn của tài liệu có trong cơ sở dữ liệu (CSDL) của hệ thống. Có ba mức trùng lặp gồm cao, thấp, và trung bình và được thể hiện bằng ba màu. Người dùng có thể chia sẽ, gửi tài liệu qua hệ thống.

Châu Như Quỳnh (thực hiện)