DoIT: “Khắc tinh” của lỗi chính tả, ngữ pháp văn bản

Hệ thống hỗ trợ nâng cao chất lượng văn bản DoIT có thể kiểm tra lỗi chính tả và phát hiện trùng lặp cho tài liệu tiếng Việt. Hệ thống có thể xử lý các tài liệu ở phần lớn các định dạng phổ biến hiện nay như doc, docx, pdf, ppt...

Với mục đích nâng cao chất lượng của các đồ án, khóa luận, luận văn của người học nói riêng và chất lượng giáo dục và đào tạo nói chung, nhóm tác giả đến từ trường Đại học Công nghệ – Đại học Quốc gia Hà Nội xây dựng một hệ thống trực tuyến hỗ trợ kiểm tra lỗi chính tả và kiểm tra trùng lặp của các văn bản mang tên DoIT.

Nhiều trường đại học trên thế giới đang sử dụng một số hệ thống ứng dụng để hỗ trợ cho việc kiểm tra và đánh giá văn bản được tạo ra bởi người học (bao gồm các bài tập lớn cho đến các đồ án, khóa luận, luận văn,…). Những hệ thống như vậy thường có các chức năng kiểm tra lỗi chính tả, ngữ pháp, và định dạng của văn bản và chức năng kiểm tra xem nội dung của văn bản có trùng với nội dung của một tài liệu nào đã được công bố trước đó hay không (chống sao chép). Tuy nhiên các hệ thống này chủ yếu phục vụ cho các tài liệu viết bằng tiếng Anh và có thu phí sử dụng khá cao.

DoIT: “Khắc tinh” của lỗi chính tả, ngữ pháp văn bản - 1

Còn sản phẩm DoIT – Hệ thống hỗ trợ nâng cao chất lượng văn bản gồm hai tính năng cơ bản là kiểm lỗi chính tả và phát hiện trùng lặp cho tài liệu tiếng Việt. Hệ thống có thể xử lý các tài liệu ở phần lớn các định dạng phổ biến hiện nay như doc, docx, pdf, ppt,… Với chức năng kiểm lỗi chính tả, DoIT ngoài việc chỉ ra các từ bị lỗi còn đề xuất từ đúng thay thế. Chức năng phát hiện trùng lặp sẽ chỉ ra phần trùng trong văn bản được kiểm tra với các phần của các tài liệu có trong cơ sở dữ liệu (CSDL) của hệ thống. Có ba mức trùng lặp gồm cao, thấp, và trung bình và được thể hiện bằng ba màu. Người dùng có thể chia sẻ, gửi tài liệu qua hệ thống.

Ở thời điểm này, hệ thống đang được triển khai ở Đại học Quốc gia Hà Nội. Hiện nay có khoảng 3000 người dùng và khoảng 7000 tài liệu được kiểm tra. Người dùng của hệ thống phần lớn từ các trường thành viên của Đại học Quốc gia Hà Nội và các trường Đại học Thủy lợi, Học viện Công nghệ Bưu chính Viễn thông, Đại học Thái Nguyên… Sản phẩm đang nhận được sự quan tâm từ nhiều trường đại học trong nước  như Đại học Sư phạm Hà Nội, Trường Đại học Khoa học Xã hội và Nhân văn, ĐHQG TPHCM, Học viện Chính trị Quốc gia Hồ Chí Minh, và một số trường khác.

Sản phẩm ứng dụng một số đặc trưng tiếng Việt, cũng như cấu trúc của tài liệu tiếng Việt (khóa luận, luận văn) nhằm nâng cao chất lượng của việc tìm lỗi chính tả cũng như phát hiện sự trùng lặp giữa các văn bản. Trên thế giới hiện có một số sản phẩm có chức năng phát hiện tương tự văn bản. Tuy nhiên việc tập trung cho văn bản tiếng Việt và ứng dụng các đặc trưng của tiếng Việt chưa thấy được đề cập trong các sản phẩm này. Ngoài ra, DoIT còn hỗ trợ các tổ chức sử dụng tạo cơ sở dữ liệu riêng.

Theo nhóm tác giả, để tiếp tục phát triển, cơ sở dữ liệu của DoIT cần được bổ sung, đặc biệt là nguồn CSDL là khóa luận, luận văn từ các trường đại học trong nước. Một điểm khác hệ thống có thể cải thiện là tốc độ xử lý. Độ chính xác của chức năng kiểm lỗi chính tả còn có thể cải thiện bằng cách dùng các tập dữ liệu theo từng chuyên ngành. Một trong các hướng phát triển của sản phẩm là tích hợp các chức năng chính vào các công cụ soạn thảo văn bản. Ngoài ra, các chức năng này cũng có thể được tích hợp vào các hệ thống quản trị đào tạo như Moodle.

Được biết, Hệ thống hỗ trợ nâng cao chất lượng văn bản DoIT là một trong số 17 sản phẩm đã lọt vào vòng Chung khảo Giải thưởng Nhân tài Đất Việt lĩnh vực CNTT năm 2017. Giải thưởng Nhân tài Đất Việt 2017 do Tập đoàn VNPT và Báo Dân trí đồng tổ chức. VNPT-Media là đơn vị bảo trợ truyền thông cho Giải thưởng.

Hiền Mai – VnMedia