Độc đáo với hệ thống hỗ trợ nâng cao chất lượng văn bản

Dân trí Với mục đích nâng cao chất lượng của các đồ án, khóa luận, luận văn của người học nói riêng và chất lượng giáo dục và đào tạo nói chung, nhóm tác giả của trường ĐH Công nghệ - ĐHQGHN đã xây dựng một hệ thống trực tuyến hỗ trợ kiểm tra lỗi chính tả và kiểm tra trùng lặp của các văn bản.
>>Giải Nhì CNTT: Ba năm ấp ủ công nghệ tạo ra những văn bản “sạch”

Sự phát triển của công nghệ thông tin đã mang lại nhiều đột phá trong cuộc sống của con người. Trong lĩnh vực giáo dục, máy tính và Internet đã giúp cho người dạy và người học tiếp cận được nhiều nguồn thông tin, nhiều công cụ phục vụ cho việc dạy và học.

Hiện nay, nhiều trường đại học trên thế giới đang sử dụng một số hệ thống ứng dụng để hỗ trợ cho việc kiểm tra và đánh giá văn bản được tạo ra bởi người học (bao gồm các bài tập lớn cho đến các đồ án, khóa luận, luận văn,…). Những hệ thống như vậy thường có các chức năng kiểm tra lỗi chính tả, ngữ pháp, và định dạng của văn bản và chức năng kiểm tra xem nội dung của văn bản có trùng với nội dung của một tài liệu nào đã được công bố trước đó hay không (chống sao chép). Tuy nhiên các hệ thống này chủ yếu phục vụ cho các tài liệu viết bằng tiếng Anh và có thu phí sử dụng khá cao.

Xuất phát từ thực tế đó, DoIT - Hệ thống hỗ trợ nâng cao chất lượng văn bản ra đời với sự tham gia của 9 thành viên của ĐH Công nghệ - ĐHQGHN, trong đó có sự tham gia của GS.TS Phạm Bảo Sơn – Phó Hiệu trưởng Nhà trường.

DoIT gồm hai tính năng cơ bản là kiểm lỗi chính tả và phát hiện trùng lặp cho tài liệu tiếng Việt. Hệ thống có thể xử lý các tài liệu ở phần lớn các định dạng phổ biến hiện nay như doc, docx, pdf, ppt, ... Với chức năng kiểm lỗi chính tả, DoIT ngoài việc chỉ ra các từ bị lỗi còn đề xuất từ đúng thay thế. Chức năng phát hiện trùng lặp sẽ chỉ ra phần trùng trong văn bản được kiểm tra với các phần của các tài liệu có trong cơ sở dữ liệu (CSDL) của hệ thống. Có ba mức trùng lặp gồm cao, thấp, và trung bình và được thể hiện bằng ba màu. Người dùng có thể chia sẻ, gửi tài liệu qua hệ thống.


PGS.TS Phạm Bảo Sơn (thứ 2 từ trái sang) đại diện nhóm tác giả nhận giải nhì lĩnh vực CNTT tiềm năng của Giải thưởng Nhân tài Đất Việt 2017.

PGS.TS Phạm Bảo Sơn (thứ 2 từ trái sang) đại diện nhóm tác giả nhận giải nhì lĩnh vực CNTT tiềm năng của Giải thưởng Nhân tài Đất Việt 2017.

DoIT vừa vinh dự nhận Giải nhì lĩnh vực CNTT tiềm năng của Giải thưởng Nhân tài Đất Việt 2017. Vậy hai tính năng của DoIT có gì độc đáo?

Tính năng kiểm lỗi chính tả

Chức năng kiểm lỗi chính tả được chia làm hai chức năng nhỏ hơn là: phát hiện lỗi và sửa lỗi. Lỗi chính tả trong Tiếng Việt được chia thành 2 loại chính: âm tiết sai chính tả không tồn tại trong từ điển Tiếng Việt và âm tiết sai chính tả do ngữ cảnh. Trong sản phẩm này, này chúng tôi chủ yếu tập trung vào phần âm tiết sai chính tả do ngữ cảnh. Những âm tiết này tồn tại trong từ điển Tiếng Việt nhưng không phù hợp với văn bản (Ví dụ: trong câu “Cuốn xách này rất hay”, từ “xách” mang ý nghĩ là mang, vác theo đã bị dùng sai, từ chính xác cần được dùng ở đây là từ “sách”).

Mô hình ngôn ngữ N-gram là hướng tiếp cận chính và kèm theo đó là phân đoạn từ (word segmentation), khoảng cách Levenstein để hỗ trợ đánh giá ứng viên tốt nhất. Mô đun sẽ gồm các bước tiền xử lý, sinh tập âm tiết nhầm lẫn, và đánh giá ứng viên phù hợp. Với bước tiền xử lý, mô đun tiến hành loại bỏ các thành phần gây nhiễu trong câu và tách câu thành các từ riêng biệt. Việc này sẽ xóa đi các dấu câu không cần thiết cũng như các ký hiệu đặc biệt đồng thời gán nhãn cho các cụm ký tự đặc biệt như số, ngày tháng, … Bước này giúp mô đun hạn chế được sai sót và nhầm lẫn khi sửa lỗi, tăng độ chính xác cũng như hiệu suất hoạt động. Bước tiếp theo là tạo tập âm tiết nhầm lẫn. Tập nhầm lẫn của âm tiết s là tập bao gồm các âm tiết có có mối quan hệ về chính tả với s. Tập này được xây dựng dựa trên các lỗi chính tả thường thấy, bao gồm có: lỗi do đánh máy sai (“ddi” – “đi”), lỗi âm đầu (“xách” – “sách”), lỗi âm cuối (“bắt buột” – “bắt buộc”), lỗi dấu (“khiếm tốn” – “khiêm tốn”) và lỗi từ địa phương (“khiếm” – “khím”).

Để tạo được tập nhầm lẫn của âm tiết s, mô đun sẽ phân tích cấu trúc của từ theo chuẩn cấu trúc của ngữ pháp tiếng Việt. Dựa trên việc phân tích này, các ứng viên được tạo dựa trên việc thay thế từng thành phần với những thành phần thay thế có khả năng, bao gồm âm đầu, âm cuối và thanh sắc. Đối với lỗi do đánh máy, các ứng viên sẽ được tạo ra từ việc tương tác với từng ký tự thông qua ba thao tác: chèn, xóa và thay thế. Để giảm kích thước của tập nhầm lẫn, mô đun sử dụng từ điển Tiếng Việt và tần suất xuất hiện của âm tiết như một công cụ đắc lực. Việc này sẽ làm giảm đáng kể số lượng các âm tiết không phù hợp. Bước cuối cùng trong quá trình xử lý của mô đun là đánh giá ứng viên phù hợp.


Nhóm tác giả của DoIT gồm các gương mặt còn rất trẻ.

Nhóm tác giả của DoIT gồm các gương mặt còn rất trẻ.

Tính năng phát hiện trùng lặp

Việc tìm kiếm các tài liệu tương tự về nội dung được dựa trên hệ thống Apache Solr và dùng thêm độ đo tương đồng Cosine. Độ đo Cosine đánh giá sự tương đồng của hai chuỗi ký tự bằng việc chuyển hai chuỗi ký tự đó thành hai vector trong không gian dựa trên tần suất xuất hiện của các từ riêng biệt trong hai câu. Độ tương đồng giữa hai chuỗi ký tự được xác định là cosine góc giữa hai vector tương ứng.

Độ đo tương tự Cosine có một hạn chế đó là độ đo này không quan tâm đến thứ tự của các từ trong hai chuỗi ký tự. Vì vậy, nếu hai chuỗi ký tự được kiểm tra chứa các từ giống hệt nhau chỉ khác nhau về thứ tự thì độ đo Cosine vẫn sẽ cho kết quả điểm tương tự lớn nhất là 1.

Một điểm sáng tạo khác của DoIT là dựa vào đặc điểm về cấu trúc chung của các khóa luận, luận văn, luận án, hệ thống sẽ không kiểm tra sự trùng lặp với các thành phần ít đóng góp vào nội dung văn bản như các siêu dữ liệu (meta-data, ví dụ tiêu đề, tác giả), tài liệu tham khảo, lời cảm ơn, mục lục. Đơn vị được sử dụng để tính toán độ trùng lặp là câu. Trong trường hợp có sự trùng lặp của các câu liền nhau, các câu này sẽ được nối với nhau để thể hiện mức độ tương đồng cao giữa hai văn bản.

Thêm vào đó, DoIT sử dụng chiến thuật tìm kiếm theo bước. Với một văn bản nhiều câu, thay vì tuần tự kiểm tra sự trùng lặp của từng câu trong văn bản đó với các câu trong CSDL, hệ thống sẽ xác định các câu sẽ được kiểm tra trùng lặp theo kết quả kiểm tra của câu trước. Cụ thể, sau khi kiểm tra câu thứ i, nếu câu này có độ tương đồng cao với một câu trong CSDL, các câu i-1i+1 sẽ được kiểm tra. Ngược lại, nếu câu thứ i có mức độ trùng lặp thấp, câu tiếp theo được kiểm tra sẽ là i+3. Chiến thuật này sẽ giúp hệ thống giảm thời gian xử lý văn bản (đặc biệt các văn bản ít trùng lặp với CSDL).

CSDL của DoIT được bổ sung thường xuyên và theo định hướng của người dùng. Người quản trị hệ thống có thể thêm các nguồn dữ liệu từ Internet bằng cách chỉ ra URL của nguồn dữ liệu. Hệ thống sẽ thu thập (crawl) và đánh chỉ mục vào CSDL phục vụ cho việc kiểm tra trùng lặp. Ngoài ra, người dùng thông thường có thể đề xuất các nguồn dữ liệu nên được đưa vào CSDL để kiểm tra.

Thêm vào đó, hệ thống còn trích xuất các URL chứa trong các tài liệu được người dùng tải lên và xem đây là những nguồn dữ liệu tiềm năng. Quản trị hệ thống sẽ được thông báo về những nguồn này và quyết định có hay không đưa nguồn dữ liệu vào CSDL của hệ thống.

Hiện tại DoIT đang được triển khai áp dụng tại Đại học Quốc gia Hà Nội, với khoảng 3.000 người dùng và khoảng 7.000 tài liệu trong cơ sở dữ liệu để kiểm tra sự trùng lặp. Người dùng của hệ thống phần lớn từ các đơn vị thành viên của ĐHQGHN và các trường Đại học Thủy lợi, Học viện Công nghệ Bưu chính Viễn thông, Đại học Thái Nguyên...

Sản phẩm DoIT được cung cấp trên nền web, giúp người dùng có thể sử dụng ở bất kỳ thiết bị nào, miễn là có kết nối Internet. Bạn đọc có thể trải nghiệm sản phẩm tại http://doit.uet.vnu.edu.vn hoặc tại http://doit.lic.vnu.edu.vn .

Nguyễn Hùng

MỚI NHẤT
Gây chuyển dạ cho các bà mẹ sinh con lần đầu khi quá 35 tuổi
Gây chuyển dạ cho các bà mẹ sinh con lần đầu khi quá 35 tuổi

(Dân trí) - Nhưng nghiên cứu của Trường Vệ sinh và Y học Nhiệt đới London và Đại học Cambridge cho thấy con số có thể giảm xuống chỉ còn 8 ca tử vong ở 10.000 trẻ, giảm 66% ca tử vong nếu phụ nữ được gây sinh vào tuần 40.

Thứ bảy, 18/11/2017 - 07:03

Đánh đòn trẻ em làm chúng "hung hăng và khó gần gũi hơn"
Đánh đòn trẻ em làm chúng "hung hăng và khó gần gũi hơn"

(Dân trí) - Theo các nhà nghiên cứu Mỹ, sự trừng phạt thân thể "không hiệu quả" và có liên quan đến các vấn đề về hành vi như đánh nhau và gây rối trong lớp học. Đánh đòn trẻ em làm cho hành vi của trẻ "tệ hơn chứ không tốt hơn" và làm cho thanh thiếu niên "hung dữ hơn".

Thứ bảy, 18/11/2017 - 11:47

Ca phẫu thuật ghép đầu người đầu tiên đã thành công?
Ca phẫu thuật ghép đầu người đầu tiên đã thành công?

(Dân trí) - Các nhà khoa học đã thực hiện thành công một ca ghép đầu người trên một … xác chết, và họ đã sẵn sàng để thực hiện trên một cơ thể sống.

Thứ bảy, 18/11/2017 - 11:39

Có thể tìm thấy sự sống trên hành tinh khác trong vòng 20 năm nữa
Có thể tìm thấy sự sống trên hành tinh khác trong vòng 20 năm nữa

(Dân trí) - Các nhà khoa học từng nghĩ rằng, sự phát hiện Diêm vương tinh năm 1930 là một thành công chỉ diễn ra một lần duy nhất trong đời, nhưng kể từ đó, chúng ta đã phát hiện được 3.500 hành tinh tiềm năng có sự sống.

Thứ bảy, 18/11/2017 - 08:50

Ăn các loại hạt để bảo vệ sức khỏe tim mạch
Ăn các loại hạt để bảo vệ sức khỏe tim mạch

(Dân trí) - Ăn các loại hạt một vài lần mỗi tuần có thể giảm gần 25% nguy cơ mắc bệnh tim, nghiên cứu mới đây cho thấy.

Thứ bảy, 18/11/2017 - 08:39

Phát hiện rác thải trong bụng sinh vật dưới đáy đại dương
Phát hiện rác thải trong bụng sinh vật dưới đáy đại dương

(Dân trí) - Các nhà khoa học đã tìm thấy sợi vải nhân tạo trong dạ dày những sinh vật biển sống ở phần sâu nhất của đại dương. Dường như không một nơi nào trên trái đất trốn thoát khỏi rác thải của con người.

Thứ bảy, 18/11/2017 - 08:35

Những sự thật sẽ khiến kho tàng kiến thức của bạn bị “đảo lộn”
Những sự thật sẽ khiến kho tàng kiến thức của bạn bị “đảo lộn”

(Dân trí) - Trên thực tế, Ai Cập không phải là đất nước có nhiều kim tự tháp nhất thế giới, chiếc huy chương vàng Olympic lại có đến 99% thành phần là bạc và loài cá vàng không hề đãng trí như chúng ta vẫn nghĩ.

Thứ bảy, 18/11/2017 - 08:04

Khoảnh khắc bò mẹ chạy theo bê con bị xe chở đi khiến nhiều người cảm động
Khoảnh khắc bò mẹ chạy theo bê con bị xe chở đi khiến nhiều người cảm động

(Dân trí) - Đoạn clip ghi lại khoảnh khắc hai bê con bị nhốt trong lồng và kéo đi bởi xe ô tô, trong khi bò mẹ chạy theo suốt một quãng đường dài khiến nhiều người xem cảm động.

Thứ bảy, 18/11/2017 - 07:58

Công bố kết quả Dự án Nhãn hiệu nổi tiếng
Công bố kết quả Dự án Nhãn hiệu nổi tiếng

(Dân trí) - Thứ trưởng Bộ Khoa học và Công nghệ Trần Văn Tùng khẳng định, được công nhận và bảo hộ nhãn hiệu nổi tiếng và sử dụng rộng rãi là nhu cầu cấp thiết của doanh nghiệp.

Thứ sáu, 17/11/2017 - 09:50

37% số cặp đôi sẽ ít làm chuyện “yêu” sau khi cùng nhau làm một việc
37% số cặp đôi sẽ ít làm chuyện “yêu” sau khi cùng nhau làm một việc

(Dân trí) - Nếu mọi thứ trong mối quan hệ đều tốt đẹp thì các cặp đôi sẽ tự tiến thêm bước tiếp theo và chuyển đến sống cùng nhau.

Thứ sáu, 17/11/2017 - 01:51

Rùng mình khoảnh khắc trăn bị ép buộc phải nôn ra xác mèo đã ăn thịt
Rùng mình khoảnh khắc trăn bị ép buộc phải nôn ra xác mèo đã ăn thịt

(Dân trí) - Đoạn clip ghi lại khoảnh khắc một con trăn bị buộc phải nôn ra xác của một con mèo hoang mà nó đã ăn thịt từ trước đó 3 ngày khiến nhiều người xem cảm thấy rùng mình.

Thứ sáu, 17/11/2017 - 01:43

Khai thác ngôi sao để “liên lạc” với người ngoài hành tinh
Khai thác ngôi sao để “liên lạc” với người ngoài hành tinh

(Dân trí) - Các nhà khoa học đang sử dụng một ngôi sao xa để "vươn ra ngoài" hướng tới người ngoài hành tinh trong nỗ lực tìm kiếm "sự trợ giúp và tư vấn".

Thứ sáu, 17/11/2017 - 01:26

ĐÁNG QUAN TÂM
Giải Nhì CNTT: Ba năm ấp ủ công nghệ tạo ra những văn bản “sạch”
Giải Nhì CNTT: Ba năm ấp ủ công nghệ tạo ra những văn bản “sạch”

(Dân trí) - Hiện nay, có rất nhiều văn bản đáng lẽ phải không được phép có lỗi chính tả thì lại rất nhiều lỗi chính tả, lỗi sao chép, lỗi trích dẫn... Với DoIT, chúng tôi mong muốn tạo ra những văn bản “sạch”, những sản phẩm văn bản được soạn thảo ra không còn lỗi chính tả.

Thứ sáu, 17/11/2017 - 11:03

Tại sao vết thương lành nhanh hơn vào ban ngày?
Tại sao vết thương lành nhanh hơn vào ban ngày?

(Dân trí) - Một nghiên cứu mới cho thấy rằng bạn nên xem xét tránh xa những vật sắc nhọn vào ban đêm.

Thứ sáu, 17/11/2017 - 08:12

Người Amish sống thọ hơn nhờ có gen chống lão hóa
Người Amish sống thọ hơn nhờ có gen chống lão hóa

(Dân trí) - Bí mật sống trường thọ có thể sẽ được tìm thấy ở người Amish, sau khi các nhà khoa học phát hiện những người già của cộng đồng Kito giáo duy truyền thống này mang một loại gen giúp họ sống được thêm 10 năm.

Thứ sáu, 17/11/2017 - 07:54

Tiết lộ về loài khủng long sở hữu dấu chân dài nhất thế giới
Tiết lộ về loài khủng long sở hữu dấu chân dài nhất thế giới

(Dân trí) - Tám năm sau khi phát hiện ra dấu chân hóa thạch lớn nhất thế giới, các nhà khoa học mới xác định được loài khủng long tạo ra các dấu chân này.

Thứ sáu, 17/11/2017 - 07:19

Nỗ lực mới giúp ngành gạo phát triển bền vững
Nỗ lực mới giúp ngành gạo phát triển bền vững

Lần đầu tiên “Diễn đàn Tầm nhìn ngành hàng Gạo và Giới thiệu Nhóm công tác Đối tác Công Tư ngành hàng Gạo” được tổ chức tại Việt Nam. Đây được xem là một nỗ lực mới giúp ngành gạo phát triển bền vững, hướng đến nâng cao chất lượng gạo và cải thiện đời sống nông dân trồng lúa ở Việt Nam.

Thứ sáu, 17/11/2017 - 07:10

Loại thuốc gây ảo giác mới có thể làm dịu triệu chứng trầm cảm và nghiện rượu?
Loại thuốc gây ảo giác mới có thể làm dịu triệu chứng trầm cảm và nghiện rượu?

(Dân trí) - Một cuộc khảo sát mới của Anh đã cho thấy một loại rượu thuốc gây ảo giác mạnh ở Nam Mỹ có thể giúp chống lại bệnh trầm cảm và nghiện rượu.

Thứ sáu, 17/11/2017 - 07:01

Tiểu đường ảnh hưởng tới sức khỏe tình dục ở phụ nữ như thế nào?
Tiểu đường ảnh hưởng tới sức khỏe tình dục ở phụ nữ như thế nào?

(Dân trí) - Theo Tổ chức Y tế Thế giới (WHO), có tới 246 triệu người trên toàn thế giới mắc bệnh tiểu đường. Hơn một nửa trong số này là phụ nữ. Tiểu đường gây ra nhiều tác động tới sức khỏe. Ở phụ nữ, một trong những tác động của bệnh gây ra là rối loạn chức năng tình dục.

Thứ sáu, 17/11/2017 - 06:51

“Giải thưởng tạo động lực lớn cho chúng tôi tiếp tục nghiên cứu”
“Giải thưởng tạo động lực lớn cho chúng tôi tiếp tục nghiên cứu”

(Dân trí) - “Nhận được giải khoa học công nghệ năm nay là một niềm vinh dự lớn, tạo động lực lớn cho chúng tôi tiếp tục nghiên cứu đưa ra các sản phẩm đáp ứng nhu cầu của quân đội” – Kỹ sư, Thiếu tá Đoàn Ngọc Hiệp chia sẻ với Dân trí sau khi được vinh danh tại lễ trao Giải thưởng Nhân tài Đất Việt 2017.

Thứ năm, 16/11/2017 - 10:22

Những nét độc đáo của công trình khoa học được Giải thưởng Nhân tài Đất Việt 2017 vinh danh
Những nét độc đáo của công trình khoa học được Giải thưởng Nhân tài Đất Việt 2017 vinh danh

(Dân trí) - Sản phẩm kính quan sát đêm tầm xa cho biển đảo hoạt động theo nguyên lý khuếch đại ánh sáng mờ trên cơ sở ống khuếch đại ánh sáng được chế tạo trong nước. Giải pháp thiết kế đã được chế thử thành công và đang được sản xuất loạt để trang cho một số đơn vị làm nhiệm vụ ở khu vực biên giới, biển, đảo.

Thứ năm, 16/11/2017 - 08:39

Vợ bạn có ngoại tình không?
Vợ bạn có ngoại tình không?

(Dân trí) - Nhưng người không chung thủy sẽ phải mất thời gian để che giấu chuyện ngoại tình của họ, và những phụ nữ ngoại tình đã chia sẻ về lời nói dối mà họ thường sử dụng.

Thứ năm, 16/11/2017 - 02:52

Trao giải thường Newton Việt Nam cho dự án nghiên cứu xuất sắc
Trao giải thường Newton Việt Nam cho dự án nghiên cứu xuất sắc

(Dân trí) - Dự án “Xây dựng nền tảng phát triển bền vững: ''Xã hội kết nối'' cho thành phố của tương lai” của TS Dương Quang Trung (Đại học Queen's Belfast) và TS Võ Nguyên Sơn (ĐH Duy Tân) đã vượt qua 4 đối thủ "đáng gờm" để đạt Giải thưởng Newton Việt Nam 2017.

Thứ năm, 16/11/2017 - 02:31

Phát hiện một “Trái Đất” mới có thể chứa sự sống nằm gần hệ Mặt trời
Phát hiện một “Trái Đất” mới có thể chứa sự sống nằm gần hệ Mặt trời

(Dân trí) - Công cuộc tìm kiếm sự sống ngoài hành tinh đã có một hướng đi mới sau khi phát hiện ra một hành tinh có kích thước giống Trái Đất và nằm tương đối gần hệ mặt trời của chúng ta.

Thứ năm, 16/11/2017 - 12:24