Nghiên cứu sinh Việt vô địch giải trí tuệ nhân tạo các trường ĐH toàn Nhật Bản
(Dân trí) - Lý Tuấn Nam và Nguyễn Công Kha (du học sinh tại ĐH Nông nghiệp và Công nghệ Tokyo, ở Koganei) xuất sắc vượt qua 23 đội thi trên khắp xứ sở hoa anh đào, giành ngôi quán quân giải thưởng về trí tuệ nhân tạo các trường ĐH, CĐ toàn nước Nhật Bản.
Cuộc thi bắt đầu từ tháng 2/ 2017 do Viện Điện tử, Thông tin và Truyền thông Nhật Bản (IEICE) hỗ trợ với đề bài các đội phải tạo ra một hệ thống trí tuệ nhân tạo tốt nhất để đọc bộ chữ Hiragana cổ, một trong hai bộ ký tự của tiếng Nhật.
Sản phẩm của hai chàng trai Việt là một mạng lưới thần kinh ba lớp mô phỏng chức năng não của con người và đã học để nhận diện được tổng cộng hơn 300.000 ký tự cổ hiragana qua những hình ảnh từ 14 bản thảo chữ cổ viết tay, trong đó có tác phẩm "Một cuộc đời đầy đam mê" nổi tiếng của tác giả Ihara Saikaku viết từ thời Edo. Như vậy, trí tuệ nhân tạo này đọc được tới 96% số ký tự đơn, và 88% số bộ ghép gồm 3 ký tự.
Trao đổi với PV Dân trí, anh Lý Tuấn Nam cho hay: "Sản phẩm của đội được ra đời sau 4 tháng miệt mài tìm tòi, thử nghiệm phát triển. Do đó, cả hai rất vui mừng vì sau một thời gian dài đầu tư, sản phẩm đã chiến thắng cuộc thi trí tuệ nhân tạo các trường ĐH, CĐ toàn nước Nhật".
Độ thử thánh ở cuộc thi là xây dựng hệ thống nhận dạng chữ viết tay trong 15 cuốn sách cổ của Nhật. Nhóm đã chạy thử nghiệm rất nhiều lần để nâng cao độ chính xác của sản phẩm trí tuệ nhân tạo dưới sự hướng dẫn của GS. Masaki Nakagawa (Đại học Nông nghiệp và Công nghệ Tokyo).
"Vì là dữ liệu ảnh được chụp (scan) từ các cuốn sách cổ nên ảnh thường có rất nhiều noisy (nhiễu) ví dụ như: chữ mất nét, các nét dính vào nhau, mực thấm từ mặt trước qua mặt sau... nên bước tiền xử lý ảnh phải làm rất cẩn thận
Ngoài ra chữ viết trong 15 bộ sách này sử dụng bộ ký tự cổ của Nhật ( hầu hết người Nhật hiện nay đều không đọc được) và trong các ký tự này có những ký tự có nhiều cách viết, hoặc 2 ký tự khác nhau có cùng cách viết nên việc nhận dạng cũng khó khăn hơn", Tuấn Nam chia sẻ.
Anh Công Kha biết thêm, hệ thống của nhóm dùng mạng neural để học những dữ liệu ảnh có sẵn, nên việc cho mạng neural học một lượng lớn dữ liệu (gần 300.000 ảnh) cũng là một thách thức không hề nhỏ.
Lý Tuấn Nam và Nguyễn Công Kha tốt nghiệp ngành Công nghệ thông tin tại ĐH Bách Khoa Hà Nội trước khi du học Nhật Bản.
Nguyễn Công Kha cho biết anh cũng tham gia vào một dự án sử dụng trí tuệ nhân tạo để giải mã các bài viết trên các thẻ bài bằng gỗ tìm thấy tại di tích Thành cổ Heijo ở tỉnh Nara của Nhật.
Trong thời gian tới, cá nhân Nguyễn Công Kha mong muốn xây dựng một hệ thống trí tuệ nhân tạo để đọc chữ Nôm, hệ thống chữ viết tượng hình do người Việt phát triển từ thế kỷ thứ 10.
Lý do là hiện không còn nhiều người có thể đọc được các bản thảo chữ Nôm nên nhiều văn bản cổ chưa được diễn dịch một cách chính xác, đầy đủ.
Lệ Thu
Ảnh: NVCC