Thủ thuật nhận diện và trích xuất nội dung văn bản từ hình ảnh
(Dân trí) - Bạn muốn trích xuất một đoạn văn bản có trong hình ảnh hoặc muốn sao chép nhanh một đoạn nội dung từ trang báo giấy hoặc từ cuốn sách nào đó? Ứng dụng miễn phí dưới đây sẽ giúp bạn nhận diện và trích xuất nội dung văn bản từ hình ảnh để bạn có thể thực hiện những điều trên một cách dễ dàng.
Có đôi khi bạn muốn sao chép một đoạn nội dung văn bản nào đó trên sách hoặc trên giấy tờ, báo chí... để sử dụng trên smartphone hoặc máy tính của mình. Nhiều người sẽ chọn giải pháp ngồi gõ lại toàn bộ đoạn nội dung cần sử dụng, tuy nhiên với sự giúp đỡ của Text Scanner Pro, mọi chuyện có thể trở nên dễ dàng hơn.
Text Scanner (OCR) Pro là ứng dụng miễn phí, sử dụng công nghệ nhận dạng ký tự quang học (OCR), cho phép nhận diện và trích xuất các nội dung văn bản từ hình ảnh để chuyển đoạn văn bản trên smartphone. Với Text Scanner, khi muốn sao chép một đoạn văn bản nào đó từ bên ngoài vào smartphone, bạn chỉ việc chụp ảnh lại đoạn nội dung văn bản cần sao chép, ứng dụng sẽ trích xuất nội dung văn bản có trên hình ảnh để người dùng sử dụng.
Ứng dụng cũng hữu ích trong trường hợp bạn muốn quét nhanh một số điện thoại nào đó trên danh thiếp hoặc trên bảng hiệu, bạn chỉ việc chụp lại số điện thoại in trên đó, ứng dụng sẽ tự động nhận diện và trích xuất số điện thoại để người dùng lưu lại và sử dụng mà không cần phải tự nhập số bằng tay.
Quá trình thử nghiệm cho thấy Text Scanner nhận diện khá tốt ngôn ngữ tiếng Việt.
Download ứng dụng miễn phí tại đây hoặc tại đây (tương thích Android 4.0.3 trở lên).
Khi kích hoạt ứng dụng, nếu xuất hiện giao diện yêu cầu mua bản quyền của ứng dụng hiện ra, bạn nhấn vào nút “Work with limited” để tiếp tục sử dụng phiên bản miễn phí. Với phiên bản miễn phí sẽ bị hạn chế một số tính năng và sẽ có quảng cáo xuất hiện, tuy nhiên nhìn chung không ảnh hưởng nhiều đến quá trình sử dụng của người dùng.
Tại giao diện hiện ra tiếp theo, bạn chọn “Identification” để sử dụng chức năng nhận diện chữ viết từ hình ảnh. Chức năng “Scanner” sẽ biến chiếc smartphone trở thành máy scan để chụp và lưu lại các đoạn văn bản dưới dạng hình ảnh hoặc file pdf.
Trong bài viết sẽ hướng dẫn bạn cách thức dùng ứng dụng để nhận diện và trích xuất nội dung văn bản từ hình ảnh, do vậy bạn chọn “Identification” từ giao diện hiện ra.
Sau khi chọn “Identification”, giao diện chính của Text Scanner là một giao diện chụp ảnh, cho phép người dùng chụp lại hình ảnh của đoạn văn bản muốn nhận diện chữ viết. Ở tùy chọn phía dưới, bạn có thể chọn “ID Card” nếu muốn chụp ảnh một danh thiếp, “Book” nếu muốn chụp ảnh và nhận diện chữ viết từ một cuốn sách... nhưng nhìn chung, bạn có thể chọn “Single” để sử dụng thuận tiện nhất.
Ngoài ra, bạn có thể nhấn vào biểu tượng hình ảnh ở phía dưới góc trái rồi chọn một hình ảnh sẵn có trong smartphone của mình để nhận diện chữ viết trên hình ảnh đó. Với cách thức này, bạn có thể tải một hình ảnh từ Internet hoặc dùng ứng dụng chụp ảnh mặc định trên smartphone để chụp lại đoạn văn bản cần nhận diện chữ viết để sử dụng trong Text Scanner.
Bạn nên chụp ảnh sao cho tập trung vào đoạn nội dung văn bản cần nhận diện, chẳng hạn nếu bạn muốn nhận diện một đoạn văn bản trên trang web, bạn nên tập trung vào đoạn nội dung chính, thay vì chụp cả những nội dung quảng cáo xung quanh... sẽ khiến cho ứng dụng khó nhận diện được chính xác.
Sau khi chụp, nhấn nút “Recognize” trên giao diện chính của ứng dụng và chờ trong giây lát, Text Scanner sẽ tự động nhận diện nội dung văn bản có trong hình ảnh và trích xuất nội dung văn bản đó.
Tại giao diện tiếp theo, bạn có thể chỉnh sửa trực tiếp đoạn văn bản đã được nhận diện từ hình ảnh sao cho chính xác và hoàn chỉnh hơn hoặc có thể chọn “Copy” để sao chép đoạn nội dung văn bản này để sử dụng. Bạn cũng có thể nhấn nút “Share” để lưu lại đoạn văn bản dưới dạng file .txt, pdf hoặc để in đoạn văn bản đã được nhận diện.
Trong quá trình thử nghiệm, Text Scanner cho thấy nhận diện khá chính xác các văn bản bằng tiếng Anh, trong khi đó với các hình ảnh chứa văn bản bằng tiếng Việt, ứng dụng cũng nhận diện khá ổn, tuy nhiên lại thường xảy ra hiện tượng mất dấu trong từng từ. Do vậy người dùng có thể chỉnh sửa lại đoạn văn bản sau khi nhận diện và thêm dấu vào từng từ để văn bản trở nên chính xác và hoàn chỉnh hơn. Dù sao việc chỉnh sửa các lỗi trong văn bản vẫn nhanh hơn là gõ lại toàn bộ đoạn văn bản.
Có thể nói Text Scanner là một trong những ứng dụng nhận diện chữ viết từ hình ảnh chính xác nhất hiện nay, bao gồm cả tiếng Việt, vốn được đánh giá là loại ngôn ngữ khó và phức tạp trong quá trình nhận diện chữ viết.
Phạm Thế Quang Huy