Chương trình Nhà sáng chế là cuộc thi trên truyền hình dành cho những nhà sáng chế và những phát kiến của họ. Mới đây, GĐ Công ty cổ phần Phần mềm Viami – ông Lê Ngọc Quang đã tham gia chương trình cùng với sản phẩm của công ty – Máy scan tài liệu. Chương trình được phát sóng trên kênh VTV2 ngày 22/7/2014 – số thứ 10.

“Hãy nhớ, bạn của tôi, rằng tri thức mạnh hơn trí nhớ, và chúng ta không nên tin thứ yếu hơn”. Tri thức là nền tảng cho mọi sự phát triển. Xuất phát từ mong muốn lưu trữ kho tri thức cho các thế hệ tương lai, đồng thời vận dụng sự phát triển của khoa học kỹ thuật trong thời kỳ số hóa hiện nay, ông Lê Ngọc Quang đã cho ra đời sản phẩm phần mềm V-Scan, ứng dụng trong máy scan tài liệu Camscanner.

Phần mềm V-Scan là phần mềm cao cấp hoạt động trên máy tính cá nhân có tác dụng xử lý cao cấp các hình ảnh cung cấp bởi các thiết bị Camscanner V-Scan như: tự động cắt hình, tự động chỉnh góc độ, tự động xoay thẳng ảnh, lựa chọn về chế độ màu, điều chỉnh độ sắc nét, chế độ hiệu chỉnh bằng tay. V-Scan có 3 loại: V-Scan độc lập (V-SCANST), V-Scan chụp sách (V-SCANBK) và V-Scan client-server (V-SCANCS).

V-Scan sử dụng các thiết bị camscanner chụp tài liệu trong vòng 1 giây/trang và xử lý tức thì các hình ảnh thu được nhằm mang đến cho người dùng những tài liệu số hóa chỉnh chu và có chất lượng tốt nhất. V-Scan có thể cung cấp ngay các sản phẩm số hóa trên các máy tính cá nhân hoặc cung cấp gián tiếp cho V-Archive để xử lý và lưu trữ. V-Scan có thể được coi là “phần mềm photocopy điện tử”.

Mời các bạn xem thông tin chi tiết tại website và bình chọn tại đây.

Chuyển sách báo, văn bản, biểu mẫu tiếng Việt in trên giấy thành tài liệu lưu trữ trên máy tính và có thể chỉnh sửa thông qua các dịch vụ, phần mềm nhận dạng thông minh..

Với sự phổ biến của máy tính, mạng Internet, dữ liệu ngày nay hầu hết được lưu trữ trên máy tính để phục vụ việc tìm kiếm, sao lưu, biên tập.


Hình 1: Tài liệu mẫu kiểm tra các trang web, phần mềm dùng công nghệ OCR.

Nếu bạn là chuyên viên soạn thảo hợp đồng, nhân viên văn thư, muốn lưu trữ các bản hợp đồng, sách báo, các loại công văn tiếng việt… thành dạng văn bản lưu trên máy tính, có thể chỉnh sửa, tìm kiếm theo nội dung. Hoặc bạn là sinh viên đang làm luận văn tốt nghiệp, hiện giữ nhiều tài liệu quý trên bản in và bạn muốn bổ sung vào bài làm của mình để thêm phần phong phú… Nếu dùng máy quét, máy ảnh số để sao chụp, bạn chỉ có thể đọc mà không thể chỉnh sửa.Hiện nay, rất nhiều phần mềm cả có phí lẫn miễn phí dùng công nghệ nhận dạng ký tự quang học hay nhận dạng chữ in, chữ đánh máy (OCR – Optical Character Recognition) – cho phép trích xuất và chuyển đổi tài liệu dạng ảnh (ảnh từ máy quét, máy ảnh, tập tin PDF dạng ảnh…) thành các tài liệu có thể biên tập (dạng tập tin text, Word…) – hỗ trợ việc số hóa tài liệu tiếngViệt (nhận dạng văn bản tiếng Việt). Tùy vào độ phức tạp của văn bản: định dạng chữ hoa, chữ thường, chữ in nghiêng, khung bảng, biểu mẫu…, chất lượng ảnh, và tùy vào công nghệ nhận dạng riêng biệt của mỗi nhà phát triển sẽ có mức độ nhận dạng văn bản chính xác khác nhau. Ngoài công nghệ OCR, hiện nay còn có thêm nhiều công nghệ nhận dạng tiêu biểu khác như:

Hình 2: Kết quả sau khi nhận dạng tài liệu mẫu trên trang free-ocr.com.

Nhận dạng chữ viết tay hay ký tự thông minh (ICR – Intelligent Character Recognition): là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay. Công nghệ nhận dạng chữ viết tay thường được dùng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký…).

Nhận dạng đánh dấu (OMR – Optical Mark Recognition): một số thiết bị nhận dạng đánh dấu truyền thống dựa vào nguyên lý phản xạ ánh sáng (tại các vùng có đánh dấu/tô, ánh sáng sẽ phản xạ yếu hơn các vùng trống khác), với các thiết bị này, yêu cầu về việc đánh dấu, tạo mẫu, cũng như yêu cầu về chất liệu giấy in rất khắt khe. Ngược với các thiết bị đánh dấu truyền thống, các phần mềm nhận dạng đánh dấu (Optical Mark Recognition – OMR) cho phép người dùng tự tạo các mẫu và in chúng trên các chất liệu giấy thông thường. Phần mềm sẽ xử lý ảnh quét của mẫu sau khi điền. Công nghệ OMR thường dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.


Hình 3: Một phần kết quả nhận dạng qua trang free-ocr.com, được sao chép ra tập tin Word.

Nhận dạng chữ mực từ hay ký tự từ tính (MICR – Magnetic Ink Character Recognition): một công nghệ nhận dạng ký tự dùng chủ yếu ở lĩnh vực ngân hàng nhằm tạo thuận lợi cho công tác xử lý kiểm tra thông tin. Công nghệ này cho phép các máy tính có thể đọc các thông tin vắn tắt (như số tài khoản) trên tài liệu in. Không giống như mã vạch, mã MICR con người có thể đọc được. Việc in bằng từ tính cho phép đọc các ký tự chính xác ngay cả khi chúng bị che khuất.

Để minh họa bài viết về công nghệ nhận dạng chữ in (OCR), chúng tôi dùng 2 trang web nhận dạng tài liệu tiếng việt: free-ocr.com, sohoa.com.vn và 1 phần mềm cài đặt trên máy tính: VietOCR. Cả free-ocr.com và VietOCR đều dùng bộ máy (engine) nhận dạng chữ in Tesseract (Tesseract OCR engine) – bộ máy OCR này được phát triển bởi HP Labs trong giai đoạn 1985-1995 và bây giờ là Google (http://code.google.com/p/tesseract-ocr). Với VietOCR, bạn có thể tùy biến theo yêu cầu vì đây là chương trình nguồn mở.

Free-ocr.com là dịch vụ miễn phí, hỗ trợ các định dạng ảnh thông dụng JPG, GIF, TIFF, BMP với dung lượng mỗi tập tin tải lên tối đa 2MB. Dịch vụ này cho phép trong mỗi giờ bạn chỉ có thể thực hiện 10 lần nhận dạng và trích xuất đoạn văn bản từ ảnh.

Hình 4: Giao diện hiển thị kết quả nhận dạng tài liệu trên trang sohoa.com.vn

Sohoa.com.vn là dịch vụ số hóa tài liệu trực tuyến dùng công nghệ nhận dạng tài liệu ADRT (Adaptive Document Recognition Technology) của hãng ABBYY – Nga. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh… Sohoa.com.vn hỗ trợ nhiều định dạng ảnh khác nhau từ TIFF, JPEG, JPEG 2000, PDF, BMP (đen trắng, xám, màu), PNG (đen trắng, xám, màu) cho đến PCX, DCX (đen trắng, xám, màu). Hiện nay, để sử dụng dịch vụ, người dùng đăng ký một tài khoản và sẽ có 30 trang số hóa tài liệu tiếng Việt miễn phí.

VietOCR là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng tài liệu tiếng Việt ở dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. VietOCR có 2 phiên bản: phiên bản Java đòi hỏi Java Runtime Environment, 6.0 hoặc mới hơn. Phiên bản .NET cần Microsoft .NET Framework 2.0 Redistributable. Xem thêm http://vietocr.sourceforge.net.


Hình 5: kết quả (tập tin Word) sau khi nhận dạng tài liệu mẫu qua trang sohoa.com.vn

Để kiểm tra mức độ nhận dạng tài liệu tiếng Việt, chúng tôi đã thực hiện một tài liệu mẫu có cấu trúc gồm: bảng, đánh dấu số đầu dòng, in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh. Kiểu chữ (font) dùng trong tài liệu mẫu là Arial, mã Unicode. Đầu tiên, thực hiện quét tài liệu mẫu bằng máy quét (chúng tôi dùng Kodak i4600 Scanner) với độ phân giải 200dpi, ảnh xám (grayscale), định dạng JPG. Xem hình 1.

Sau đó, truy cập free-ocr.com, bạn có thể thực hiện ngay việc số hóa tài liệu mà không cần tạo tài khoản đăng nhập. Chọn ngôn ngữ tiếng Việt, sau đó nhất nút “chọn tập tin” để tải lên tập tin cần nhận dạng. Nhập 2 từ xuất hiện ngẫu nhiên trong ô CAPTCHA, nhấn nút “Send file” và đợi vài giây. Kết quả sau khi dịch vụ free-ocr.com nhận dạng ảnh tài liệu tiếng Việt vừa tải lên: hình 2, hình 3.

Ở đây, bạn có thể dễ dàng nhận thấy, free-ocr.com không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích và có một số lỗi nhận dạng chữ. Do đó bạn sẽ phải mất nhiều thời gian để chỉnh sửa và định dạng lại.

Hình 6: tài liệu mẫu (bên trái) và kết quả nhận dạng trên phần mềm VietOCR (bên phải).

Thử kiểm tra với dịch vụ số hóa tài liệu tiếng Việt trên trang sohoa.com.vn. Truy cập sohoa.com.vn, chọn mục “SỐ HÓA”, tạo một tài khoản, đăng nhập tài khoản thành công bạn sẽ có 30 trang nhận dạng miễn phí. Chọn nút “tải file lên”, nhập tiêu đề, chọn ngôn ngữ tiếng Việt, chọn định dạng tập tin xuất ra *.doc (ngoài ra bạn có thể chọn các định dạng tập tin khác: *.xml, *.docx, *.xls, *.ppt, *.pdf, *.csv, *.html, …), nhấn nút “chọn tệp mới” để tải lên ảnh tài liệu tiếng Việt cần nhận dạng, sau đó nhấn nút “thêm mới” để thực hiện. Hình 4. Vài giây sau, kết quả sẽ hiển thị ngay trên giao diện màn hình web, nhấn biểu tượng Word để lưu tập tin đã được nhận dạng về máy. Hình 5.

Kết quả nhận dạng của dịch vụ sohoa.com.vn rất tốt. Tất cả cấu trúc tài liệu: bảng, đánh dấu số đầu dòng, định dạng in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh đều thể hiện khá chính xác. Tài liệu sau khi nhận dạng cũng mắc một vài lỗi về chữ.

Sau cùng, chúng tôi thử nghiệm tài liệu mẫu với VietOCR. Truy cập http://sourceforge.net/projects/vietocr tải về bản VietOCR.NET-1.7_32.zip, giải nén và tiến hành cài đặt. Mở chương trình VietOCR, nhấn nút “Open”, chọn tập tin ảnh cần nhận dạng, chọn OCR Language là Vietnamese. Sau đó nhấn nút “OCR” để chương trình tiến hành nhận dạng. Kết quả sau khi nhận dạng: hình 6.

Cũng như dịch vụ free-ocr.com, VietOCR không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích – do bộ máy Tesseract 2.0x không hỗ trợ dàn trang, nên chỉ có thể nhận diện văn bản với một cột chữ. Tesseract 3.0 đã tích hợp khả năng phân tích dàn trang, hỗ trợ nhận dạng các văn bản có nhiều cột (xem thêm http://vietocr.sourceforge.net). VietOCR cũng mắc một số lỗi nhận dạng chữ.

Qua các thử nghiệm trên, chúng ta dễ dàng nhận thấy dịch vụ của sohoa.com.vn có khả năng nhận dạng tài liệu văn bản tốt nhất, với đầy đủ định dạng, hình ảnh. Tuy free-ocr.com, VietOCR nhận dạng tài liệu chưa tốt nhưng chúng hoàn toàn miễn phí.

Quốc Dũng

Tham khảo: 
en.wikipedia.org; vietocr.sourceforge.net; free-ocr.com; sohoa.com.vn

document scaningCông ty VIAMI sẵn sàng phục vụ quý khách với dịch vụ số hóa tất cả các loại tài liệu, ấn phẩm dưới mọi hình thức. Dịch vụ số hóa tài liệu của VIAMI sử dụng giải pháp xử lý hình ảnh cao cấp, tối ưu hóa cao độ để số hóa và lưu trữ một khối tài liệu lớn, đa dạng về hình thức và chất liệu. Với đội ngũ kỹ sư giỏi, VIAMI có thể giúp quý khách hàng có được những hình ảnh và nội dung tài liệu hoàn hảo nhất trong khoảng thời gian ngắn nhất và với chi phí thấp, kể cả khi cần phải xử lý các trường hợp đặc biệt.

Những tài liệu có thể số hóa bao gồm:

  • Tài liệu công văn, giấy tờ lưu trữ của các tổ chức, cơ quan hoặc doanh nghiệp…;
  • Các loại tài liệu giấy các cỡ khác nhau từ cỡ thẻ đến A0 hoặc lớn hơn;
  • Bản đồ các cỡ;
  • Báo rời, hoặc đóng tập;
  • Tạp chí rời, hoặc đóng tập;
  • Sách (tất cả các khổ và không phải tháo rời);
  • Các loại ảnh, bưu phẩm, bộ sưu tập cá nhân…;
  • Các tài liệu cổ, quý hiếm…

Các dịch vụ có thể thực hiện:

  • Scan màu, xám, đen trắng, các khổ: từ A0, A1, A2, A3, A4, A5, thẻ…
  • Xử lý: căn chỉnh độ sáng, độ nét, nghiêng, tẩy trắng, cắt…
  • Nhận dạng chữ quang học (OCR) bằng phần mềm hiện đại, chuyển sang dạng text toàn bộ hoặc từng phần…
  • Biên mục siêu dữ liệu: cập nhật chỉ mục siêu dữ liệu theo định dạng của quý khách, siêu dữ liệu mô tả (chuẩn Dublin Core), siêu dữ liệu cấu trúc, siêu dữ liệu tùy chọn…

Các sản phẩm đầu ra:

  • Định dạng ảnh: RAW, TIFF, JPEG, PNG, PDF…
  • Ảnh màu (color 24 bit), ảnh xám (gray-scale 8 bit), ảnh đen trắng (B/W 2 bit).
  • Dạng text: RTF, Word, PDF…
  • Định dạng tài liệu điện tử: PDF, TIFF (multipage)
  • Siêu dữ liệu (metadata): XML

Chuyển tải tài liệu:

  • Lưu tài liệu trên các media do quý khách hàng lựa chọn: CD ROM, DVD ROM, FLASH Card, ổ cứng di động…
  • Đưa các tài liệu đã số hoá lên kho lưu trữ do quý khách hàng lựa chọn qua mạng Internet bằng giao thức FTP (public hoặc thông qua VPN bảo mật).

Cam kết chất lượng:

  • Sử dụng thiết bị hiện đại (máy scan và máy ảnh kỹ thuật số chất lượng cao).
  • Sản phẩm có độ phân giải tùy chọn, có thể đạt được rất cao, chất lượng tốt, đáp ứng mọi mục đích bảo quản và phổ biến tài liệu qua mạng.
  • Bảo đảm giữ an toàn cao nhất cho tài liệu, theo tiêu chuẩn ISO 27001.
  • Xử lý hình ảnh, tạo ra sản phẩm có chất lượng cao như: tẩy trắng ảnh, chỉnh thẳng, xóa các vết nhiễu, tăng chất lượng ảnh…
  • Nhận diện quang học (OCR) tiếng Việt với độ chính xác cao.

Tùy vào đặc thù của công việc và yêu cầu của quý khách hàng mà chúng tôi sẽ thực hiện gói dịch vụ số hóa phù hợp, bao gồm: số hóa tại địa điểm của quý khách hàng (Onsite) và số hóa tại VIAMI (Offsite).

Số hóa Onsite

Nhân viên VIAMI sẽ mang các thiết bị cần thiết đến và thực hiện scan ngay tại văn phòng hoặc địa điểm nào đó do quý khách hàng chỉ định. Quy trình scan của chúng tôi thường thực hiện qua những bước sau:

  1. Nhận tài liệu: nhân viên VIAMI tiếp nhận tài liệu từ quý khách hàng sau khi người phụ trách ký cam kết bảo mật thông tin theo tiêu chuẩn của hệ thống an ninh thông tin ISO 27001:2005.
  2. Chuẩn bị tài liệu: các bìa cứng, kẹp giấy, đinh kẹp có thể được lấy ra khỏi tài liệu nếu thấy cần thiết (chúng tôi có công nghệ scan mà không cần tháo rời). Sau đó, tài liệu được phân loại và sắp xếp theo tập rồi kiểm tra chất lượng để tách riêng những trang giấy bị rách hoặc kém chất lượng.
  3. Scan: toàn bộ tài liệu được đưa vào scan với các thiết bị chuyên dụng. Ảnh scan sẽ được đặt tên tự động bởi phần mềm V-Scan theo đúng yêu cầu của quý khách hàng và được định dạng cần thiết. Bên cạnh đó, phần mềm này cũng có thể thực hiện việc phân vùng nhận dạng ký tự quang học (OCR) để lưu sang dạng text.
  4. Kiểm tra chất lượng: nhân viên VIAMI tiến hành kiểm tra ảnh scan theo tiêu chuẩn kỹ thuật. Những thủ tục kiểm soát chất lượng luôn được thực hiện và duy trì trong suốt quá trình scan theo tiêu chuẩn ISO 9001:2008.

Số hóa Offsite

Nhân viên VIAMI sẽ đến địa điểm của quý khách hàng nhận tài liệu cần scan để đem về phòng scan sau khi đã ký cam kết bảo mật thông tin theo tiêu chuẩn của hệ thống an ninh thông tin ISO 27001:2005. Quy trình số hóa tại VIAMI cũng sẽ được thực hiện tương tự như scan tại địa điểm của quý khách hàng và thông tin sẽ được bảo mật tuyệt đối. Sau khi các bước của quy trình số hóa hoàn tất, VIAMI sẽ thực hiện giao trả vật chứa sản phẩm (CDR, DVDR, SD card, ỏ cứng di động…) cùng tài liệu giấy tận địa điểm của quý khách hàng. Ngoài ra, chúng tôi có thể giao trả bằng phương thức tải sản phẩm số hóa lên bằng giao thức FTP. Quý khách hàng sẽ hoàn toàn yên tâm với sự chuyên nghiệp và quy trình làm việc bảo mật của chúng tôi.