image004Công nghệ “nhận dạng ký tự thông minh” hay còn gọi là “nhận dạng chữ viết tay” (ICR) là bản dịch từ các ký tự viết tay sang dạng văn bản với ký tự mà máy tính có thể đọc được. Công nghệ ICR là sự phát triển ở mức cao hơn từ công nghệ nhận dạng chữ in (OCR). Đối tượng nhận dạng của công nghệ ICR là chữ viết tay và cả chữ in. Công nghệ ICR tương tự như nhận dạng ký tự quang học (OCR ) và đôi khi sử dụng kết hợp với OCR trong hình thức xử lý.

Công nghệ nhận dạng chữ viết tay thường được sử dụng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai, phiếu đăng ký, bài kiểm tra, v..v…).

Trước khi có công nghệ ICR và OCR, thường người ta khai thác bằng cách nhập dữ liệu lại từ bản giấy sang format điện tử trên máy tính, với dạng tương tự như ở mẫu giấy. Dữ liệu lấy từ các mẫu giấy tờ bao gồm chữ đánh máy hoặc in qua trình soạn thảo, chữ viết tay, đánh dấu tích, mã vạch và chữ ký. Ngày nay, người ta xử lý bằng máy quét, máy chụp ảnh, kết hợp với công nghệ OCR và ICR, và các phần mềm xử lý form để tự động hóa quá trình này trong khoảnh khắc với độ chính xác lên tới 98%, gần tương đương với việc nhập liệu bằng tay.

Tham khảo thêm:

– Principals of Intelligent Character Recognition

Ứng dụng trong điều tra thống kê

 

Chuyển sách báo, văn bản, biểu mẫu tiếng Việt in trên giấy thành tài liệu lưu trữ trên máy tính và có thể chỉnh sửa thông qua các dịch vụ, phần mềm nhận dạng thông minh..

Với sự phổ biến của máy tính, mạng Internet, dữ liệu ngày nay hầu hết được lưu trữ trên máy tính để phục vụ việc tìm kiếm, sao lưu, biên tập.


Hình 1: Tài liệu mẫu kiểm tra các trang web, phần mềm dùng công nghệ OCR.

Nếu bạn là chuyên viên soạn thảo hợp đồng, nhân viên văn thư, muốn lưu trữ các bản hợp đồng, sách báo, các loại công văn tiếng việt… thành dạng văn bản lưu trên máy tính, có thể chỉnh sửa, tìm kiếm theo nội dung. Hoặc bạn là sinh viên đang làm luận văn tốt nghiệp, hiện giữ nhiều tài liệu quý trên bản in và bạn muốn bổ sung vào bài làm của mình để thêm phần phong phú… Nếu dùng máy quét, máy ảnh số để sao chụp, bạn chỉ có thể đọc mà không thể chỉnh sửa.Hiện nay, rất nhiều phần mềm cả có phí lẫn miễn phí dùng công nghệ nhận dạng ký tự quang học hay nhận dạng chữ in, chữ đánh máy (OCR – Optical Character Recognition) – cho phép trích xuất và chuyển đổi tài liệu dạng ảnh (ảnh từ máy quét, máy ảnh, tập tin PDF dạng ảnh…) thành các tài liệu có thể biên tập (dạng tập tin text, Word…) – hỗ trợ việc số hóa tài liệu tiếngViệt (nhận dạng văn bản tiếng Việt). Tùy vào độ phức tạp của văn bản: định dạng chữ hoa, chữ thường, chữ in nghiêng, khung bảng, biểu mẫu…, chất lượng ảnh, và tùy vào công nghệ nhận dạng riêng biệt của mỗi nhà phát triển sẽ có mức độ nhận dạng văn bản chính xác khác nhau. Ngoài công nghệ OCR, hiện nay còn có thêm nhiều công nghệ nhận dạng tiêu biểu khác như:

Hình 2: Kết quả sau khi nhận dạng tài liệu mẫu trên trang free-ocr.com.

Nhận dạng chữ viết tay hay ký tự thông minh (ICR – Intelligent Character Recognition): là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay. Công nghệ nhận dạng chữ viết tay thường được dùng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký…).

Nhận dạng đánh dấu (OMR – Optical Mark Recognition): một số thiết bị nhận dạng đánh dấu truyền thống dựa vào nguyên lý phản xạ ánh sáng (tại các vùng có đánh dấu/tô, ánh sáng sẽ phản xạ yếu hơn các vùng trống khác), với các thiết bị này, yêu cầu về việc đánh dấu, tạo mẫu, cũng như yêu cầu về chất liệu giấy in rất khắt khe. Ngược với các thiết bị đánh dấu truyền thống, các phần mềm nhận dạng đánh dấu (Optical Mark Recognition – OMR) cho phép người dùng tự tạo các mẫu và in chúng trên các chất liệu giấy thông thường. Phần mềm sẽ xử lý ảnh quét của mẫu sau khi điền. Công nghệ OMR thường dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.


Hình 3: Một phần kết quả nhận dạng qua trang free-ocr.com, được sao chép ra tập tin Word.

Nhận dạng chữ mực từ hay ký tự từ tính (MICR – Magnetic Ink Character Recognition): một công nghệ nhận dạng ký tự dùng chủ yếu ở lĩnh vực ngân hàng nhằm tạo thuận lợi cho công tác xử lý kiểm tra thông tin. Công nghệ này cho phép các máy tính có thể đọc các thông tin vắn tắt (như số tài khoản) trên tài liệu in. Không giống như mã vạch, mã MICR con người có thể đọc được. Việc in bằng từ tính cho phép đọc các ký tự chính xác ngay cả khi chúng bị che khuất.

Để minh họa bài viết về công nghệ nhận dạng chữ in (OCR), chúng tôi dùng 2 trang web nhận dạng tài liệu tiếng việt: free-ocr.com, sohoa.com.vn và 1 phần mềm cài đặt trên máy tính: VietOCR. Cả free-ocr.com và VietOCR đều dùng bộ máy (engine) nhận dạng chữ in Tesseract (Tesseract OCR engine) – bộ máy OCR này được phát triển bởi HP Labs trong giai đoạn 1985-1995 và bây giờ là Google (http://code.google.com/p/tesseract-ocr). Với VietOCR, bạn có thể tùy biến theo yêu cầu vì đây là chương trình nguồn mở.

Free-ocr.com là dịch vụ miễn phí, hỗ trợ các định dạng ảnh thông dụng JPG, GIF, TIFF, BMP với dung lượng mỗi tập tin tải lên tối đa 2MB. Dịch vụ này cho phép trong mỗi giờ bạn chỉ có thể thực hiện 10 lần nhận dạng và trích xuất đoạn văn bản từ ảnh.

Hình 4: Giao diện hiển thị kết quả nhận dạng tài liệu trên trang sohoa.com.vn

Sohoa.com.vn là dịch vụ số hóa tài liệu trực tuyến dùng công nghệ nhận dạng tài liệu ADRT (Adaptive Document Recognition Technology) của hãng ABBYY – Nga. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh… Sohoa.com.vn hỗ trợ nhiều định dạng ảnh khác nhau từ TIFF, JPEG, JPEG 2000, PDF, BMP (đen trắng, xám, màu), PNG (đen trắng, xám, màu) cho đến PCX, DCX (đen trắng, xám, màu). Hiện nay, để sử dụng dịch vụ, người dùng đăng ký một tài khoản và sẽ có 30 trang số hóa tài liệu tiếng Việt miễn phí.

VietOCR là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng tài liệu tiếng Việt ở dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. VietOCR có 2 phiên bản: phiên bản Java đòi hỏi Java Runtime Environment, 6.0 hoặc mới hơn. Phiên bản .NET cần Microsoft .NET Framework 2.0 Redistributable. Xem thêm http://vietocr.sourceforge.net.


Hình 5: kết quả (tập tin Word) sau khi nhận dạng tài liệu mẫu qua trang sohoa.com.vn

Để kiểm tra mức độ nhận dạng tài liệu tiếng Việt, chúng tôi đã thực hiện một tài liệu mẫu có cấu trúc gồm: bảng, đánh dấu số đầu dòng, in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh. Kiểu chữ (font) dùng trong tài liệu mẫu là Arial, mã Unicode. Đầu tiên, thực hiện quét tài liệu mẫu bằng máy quét (chúng tôi dùng Kodak i4600 Scanner) với độ phân giải 200dpi, ảnh xám (grayscale), định dạng JPG. Xem hình 1.

Sau đó, truy cập free-ocr.com, bạn có thể thực hiện ngay việc số hóa tài liệu mà không cần tạo tài khoản đăng nhập. Chọn ngôn ngữ tiếng Việt, sau đó nhất nút “chọn tập tin” để tải lên tập tin cần nhận dạng. Nhập 2 từ xuất hiện ngẫu nhiên trong ô CAPTCHA, nhấn nút “Send file” và đợi vài giây. Kết quả sau khi dịch vụ free-ocr.com nhận dạng ảnh tài liệu tiếng Việt vừa tải lên: hình 2, hình 3.

Ở đây, bạn có thể dễ dàng nhận thấy, free-ocr.com không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích và có một số lỗi nhận dạng chữ. Do đó bạn sẽ phải mất nhiều thời gian để chỉnh sửa và định dạng lại.

Hình 6: tài liệu mẫu (bên trái) và kết quả nhận dạng trên phần mềm VietOCR (bên phải).

Thử kiểm tra với dịch vụ số hóa tài liệu tiếng Việt trên trang sohoa.com.vn. Truy cập sohoa.com.vn, chọn mục “SỐ HÓA”, tạo một tài khoản, đăng nhập tài khoản thành công bạn sẽ có 30 trang nhận dạng miễn phí. Chọn nút “tải file lên”, nhập tiêu đề, chọn ngôn ngữ tiếng Việt, chọn định dạng tập tin xuất ra *.doc (ngoài ra bạn có thể chọn các định dạng tập tin khác: *.xml, *.docx, *.xls, *.ppt, *.pdf, *.csv, *.html, …), nhấn nút “chọn tệp mới” để tải lên ảnh tài liệu tiếng Việt cần nhận dạng, sau đó nhấn nút “thêm mới” để thực hiện. Hình 4. Vài giây sau, kết quả sẽ hiển thị ngay trên giao diện màn hình web, nhấn biểu tượng Word để lưu tập tin đã được nhận dạng về máy. Hình 5.

Kết quả nhận dạng của dịch vụ sohoa.com.vn rất tốt. Tất cả cấu trúc tài liệu: bảng, đánh dấu số đầu dòng, định dạng in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh đều thể hiện khá chính xác. Tài liệu sau khi nhận dạng cũng mắc một vài lỗi về chữ.

Sau cùng, chúng tôi thử nghiệm tài liệu mẫu với VietOCR. Truy cập http://sourceforge.net/projects/vietocr tải về bản VietOCR.NET-1.7_32.zip, giải nén và tiến hành cài đặt. Mở chương trình VietOCR, nhấn nút “Open”, chọn tập tin ảnh cần nhận dạng, chọn OCR Language là Vietnamese. Sau đó nhấn nút “OCR” để chương trình tiến hành nhận dạng. Kết quả sau khi nhận dạng: hình 6.

Cũng như dịch vụ free-ocr.com, VietOCR không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích – do bộ máy Tesseract 2.0x không hỗ trợ dàn trang, nên chỉ có thể nhận diện văn bản với một cột chữ. Tesseract 3.0 đã tích hợp khả năng phân tích dàn trang, hỗ trợ nhận dạng các văn bản có nhiều cột (xem thêm http://vietocr.sourceforge.net). VietOCR cũng mắc một số lỗi nhận dạng chữ.

Qua các thử nghiệm trên, chúng ta dễ dàng nhận thấy dịch vụ của sohoa.com.vn có khả năng nhận dạng tài liệu văn bản tốt nhất, với đầy đủ định dạng, hình ảnh. Tuy free-ocr.com, VietOCR nhận dạng tài liệu chưa tốt nhưng chúng hoàn toàn miễn phí.

Quốc Dũng

Tham khảo: 
en.wikipedia.org; vietocr.sourceforge.net; free-ocr.com; sohoa.com.vn

Xây dựng nguồn tài nguyên số là một trong những mục tiêu quan trọng của tất cả các loại hình thư viện trên thế giới, nhằm hướng đến mục tiêu phục vụ thông tin cho người dùng ở mọi lúc, mọi nơi, không phân định không gian, thời gian. Quá trình xây dựng thư viện số, thư viện ảo, thư viện điện tử …đã được phát triển ở các nước phương Tây từ những năm 90 của thế kỉ XX. Nhưng ở Việt Nam, thư viện số, thư viện điện tử mới chỉ được quan tâm từ 6-7 năm trở lại đây. Và rất nhiều các cơ quan thông tin, thư viện hiện nay mới quan tâm tìm hiểu xem thư viện số là gì, xây dựng thư viện số thì cần những yếu tố gì? Trong phạm vi bài tham luận này, chúng tôi đưa ra một số kinh nghiệm triển khai dự án thư viện số để thảo luận.

I. Xây dựng một kế hoạch tổng thể về phát triển bộ sưu tập số

Xây dựng mục tiêu

Việc xây dựng thư viện số là nhằm đáp ứng năm (5) yêu cầu sau [1,13]:

  • Societies – Thoả mãn nhu cầu thông tin
  • Scenarios – Cung cấp dịch vụ thông tin
  • Spaces – Hiển thị đa phương tiện
  • Structures – Tổ chức cấu trúc thông tin
  • Streams – Truyền đạt thông tin

Xác định nguồn tin số hoá/cần số hoá:

2.1. Loại hình văn bản cần số hoá

  • Văn bản & Tài liệu: Sách, tạp chí, bài viết, báo cáo, luận văn, …
  • Âm thanh & Video: Bài nói chuyện, bài giảng, âm nhạc, phim ảnh, …
  • Thông tin địa lý: Hình ảnh, bản đồ, …
  • Thông tin sinh học: con người, động vật, thực vật, gen, …
  • Hình ảnh & Đồ hoạ: Hình ảnh 2D, 3D, bản vẽ kỹ thuật, sơ đồ, …
  • Phần mềm & dữ liệu: chương trình, hình mẫu (model), mô phỏng (simulation), vv…

2.2. Xác định các nguồn/kho tài liệu đã được máy tính hoá

– Tài nguyên trong thư viện: tài liệu dạng truyền thống (sách, báo…), tài liệu đã được máy tính hoá (file âm thanh, file văn bản, các CSDL thư mục, các CSDL toàn văn (luận văn, luận án, hình ảnh…)…

– Các hệ thống liên thông: thư viện khác, bảo tàng, trung tâm thông tin, …

3. Đánh giá cơ sở hạ tầng

–  Cơ sở hạ tầng CNTT: máy tính, máy chủ, hệ thống mạng và các hệ thống lưu trữ dữ liệu. Đánh giá khả năng có kho tài nguyên tại chỗ mang tính tập trung cùng với các hệ thống thư viện liên thông mang tính phân tán. Việc tổ chức liên thông và giao diện sử dụng hiệu quả là nhu cầu chỉ có cổng thông tin có thể giải quyết được
– Con người: kế hoạch yêu cầu có bao nhiêu nguồn nhân lực tham gia, trong đó có bao nhiêu nhân viên cơ hữu có đủ trình độ có thể tham gia dự án ngay, bao nhiêu nhân viên bên ngoài có thể thuê theo sự vụ, bao nhiêu nhân viên cần phải đào tạo để có thể thực hiện được công việc…?
– Nguồn lực tài chính: xác định ngân sách và kế hoạch giải ngân sát với thực tế để đảm bảo tiến độ triển khai dự án/ kế hoạch đề ra.
4. Những yêu cầu về quản lý tài liệu số hoá

  • Đối tượng là các chuỗi dữ liệu (ví dụ các biểu ghi thư tịch, các chuỗi hình ảnh) có cấu trúc (ví dụ Dublin Core hoặc video MPEG-7) kèm theo phương thức sử dụng (không chỉ đơn thuần biểu ghi hoặc nội dung văn bản)
  • Đa ngôn ngữ (Việt, Anh, Pháp, …):
  • Loại hình thông tin: toàn văn (full-text), tóm tắt, siêu dữ liệu
  • Đa phương tiện (multimedia): cấu trúc, chất lượng, tìm kiếm
  • Cấu trúc dựa trên chuẩn XML: DC, MODS, MARC 21 XML, …
  • Bộ sưu tập phân tán: Kleisli, CIMI, Z39.50, …
  • Tìm kiếm tổng quát: thu thập đa nguồn, chọn lọc tự động theo kinh nghiệm, tìm kiếm song song, hoà trộn kết quả
  • Truy cập: Phân quyền, phân cấp, IPR, tính phí, bảo mật và cá nhân hoá
  • Đối với tài liệu trên giấy:
  • Đối với những tài liệu không nhận dạng quang (gọi tắt là OCR) là những tài liệu xuất bản bằng hình thức in roneo, đánh máy chữ và chất liệu giấy rất xấu thì dung lượng sản phẩm phải nhỏ nhưng vẫn giữ được độ sắc nét của chữ, hình ảnh trong tài liệu.
  • Đối với tài liệu OCR (thường là những tài liệu in sau này có chất lượng tốt) thì sản phẩm phải có chức năng tìm kiếm toàn văn nội dung tài liệu (Searchable fulltext). Định dạng của sản phẩm đầu ra phong phú, bao gồm nhiều định dạng: doc, xls, txt, pdf…
  1. Phần mềm quản lý thư viện số và mô hình thư viện số

Phần mềm quản lý thư viện số là một phần không thể thiếu để quản lý nguồn tài nguyên số nói riêng và quản lý khai thác thư viện số nói chung. Hiện nay, có rất nhiều phần mềm quản lý thư viện số từ những phần mềm thương mại của các công ty tin học như phần mềm thư viện số của Công ty CMC, Công ty Tinh Vân, Công ty lạc Việt…, cho đến các phần mềm mã nguồn mở như Dspace, Greenstone… Dưới đây là một mô hình thư viện số cơ bản trên thế giới:
Mô hình thư viện số cơ bản [2]
6. Vấn đề bản quyền tài liệu số hoá
Vấn đề bản quyền là vấn đề rất quan trọng đối với các thư viện hiện nay. Theo Luật sở hữu trí tuệ Việt Nam, những tài liệu dưới đây không được bảo hộ bản quyền:

  • Luật sở hữu trí tuệ Việt Nam 2005; Chương I, Mục 1, Điều 15 “Các đối tượng không thuộc phạm vi bảo hộ quyền tác giả: 1. Tin tức thời sự thuần tuý đưa tin. 2. Văn bản quy phạm pháp luật, văn bản hành chính, văn bản khác thuộc lĩnh vực tư pháp và bản dịch chính thức của văn bản đó. 3. Quy trình, hệ thống, phương pháp hoạt động, khái niệm, nguyên lý, số liệu”
  • Luật sở hữu trí tuệ Việt Nam 2005: Điều 27, khoản (a), (b) “…Tác phẩm không thuộc loại hình quy định tại điểm a khoản này có thời hạn bảo hộ là suốt cuộc đời tác giả và năm mươi năm tiếp theo năm tác giả chết; trong trường hợp tác phẩm có đồng tác giả thì thời hạn bảo hộ chấm dứt vào năm thứ năm mươi sau năm đồng tác giả cuối cùng chết”
Việc số hoá tài liệu cho thư viện số là không vi phạm bản quyền nếu: Tài liệu nằm ngoài bản quyền hoặc tài liệu được bảo hộ bản quyền nhưng số hoá để sử dụng với mục đích phi thương mại trong phạm vi hạn chế của thư viện, trường học, viện nghiên cứu.

Bản thân việc số hoá tài liệu không vi phạm bản quyền, việc vi phạm hay không phụ thuộc vào mục đích sử dụng (chẳng hạn dùng với mục đích thương mại làm ảnh hưởng đến lợi ích kinh tế của người nắm giữ bản quyền là vi phạm) và phạm vi sử dụng (ví dụ nếu phổ biến rộng rãi ra công chúng, ngoài phạm vi thư viện là vi phạm).
Việc download, phát tán tài liệu số hiện nay đang rất phổ biến ở Việt Nam đang ảnh hưởng nghiêm trọng đến quyền lợi của tác giả và các nhà xuất bản mà Nhà nước cần có những quy chế quản lý và xử phạt để bảo hộ quyền lợi chính đáng của tác giả và nhà xuất bản.

II. Giải pháp số hóa tài liệu tài liệu trên giấy
1. Quy trình số hóa tài liệu

 

2. Giải pháp số hóa tài liệu
Đối với loại hình tài liệu không OCR: Tài liệu sau khi scan có thể sử dụng một số phần mềm xử lý ảnh như: Photoshop, OmiPage, … để chỉnh sửa và chuyển đổi sang định dạng pdf. Đối với giải pháp này Công ty Đông Kinh đề xuất sử dụng phần mềm xử lý do công ty nghiên cứu và phát triểnSản phẩm sau khi số hóa:
Ảnh sau khi quét có dung lượng 95MB Ảnh sau khi xử lý dung lượng 115 KB
Sản phẩm đầu ra của phần mềm do Đông Kinh phát triển đạt được các yêu cầu:
  • Dung lượng nhỏ.
  • Độ sắc nét của tài liệu cao.
Giải pháp này có thể áp dụng cho các đơn vị có nguồn lực kinh tế hạn chế, hạ tầng kỹ thuật không cao. Yêu cầu cho giải pháp: Máy scan văn phòng, phần mềm xử lý của công ty Đông Kinh phát triển. Tổng chi phí cho giải pháp chưa đến một ngàn đô la Mỹ.
Sản phẩm đầu ra có thể được quản lý bằng các phần mềm mã nguồn mở sẵn có như: GreenStone, DSpace … Biên mục theo chuẩn Dublincore, XML …
Đối với loại hình tài liệu OCR: sử dụng phần mềm FineReader Engine của hãng ABBYY. Phần mềm này có một số ưu điểm nổi trội so với các giải pháp khác, đó là:
  • Xử lý hoàn hảo đối dữ liệu tiếng Việt: Mặc dù Kofax, Captiva đều là những giải pháp hàng đầu về số hóa và bóc tách thông tin trên thế giới, nhưng tại thời điểm này mới chỉ duy nhất ABBYY FineReader Engine có khả năng làm việc được với các tài liệu tiếng Việt.
  • Độ chính xác: Qua kiểm nghiệm và đánh giá, kết quả nhận dạng và bóc tách thông tin từ Báo cáo tài chính và Giấy yêu cầu mở thư tín dụng đạt trên 99%. Với tổ chức kiểm soát lỗi nhiều mức, kiểm soát lỗi do quá trình nhận dạng cho phép kiểm soát và hạn chế tối đa lỗi.
  • Tính linh hoạt: Với kiến trúc mở và mềm dẻo, ABBYY FineReader Engine cho phép đáp ứng các mô hình triển khai khác nhau, xử lý tập trung, xử lý tại các chi nhánh tùy theo yêu cầu của khách hàng.
  • Khả năng tích hợp: Với khả năng xử lý tất cả các định dạng ảnh phổ biến, làm việc được với tất cả các máy quét thông dụng trên thị trường, cho phép kết xuất kết quả ra nhiều định dạng file (Excel, XML, …) cho phép ABBYY FineReader Engine có thể tích hợp với hầu hết các hệ thống Back Office đã triển khai tại khách hàng.
  • Giữ nguyên bố cục của tài liệu gốc:  ADRT (Adaptive Document Recognition Technology) là một bước tiến lớn trong công nghệ nhận dạng tài liệu; là một phần quan trọng và chỉ có trong công nghệ nhận dạng của ABBYY. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh, số trang v..v…Khi kết quả nhận dạng được lưu dưới dạng Microsoft Word, các định dạng trên được nhìn nhận như những đối tượng tương ứng trong Word chứ không đơn thuần chỉ là các khối văn bản. Để đạt được tính chính xác trong việc phân tích dàn trang, cấu trúc logic cũng như các định dạng trong tài liệu là do ADRT xem xét và xử lý các tài liệu nhiều trang như là một đối tượng tổng thể chứ không phải là tập hợp các trang riêng biệt. Với công nghệ ADRT, người dùng sẽ không mất, hoặc mất rất ít thời gian cho việc biên tập lại kết quả nhận dạng.
  • Kết xuất kết quả nhận dạng: FineReader Engine có khả năng chuyển đổi khối lượng lớn tài liệu giấy sang tài liệu số dưới các định dạng có thể tìm kiếm và biên tập được như MSWord, MSExcel, PDF, PDF/A. Đặc biệt là định dạng PDF/A, là định dạng được coi là định dạng lý tưởng để lưu trữ kết quả số hóa tài liệu hiện nay. Định dạng PDF/A gồm 2 lớp, lớp trên là ảnh quét, lớp dưới là text nhận dạng được.
    • Lớp ảnh quét là hình ảnh trung thực của tài liệu gốc nên nó mang đến cho người đọc tính chính xác của thông tin cũng như hình thức thể hiện.
    • Lớp dưới là text nhận dạng được, là cơ sở để các máy tìm kiếm có thể lập chỉ mục nội dung của tài liệu và qua đó người dùng có thể tìm kiếm nội dung trong tài liệu số.
    • Định dạng PDF/A có một điểm đặc biệt là: lớp text nhận dạng được dàn trùng khớp về vị trí với ảnh gốc. Bởi vậy, cho dù là đang đọc trên lớp ảnh nhưng người đọc có thể sao chép một cách chuẩn xác nội dung số của tài liệu gốc.
– Một số kết quả nhận dạng của tài liệu OCR:
+ Nhận dạng trang sách
+ Định dạng PDF hai lớp
Kết luận
Có rất nhiều các vấn đề mà các nhà thư viện hiện nay cần quan tâm khi xây dựng một kế hoạch/dự án phát triển thư viện số như: phát triển bộ sưu tập số, phát hiện và tổ chức nguồn tin, tìm tin/truy cập, tương tác người – máy/người sử dụng, hạ tầng thông tin-quản trị tri thức, lưu trữ số, dịch vụ số, ứng dụng mạng xã hội, sở hữu trí tuệ, an ninh mạng, các vấn đề văn hoá và luật pháp… Việc xây dựng, phát triển bộ sưu tập tài liệu số cho mỗi thư viện sẽ được tiến hành ở quy mô và mức độ khác nhau dựa trên thực lực của đơn vị cụ thể. Chúng tôi sẽ đi sâu phân tích những yêu cầu cụ thể ở những nghiên cứu tiếp theo.