adrt-illustrationADRT (Adaptive Document Recognition Technology) là một bước tiến lớn trong công nghệ nhận dạng tài liệu; là một phần quan trọng và chỉ có trong công nghệ OCR do ABBYY phát triển. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh, số trang v..v…

Khi kết quả nhận dạng được lưu dưới dạng Microsoft Word, các định dạng trên được nhìn nhận như những đối tượng tương ứng trong Word chứ không đơn thuần chỉ là các khối văn bản.

Để đạt được tính chính xác trong việc phân tích dàn trang, cấu trúc logic cũng như các định dạng trong tài liệu là do ADRT xem xét và xử lý các tài liệu nhiều trang như là một đối tượng tổng thể chứ không phải là tập hợp các trang riêng biệt. Với công nghệ ADRT, người dùng sẽ không mất, hoặc mất rất ít thời gian cho việc biên tập lại kết quả nhận dạng.

Như một xu thế bắt buộc, điện tử hóa để lưu trữ và trao đổi văn bản, tài liệu, thông tin trong môi trường mạng internet đang là chủ đề được bàn luận và nghiên cứu rất nhiều trong khối cơ quan Nhà nước và các tổ chức lớn.

Trong những năm qua, việc điều hành, trao đổi thông tin trong nội bộ cơ quan, giữa các đơn vị với nhau, hay giữa cá nhân và tổ chức đã được điện tử hóa rất nhiều, đây là tín hiệu tốt và mang lại hiệu quả cao trong quản lý, điều hành.

Tuy nhiên do nhiều điều kiện khác nhau như ứng dụng công nghệ thông tin chưa đồng đều, trình độ sử dụng chưa cao, mức độ đầu tư chưa đủ lớn, nên việc tồn tại một khối lượng khổng lồ văn bản, tài liệu, sách báo bằng giấy vẫn còn là một thực tế.

Việc lưu trữ và sử dụng tài liệu giấy gây ra nhiều điều bất tiện từ bảo quản, quản lý, khai thác cho đến truy xuất, sử dụng tài liệu … Tất cả các khâu đều gây ra sự tốn kém, khó khăn, chậm trễ và lãng phí.

Một số cơ quan đã thực hiện việc “file hóa” tài liệu bằng máy quét và triển khai mô hình lưu trữ, quản lý điện tử. Những hệ thống kiểu này đã giải quyết được nhiều vấn đề như chuyển kho tài liệu giấy thành kho tài liệu ảnh để lưu trữ và quản lý trên mạng máy tính, bảo quản tài liệu tốt hơn, tiết kiệm chi phí, có cơ chế quản lý khoa học và đặc biệt việc khai thác của người dùng cũng đã trở nên dễ dàng, nhanh chóng và thuận tiện hơn.

Nhưng nếu đơn thuần chỉ “file hóa” tài liệu mà không chuyển đổi chúng thành dạng tài liệu số thực sự thì ý nghĩa của lưu trữ và quản lý điện tử cũng bị mất đi. Với kho tài liệu là ảnh quét, người dùng không thể thực hiện việc tìm kiếm toàn văn hay việc biên tập lại hoặc trích xuất các thông tin từ văn bản dạng ảnh cũng rất khó khăn và mất thời gian, hoàn toàn là việc gõ lại… Chính vì vậy, nhu cầu về một giải pháp số hóa các kho tài liệu này đã trở nên thiết thực.

Theo khảo sát, hiện nay trên thị trường giải pháp số hóa tài liệu với công nghệ nhận dạng của hãng ABBYY được đánh giá là một sản phẩm tốt, đáp ứng bài toán số hóa với các khả năng như nhận dạng tiếng Việt và 190 ngôn ngữ khác, độ chính xác đạt đến 97 – 98%, giữ nguyên giàn trang của văn bản, cho phép lưu tài liệu ra nhiều định dạng khác nhau như Doc, Excel, và PDF/A (định dạng file tối ưu nhất cho lưu trữ), có cơ chế làm việc tự động không cần giám sát, tính mở cao – dễ tích hợp vào các hệ thống khác để xây dựng nên các dây chuyền số hóa hoàn chỉnh.

Ngoài khả năng số hóa tài liệu mạnh, phần mềm nhận dạng của ABBYY còn cung cấp cơ chế bóc tách thông tin tự động, phân tích và trích xuất các thông tin nhất định trên các biểu mẫu và tài liệu, từ đó kết xuất các dữ liệu này tới các hệ thống quản lý – lưu trữ, thay thế cho việc nhập liệu thủ công như trước đây.

Có thể kể đến một số ứng dụng cụ thể của bóc tách thông tin tự động như: Nhập số liệu từ các loại báo cáo để đưa vào phân tích, nhập thông tin metadata của văn bản pháp qui để đưa vào quản lý, nhập thông tin từ các bộ phiếu survey, nhập thông tin khách hàng từ các application form… Việc ứng dụng bóc tách thông tin tự động mang lại nhiều ý nghĩa như giúp các tổ chức giảm chi phí nhập liệu, tăng tốc độ xử lý công việc, hiện đại hóa qui trình làm việc.

Đánh giá được khả năng làm việc và tính hiệu quả của các phần mềm số hóa tài liệu do ABBYY sản xuất, nhiều cơ quan đã đầu tư và triển khai giải pháp này nhằm số hóa các kho tài liệu khổng lồ hoặc ứng dụng vào việc hỗ trợ vào các công tác nghiệp vụ.

Để đáp ứng tốt nhất cho thị trường, ABBYY đã thiết lập đại diện chính thức và duy nhất tại Việt Nam để cung cấp các thông tin tư vấn, hỗ trợ kỹ thuật và thực hiện các hoạt động thương mại trực tiếp. Đặc biệt, người dùng có thể tham khảo thêm các thông tin chi tiết hoặc dùng thử sản phẩm tại địa chỉ trang web www.sohoa.com.vn.

(Nguồn: Công ty Đông Kinh)

Online library conceptHiện nay nhu cầu thiết lập “thư viện điện tử” ngày càng cao, vừa để đáp ứng với xu hướng sử dụng hiện tại vừa để tăng năng suất khai thác và chia sẻ thông tin trong thời đại kỹ thuật số. Ngoài ra chúng ta còn rất nhiều thư viện cổ quý giá cần được xã hội biết tới và khai thác mà khả năng tiếp cận bản gốc quá hạn hẹp, hơn nữa nguy cơ bị phá hủy theo thời gian cũng không phải là nhỏ.

Số hóa số lượng lớn những sách hiện có là bước đầu tiên của công tác xây dựng thư viện điện tử. Nhiều nơi thực hiện bằng cách tháo sách ra và scan từng trang một, như vậy vừa lâu vừa không bảo tồn được giá trị thật của quyển sách, nhất là những sách cổ. Trên thế giới đã xuất hiện nhiều công nghệ từ thô sơ đến hiện đại như robot đọc sách để phục vụ cho công đoạn này.

bildeChúng ta vẫn đang kỳ vọng vào những máy chụp sách tự động như robot tự lật trang để tối giảm công sức của con người. Nhưng nếu phân tích rạch ròi về những khoản đầu tư và hiệu quả của nó thì còn nhiều thứ phải bàn. Thứ nhất là những máy sản xuất tại nước ngoài có giá rất cao cộng với các chi phí nhập khẩu thì giá thành tại Việt Nam sẽ đội lên đến mức khó có thể đáp ứng. Ví dụ như máy Copibook Onyx có thể cân bằng bề dày của sách nhưng hoàn toàn vẫn phải lật bằng tay có giá của nhà sản xuất là 32.000 USD, hoặc máy BookDrive Pro, cũng lật trang bằng tay có giá của nhà sản xuất lên đến trên 50.000 USD. Còn máy robot chụp tự động có giá đến hàng trăm ngàn USD. Nếu mỗi máy như vậy chụp hàng triệu cuốn sách thì hoàn toàn xứng đáng với mức độ đầu tư, nhưng trên thực tế chúng ta không đạt được số lượng đó. Thứ hai là rất nhiều máy hiện đại và đắt tiền trên thế giới vẫn dùng biện pháp lật bằng tay vì tay có cảm giác nên chính xác hơn và con người còn phải theo dõi kết quả chụp của trang sách nữa.

DSC_0469DSC_0459Dựa trên những nghiên cứu về nhiều sản phẩm trên thế giới, VIAMI đã quyết định phát triển mô hình máy chụp sách riêng, sử dụng camscanner V-Scan với cơ chế bán tự động. Máy bao gồm 2 phần chính, phần chụp sách có thể úp quyển sách và sức nặng của sách sẽ làm cho trang giấy thẳng ra, đây là phương pháp “chụp úp”. Phần thứ hai là bộ phận cơ học để nâng sách lên, áp vào máy chụp, đây là phương pháp “chụp ngủa” vì quyển sách được để ngửa. Với cả 2 phương pháp trên, khi đặt lệnh chụp (có thể bằng “bàn đạp chân”, hoặc “cú hích đầu gối” hay “nút bấm tay”…) máy sẽ chụp 2 trang cùng một lúc và sau đó người dùng sẽ lật trang bằng tay. Với phương pháp “chụp úp” thì phải nhấc sách lên lật trang và úp trở lại mỗi lần sang trang. Với phương pháp “chụp ngửa” thì chỉ cần một tay sang trang và một tay ấn tay cầm xuống để quyển sách hất lên là chụp được ngay. Cứ như vậy cho đến khi kết thúc quyển sách, mỗi công đoạn này có thể thực hiên trong vòng 2-5 giây cho từng 2 trang.

DSC_0466Ngoài ra nếu có nhu cầu chụp sách mỏng hoặc vở thì người dùng có thể sử dụng công nghệ “máy chụp sách 1 camera”, VIAMI cũng có giải pháp để tách 1 hình ảnh chụp được thành 2 trang rời (như ở hình bên).

Trong mọi trường hợp kể trên, người thực hiện có thể đặt sách ở bất cứ vị trí nào trong khung đã định mà không cần phải căn chỉnh vì phần mềm V-Scan-book sẽ giúp cho việc căn chỉnh tự động.

Sau đó phần mềm V-Scan-book sẽ xử lý toàn bộ những khâu còn lại và đóng gói thành một quyển sách điện tử khi kết thúc công việc. Tất cả đều hết sức đơn giản như lật những trang sách với giá thành hết sức thấp và kết quả không kém gì những máy hiện đại trên thế giới.

Với ứng dụng thư viện điện tử như vậy, chúng ta đang dần chuyển kho tàng trí tuệ khổng lồ của nhân loại vào bộ nhớ máy tính. Nhưng như vậy mới chỉ đóng vai trò lưu giữ những tài sản một cách an toàn hơn mà chưa có đủ công cụ để khai thác một cách có hiệu quả nhất nếu chưa có giải pháp “sao chép nội dung”. Trên nguyên tắc “không phát minh lại bánh xe” (don’t reinvent the wheel), người ta khuyến khích việc thừa kế trí tuệ của nhân loại để sáng tạo và phát triển ra nhiều sự mới mẻ.

V-Scan và V-Archive giúp người dùng có được văn bản dạng text sau khi có bản lưu trữ số hóa. Những nội dung dạng text này được người dùng chỉnh sửa và lưu lại nhằm “huấn luyện” cho phần mềm “hiểu” tốt hơn và cứ như vậy càng về sau càng có được tỷ lệ “dịch thành công” cao hơn.