alfresco-cmsAlfresco ECM

Một hệ thống quản lý tài liệu (DMS) là một hệ thống máy tính (hoặc thiết lập các chương trình máy tính) được sử dụng để theo dõi và lưu trữ tài liệu điện tử và / hoặc hình ảnh của tài liệu giấy. Thuật ngữ này có một số trùng lặp với các khái niệm về hệ thống quản lý nội dung. Nó thường được xem như một thành phần của các hệ thống quản lý nội dung doanh nghiệp (ECM) và liên quan đến quản lý tài sản kỹ thuật số, hình ảnh tài liệu, hệ thống quy trình làm việc và hệ thống quản lý hồ sơ.

Alfresco DMS

Đối với bất kỳ tổ chức nào thì sự hài lòng, dịch vụ khách hàng, tính liên tục trong kinh doanh hay phối hợp hiệu quả thì quản lý tài liệu vẫn chiếm vai trò rất quan trọng.

Ngày nay, người dùng muốn một giải pháp hành chính đơn giản, với ứng dụng được cấu hình đơn giản, trong khi các công ty, tổ chức muốn nhất quán trong quản lý với một hệ thống quản lý nội dung mạnh, mềm dẻo đáp ứng yêu cầu. Alfresco cung cấp hệ quản trị tài liệu nguồn mở hàng đầu có các tính năng chụp ảnh, tìm kiếm và cộng tác đơn giản với nhiều dịch vụ thư viện đầy đủ và quản lý qui trình trong một nơi mạnh mẽ và hợp nhất.

Quản lý tài liệu truyền thống

Quản trị tài liệu kiểu truyền thống gây khó khăn cho người quản lý bởi một đống tài liệu phức tạp được phát triển theo bề dày lịch sử của những ứng dụng phần mềm doanh nghiệp lớn và phức tạp. Đó là một hệ thống quản lý:

  • Phức tạp và khó sử dụng
  • Chi phí cao
  • Ít người ưa chuộng – khoảng 5% người sử dụng

Việc lựa chọn một hệ thống tài liệu mạnh, phức tạp hay đơn giản dùng một hệ thống thiếu những tính năng cần thiết dẫn đến tỉ lệ người ưa chuộng rất thấp. Những hệ thống người dùng đã quen thuộc là:

  • Chia sẻ Ổ đĩa để lưu trữ
  • Gửi Email cho đối tác
  • Tìm kiếm trên Google
  • Tổ chức phân loại thông tin như Yahoo
  • Cấu trúc thư mục và mục lục của kế hoạch dự án

Hệ thống quản lý tài liệu Alfresco

ecmAlfresco cung cấp hệ quản trị tài liệu có giao diện thân thiện lôi cuốn người dùng, được xây dựng trong một hệ thống với các dịch vụ bên ngoài thông suốt trong hệ ECM hoàn chỉnh.

  • Hệ thống tập tin ảo – Thay thế ổ đĩa chia sẻ và cung cấp cùng một giao diện
    • Hệ thống tập tin ảo làm ECM đơn giản như một ổ đĩa chia sẻ thông thường
    • Đồng bộ hóa cặp tài liệu CIFS
    • Cổng truy cập – JSR-168
  • Quy tắc giống thư điện tử – Cấu hình qui tắc plug-in để tự động các xử lý tay và các xử lý bên ngoài
  • Tìm kiếm giống Google – Tìm kiếm trực tiếp từ FireFox hoặc IE7
  • Xem giống như Yahoo – Trích dẫn và phân lọai siêu dữ liệu tự động
  • Không gian thông minh – Không gian cộng tác thông thường tốt nhất
  • Hỗ trợ qui trình thông suốt
    • Đóng góp nội dung
    • Phân loại nội dung
    • Trích siêu dữ liệu và phân loại từ tất cả các giao diện
  • Tìm kiếm nâng cao. Tìm kiếm mở trên FireFox hoặc IE7 thông qua nhiều kho chứa Alfresco và những kho chứa bên ngoài khác
  • Công cụ quản lý và chuyển đổi dữ liệu
    • Dịch vụ chuyển đổi Office sang ODF/PDF, PowerPoint sang Flash
    • Library Services
    • Đưa dữ liệu vào/ra – Kiểm tra phiên bản chính và phụ
    • Kiểm toán – Ai tạo, ai cập nhật, tạo khi nào, cập nhật khi nào
    • Liên kết tài liệu – nhiều cấp
    • Wizard thư viện – ứng dụng tốt nhất cho cấu trúc tài liệu, nội dung, bảng mẫu, quy tắc và tiến trình
  • Cộng tác nhóm
    • Diễn đàn trợ giúp – bàn luận
    • Tiến trình làm việc dựa trên Email đơn giản – “chi phép/ không cho phép” nhúng URL
    • Gửi Email và thông báo thay đổi bằng RSS
    • Tích hợp tiến trình công việc
    • Tích hợp jBPM – hỗ trợ tiến trình công việc phức tạp
    • Quản lý nhiệm vụ theo biểu đồ
    • Quá trình thực thi – Quản lý chu trình làm việc của văn bản an toàn
  • Bảo mật
    • Quản lý người dùng và bảo mật dữ liệu với Người dùng, Nhóm, Vai trò
    • Bảo mật theo mức độ tài liệu
    • Đăng nhập một lần thông qua NTLM hoặc LDAP
  • Lợi ích
    • Tăng tính ưa chuộng của người dùng – Tất cả người dùng trong hệ thống
    • Giảm chi phí đáng kể
    • Giảm rủi ro
    • Triển khai nhanh

Web Content Management (WCM)

Quản lý nội dung Web 2.0 là một chuyển đổi lớn được mong đợi cả về kỹ thuật cũng như khách hàng. Ngày nay khách hàng thường dùng Google Maps, GMail, Blogger, Flickr, del-icio.us, và Wikipedia. Những dịch vụ mới này – phù hợp với xu thế mới của Web 2.0 – một lần nữa đã khẳng định được niềm tin tạo ra một nền tảng cả về yêu cầu kỹ thuật cũng như yêu cầu về kinh doanh trong việc quản lý nội dung.

Điều này ảnh hưởng cơ bản đến sự mong đợi của người dùng trong lĩnh vực: Giao diện người dùng, những người tham gia, dịch vụ cộng đồng, phân loại và lòng tin – tất cả được xây dựng trong một cơ sở hạ tầng được phân cấp.

Quản lý nội dung web 2.0 là một nền quản trị nội dung web cung cấp:

  • Kinh nghiệm người dùng phong phú.
  • Kiến trúc động cho người tham gia.
  • Thông minh và đáng tin cậy.
  • Giảm chi phí hiệu quả.

Alfresco Web Content Management

Alfresco được xây dựng trên những cộng cụ nguồn mở như Spring, Hibernate, Lucene, JSF – là những lựa chọn thông thường của các nhà phát triển web ngày nay. Nó cung cấp một kho chứa cho tòan đội trên nền quản lý nội dung Web 2.0:

  • Kho chứa nội dung JSR-170 biến đổi được nhất công nghiệp.
  • Tính mềm dẻo, chịu đựng lỗi và sẵn sàng cao – Bất cứ trang nào, tự khôi phục lỗi và chuyển tiếp sang dự phòng.
  • Quản lý thiết lập thay đổi trên nhiều trang – Hỗ trợ cho các dự án, hộp cát giới hạn, những bộ thay đổi, các lớp và điểm khôi phục.
  • Xuất giao tác trên nhiều trang – Bảo đảm phân phát đến nhiều trang khi đang thực hiện.
  • Máy chủ ảo – Xem trước cái trang web 2.0 được cập nhật theo ngữ cảnh. Xem cả quá khứ, hiện tại và tương lai.
  • Triển khai máy chủ – Triển khai giao tác và phục hồi hệ thống trang web đến những môi trường đã chạy.
  • Máy chủ nội dung web – Tích hợp quản trị chứng từ, kiểm tra và điểm phục hồi.
  • Quản trị nội dung theo tiến trình kinh doanh.

Chức năng người dùng

Người dùng có được những chức năng hơn cả mong đợi, những công cụ WCM riêng:

  • Các dịch vụ nội dung trong cộng đồng những người tham gia có thể nhúng vào được.
  • Thông tin phân phát theo ngữ cảnh dựa trên tính thông minh cộng đồng.
  • Có biểu mẫu cơ bản chuẩn để tạo trang dùng XForms.
  • Xuất bản thành nhiều kênh – bằngXML.

Workflow – Email cơ bản.

  • Xem được các cập nhật mới nhất của trang web mà không bị gián đoạn.
  • Quản lý nhánh – Các nhánh song song và ghép.
  • Quản lý phụ thuộc – Quản lý các tác động ảnh hưởng và cập nhật tự động.
  • Những biểu mẫu được xây dựng sẵn – Websites và các thành phần của trang web.
  • Dễ sử dụng lại kiểu dáng tồn tại.

Lợi ích

Hệ WCM nguồn mở có những lợi ích quan trọng như:

  • Thời gian – Tốn hàng tuần đến hàng giờ để triển khai một hệ thống đã thay đổi.
  • Chi phí – Một máy chủ ảo
  • Chất lượng – Một kho chứa. Xem trước được.
  • Sự hài lòng – Khung kiểm sóat chung. Một máy chủ ảo cho quá khứ, hiện tại và tương lai, Kiểm tra định hướng dịch vụ, Chuyển đổi – Chuyển đổi dựa trên tập tin đơn giản.

Alfresco RM (Records Management)

Nhiều tổ chức đang phải đối mặt với nghĩa vụ pháp lý ngày càng tăng do vậy họ phải đmả bảo việc quản trị, duy trì và tuân theo các thủ tục ngày một tốt hơn. Sự cần thiết phải nắm bắt, quản lý và kiểm soát thông tin của công ty tốt hơn mà phần nhiều thông tin trong số đó nằm trong tài liệu kinh doanh, email, báo cáo tài chính, v.v… đang dẫn tới việc các công ty triển khai giải pháp Quản lý hồ sơ để giúp:

  • Đảm bảo tuân thủ các quy tắc và thủ tục của doanh nghiệp.
  • An toàn hệ thống, tài liệu, hồ sơ liên quan khác với những truy cập (hoặc không chủ ý) trái phép.
  • Địa chỉ phù hợp với các yêu cầu pháp lý và quy định.

Nhưng giải pháp Quản lý hồ sơ truyền thống thường:

  • Ngắt kết nối – những giải pháp độc lập cần được tích hợp với các hệ thống nội bộ ECM khác.
  • Ứng dụng phức tạp được thiết kế để đáp ứng quản lý hồ sơ chuyên dụng.
  • Tốn kém – phần mềm sở hữu hệ thống đi kèm với một thẻ với giá thành quá cao.
  • Độc quyền – Thiếu triển khai trên quy mô rộng, chỉ được sử dụng bởi đội ngũ Quản lý hồ sơ cốt lõi.

Quản lý hồ sơ Alfresco

Được chứng nhận theo tiêu chuẩn của Bộ Quốc phòng Mỹ (DoD) 5.015,02, các giải pháp Alfresco cung cấp tất cả các chức năng cần thiết để giúp các tổ chức nắm bắt, phân loại, kiểm soát và xử lý một số lượng lớn các hồ sơ của công ty. Tuy nhiên, giải pháp Alfresco đã được thiết kế để giải quyếtnhững vấn hạn chế của các giải pháp tương tự. Các module quản lý hồ sơ Alfresco đã được thiết kế để:

  • Đơn giản để sử dụng – Cung cấp khả năng quản lý hồ sơ thông qua giao diện dễ sử dụng. Sắn cõ thông qua một giao diện dựa trên web để truy cập dễ dàng từ vị trí bất kỳ, thông qua các tiêu chuẩn chung (CIFS) Internet File System – đơn giản để sử dụng như một ổ đĩa mạng chia sẻ – hoặc thông qua một ứng dụng email IMAP tương thích, để cung cấp trình hỗ trợ “kéo và thả ‘ đơn giản cho hồ sơ email.
  • Một khả năng mở rộng kho đơn – Alfresco sử dụng một kho đơn để hỗ trợ đầy đủ các yêu cầu ECM của công ty, bao gồm cả quản lý tài liệu, Quản lý hồ sơ, Email Archive, Web Content Management và cộng tác nhóm.Dễ dàng triển khai – Thiết kế và xây dựng sử dụng công nghệ hiện đại ngày nay. Alfresco ECM có thể được cài đặt trên tiền đề tận dụng cả hai công nghệ độc quyền hoặc công nghệ mở, hoặc cung cấp thông qua một triển khai Cloud.
  • Chi phí hiệu quả – doanh nghiệp không phải trả khoản lệ phí nào trước xin được giấy phép, các giải pháp nguồn mở Alfresco thường chiếm một chi phírất nhỏ so với các giải pháp truyền thống.

Trước kia người ta sử dụng một số thiết bị scan chuyên dụng và nhận dạng đánh dấu truyền thống dựa vào nguyên lý phản xạ ánh sáng (tại các vùng có đánh dấu/tô, ánh sáng sẽ phản xạ yếu hơn các vùng trống khác), với các thiết bị này, yêu cầu về việc đánh dấu, tạo mẫu, cũng như yêu cầu về chất liệu giấy in rất khắt khe.

Ngày nay, các phần mềm nhận dạng đánh dấu (Optical Mark Recognition – OMR) cho phép người dùng tự tạo các mẫu cũng như in chúng trên các chất liệu giấy thông thường. Phần mềm chỉ cần làm việc với ảnh quét của mẫu sau khi điền.

EZData-OMR-scannerng nghệ OMR đơn giản hơn rất nhiều so với công nghệ OCR hay ICR. Công nghệ OMR thường được dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.

Tham khảo thêm

adrt-illustrationADRT (Adaptive Document Recognition Technology) là một bước tiến lớn trong công nghệ nhận dạng tài liệu; là một phần quan trọng và chỉ có trong công nghệ OCR do ABBYY phát triển. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh, số trang v..v…

Khi kết quả nhận dạng được lưu dưới dạng Microsoft Word, các định dạng trên được nhìn nhận như những đối tượng tương ứng trong Word chứ không đơn thuần chỉ là các khối văn bản.

Để đạt được tính chính xác trong việc phân tích dàn trang, cấu trúc logic cũng như các định dạng trong tài liệu là do ADRT xem xét và xử lý các tài liệu nhiều trang như là một đối tượng tổng thể chứ không phải là tập hợp các trang riêng biệt. Với công nghệ ADRT, người dùng sẽ không mất, hoặc mất rất ít thời gian cho việc biên tập lại kết quả nhận dạng.

Chuyển sách báo, văn bản, biểu mẫu tiếng Việt in trên giấy thành tài liệu lưu trữ trên máy tính và có thể chỉnh sửa thông qua các dịch vụ, phần mềm nhận dạng thông minh..

Với sự phổ biến của máy tính, mạng Internet, dữ liệu ngày nay hầu hết được lưu trữ trên máy tính để phục vụ việc tìm kiếm, sao lưu, biên tập.


Hình 1: Tài liệu mẫu kiểm tra các trang web, phần mềm dùng công nghệ OCR.

Nếu bạn là chuyên viên soạn thảo hợp đồng, nhân viên văn thư, muốn lưu trữ các bản hợp đồng, sách báo, các loại công văn tiếng việt… thành dạng văn bản lưu trên máy tính, có thể chỉnh sửa, tìm kiếm theo nội dung. Hoặc bạn là sinh viên đang làm luận văn tốt nghiệp, hiện giữ nhiều tài liệu quý trên bản in và bạn muốn bổ sung vào bài làm của mình để thêm phần phong phú… Nếu dùng máy quét, máy ảnh số để sao chụp, bạn chỉ có thể đọc mà không thể chỉnh sửa.Hiện nay, rất nhiều phần mềm cả có phí lẫn miễn phí dùng công nghệ nhận dạng ký tự quang học hay nhận dạng chữ in, chữ đánh máy (OCR – Optical Character Recognition) – cho phép trích xuất và chuyển đổi tài liệu dạng ảnh (ảnh từ máy quét, máy ảnh, tập tin PDF dạng ảnh…) thành các tài liệu có thể biên tập (dạng tập tin text, Word…) – hỗ trợ việc số hóa tài liệu tiếngViệt (nhận dạng văn bản tiếng Việt). Tùy vào độ phức tạp của văn bản: định dạng chữ hoa, chữ thường, chữ in nghiêng, khung bảng, biểu mẫu…, chất lượng ảnh, và tùy vào công nghệ nhận dạng riêng biệt của mỗi nhà phát triển sẽ có mức độ nhận dạng văn bản chính xác khác nhau. Ngoài công nghệ OCR, hiện nay còn có thêm nhiều công nghệ nhận dạng tiêu biểu khác như:

Hình 2: Kết quả sau khi nhận dạng tài liệu mẫu trên trang free-ocr.com.

Nhận dạng chữ viết tay hay ký tự thông minh (ICR – Intelligent Character Recognition): là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay. Công nghệ nhận dạng chữ viết tay thường được dùng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký…).

Nhận dạng đánh dấu (OMR – Optical Mark Recognition): một số thiết bị nhận dạng đánh dấu truyền thống dựa vào nguyên lý phản xạ ánh sáng (tại các vùng có đánh dấu/tô, ánh sáng sẽ phản xạ yếu hơn các vùng trống khác), với các thiết bị này, yêu cầu về việc đánh dấu, tạo mẫu, cũng như yêu cầu về chất liệu giấy in rất khắt khe. Ngược với các thiết bị đánh dấu truyền thống, các phần mềm nhận dạng đánh dấu (Optical Mark Recognition – OMR) cho phép người dùng tự tạo các mẫu và in chúng trên các chất liệu giấy thông thường. Phần mềm sẽ xử lý ảnh quét của mẫu sau khi điền. Công nghệ OMR thường dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.


Hình 3: Một phần kết quả nhận dạng qua trang free-ocr.com, được sao chép ra tập tin Word.

Nhận dạng chữ mực từ hay ký tự từ tính (MICR – Magnetic Ink Character Recognition): một công nghệ nhận dạng ký tự dùng chủ yếu ở lĩnh vực ngân hàng nhằm tạo thuận lợi cho công tác xử lý kiểm tra thông tin. Công nghệ này cho phép các máy tính có thể đọc các thông tin vắn tắt (như số tài khoản) trên tài liệu in. Không giống như mã vạch, mã MICR con người có thể đọc được. Việc in bằng từ tính cho phép đọc các ký tự chính xác ngay cả khi chúng bị che khuất.

Để minh họa bài viết về công nghệ nhận dạng chữ in (OCR), chúng tôi dùng 2 trang web nhận dạng tài liệu tiếng việt: free-ocr.com, sohoa.com.vn và 1 phần mềm cài đặt trên máy tính: VietOCR. Cả free-ocr.com và VietOCR đều dùng bộ máy (engine) nhận dạng chữ in Tesseract (Tesseract OCR engine) – bộ máy OCR này được phát triển bởi HP Labs trong giai đoạn 1985-1995 và bây giờ là Google (http://code.google.com/p/tesseract-ocr). Với VietOCR, bạn có thể tùy biến theo yêu cầu vì đây là chương trình nguồn mở.

Free-ocr.com là dịch vụ miễn phí, hỗ trợ các định dạng ảnh thông dụng JPG, GIF, TIFF, BMP với dung lượng mỗi tập tin tải lên tối đa 2MB. Dịch vụ này cho phép trong mỗi giờ bạn chỉ có thể thực hiện 10 lần nhận dạng và trích xuất đoạn văn bản từ ảnh.

Hình 4: Giao diện hiển thị kết quả nhận dạng tài liệu trên trang sohoa.com.vn

Sohoa.com.vn là dịch vụ số hóa tài liệu trực tuyến dùng công nghệ nhận dạng tài liệu ADRT (Adaptive Document Recognition Technology) của hãng ABBYY – Nga. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh… Sohoa.com.vn hỗ trợ nhiều định dạng ảnh khác nhau từ TIFF, JPEG, JPEG 2000, PDF, BMP (đen trắng, xám, màu), PNG (đen trắng, xám, màu) cho đến PCX, DCX (đen trắng, xám, màu). Hiện nay, để sử dụng dịch vụ, người dùng đăng ký một tài khoản và sẽ có 30 trang số hóa tài liệu tiếng Việt miễn phí.

VietOCR là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng tài liệu tiếng Việt ở dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. VietOCR có 2 phiên bản: phiên bản Java đòi hỏi Java Runtime Environment, 6.0 hoặc mới hơn. Phiên bản .NET cần Microsoft .NET Framework 2.0 Redistributable. Xem thêm http://vietocr.sourceforge.net.


Hình 5: kết quả (tập tin Word) sau khi nhận dạng tài liệu mẫu qua trang sohoa.com.vn

Để kiểm tra mức độ nhận dạng tài liệu tiếng Việt, chúng tôi đã thực hiện một tài liệu mẫu có cấu trúc gồm: bảng, đánh dấu số đầu dòng, in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh. Kiểu chữ (font) dùng trong tài liệu mẫu là Arial, mã Unicode. Đầu tiên, thực hiện quét tài liệu mẫu bằng máy quét (chúng tôi dùng Kodak i4600 Scanner) với độ phân giải 200dpi, ảnh xám (grayscale), định dạng JPG. Xem hình 1.

Sau đó, truy cập free-ocr.com, bạn có thể thực hiện ngay việc số hóa tài liệu mà không cần tạo tài khoản đăng nhập. Chọn ngôn ngữ tiếng Việt, sau đó nhất nút “chọn tập tin” để tải lên tập tin cần nhận dạng. Nhập 2 từ xuất hiện ngẫu nhiên trong ô CAPTCHA, nhấn nút “Send file” và đợi vài giây. Kết quả sau khi dịch vụ free-ocr.com nhận dạng ảnh tài liệu tiếng Việt vừa tải lên: hình 2, hình 3.

Ở đây, bạn có thể dễ dàng nhận thấy, free-ocr.com không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích và có một số lỗi nhận dạng chữ. Do đó bạn sẽ phải mất nhiều thời gian để chỉnh sửa và định dạng lại.

Hình 6: tài liệu mẫu (bên trái) và kết quả nhận dạng trên phần mềm VietOCR (bên phải).

Thử kiểm tra với dịch vụ số hóa tài liệu tiếng Việt trên trang sohoa.com.vn. Truy cập sohoa.com.vn, chọn mục “SỐ HÓA”, tạo một tài khoản, đăng nhập tài khoản thành công bạn sẽ có 30 trang nhận dạng miễn phí. Chọn nút “tải file lên”, nhập tiêu đề, chọn ngôn ngữ tiếng Việt, chọn định dạng tập tin xuất ra *.doc (ngoài ra bạn có thể chọn các định dạng tập tin khác: *.xml, *.docx, *.xls, *.ppt, *.pdf, *.csv, *.html, …), nhấn nút “chọn tệp mới” để tải lên ảnh tài liệu tiếng Việt cần nhận dạng, sau đó nhấn nút “thêm mới” để thực hiện. Hình 4. Vài giây sau, kết quả sẽ hiển thị ngay trên giao diện màn hình web, nhấn biểu tượng Word để lưu tập tin đã được nhận dạng về máy. Hình 5.

Kết quả nhận dạng của dịch vụ sohoa.com.vn rất tốt. Tất cả cấu trúc tài liệu: bảng, đánh dấu số đầu dòng, định dạng in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh đều thể hiện khá chính xác. Tài liệu sau khi nhận dạng cũng mắc một vài lỗi về chữ.

Sau cùng, chúng tôi thử nghiệm tài liệu mẫu với VietOCR. Truy cập http://sourceforge.net/projects/vietocr tải về bản VietOCR.NET-1.7_32.zip, giải nén và tiến hành cài đặt. Mở chương trình VietOCR, nhấn nút “Open”, chọn tập tin ảnh cần nhận dạng, chọn OCR Language là Vietnamese. Sau đó nhấn nút “OCR” để chương trình tiến hành nhận dạng. Kết quả sau khi nhận dạng: hình 6.

Cũng như dịch vụ free-ocr.com, VietOCR không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích – do bộ máy Tesseract 2.0x không hỗ trợ dàn trang, nên chỉ có thể nhận diện văn bản với một cột chữ. Tesseract 3.0 đã tích hợp khả năng phân tích dàn trang, hỗ trợ nhận dạng các văn bản có nhiều cột (xem thêm http://vietocr.sourceforge.net). VietOCR cũng mắc một số lỗi nhận dạng chữ.

Qua các thử nghiệm trên, chúng ta dễ dàng nhận thấy dịch vụ của sohoa.com.vn có khả năng nhận dạng tài liệu văn bản tốt nhất, với đầy đủ định dạng, hình ảnh. Tuy free-ocr.com, VietOCR nhận dạng tài liệu chưa tốt nhưng chúng hoàn toàn miễn phí.

Quốc Dũng

Tham khảo: 
en.wikipedia.org; vietocr.sourceforge.net; free-ocr.com; sohoa.com.vn

photocopy1Như chúng ta thường quen thuộc với cuộc sống hàng ngày, đến các công sở, ngân hàng, doanh nghiệp đều được yêu cầu chứng minh nhân dân và ở đó họ có thể đưa vào máy photocopy để giữ lại bản lưu, nếu không thì yêu cầu bạn cầm đến một bản sao. Mấy ngày sau, có thể sự việc lại được lặp lại nếu bạn quay lại.

Với cách truyền thống này, ngoài sự tốn kém về tiền của nói chung còn là sự lãng phí về thời gian từ việc người dân phải đi “photocopy” cho đến việc cơ quan phải lưu cất và tìm kiếm lại khi cần rồi đến khi có sự cố mất đi thì không thể phục hồi được nữa. Nhiều ngân hàng lại còn “photocopy” ra giấy rồi sau đó có công đoạn scan để lưu trữ điện tử từ bản photocopy trắng-đen đó, vừa nhiêu khê vừa tốn kém.

Ngày nay, với sự phát triển của công nghệ thông tin, với những phương thức “photo” và lưu trữ mới, chúng ta có thể có được những bản photo nhanh chóng, tiện lợi ngay trên bàn làm việc rồi được lưu trữ ngay lập tức trên hệ thống, đó là việc sao chụp và lưu trữ điện tử mà người ta gọi chung là “số hóa văn bản” hoặc đơn giản hơn có thể gọi là “photocopy điện tử”.

v-archive“Photocopy điện tử” là quá trình sao chép bằng những thiết bị sao chụp tài liệu như máy scanner hoặc camscanner V-Scan rồi lưu trữ thẳng trên máy chủ hoặc máy tính mà không cần qua khâu “in ra giấy”. Khi chúng ta cần sao lưu bất cứ loại giấy tờ gì (công văn, văn bản, CMND…) trong quy trình công việc, thì chỉ cần lấy giấy tờ đó, giải phápđặt vào bàn của camscanner và bấm nút rồi V-Scan sẽ xử lý ngay để bạn có được bản số hóa hoàn chỉnh kể cả việc nhận dạng chữ và sau đó V-Archive sẽ giúp công việc lưu trữ, sắp xếp thuận tiện cho việc khai thác về sau. Việc lưu trữ điện tử hết sức cần thiết cho việc lưu lại toàn bộ tài liệu đồng thời tăng khả năng tìm kiếm, tổ chức và chia sẻ một cách đáng kể.

Nếu như việc lưu trữ điện tử không thay thế lưu trữ truyền thống mà chỉ là trợ thủ đắc lực, thì photocopy điện tử có thể thay thế hoàn toàn photocopy truyền thống. Việc từng bước thay thế bản sao bằng giấy bằng sao điện tử là bước đầu để chúng ta gỡ bỏ thói quen, hiện đại hóa và tăng năng suất phục vụ để đáp ứng những yêu cầu ngày càng cao của xã hội.

braun-novamat-slide-projector-963946Việc trình diễn bằng máy chiếu đã trở thành thói quen và không thể thiếu trong các buổi giới thiệu, giảng dạy và đào tạo. Tuy nhiên mọi trình chiếu mới dừng lại ở các Slides Powerpoint đã được soạn thảo trước. Một số nơi có thể được trang bị “bảng thông minh” với “bút điện tử” kết hợp với trình chiếu làm cho buổi trình diễn thêm sinh động, phong phú nhưng chỉ những đơn vị chuyên nghiệp mới có thể sở hữu được những thứ này.Overhead Projector

Nếu chúng ta đi ngược lại dòng thời gian, từ “slide projector” chỉ máy chiếu “phim diapositive” thời những năm 60-80 để trình chiếu như ở hình ảnh trên. Sau đó là phiên bản “máy chiếu vượt đầu” (overhead projector) như ở hình bên mà ở đó người ta đặt phim trong suốt lên mặt máy phát sáng và viết vẽ bằng bút đặc biệt (như bút viết bảng ngày nay) có thể viết lên phim nhựa để trình chiếu, phục vụ các công tác giảng dạy và đào tạo. Loại máy chiếu này giúp các nhà đào tạo hiển thị những ý tưởng cần truyền đạt ngay lập tức, trả lời các câu hỏi tại chỗ bằng máy chiếu và thể hiện một cách sống động bài giảng hoặc trong việc bảo vệ luận án…

Ngày nay những thiết bị này đã biến mất, nhưng nhu cầu thể hiện sống động trong giáo dục và đào tạo không mất đi. Người ta phải khắc phục bằng bảng viết, giấy viết khổ to… nhưng thực chất vẫn chưa đủ to như màn chiếu, còn việc biểu hiện đồ vật cho khán phòng thì hầu như không thể được mà phải thay bằng hình ảnh, clip để chiếu lên màn chiếu, chưa đủ tính thuyết phục nếu phải thực hiện sự thay đổi nào đó.

Scanner-standaloneVới Camscanner V-Scan, công việc “live show” bằng máy chiếu có thể được thực hiện dễ dàng. Bất cứ máy camscanner nào cũng đều có thể chiếu hình ảnh nó thu được ngay trước ống kính lên màn chiếu. Đào tạo viên có thể sử dụng những tài liệu giấy đang có trong tay như sách vở, tạp chí hoặc/và viết vẽ trên một trang giấy… đặt lên trên bàn và chiếu lên màn chiếu. Ngoài ra còn có thể đặt một số vật thể nhỏ để trình chiếu, vật thể có thể đang hoạt động (ví dụ như đồng hồ), kể cả việc phải vận hành hoặc can thiệp bằng tay, v.v… Trong thời gian trình chiếu có thể lưu lại ngay các hỉnh ảnh, kể cả quay phim để làm tài liệu.

Một thiết bị camscanner đặc biệt dành cho công việc này, đó là máy độc lập (A5MPA4AF), thiết bị này có 2 camera và có thể hoạt động độc lập mà không cần phải kết nối với máy tính (nhưng vẫn có thể kết nối được với máy tính như các thiết bị khác khi cần).

Bất cứ một doanh nghiệp nào cũng có thể trang bị một vài máy camscanner V-Scan một cách dễ dàng (giá như một máy scan đơn giản), nhưng lại có thể sử dụng vào việc giới thiệu sản phẩm hoặc đào tạo…

 DSC_0520

Scan các tài liệu , giấy, hóa đơn, CMND, ảnh,… khổ giấy scan có kích thước tối đa A3 (420 x 297 mm). Scan tập tài liệu có nhiều trang trong cùng 1 file và tự động theo thứ tự.

Tự động xử lý hình ảnh: Nhận dạng viền tài liệu, tự động định nghĩa nếu trang giấy bị khuyết, chỉnh lại góc độ hình ảnh xoay thẳng lại nếu tài liệu bị để lệch góc.

Giá: 5.018.000 VNĐ

Thông số kỹ thuật

Cảm biến hình ảnh:
Độ phân giải hình ảnh:
Khổ tài liệu có thể thu thập:
Kích thước máy:
Trọng lượng:
Kích thước hộp:
CMOS, 5.0 Mega Pixels
2592×1944; 640×480
A3, A4, B5, A5, A6, A7, business card, ID card
11x11x32cm (gập), 11x32x33cm (sử dụng)
N.W: 620g, G.W: 1460g
14cmx15cmx44cm
Chiều sâu của màu:
Đối tượng scan chụp:
Tốc độ scan chụp:
Tốc độ truyền:
Định dạng hình ảnh:
Điều chỉnh hình ảnh:
Hiệu ứng (tiêu chuẩn) hình ảnh:
Kiểu lấy nét:
Điều kiện chiếu sáng:
Nhận dạng chữ (OCR):
Giao thức:
Âm thanh:
Chiếu sáng:
Năng lượng tiêu thụ:
Định dạng đầu ra video:
Tiêu chuẩn:
24 bits
Tài liệu, giấy, hóa đơn, CMND, ảnh, vật thể…
Một nút bấm, scan trong 1 giây
30 Fps với phân giải 640×480(VGA)
JPEG, PNG, BMP, TIFF, PDF
Brightness, Exposure, Sharpness, Color, Gain,…
Màu, xám, trắng-đen
Chỉnh độ nét bằng tay, cân bằng sáng tự động
Đèn LED có độ sáng tự nhiên
Tiếng Anh, tiếng Trung
USB 2.0
Microphone cao cấp
>1Lux
<150mA
YUY2,MJPG
FCC, CE, ROHS
Các chức năng khác Trình chiếu mọi tài liệu hoặc vật thể
Quay phim
Gửi fax
Gửi e-mail
Phần mềm nâng cao V-Scan
Đặt mua ngay

 DSC_0528
Máy quét tài liệu lấy nét tự động.

Scan các tài liệu , giấy, hóa đơn, CMND, ảnh,… khổ giấy scan có kích thước tối đa A4 (297 x 210 mm). Scan tập tài liệu có nhiều trang trong cùng 1 file và tự động theo thứ tự.

Tự động xử lý hình ảnh: Nhận dạng viền tài liệu, tự động định nghĩa nếu trang giấy bị khuyết, chỉnh lại góc độ hình ảnh xoay thẳng lại nếu tài liệu bị để lệch góc.

Giá: 4.069.000 VNĐ

Thông số kỹ thuật

Cảm biến hình ảnh:
Độ phân giải hình ảnh:
Khổ tài liệu có thể thu thập:
Kích thước máy:
Trọng lượng:
Kích thước hộp:
CMOS, 2.0 Mega Pixels
1600×1200; 640×480
A4, B5, A5, A6, A7, business card, ID card
11x11x39cm (gập), 11x26cmx39cm (sử dụng)
N.W: 590g, G.W: 800g
14cmx15cmx44cm
Chiều sâu của màu:
Đối tượng scan chụp:
Tốc độ scan chụp:
Tốc độ truyền:
Định dạng hình ảnh:
Điều chỉnh hình ảnh:
Hiệu ứng (tiêu chuẩn) hình ảnh:
Kiểu lấy nét:
Điều kiện chiếu sáng:
Nhận dạng chữ (OCR):
Giao thức:
Âm thanh:
Chiếu sáng:
Năng lượng tiêu thụ:
Định dạng đầu ra video:
Tiêu chuẩn:
24 bits
Tài liệu, giấy, hóa đơn, CMND, ảnh, vật thể…
Một nút bấm, scan trong 1 giây
30 Fps với phân giải 640×480(VGA)
JPEG, PNG, BMP, TIFF, PDF
Brightness, Exposure, Sharpness, Color, Gain,…
Màu, xám, trắng-đen
Chỉnh độ nét tự động, cân bằng sáng tự động
Đèn LED có độ sáng tự nhiên
Tiếng Anh, tiếng Trung
USB 2.0
Microphone cao cấp
>1Lux
<150mA
YUY2,MJPG
FCC, CE, ROHS
Các chức năng khác Trình chiếu mọi tài liệu hoặc vật thể
Quay phim
Gửi fax
Gửi e-mail
Phần mềm nâng cao V-Scan
Đặt mua ngay

 2013_hot_products_5_megapixel_USB_Scanner
Máy quét tài liệu lấy nét tự động 5 megapixels (2544 x 1936).

Scan các tài liệu , giấy, hóa đơn, CMND, ảnh,… khổ giấy scan có kích thước tối đa A3 (420 x 297 mm). Scan tập tài liệu có nhiều trang trong cùng 1 file và tự động theo thứ tự.

Tự động xử lý hình ảnh: Nhận dạng viền tài liệu, tự động định nghĩa nếu trang giấy bị khuyết, chỉnh lại góc độ hình ảnh xoay thẳng lại nếu tài liệu bị để lệch góc.

Giá: 7.618.000 VNĐ

Thông số kỹ thuật

Cảm biến hình ảnh:
Độ phân giải hình ảnh:
Khổ tài liệu có thể thu thập:
Kích thước máy:
Trọng lượng:
Kích thước hộp:
CMOS, 5.0 Mega Pixels
2544×1936; 640×480
A3, A4, B5, A5, A6, A7, business card, ID card
12x5x57cm (gập), 12x28cmx57cm (sử dụng)
N.W: 800g, G.W: 1400g
15cmx15cmx60cm
Chiều sâu của màu:
Đối tượng scan chụp:
Tốc độ scan chụp:
Tốc độ truyền:
Định dạng hình ảnh:
Điều chỉnh hình ảnh:
Hiệu ứng (tiêu chuẩn) hình ảnh:
Kiểu lấy nét:
Điều kiện chiếu sáng:
Nhận dạng chữ (OCR):
Giao thức:
Âm thanh:
Chiếu sáng:
Năng lượng tiêu thụ:
Định dạng đầu ra video:
Tiêu chuẩn:
24 bits
Tài liệu, giấy, hóa đơn, CMND, ảnh, vật thể…
Một nút bấm, scan trong 1 giây
30 Fps với phân giải 640×480(VGA)
JPEG, PNG, BMP, TIFF, PDF
Brightness, Exposure, Sharpness, Color, Gain,…
Màu, xám, trắng-đen
Chỉnh độ nét tự động, cân bằng sáng tự động
Đèn LED có độ sáng tự nhiên
Tiếng Anh, tiếng Trung
USB 2.0
Microphone cao cấp
>1Lux
<150mA
YUY2,MJPG
FCC, CE, ROHS
Các chức năng khác Trình chiếu mọi tài liệu hoặc vật thể
Quay phim
Gửi fax
Gửi e-mail
Phần mềm nâng cao V-Scan
Đặt mua ngay

 Scanner-standalone1
Máy quét tài liệu độc lập dùng trong giảng dạy, scan tài liệu khổ giấy kích thước tối đa A4 02camera

– Camera chính (tài liệu): 5 megapixels (2544 x 1936)
– Camera phụ (người): 2 megapixels (1600 x 1200)
– Lấy nét tự động, hoạt động độc lập dùng trong giảng dạy.

Scan các tài liệu , giấy, hóa đơn, CMND, ảnh,… khổ giấy scan có kích thước tối đa A4 (297 x 210 mm).

Tự động xử lý hình ảnh: Nhận dạng viền tài liệu, tự động định nghĩa nếu trang giấy bị khuyết, chỉnh lại góc độ hình ảnh xoay thẳng lại nếu tài liệu bị để lệch góc.

Giá: 9.035.000 VNĐ

Thông số kỹ thuật

Cảm biến hình ảnh:
Độ phân giải hình ảnh:
Khổ tài liệu có thể thu thập:
Kết nối máy tính:
Kích thước máy:
Trọng lượng:
Kích thước hộp:
CMOS, 5.0 Mega Pixels
2544×1936; 640×480
A4, B5, A5, A6, A7, business card, ID card
Có thể hoạt động độc lập hoặc kết nối với máy tính
12x5x50cm (gập), 12x28cmx50cm (sử dụng)
N.W: 1200g, G.W: 2000g
15cmx15cmx60cm
Chiều sâu của màu:
Đối tượng scan chụp:
Tốc độ scan chụp:
Tốc độ truyền:
Định dạng hình ảnh:
Điều chỉnh hình ảnh:
Hiệu ứng (tiêu chuẩn) hình ảnh:
Kiểu lấy nét:
Điều kiện chiếu sáng:
Nhận dạng chữ (OCR):
Giao thức:
Âm thanh:
Chiếu sáng:
Năng lượng tiêu thụ:
Định dạng đầu ra video:
Tiêu chuẩn:
24 bits
Tài liệu, giấy, hóa đơn, CMND, ảnh, vật thể…
Một nút bấm, scan trong 1 giây
30 Fps với phân giải 640×480(VGA)
JPEG, PNG, BMP, TIFF, PDF
Brightness, Exposure, Sharpness, Color, Gain,…
Màu, xám, trắng-đen
Chỉnh độ nét tự động, cân bằng sáng tự động
Đèn LED có độ sáng tự nhiên
Tiếng Anh, tiếng Trung
USB 2.0
Microphone cao cấp
>1Lux
<150mA
YUY2,MJPG
FCC, CE, ROHS
Các chức năng khác Trình chiếu mọi tài liệu hoặc vật thể
Quay phim
Gửi fax
Gửi e-mail
Phần mềm nâng cao V-Scan
Đặt mua ngay

 P02-A4 Photo – scanner 5 megapixel (Có camera phụ chụp chân dung)

– Camera chính (tài liệu): 5 megapixels (2544 x 1936)
– Camera phụ (người): 640 x 480
– Lấy nét tự động, có thêm chức năng chụp chân dung.

Scan các tài liệu , giấy, hóa đơn, CMND, ảnh,… khổ giấy scan có kích thước tối đa A4 (297 x 210 mm).

Tự động xử lý hình ảnh: Nhận dạng viền tài liệu, tự động định nghĩa nếu trang giấy bị khuyết, chỉnh lại góc độ hình ảnh xoay thẳng lại nếu tài liệu bị để lệch góc

Giá: 7.618.000 VNĐ

Thông số kỹ thuật

Cảm biến hình ảnh:
Độ phân giải hình ảnh:
Khổ tài liệu có thể thu thập:
Kích thước máy:
Trọng lượng:
Kích thước hộp:
CMOS, 5.0 Mega Pixels
2544×1936; 640×480
A4, B5, A5, A6, A7, business card, ID card
12x5x50cm (gập), 12x28cmx50cm (sử dụng)
N.W: 800g, G.W: 1400g
15cmx15cmx60cm
Chiều sâu của màu:
Đối tượng scan chụp:
Tốc độ scan chụp:
Tốc độ truyền:
Định dạng hình ảnh:
Điều chỉnh hình ảnh:
Hiệu ứng (tiêu chuẩn) hình ảnh:
Kiểu lấy nét:
Điều kiện chiếu sáng:
Nhận dạng chữ (OCR):
Giao thức:
Âm thanh:
Chiếu sáng:
Năng lượng tiêu thụ:
Định dạng đầu ra video:
Tiêu chuẩn:
24 bits
Tài liệu, giấy, hóa đơn, CMND, ảnh, vật thể…
Một nút bấm, scan trong 1 giây
30 Fps với phân giải 640×480(VGA)
JPEG, PNG, BMP, TIFF, PDF
Brightness, Exposure, Sharpness, Color, Gain,…
Màu, xám, trắng-đen
Chỉnh độ nét tự động, cân bằng sáng tự động
Đèn LED có độ sáng tự nhiên
Tiếng Anh, tiếng Trung
USB 2.0
Microphone cao cấp
>1Lux
<150mA
YUY2,MJPG
FCC, CE, ROHS
Các chức năng khác Trình chiếu mọi tài liệu hoặc vật thể
Quay phim
Gửi fax
Gửi e-mail
Phần mềm nâng cao V-Scan
Đặt mua ngay

SỐ HÓA
TỪ CHUYỆN THƯỜNG NGÀY ĐẾN ĐẠI SỰ

Như chúng ta thường quen thuộc với cuộc sống hàng ngày, đến công sở, ngân hàng, doanh nghiệp đều được yêu cầu chứng minh nhân dân và ở đó họ có thể đưa vào máy photocopy để giữ lại bản lưu, nếu không thì yêu cầu bạn cầm đến một bản sao. Mấy ngày sau, có thể sự việc lại được lặp lại nếu bạn quay lại.

Thiết nghĩ chỉ là 1 bản sao thường để sử dụng lưu nội bộ, hãy làm thử phép tính đơn giản, nếu trung bình mỗi người lớn phải dùng 1 bản photocopy CMND/năm thì xã hội cần đến 50 triệu tờ giấy A4, riêng giá trị tiền giấy đã là 10 tỷ VNĐ, còn tổng giá trị lên đến 50 tỷ VNĐ. Với cách truyền thống, ngoài sự tốn kém về tiền của nói chung còn là sự lãng phí về thời gian từ việc “photo” cho đến việc lưu cất và tìm kiếm lại khi cần rồi đến khi có sự cố mất đi thì không thể phục hồi được nữa.

Theo nhiều quy định của Nhà nước, các doanh nghiệp và cơ quan tổ chức bắt buộc phải lưu trữ những tài liệu, giấy tờ liên quan đến hoạt động trong vòng 10 năm và có thể lâu hơn nữa. Lưu trữ còn giúp tổ chức, doanh nghiệp đỡ nhiều oan ức nếu gặp phải những rắc rối pháp lý nếu xảy ra. Tuy nhiên công việc này cũng hết sức khó khăn và tốn kém đối với mọi tổ chức.

Ngày nay, với sự phát triển của công nghệ thông tin, với những phương thức “photo” và lưu trữ mới, chúng ta có thể có được những bản photo nhanh chóng, tiện lợi ngay trên bàn làm việc rồi được lưu trữ ngay lập tức trên hệ thống, đó là việc sao chụp và lưu trữ điện tử mà người ta gọi chung là “số hóa văn bản”.

Tưởng chừng như vậy đã đủ để thay thế kiểu truyền thống vì đã tiết kiệm được đủ thứ, nhưng cái thực sự được chính là ở các khâu sau đó. Thời gian khai thác sử dụng có thể giảm xuống hàng trăm thậm chí hàng ngàn lần. Ngoài ra còn các chức năng tiên tiến khác như tự động nhận dạng chữ (OCR) cũng giúp chúng ta có ngay được nội dung số. Với công nghệ quản lý tập trung, chúng ta còn có thể xác lập các chế độ bảo mật cao như quản lý người dùng, phân cấp/quyền, backup, quản trị rủi ro…

Để có hình ảnh cụ thể hơn, chúng ta có thể làm phép so sánh đơn giản giữa 2 phương pháp photocopy (sao đơn thuần) như sau:

So sánh giữa các phương pháp sao chép ( photo-copy)

Vấn đề

Truyền thống

Điện tử

Tính pháp lý

Đều không phải là bản chính (chỉ là bản sao tham khảo)

Tính toàn vẹn

Thấp

Cao → rất cao

Tính sẵn sàng

Thấp

Cao → rất cao

Tính bảo mật

Trung bình

Cao → rất cao

Tốc độ phục vụ

Thấp

Cao → rất cao

Thời gian tìm kiếm

Rất cao

Thấp, ngay lập tức

Giá thành lưu trữ

Rất cao

Trung bình

Khả năng dùng lại

Thấp

Rất cao

Khả năng chia sẻ

Rất thấp

Cao

Phòng chống thảm họa

Bất khả kháng (không thể khôi phục nếu đã mất)

Khả thi

Và giữa 2 phương pháp lưu trữ:

So sánh giữa các phương pháp lưu trữ

Vấn đề

Truyền thống

Điện tử

Tính pháp lý

Mặc định

Theo NĐ 01/2013/NĐ-CP

Tính toàn vẹn

Rất cao

Cao

Tính sẵn sàng

Cao

Cao → rất cao

Tính bảo mật

Cao

Cao → rất cao

Tốc độ phục vụ

Thấp

Cao → rất cao

Thời gian tìm kiếm

Rất cao

Ngay lập tức

Giá thành lưu trữ

Rất cao

Trung bình

Khả năng khôi phục

Rất thấp

Rất cao

Khả năng chia sẻ

Rất thấp

Cao

Phòng chống thảm họa

Bất khả kháng (không thể khôi phục nếu đã mất)

Rất cao

Với những so sánh đơn giản trên, chúng ta có thể nhận thấy tính ưu việt hơn hẳn của việc số hóa các văn bản từ khâu photocopy cho đến những công tác văn thư-lưu trữ. Nếu như việc lưu trữ điện tử không thay thế lưu trữ truyền thống mà chỉ là trợ thủ đắc lực, thì photocopy điện tử có thể thay thế hoàn toàn photocopy truyền thống. Việc từng bước thay thế bản sao bằng giấy bằng sao điện tử là bước đầu để chúng ta gỡ bỏ thói quen, hiện đại hóa và tăng năng suất phục vụ để đáp ứng những yêu cầu ngày càng cao của xã hội. Lưu trữ điện tử sẽ mặc nhiên được phát triển khi các nhu cầu photocopy điện tử tăng cao.

Lê Ngọc Quang

V-Scan sử dụng các thiết bị camscanner chụp tài liệu trong vòng 1 giây/trang và xử lý tức thì các hình ảnh thu được nhằm mang đến cho người dùng những tài liệu số hóa chỉnh chu và có chất lượng tốt nhất. V-Scan có thể cung cấp ngay các sản phẩm số hóa trên các máy tính cá nhân hoặc cung cấp gián tiếp cho V-Archive để xử lý và lưu trữ. V-Scan có thể được coi là “phần mềm photocopy điện tử”.

V-Scan độc lập (V-SCANST)

Phần mềm V-Scan là phần mềm cao cấp hoạt động trên máy tính cá nhân có tác dụng xử lý cao cấp các hình ảnh cung cấp bởi các thiết bị Camscanner V-Scan như:Output_Document

  • Tự động cắt hình (crop): người dùng có thể đặt tài liệu bất kỳ trong khung nền màu sẫm mà có thể chụp được trọn vẹn và V-Scan sẽ tự động cắt hình dựa trên độ tương phản giữa mặt giấy và nền mặt bàn.
  • Tự động chỉnh góc độ: V-Scan sẽ tự động chỉnh độ chéo góc (perspective) cho hình ảnh sau khi cắt nếu giấy hoặc mSecret_Documentáy camscanner V-Scan bị đặt nghiêng.
  • Tự động xoay thẳng ảnh: sau khi tự động cắt hình và chỉnh góc độ, V-Scan tự động xoay lại hình theo chiều đặt ngang/dọc của tài liệu nếu giấy bị đặt lệch (chọn góc nhỏ nhất để xoay hình về 0° hoặc 90°). Trong tương lai sẽ nghiên cứu khả năng tự động xoay đến 360° để dòng chữ luôn nằm ngang.
  • Các chế độ ảnh: V-Scan vẫn có những lựa chọn về chế độ màu như màu 24 bit, xám (grayscale) và trắng-đen (black and white). V-Scan có thể chọn được camera (nếu có nhiều) và độ phân giải của nó tùy theo nhu cầu.
  • Điều chỉnh độ sắc nét: các thiết bị camscanner V-Scan đã có chế độ tự động lấy nét và cân bằng ánh sáng nhưng vẫn chưa đủ, V-Scan còn tự động (hoặc bán tự động) làm căng độ nét ở chế độ trắng-đen, tô đậm nét chữ chỗ chưa đủ đậm (điều chỉnh threshold) và tự động loại bỏ nhiễu ánh sáng để có được hình ảnh sạch và rõ nét hơn và nhất là phục vụ tốt cho việc nhận dạng chữ (OCR).
  • Chế độ hiệu chỉnh bằng tay: người dùng vẫn có thể xem trước, hiệu chỉnh, cắt khung… bằng tay nếu cần.

V-Scan chụp sách (V-SCANBK)

V-Scan chụp sách được chia ra thành 2 trường hợp:

  1. Máy chụp sách 1 camera: chụp sách 2 trang dính hoặc rời (lẻ và chẵn), máy này thường áp dụng cho những sách mỏng, bìa mềm và gáy nông. Máy này ứng dụng thuận tiện và có thể thực hiện các thao tác khá nhanh;
  2. Máy chụp sách 2 camera: chụp sách 2 trang liền (lẻ và chẵn), máy này thường áp dụng cho những sách dày, bìa cứng và gáy sâu.

Với cả 2 trường hợp V-Scan cũng xử lý như trường hợp trên nhưng có thêm chức năng tự động tách các trang bên lẻ và bên chẵn để thực hiện các công đoạn scan liên tục và sau đó tự động sắp xếp thành sản phẩm sách điện tử.

V-Scan client-server (V-SCANCS)

Đặc tính và các chức năng sử dụng trên máy tính cá nhân cũng giống như V-Scan độc lập, tuy nhiên có thêm vài điểm khác biệt nhằm mục đích tối ưu hóa và bảo mật như sau:

  • Kết nối trực tiếp với phần mềm V-Archive hoặc gửi thông tin trực tiếp tới server đã định trước.
  • Không có file trung gian, giảm thiểu các nguy cơ mất an toàn thông tin.
  • Tạo file PDF/TIFF tự động ngay trên server để “gói” toàn bộ các file ảnh làm file trao đổi. Có thể được gắn ngay lập tức chữ ký số vào file PDF này (nếu cần).

Sản phẩm đầu ra của V-Scan

Kết quả sản phẩm đầu ra của V-Scan có những chế độ sắp xếp tài liệu một cách tự động khi người dùng chủ động thực hiện cho từng tài liệu như sau:

  • Mỗi tài liệu có thể có một hoặc nhiều “cặp” (folder);
  • Mỗi folder có thể được kèm theo một hoặc nhiều tệp (file) số hóa và được sắp xếp theo trang (có thể hàng trăm trang). Các cặp và tệp tài liệu đều được đặt tên tự động hoặc theo ý muốn của người dùng;
  • Có thể được kèm theo rất nhiều thông tin hỗ trợ cho việc tìm kiếm về sau gọi là “siêu dữ liệu” hoặc metadata;
  • Phần mềm có thể tự động ứng dụng luật đặt tên và nhận biết thứ tự chẵn lẻ khi chụp sách với 2 hình ảnh cùng một lúc và sắp xếp theo thứ tự chụp;
  • Sản phẩm đầu ra có thể được lưu trữ trên máy trạm và đồng bộ hóa với server lưu trữ theo ý muốn (trường hợp V-SCANST); hoặc được tự động chuyển ngay lên server (tích hợp với V-Archive hoặc bất kỳ giải pháp lưu trữ nào khác) để server tiếp tục xử lý (trường hợp V-SCANCS).

Sản phẩm đầu cuối của quy trình số hóa này có thể là những file hình nguyên gốc và/hoặc những file hình đã xử lý hay file tài liệu số dùng để chia sẻ và khai thác, tất cả những sản phẩm số hóa đều có thể được lựa chọn và định dạng sẵn nhằm những mục đích khai thác khác nhau.

Thực thể

Mục đích

Quy cách lưu

1

ID định danh

Yếu tố duy nhất để xác định tài liệu

(ID + ID tài liệu)

2

Metadata

Tìm kiếm nhanh

CSDL phi cấu trúc có thể tương tác XML

3

Lưu gốc (tư liệu). Có thể bỏ qua nếu muốn.

Các file số hóa (kể cả multimedia lưu trữ gốc). Những loại files này có thể sử dụng nhiều chuẩn vì được thực hiện theo yêu cầu thực tế của từng vật thể.

RAW, TIFF, JPEG, BMP, PNG…

4

Sản phẩm số hóa (tài liệu)

File lưu truyền, sử dụng và có thể đóng gói thành tậptài liệu để dễ dàng trao đổi, có khả năng gắn được metadata và chữ ký số kèm theo.

– PDF

– TIFF (multi-page)

Cài đặt và triển khai

  1. Máy trạm: Có thể sự dụng mọi loại máy tính cá nhân (PC) với hệ điều hành Windows (Trong tương lai sẽ phát triển thêm ứng dụng trên Linux và MacOS).
  2. Cài đặt: Có thể được cài đặt trên PC hoặc cài sẵn trên 1 bộ nhớ USB (chế độ stand-alone) để tiện sử dụng lưu động.
  3. Triển khai: Có thể hoạt động trong môi trường độc lập không cần mạng sau đó đồng bộ hóa khi có mạng một cách tự động hoặc bằng tay với mọi chế độ bảo mật cần thiết như trọng mạng nội bộ hoặc mạng riêng ảo. Nó cũng có thể hoạt động trực tuyến khi được tích hợp với sản phẩm V-Archive trong trường hợp của sản phẩm V-Scan client/server.
  4. Hỗ trợ: Mọi sự hỗ trợ hoặc sửa chữa trên máy trạm có thể sử dụng “Team Viewer” để kết nối với 1 máy trạm trong mạng của đơn vị để truy cập, như vậy chủ nhân có thể nhìn thấy và kiểm soát mọi hành động của người hỗ trợ từ xa.

hieu-qua1. Tiết kiệm chi phí cho công tác lưu trữ truyền thống

  • Việc lưu trữ bản cứng vẫn bắt buộc theo luật và theo quy định nội bộ. Nhưng nếu những kho lưu trữ giấy ít khi phải dùng đến thì có thể lưu trữ nén vào được và như vậy sẽ tiết liệm được ít nhất 30% chi phí kho lưu trữ hiện nay, do việc giảm thiểu sự khai thác các bản cứng.
  • Nhiều phân loại giấy tờ có thể được phép hủy sau 1-2 năm thì vẫn có thể giữ bản số hóa và hủy bản cứng để tiết kiệm chi phí lưu kho.
  • Theo kinh nghiệm nhiều nước phát triển như Singapore họ ứng dụng chữ ký số cho các bản lưu trữ điện tử (có tính pháp lý tương đương với bản cứng) thì có thể hủy được ngay một số loại bản giấy mà không cần lưu trữ nữa. Việc này chúng ta cần xây dựng cơ chế cho nó theo tinh thần của Nghị định số 01/2013/NĐ-CP.

2. Tiết kiệm công lao động

Có thể tính toán cho sự tiết kiệm đến 50% công sức lao động trong công tác số hóa, chỉnh sửa sau scan nhờ các quy trình tự động của V-Scan.

  • Cộng thêm vào đó có thể tiết kiệm thêm chừng 20-30% công sức lao động do tăng năng suất làm việc khi sử dụng các công cụ lưu trữ, tìm kiếm và khai thác điện tử.

3. Hiệu quả khai thác

  • Tốc độ tìm kiếm và khai thác rất cao. Thời gian tìm kiếm chỉ trung bình chỉ tính bằng giây kể cả phải tìm nhiều lần mới ra một kết quả mong muốn.
  • Mọi người ở mọi nghiệp vụ đều có thể đóng vai trò lưu trữ viên, thư viện viên… nên tăng năng suất lao động của mỗi người.
  • Mọi công tác trao đổi thông tin, khiếu kiện, chuẩn bị cho khiếu kiện, các hồ sơ pháp lý… đều có thể thông qua các tài liệu lưu trữ điện tử sẵn có mà không phải mất thời gian tìm kiếm, sao chụp từ kho lưu trữ giấy.
  • Các nghiệp vụ chuyên ngành có thể được kết nối trực tiếp 2 chiều với hệ thống lưu trữ (mặc dù là 2 hệ thống độc lập) như sau:
  • Giao dịch viên khi sử dụng ứng dụng chuyên ngành (ERP, ngân hàng, bảo hiểm…), chỉ cần bấm thêm 1 nút (tích hợp với hệ thống chuyên ngành bằng lệnh webservice) để số hóa ngay sau khi kết thúc giao dịch và đã tạo sự liên kết với giao dịch chuyên ngành đã qua.
  • Khi cần tham khảo lại hoặc gửi cho các bộ phận khác kể cả cho khách hàng thì chỉ cần bấm 1 nút là tài liệu lưu trữ sẽ được gọi ra sẵn sàng cho việc khai thác.

4. Hiệu quả quản lý

  • Lưu trữ điện tử giúp cho việc tăng tính minh bạch của thông tin, mọi công tác quản lý đều có thể tiếp xúc trực tiếp với những tài liệu lưu trữ điện tử ngay mà không phải chờ đợi từ kho lưu trữ giấy nữa.
  • Mọi công tác quản lý nội bộ và quản lý khách hàng đều có thể được liên kết với lưu trữ ngay lập tức, nhanh gọn và hiệu quả cao.

5. Hiệu quả an ninh thông tin

  • Tính sẵn sàng: Luôn sẵn sàng phục vụ có cho nhu cầu truy cập và sử dụng bởi người được phép.
  • Tính toàn vẹn: Đảm bảo tính đầy đủ và hoàn thiện của mọi thông tin lưu trữ. Các dữ liệu được đảm bảo an toàn ngay trong trường hợp xảy ra thảm họa như cháy nổ trong khi đối với kho lưu trữ giấy sẽ bị mất đi vĩnh viễn.
  • Tính bảo mật: Kiểm soát quyền truy cập chặt chẽ và quản lý tốt mức độ bảo mật ngay khi scan-chụp tài liệu.