FreeOCR-netNhận dạng ký tự quang học (tiếng AnhOptical Character Recognition, viết tắt là OCR), là loại phần mềm máy tính được tạo ra để chuyển các hình ảnh của chữ viết tay hoặc chữ đánh máy (thường được quét bằng máy scanner) thành các văn bản tài liệu. OCR được hình thành từ một lĩnh vực nghiên cứu vềnhận dạng mẫutrí tuệ nhận tạo và machine vision. Mặc dù công việc nghiên cứu học thuật vẫn tiếp tục, một phần công việc của OCR đã chuyển sang ứng dụng trong thực tế với các kỹ thuật đã được chứng minh.

Nhận dạng ký tự quang học (dùng các kỹ thuật quang học chẳng hạn như gương và ống kính) và nhận dạng ký tự số (sử dụng máy quét và các thuật toán máy tính) lúc đầu được xem xét như hai lĩnh vực khác nhau. Bởi vì chỉ có rất ít các ứng dụng tồn tại với các kỹ thuật quang học thực sự, bởi vậy thuật ngữNhận dạng ký tự quang học được mở rộng và bao gồm luôn ý nghĩa nhận dạng ký tự số.

Đầu tiên hệ thống nhận dạng yêu cầu phải được huấn luyện với các mẫu của các ký tự cụ thể. Các hệ thống “thông minh” với độ chính xác nhận dạng cao đối với hầu hết các phông chữ hiện nay đã trở nên phổ biến. Một số hệ thống còn có khả năng tái tạo lại các định dạng của tài liệu gần giống với bản gốc bao gồm: hình ảnh, các cột, bảng biểu, các thành phần không phải là văn bản

Hiện nay, với chữ Việt, phần mềm nhận dạng chữ Việt in VnDOCR 4.0 có khả năng nhận dạng trực tiếp các loại tài liệu được quét qua máy quét, không cần lưu trữ dưới dạng tệp ảnh trung gian. Các trang tài liệu có thể được quét và lưu trữ dưới dạng tệp tin nhiều trang. Kết quả nhận dạng được lưu trữ sang định dạng của Microsoft Word, Excel… phục vụ rất tốt nhu cầu số hóa dữ liệu.

Ngoài ra, còn có một dự án OCR Tiếng Việt có tên VietOCR, được phát triển dựa trên nền tảng mã nguồn mở tesseract-ocr do Google tài trợ. VietOCR có khả năng nhận dạng chữ Việt rất tốt. Đây là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng cho các dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP.

ABBYY – một hãng công nghệ hàng đầu trên thế giới về lĩnh vực Nhận dạng ký tự quang học đã tiến hành nghiên cứu và triển khai công nghệ nhận dạng Tiếng Việt vào tháng 4 năm 2009. Với công nghệ này độ chính xác trong việc nhận dạng tài liệu chữ in Tiếng Việt lên tới hơn 99% (cứ nhận dạng 100 ký tự thì có chưa đến 1 ký tự sai). Công nghệ của ABBYY chấp nhận hầu hết các định dạng ảnh đầu vào như: PDF, TIFF, JPEG, GIF, PNG, BMP, PCX, DCX, DjVu… Kết quả nhận dạng được lưu trữ dưới các định dạng MS Word, MS Excel, HTML, TXT, XML, PDF, PDF 2 lớp, trong đó định dạng PDF 2 lớp là một định dạng hoàn hảo cho việc lưu trữ và khai thác tài liệu. Với định dạng này, người đọc có thể đọc trung thực ảnh gốc nhờ lớp ảnh bên trên, các công cụ tìm kiếm có thể tìm kiểm toàn văn trên văn bản nhờ lớp text nhận dạng được bên dưới.

Trạng thái hiện thời của công nghệ OCR

Sự nhận dạng chính xác ký tự Latin đánh máy được xem là vấn đề đã được giải quyết. Tỷ lệ chính xác thực tế đạt tới 99%, mặc dù một số ứng dụng đòi hỏi tỷ lệ chính xác cao hơn nữa cần phải con người kiểm tra lại lỗi.

Việc nhận dạng chữ in bằng tay, chữ thảo bằng tay, và thậm chí những phiên bản đánh máy được in ra của vài chữ (đặc biệt là những chữ có số chữ cái lớn), vẫn còn là một đề tài của các nghiên cứu.

Các hệ thống nhận dạng ký tự viết tay đã đạt được những thành công lớn về mặt thương mại trong những năm gần đây. Trong số đó là thiết bị nhập cho những thiết bị hỗ trợ cá nhân (PDA) như những phần mềm chạy trên Palm OS. hãng Apple Newton đi tiên phong trong công nghệ này. Những giải thuật sử dụng trong những thiết bị này sử dụng những ưu điểm rằng thứ tự, tốc độ, và hướng của những đoạn dòng đơn lẻ đã được biết trước. Tương tự, người dùng có thể được yêu cầu sử dụng chỉ một vài loại kiểu chữ nhất định. Những phương pháp này không thể dùng được trong phần mềm scan tài liệu giấy, do đó sự nhận dạng chính xác văn bản in bằng tay vẫn là một vấn đề lớn đang được bỏ ngỏ. Với mức chính xác từ 80% đến 90%, những ký tự in bằng tay sạch sẽ có thể được nhận ra, nhưng độ chính xác đó vẫn tạo ra hàng tá lỗi mỗi trang, khiến cho công nghệ đó chỉ hiệu quả trong vài trường hợp nào đó. Sự đa dạng của OCR hiện nay được biết đến trong công nghiệp là ICR, (Intelligent Character Recognition – Nhận dạng Ký tự Thông minh).

Nhận dạng chữ viết tay là một lĩnh vực nghiên cứu sôi nổi, với tỷ lệ nhận dạng thậm chí còn thấp hơn cả văn bản in bằng tay. Tỷ lệ nhận dạng cao hơn của những bản viết tay chung chung hầu như là không thể nếu không sử dụng thông tin về ngữ pháp và văn cảnh. Ví dụ như, nhận dạng cả một chữ từ một cuốn từ điển thì dễ hơn là việc cố gắng lấy ra những ký tự rời rạc từ đoạn đó. Đọc dòng Tổng cộng của một tờ séc (luôn luôn được viết bằng số) là một ví dụ trong đó sử dụng những từ điển nhỏ hơn có thể tăng tỷ lệ nhận dạng rất nhiều. Kiến thức về ngữ pháp của một ngôn ngữ được scan cũng có thể giúp xác định một từ có thể là động từ hay danh từ, ví dụ như vậy, sẽ cho phép độ chính xác cao hơn. Hình dạng của chữ viết tay bản thân nó đã không chứa đủ thông tin về để nhận dạng chính xác (hơn 98%) tất cả những đoạn chữ viết tay.

Một vấn đề khó khăn của máy tính và con người đó là những bản lưu của những lễ thánh và đám cưới của những nhà thờ cũ chỉ toàn chứa tên. Những trang đó có thể bị hư hại do thời gian, nước hay lửa và những tên trên đó có thể đã lỗi thời hoặc chứa những chính tả hiếm gặp. Lĩnh vực nghiên cứu khác là tiếp cận hợp tác, ở đó máy tính hỗ trợ con người và ngược lại. Kỹ thuật xử lý hình ảnh của máy tính có thể hỗ trợ con người trong việc đọc những văn bản cực kỳ khó đọc như Bản viết trên da cừu của Archimede hay những Cuộn giấy da lấy từ vùng Biển Chết.

Tóm lại, đối với những vấn đề nhận dạng phức tạp hơn mạng nơ-ron được sử dụng rộng rãi bởi chúng có thể làm làm đơn giản hóa cả biến đổi affine lẫn biến đổi phi tuyến.[1]

Nguồn Wikipedia

Chủ để này đề cập đến vấn đề bản quyền đối với tài liệu được số hoá dùng trong thư viện số, tại đây chúng tôi trích dẫn một số điều trong Luật Sở hữu trí tuệ Việt Nam liên quan đến bản quyền đối với tài liệu và cũng so sánh với một số hệ thống luật bản quyền của thế giới để làm rõ vấn đề bản quyền đối với tài liệu xuất xứ từ nước ngoài.

Về vấn đề bản quyền, tài liệu được chia làm hai loại:

  • Tài liệu nằm ngoài bản quyền (Out-of-copyright)

+ Tài liệu xuất bản bởi chính phủ: vd.,văn bản pháp quy, số liệu thống kê, tài liệu thuộc lĩnh vực tư pháp

– Luật sở hữu trí tuệ Việt Nam; Chương I, Mục 1, Điều 15 “Các đối tượng không thuộc phạm vi bảo hộ quyền tác giả: 1. Tin tức thời sự thuần tuý đưa tin. 2. Văn bản quy phạm pháp luật, văn bản hành chính, văn bản khác thuộc lĩnh vực tư pháp và bản dịch chính thức của văn bản đó. 3. Quy trình, hệ thống, phương pháp hoạt động, khái niệm, nguyên lý, số liệu”

– Tham khảo Luật bản quyền Hoa Kỳ 2003 (US Copyright 2003) – DMCA 1998: §105 “Copyright protection under this title is not available for any work of the United State Government, …”

+ Tài liệu đã thuộc về công chúng (Public domain): tài liệu có bản quyền nhưng đã hết thời gian bảo hộ.

– Luật sở hữu trí tuệ Việt Nam 2005: Điều 27, khoản (a), (b) “…Tác phẩm không thuộc loại hình quy định tại điểm a khoản này có thời hạn bảo hộ là suốt cuộc đời tác giả và năm mươi năm tiếp theo năm tác giả chết; trong trường hợp tác phẩm có đồng tác giả thì thời hạn bảo hộ chấm dứt vào năm thứ năm mươi sau năm đồng tác giả cuối cùng chết”

– Tham khảo Luật bản quyền Hoa Kỳ 2003: §302, Khoản (a) “In general – Copyright in a work created on or after January 1, 1978 subsists from its creation and, except as provided by the following subsections, endures for a term consisting of the life of author and 70 years after the author’s death”

(Những tác phẩm xuất bản trước năm 1923 thường sẽ thuộc về công chúng)

  • Tài liệu được bảo vệ theo luật bản quyền

+ Luật sở hữu trí tuệ Việt Nam 2005: Điều 25: Các trường hợp sử dụng tác phẩm đã công bố không phải xin phép, không phải trả tiền nhuận bút, thù lao , khoản (a) Tự sao chép một bản nhằm mục đích nghiên cứu khoa học, giảng dạy của cá nhân, (d) “Sao chép tác phẩm để lưu trữ trong thư viện với mục đích nghiên cứu”

+ Tham khảo Luật bản quyền Hoa Kỳ 2003 (DMCA 1998): §107 … the fair use of a copyrighted work, including such use by reproduction in copies or phonorecords or by any other means specified by that section, for purposes such as criticism, comments, news reporting, teaching (including multi copies for classroom use), scholarship, or research, is not an infringement of copyright”

+ Tham khảo Luật bản quyền Hoa Kỳ 2003 (DMCA 1998):§108 Khoản (a) it is not an infringement of copyright for a library or archives,or any of its employees acting within the scope of their employment, to reproduce no more than one copy or phonorecord of a work, except as provided in subsections (b) and (c), or to distribute such copy or phonorecord, under the conditions specified by this section, if

(1) the reproduction or distribution is made without any purpose of direct or indirect commercial advantage;

(2) the collections of the library or archives are (i) open to the public, or (ii) available not only to researchers affiliated with the library or archives or with the institution of which it is a part, but also to other persons doing research in a specialized field; and

(3) the reproduction or distribution of the work includes a notice of copyright that appears on the copy or phonorecord that is reproduced under the provisions of this section, or includes a legend stating that the work may be protected by copyright if no such notice can be found on the copy or phonorecord that is reproduced under the provisions of this section.

+ Tham khảo Luật bản quyền Hoa Kỳ 2003 (DMCA 1998):§108 Khoản (c) “The rights of reproduction and distribution under this section apply to three copies or phonorecords of an unpublished work duplicated solely for purposes of preservation and security or for deposit for research use in another library or archives of the type described by clause (2) of subsection (a), if

(1) the copy or phonorecord reproduced is currently in the collections of the library or archives; and

(2) any such copy or phonorecord that is reproduced in digital format is not otherwise distributed in that format and is not made available to the public in that format outside the premises of the library or archives.

+ Tham khảo Luật bản quyền Hoa Kỳ 2003 (DMCA 1998):§108 Khoản (c) The right of reproduction under this section applies to three copies or phonorecords of a published work duplicated solely for the purpose of replacement of a copy or phonorecord that is damaged, deteriorating, lost, or stolen, or if the existing format in which the work is stored has become obsolete, if

(1) the library or archives has, after a reasonable effort, determined that an unused replacement cannot be obtained at a fair price; and

(2) any such copy or phonorecord that is reproduced in digital format is not made available to the public in that format outside the premises of the library or archives in lawful possession of such copy.

Kết luận:

+ Luật sở hữu trí tuệ VN 2005 và US DMCA 1998 và US copyright 2003 được tạo ra phù hợp với TRIP Agreement-WTO, WIPO Copyright Treaty, Bern Convention 1979. Về cơ bản thì Luật sở hữu trí tuệ Việt Nam phù hợp với các hệ thống luật bản quyền trên thế giới tuy nhiên luật của thế giới chi tiết hơn nên các thư viện Việt Nam phải lưu ý tuân thủ các điểm chi tiết này trong trường hợp sử dụng các tài liệu có xuất xứ từ nước ngoài.

+ Việc số hoá tài liệu cho thư viện số là không vi phạm bản quyền nếu:

– Tài liệu nằm ngoài bản quyền

– Tài liệu được bảo hộ bản quyền nhưng số hoá để sử dụng với mục đích phi thương mại trong phạm vi hạn chế của thư viện, trường học, viện nghiên cứu.

Bản thân việc số hoá tài liệu không vi phạm bản quyền, việc vi phạm hay không phụ thuộc vào mục đích sử dụng (chẳng hạn dùng với mục đích thương mại làm ảnh hưởng đến lợi ích kinh tế của người nắm giữ bản quyền là vi phạm) và phạm vi sử dụng (ví dụ nếu phổ biến rộng rãi ra công chúng, ngoài phạm vi thư viện là vi phạm).

Tham khảo thêm toàn văn Luật Sở hữu trí tuệ Việt Nam trên trang web của Cục bản quyền tác giả.

(Theo http://www.ted.com.vn/)

doc_scanHiện nay nhu cầu số hóa và lập kho dữ liệu lưu trữ điện tử ngày càng cao mà khả năng đáp ứng của các tổ chức và doanh nghiệp thì có hạn. Nhiều doanh nghiệp tính toán sát sao đến hiệu quả nên hình thức gia công thuê ngoài là phù hợp nhất và ít rủi ro nhất. Ngay cả các cơ quan Nhà nước cũng đã có chủ trương đưa nhiều dịch vụ ra thuê ngoài.

Việc gia công thuê ngoài quá trình số hóa có nhiều lợi ích như không phải đầu tư ban đầu một lượng tiền lớn mà vẫn nhận được dịch vụ chuyên nghiệp, chất lượng dịch vụ phải đảm bảo theo yêu cầu thì mới trả tiền, thanh toán sau khi nhận dịch vụ, hoạch định được các chi phí, v.v… Tuy nhiên công việc số hóa cũng có nhiều đặc thù riêng như được phép tiếp xúc với những văn bản giấy tờ với nhiều mức độ bảo mật khác nhau nên vấn đề an ninh thông tin được cho là nhạy cảm, sau đó là việc đảm bảo tính nguyên vẹn của các tài liệu được số hóa…

Quy trình số hóa V-ScanV-Archive có thể khắc phục được các hạn chế trong những vấn đề nhạy cảm trên, khách hàng có thể yên tâm hơn về dịch vụ gia công số hóa chuyên nghiệp.

main-TEL-spaceTrong trường hợp này, server V-Archive được đặt tại trụ sở của khách hàng, các máy trạm V-Scan được nối mạng trực tiếp đến server và đặt trong phòng riêng phục vụ cho việc scan chụp. Mọi công việc có thể được theo dõi và kiểm soát nghiêm ngặt. Mỗi tài liệu sau khi được scan sẽ tự động chuyển tải về server để quản lý và trên máy trạm không hề lưu bất cứ một file hình ảnh nào. Mọi việc xử lý đóng gói, index, lưu trữ… đều được thực hiện trên server V-Archive và được bảo mật nghiêm ngặt. Khách hàng có thể kiểm soát chất lượng và nghiệm thu ngay trên server V-Archive. Sau đó là quá trình đồng bộ hóa (synchronization) dữ liệu sẽ được triển khai tùy thuộc vào hạ tầng và hệ thống của khách hàng. Ngoài ra việc kiểm soát ra/vào của công nhân thực hiện là một biện pháp tăng cường và cần thiết. Như vậy tất cả các quá trình thực hiện dịch vụ trên đều được khép kín, hay người ta còn gọi là nằm trong “sandbox”.

VIAMI sẵn sàng cung cấp mọi dịch vụ số hóa và lưu trữ điện tử cho các tổ chức và doanh nghiệp trong nước. Hơn nữa, VIAMI cũng có thể cung cấp giải pháp này cho các nhà dịch vụ chuyên nghiệp khác.

Xin tham khảo thêm tại đây.

Giải pháp an ninh thông tinCommunications connectivity

  1. An ninh vòng ngoài

  • VPN: toàn bộ hệ thống được bao bọc bằng VPN cao cấp.

  • Portal: SSL, cấp CA cho các đối tượng và giới hạn người dùng.

  • Tầng ứng dụng Portal phải được phải kiểm soát sự tiếp xúc với dữ liệu một cách chặt chẽ và có cơ chế ngăn chặn (block) nếu có khả nghi.

  • Thiết lập các hệ thống IDS, IPS đặc dụng cho mọi đầu vào của hệ thống.

  1. An ninh vòng trung

  • Cổng kiểm soát chặt chẽ giữa các tầng ứng dụng, CSDL và dữ liệu (đã được phân tách).

  • Thiết lập cơ chế kiểm soát chặt chẽ người quản trị (admin) ở mọi tầng.

  • Mọi mắt xích (thiết bị và người) đều có thể được thay thế mà không bị thất thoát, mất và hỏng dữ liệu.

  1. An ninh vòng trong

  • Phân cấp, phân quyền và kiểm soát người sử dụng.

  • Các hệ thống phân mức độ bảo mật tự động để đưa cho người sử dụng đúng thẩm quyền trong thời gian nhanh nhất.

Giải pháp bảo mật bằng mã hóa (encript) dữ liệu

  • Đảm bảo tính tuyệt mật của dữ liệu được lưu trữ trên hệ thống, phòng trừ cả trường hợp bị mất cắp dữ liệu.

  • Tự động mã hóa tất cả các file dữ liệu hoặc chỉ dữ liệu nào được đánh dấu MẬT (tiêu chí tự chọn).

  • Nhiều công cụ tiên tiến để mã hóa và giải mã tiên tiến trên thế giới.

  • Cách đặt tên file bằng ký tự bất kỳ cũng giúp phần nào cho việc bảo mật dữ liệu.

Phòng ngừa và đối phó với thảm họa

  • Cần xây dựng chính sách (quy chế có tính pháp lý) phù hợp cho khả năng “kho vật lý” chịu thảm họa bất khả kháng thì “kho số” có thể thay thế được và có giá trị tương đương (nếu không có kho số thì có thể được coi là mất toàn bộ).

  • Đám mây thường được phát triển theo cả chiều ngang (nối tiếp) lẫn chiều sâu (song song). Những mắt (node) của đám mây có thể bị hỏng hoặc được tháo gỡ khỏi hệ thống mà không ảnh hưởng đến sự hoạt động của cả đám mây. Không thể lấy được dữ liệu từ những node khi rời bỏ hệ thống vì nó chỉ có những mảng không có logic nên rất an toàn khi phải xử lý sự cố máy móc.

  • Có thể tổ chức những điểm datacenter backup ở những nơi độc lập, an toàn hoặc ở nước khác để phòng ngừa những thảm họa có thể xảy ra kể cả chiến tranh.

Phòng ngừa tấn công mạng

  • Giải pháp phòng ngừa và xử lý các loại tấn công từ chối dịch vụ như DDOS;

  • Giải pháp phòng ngừa và xử lý các loại tấn công mạng từ bên ngoài và bên trong để kiểm soát, đáng sập và đánh cắp thông tin, dữ liệu.

Hệ thống hạ tầng cho ứng dụng

1. Tầng ứng dụng (phần mềm)ung dung

  • Phải có bộ lõi (lớp core) để làm nền phát triển để đảm bảo tính tập trung và lan tỏa;

  • Tầng ứng dụng phải được tách biệt hoàn toàn với dữ liệu và CSDL để đảm bảo an toàn dữ liệu là tài sản cốt lõi của cơ quan lưu trữ.

2. Tầng cơ sở dữ liệu

  • CSDL có thể quản lý và tìm kiếm được hàng chục tỷ bản ghi, tiến tới là hàng trăm tỷ.

  • databaseCSDL phải đạt tiêu chí lớn vô tận và tìm kiếm nhanh V-Archive sử dụng CSDL “NoSQL” để tìm nhanh đồng thời mọi tiêu chí như Google;

  • Tầng CSDL dễ dàng backup và có thể khôi phục dễ dàng hơn so với tầng dữ liệu, nếu có sự cố hoặc thảm họa xảy ra.

  • Để có thể khai thác nhanh chóng tại các địa phương, tỉnh thành một cách bình thường cần tổ chức CSDL phân tán.

3. Tầng dữ liệu phân tán

  • Là tầng có sức chứa lớn nhất và cần được phát triển theo hướng “nở dần” để đạt đến mức sức chứa vô tận (hàng ngàn, chục ngàn TB) nhất là với tình trạng hiện nay, khi tốc độ nở ra của kho dữ liệu sẽ lên theo cấp số nhân.

  • distribute dataTổ chức, doanh nghiệp có thể đầu tư để phát triển hạ tầng này theo tiến độ từng năm bằng phương pháp rẻ tiền để có thể phục vụ cho nhu cầu lưu trữ lớn.

  • Dữ liệu được lưu một cách thân tán phân tán (distributed data) và những dữ liệu tầng dưới (chi nhánh) nằm gần ở nơi người dùng thường xuyên nhiều nhất để có được tốc độ khai thác nhanh nhất và chiều ngược lại thì cấp cao lại ít truy cập dữ liệu ở tầng này. Chúng ta có thể hiểu như là 1 “hình tháp dữ liệu” và người dùng cấp nào thì ở gần dữ liệu cấp đó nhất.large data

  • Những dự liệu tầng dưới sẽ được tự động di cư (theo nhu cầu sử dụng) lên các tầng trên (ví dụ như cụm tỉnh/thành hoặc trung tâm) hoặc xuống dưới theo 1 số tiêu chí định sẵn để lưu trữ cấp cao và cứ như thế lên cao hơn nữa.

4. Đám mây riêng

  • Điện toán đám mây hiện nay có thể cho phép cấu hình những đám mây riêng (đám mây lưu trữ) có hiệu quả cao và có thể chia sẻ đám mây.

  • private cloud

    Đám mây có thể được phát triển từng bước, nở dần trên chiều ngang theo nhu cầu và dung lượng có thể đạt tới hàng ngàn TB một cách bình thường với chi phí không cao và có thể đầu tư theo tiến độ.