V-Archive là giải pháp phần mềm quản lý lưu trữ số lượng lớn cho đến rất lớn các tài liệu số hóa với mục đích tìm kiếm và khai thác nhanh chóng, đồng thời có khả năng tích hợp với các ứng dụng doanh nghiệp khác như ERP, văn phòng, quản trị nội dung… V-Archive sử dụng những chỉ mục (metadata) tự do định nghĩa bởi người dùng và có thể tìm kiếm theo từ khóa, ngữ cảnh, nội dung… một cách nhanh chóng.

1. Quy trình văn thư-lưu trữ

  1. Văn bản đến: Văn bản đến được trình lãnh đạo hoặc sơ lọc để quyết định lưu hành. Trước khi được lưu hành ở tổ chức thì mọi văn bản phải được số hóa và lưu trữ theo quy trình trên. Sau đó có thể phân công và lưu hành, chia sẻ… theo những quy trình được quy định trong nội bộ.
  2. Lưu chuyển nội bộ: Mọi văn bản và cả những file lưu hành trong nội bộ nhằm mục đích biên tập tại các phòng ban đều có thể thiết lập theo một quy trình đáp ứng với mọi quy trình lưu chuyển văn bản nội bộ.
  3. Văn bản đi: Mọi văn bản trước khi gửi đi (bằng thư tín, e-mail, fax…), dưới dạng nguyên bản đã được bút phê, ký và đóng dấu đều phải được số hóa và lưu trữ nhằm mục đích tìm kiếm và khai thác khi cần. Nếu gửi đi bằng fax hoặc e-mail thì có thể gửi ngay sau khi số hóa văn bản.
  4. Quy trình lưu trữ: Mỗi đơn vị có thể có một server độc lập (hoặc nằm trong hệ thống thống nhất) bao gồm không gian lưu trữ những dữ liệu số hóa cho mọi tài liệu vào và ra. Siêu dữ liệu được lưu trong một CSDL phi cấu trúc nhằm đáp ứng các nhu cầu của nghiệp vụ văn thư và nâng cao khả năng tìm kiếm đồng thời có thể mở rộng số lượng tài liệu lên vô tận. Tất cả các file số hóa được lưu trong những thư mục định sẵn bao gồm các file ảnh scan-chụp gốc và thư mục các sản phẩm số hóa (những file PDF/TIFF có thể khai thác).quy trinh van phong

2. Quy trình quản lý và khai thác

  1. Phân quyền: Mỗi người dùng được phân quyền chi tiết và cụ thể theo từng nhóm.
  2. Tra cứu: Sau khi tìm được đúng hoặc gần đúng tài liệu mong muốn, người dùng có thể mở ra xem trước để xác định lại hoặc khai thác nếu đúng.
  3. Quản lý các giá trị của sản phẩm: 1 sản phẩm số hóa có thể có rất nhiều giá trị cần phải quản lý nhằm mục đích khai thác.
  4. Khai thác: Người dùng sẽ có quyền khai thác, chia sẻ… nếu được quyền.
  5. Khai thác có chọn lọc: Một số người dùng có thể có quyền chọn lọc nội dung (chọn một số trang, loại bỏ một số trang…) để tạo thành file PDF ngay tại chỗ nhằm mục đích chia sẻ/khai thác.gia tri tai lieu

3. Thuật toán tìm kiếm

Người dùng có thể tìm kiếm theo từ khóa mà không cần phải chọn bất cứ trường siêu dữ liệu nào (giống như trên Google) hoặc tìm chọn theo tiêu chí trường mong muốn (ví dụ tác phẩm, tác giả, xuất bản, nội dung tóm tắt…). Tốc độ tìm kiếm rất cao kể cả đối với khối lượng dữ liệu rất lớn.

Công cụ tìm kiếm được chia thành 2 hoạt động chính bao gồm:

  1. Chỉ mục (index):

  • Dữ liệu đầu vào (thu thập được từ cơ sở dữ liệu, trang web, tập tin…);
  • Dữ liệu phi cấu trúc: không có phân định cấu trúc trường như tại các cơ sở dữ liệu SQL truyền thống;
  • Nội dung văn bản được tự động chuyển đổi thành những những đoạn văn “có thể tìm kiếm được” bằng phương pháp như sau: không phải mọi dữ liệu đều được kết thúc trong văn bản, chỉ những dữ liệu dùng để tìm kiếm được đưa vào cơ sở dữ liệu, tài liệu được đưa vào thành những trường linh động;
  • Xử lý việc sắp xếp từ ngữ tự động theo cấu trúc câu, ngữ pháp, cú pháp, từ đồng nghĩa với sự hỗ trợ của từ điển và từ vựng đặc trưng.
  • Văn bản được lưu lại với một cấu trúc và chỉ mục mới, index theo những từ riêng biệt. Mỗi index đều được lưu lại 1 số thông tin hỗ trợ như: tần suất từ, vị trí chữ, sự bù trừ…
  1. Tìm kiếm (search):

  • Xây dựng cách lọc và tìm kiếm: dựa trên những chuỗi hoặc dựa trên những luật định sẵn tại API (phần mềm lắp ghép);
  • Phân tích tìm kiếm: ứng dụng tương tự như index và cũng để cải tiến index;
  • Đọc và tìm lại thông tin chỉ số liên quan đến các từ phù hợp (tài liệu không phải nạp và thay đổi);
  • Các thông tin lấy ra sẽ được lọc và sắp xếp để xây dựng danh mục và tính toán giá trị cho từng tài liệu theo điểm số. Điểm số càng cao thì tài liệu càng được sắp xếp lên trên.
  • Kỹ thuật điểm: Vector mô hình không gian, TF-IDF (tần số hạn định – nghịch đảo tần số tài liệu)

4. Áp dụng chữ ký số

  • Chữ ký số đang được chấp nhận mặc định là chứng thực điện tử có giá trị tương đương như bản gốc và có giá trị pháp lý như bản gốc;
  • Chữ ký số vừa có giá trị pháp lý (chưa thấy có quy định về giá trị pháp lý trong lưu trữ tương đương với công chứng) vừa có giá trị kinh tế trong việc khai thác;
  • Cần khuyến cáo sử dụng các loại phần mềm soạn thảo có sẵn chức năng áp dụng chữ ký số;
  • Chữ ký số cho các file multimedia là một vấn đề khá khó khăn trong thời điểm hiện tại nhưng có thể giải quyết được.

5. Cấu trúc của phần mềm

5.1. Cốt lõi và động cơ

Giải pháp V-Archive là giải pháp phần mềm mã nguồn mở và dựa trên nền tảng của nhiều loại phần mềm nguồn mở khác nhau. Động cơ của giải pháp V-Archive bao gồm những phần sau đây:

  • Cơ sở dữ liệu phi cấu trúc
  • Phần mềm xử lý và chụp ảnh trực tuyến
  • Phần mềm index cơ sở dữ liệu
  • Phần mềm xử lý việc tìm kiếm cơ sở dữ liệu
  • Phần mềm đọc và chuyển tải dữ liệu
  • Phần mềm quản lý người dùng

5.2. Giao diện của phần mềm

Hoàn toàn trên trình duyệt internet: khuyến cáo dùng Chromium hoặc Firefox.

5.3. Cài đặt và triển khai

  1. Công nghệ: Hệ thống sử dụng công nghệ lưu trữ, dữ liệu phân tán tiên tiến nhằm mục đích khai thác tối đa những lợi thế của điện toán đám mây khi cần, nhưng vẫn có thể khai thác riêng biệt mọi lúc mọi nơi.
  2. Đòi hỏi phần cứng: Mọi server (hoặc kể cả PC) đều có thể đáp ứng được công việc, tùy theo quy mô và đòi hỏi của khách hàng.
  3. Dung lượng: Trung bình 500KB cho 1 trang A4 (với tiêu chuẩn màu và chất lượng cao), như vậy với dung lượng 1 TB lưu trữ được 2 triệu trang A4. Dựa vào đó có thể tính được nhu cầu lưu trữ tối thiểu của tổ chức, doanh nghiệp theo từng năm để đáp ứng về dung lượng.
  4. Cài đặt: Chỉ cần cài đặt trên máy chủ. Bất cứ máy trạm nào với thiết bị scan-chụp cũng có thể tham gia công việc nếu được phân công và được phép, mà không cần phải cài bất cứ phần mềm nào.
  5. Triển khai: Chỉ cần triển khai một lần trên máy chủ và có thể ứng dụng được ngay trên bất cứ mạng nội bộ hoặc mạng riêng ảo nào.
  6. Hỗ trợ: Mọi sự hỗ trợ hoặc sửa chữa trên máy trạm có thể sử dụng “Team Viewer” để kết nối với 1 máy trạm trong mạng của đơn vị để truy cập, như vậy chủ nhân có thể nhìn thấy và kiểm soát mọi hành động của người hỗ trợ từ xa.

5.4. Khả năng triển khai

  • Rời rạc: triển khai tại các đơn vị một cách rời rạc, độc lập theo nhu cầu trước mắt. Sau này nếu có nhu cầu hợp nhất sẽ có phương án kỹ thuật phù hợp để đồng bộ hóa dữ liệu như mô hình trên. Mô hình này có thể triển khai tại các đơn vị nhỏ mà không cần đến bất cứ sự tích hợp nào về sau.
  • Đồng bộ: triển khai theo mô hình mạng lưới phân tán và đồng bộ hóa cho các điểm hoạt động khác nhau thành một khối thống nhất. Đây là mô hình của “đám mây riêng” cho từng doanh nghiệp/tổ chức có nhiều chi nhánh hoặc điểm hoạt động.

5.5. Khả năng tích hợp

  • Làm kho dữ liệu cho các ứng dụng khác: V-Archive có thể cung cấp những giao thức cần thiết như API, webservice… để các ứng dụng khác (website, cổng thông tin, ERP, CRM…) khai thác an toàn và tiện lợi.
  • Tiếp nhận kho dữ liệu: V-Archive có khả năng tiếp nhận các kho dữ liệu sẵn có (kể cả chưa có siêu dữ liệu) và có thể được tăng cường một số chức năng nhằm cập nhật lại hoặc thêm siêu dữ liệu, một cách tự động hoặc bán tự động, giúp cho việc khai thác về sau.
  • Trao đổi 2 chiều: Có thể cung cấp hoặc tiếp nhận các API, webservce… với các ứng dụng khác nhằm trao đổi thông tin và dữ liệu giữa V-Archive và các giải pháp của doanh nghiệp.

5.6. Khả năng mở rộng của hệ thống V-Archive rời rạc

archive-networkNhững server rời rạc ban đầu vẫn có thể sẵn sàng cho sự kết nối với nhau nhằm mục đích khai thác tập trung khi cần tạo thành 1 khối dữ liệu lớn:

  • Cho phép khai thác lẫn nhau hoặc khai thác từ một khu vực tập trung.
  • Nếu không có nhu cầu kết nối thì server vẫn hoạt động độc lập, đáp ứng được nhu cầu lưu trữ hiện tại của đơn vị.