Số hóa là một xu thế kinh doanh đang được ưa chuộng của thế kỷ 21 mặc dù thương mại điện tử toàn cầu chỉ đóng góp chưa đến 5% vào tổng doanh thu bán hàng.

Các kênh truyền thống vẫn tiếp tục đóng vai trò là lực lượng bán hàng chủ lực, nhưng các công ty bắt đầu nhận ra sự cần thiết phải điều chỉnh chiến lược của mình để tận dụng những thách thức và cơ hội khi thời đại của số hóa đang đến gần.Đó chính là những nhận định chính trong bản báo cáo nghiên cứu mới nhất về Dịch vụ phát triển thị trường (DVPTTT) toàn cầu lần thứ tư do Công ty Roland Berger và Tập đoàn DKSH vừa công bố. Theo đó, bản báo cáo đã nhấn mạnh vào sự số hóa và tầm quan trọng của nó đối với ngành công nghiệp DVPTTT.

Ngành công nghiệp DVPTTT toàn cầu tăng trưởng mạnh

Theo nghiên cứu độc lập của Công ty Roland Berger, khối DVPTTT toàn cầu đã đạt mức 2,7 nghìn tỷ USD trong năm 2013. Với sự phát triển mạnh mẽ này, tới năm 2018 dự đoán sẽ đạt mức 3,8 nghìn tỷ USD, với mức tăng trưởng trung bình hàng năm là 7,4%. Điều đó có nghĩa thị trường DVPTTT lại một lần nữa sẽ đạt mức 1% thị trường tiêu thụ toàn cầu hàng năm. Các viện nghiên cứu thị trường hàng đầu dự đoán vào năm 2018, Châu Á Thái Bình Dương (TBD) sẽ trở thành khu vực có các hoạt động thương mại điện tử và giao dịch nhộn nhịp nhất trên thế giới.
so1-d86ca
Số hóa và tầm quan trọng của nó đối với ngành công nghiệp DVPTTT

Số hóa là động lực thúc đẩy quan trọng của thế kỷ 21 và đang dần chiếm vị trí chủ đạo trong danh sách ưu tiên của các doanh nghiệp. Có ba yếu tố được xem là có ảnh hưởng trực tiếp đến cách thức giao dịch và tương tác giữa các công ty với khách hàng trong giai đoạn tiếp cận với số hóa, đó là: Thương mại di động, cơ sở hạ tầng thông minh và trí tuệ doanh nghiệp.

Ba xu hướng này đã và đang không chỉ thay đổi cách mà người tiêu dùng mua hàng, mà còn là cách mà các công ty thông báo đến khách hàng và tạo ảnh hưởng lên quyết định mua hàng của họ. Trong khi số hóa đang trở thành yếu tố thay đổi ngành DVPTTT, thì mạng truyền thông xã hội, tiếp thị kỹ thuật số và các chiến lược phân tích dữ liệu đã định hình lại mối quan hệ khách hàng-nhà sản xuất và phát huy trải nghiệm của khách hàng thông qua các kênh bán hàng hiện hữu và mới nổi. Do các công ty thường thiếu nguồn lực và khả năng để tự thực hiện một chiến lược mở rộng theo hướng kỹ thuật số, họ thường tìm đến các đối tác có thể cung cấp kiến thức chuyên môn được tích hợp với DVPTTT truyền thống. Với kinh nghiệm dày dặn trong việc hỗ trợ các công ty tiếp cận thị trường, các nhà cung cấp DVPTTT liên khu vực đang ở một vị trí tối ưu để phát triển cả hai DVPTTT truyền thống và kỹ thuật số.

 DVPTTT – một ngành công nghiệp tự tin vào sự tăng trưởng mạnh mẽ và bền vững

Ngành công nghiệp DVPTTT được dự đoán sẽ đạt mức tăng trưởng trung bình hàng năm là 7,4% vào năm 2018, với tổng quy mô thị trường là 3,8 nghìn tỷ USD. Sự tăng trưởng này được kỳ vọng sẽ tiếp tục tại các thị trường mới nổi, bao gồm các quốc gia tại khu vực Châu Phi, Trung Đông, Mỹ La Tinh và đáng chú ý nhất là Châu Á TBD. Khu vực Châu Á TBD đạt quy mô thị trường là 691 tỷ USD vào năm 2013 và vượt qua Châu Âu để trở thành thị trường lớn nhất của nền công nghiệp DVPTTT. Châu Âu và Bắc Mỹ tiếp theo sau đó với giá trị lần lượt là 649 tỷ USD với 529 tỷ USD.
so2-d86ca

Quỹ đạo này được kỳ vọng sẽ tiếp tục tuân theo chiều hướng trên trong thời gian sắp tới. Những dự báo cho thấy tỷ lệ tăng trưởng của DVPTTT trong vòng năm năm tới sẽ tạo ra khoảng cách xa hơn giữa Châu Á TBD với Châu Âu và Bắc Mỹ.

 Cơ hội lớn cho các Công ty cung cấp DVPTTT hàng đầu

Theo Tiến sĩ Joerg Wolle, Chủ tịch và CEO của Tập đoàn DKSH cho biết: “Tôi cảm thấy rất phấn khởi về những phát hiện trong bản nghiên cứu mới nhất này. Tôi tin rằng Tập đoàn DKSH, với sự hiểu biết sâu sắc về địa phương, dịch vụ chuyên nghiệp, cũng như mạng lưới phân phối rộng khắp có đủ khả năng đáp ứng nhu cầu ngày càng tăng cho các DVPTTT kỹ thuật số. Tập đoàn DKSH được định vị không chỉ để phát triển trên cơ sở vận dụng những xu hướng đó một cách tối ưu nhất, mà còn giúp cho các đối tác và khách hàng thực hiện cách tiếp cận tối ưu cả hai DVPTTT truyền thống và kỹ thuật số một cách thành công.”

Được biết, DKSH là nhà cung cấp DVPTTT hàng đầu với trọng điểm là khu vực Châu Á. Tại Việt Nam, hoạt động kinh doanh của DKSH được cấu trúc thành bốn ngành: Hàng tiêu dùng, chăm sóc sức khỏe, hóa chất, và kỹ thuật công nghệ. Với khả năng tiếp cận rộng khắp về địa lý, kiến thức về thị trường địa phương và cơ sở hạ tầng hiện đại, Công ty DKSH Việt Nam là đối tác quan trọng và uy tín mà các công ty mới nổi đang tìm kiếm để mở rộng đến các thị trường mới và thị trường hiện hữu.

Theo Dantri

Chuyển sách báo, văn bản, biểu mẫu tiếng Việt in trên giấy thành tài liệu lưu trữ trên máy tính và có thể chỉnh sửa thông qua các dịch vụ, phần mềm nhận dạng thông minh..

Với sự phổ biến của máy tính, mạng Internet, dữ liệu ngày nay hầu hết được lưu trữ trên máy tính để phục vụ việc tìm kiếm, sao lưu, biên tập.


Hình 1: Tài liệu mẫu kiểm tra các trang web, phần mềm dùng công nghệ OCR.

Nếu bạn là chuyên viên soạn thảo hợp đồng, nhân viên văn thư, muốn lưu trữ các bản hợp đồng, sách báo, các loại công văn tiếng việt… thành dạng văn bản lưu trên máy tính, có thể chỉnh sửa, tìm kiếm theo nội dung. Hoặc bạn là sinh viên đang làm luận văn tốt nghiệp, hiện giữ nhiều tài liệu quý trên bản in và bạn muốn bổ sung vào bài làm của mình để thêm phần phong phú… Nếu dùng máy quét, máy ảnh số để sao chụp, bạn chỉ có thể đọc mà không thể chỉnh sửa.Hiện nay, rất nhiều phần mềm cả có phí lẫn miễn phí dùng công nghệ nhận dạng ký tự quang học hay nhận dạng chữ in, chữ đánh máy (OCR – Optical Character Recognition) – cho phép trích xuất và chuyển đổi tài liệu dạng ảnh (ảnh từ máy quét, máy ảnh, tập tin PDF dạng ảnh…) thành các tài liệu có thể biên tập (dạng tập tin text, Word…) – hỗ trợ việc số hóa tài liệu tiếngViệt (nhận dạng văn bản tiếng Việt). Tùy vào độ phức tạp của văn bản: định dạng chữ hoa, chữ thường, chữ in nghiêng, khung bảng, biểu mẫu…, chất lượng ảnh, và tùy vào công nghệ nhận dạng riêng biệt của mỗi nhà phát triển sẽ có mức độ nhận dạng văn bản chính xác khác nhau. Ngoài công nghệ OCR, hiện nay còn có thêm nhiều công nghệ nhận dạng tiêu biểu khác như:

Hình 2: Kết quả sau khi nhận dạng tài liệu mẫu trên trang free-ocr.com.

Nhận dạng chữ viết tay hay ký tự thông minh (ICR – Intelligent Character Recognition): là sự phát triển ở mức cao hơn của công nghệ nhận dạng chữ in. Đối tượng nhận dạng của công nghệ ICR không chỉ là chữ in mà còn bao gồm cả chữ viết tay. Công nghệ nhận dạng chữ viết tay thường được dùng trong việc nhận dạng thông tin từ các tài liệu dạng biểu mẫu. Trên các tài liệu dạng này, một số thông tin được điền bằng tay tại các vị trí cố định (tờ khai mở tài khoản ngân hàng, tờ khai hải quan, phiếu đăng ký…).

Nhận dạng đánh dấu (OMR – Optical Mark Recognition): một số thiết bị nhận dạng đánh dấu truyền thống dựa vào nguyên lý phản xạ ánh sáng (tại các vùng có đánh dấu/tô, ánh sáng sẽ phản xạ yếu hơn các vùng trống khác), với các thiết bị này, yêu cầu về việc đánh dấu, tạo mẫu, cũng như yêu cầu về chất liệu giấy in rất khắt khe. Ngược với các thiết bị đánh dấu truyền thống, các phần mềm nhận dạng đánh dấu (Optical Mark Recognition – OMR) cho phép người dùng tự tạo các mẫu và in chúng trên các chất liệu giấy thông thường. Phần mềm sẽ xử lý ảnh quét của mẫu sau khi điền. Công nghệ OMR thường dùng để xử lý dữ liệu từ các phiếu điều tra hay các bài thi trắc nghiệm.


Hình 3: Một phần kết quả nhận dạng qua trang free-ocr.com, được sao chép ra tập tin Word.

Nhận dạng chữ mực từ hay ký tự từ tính (MICR – Magnetic Ink Character Recognition): một công nghệ nhận dạng ký tự dùng chủ yếu ở lĩnh vực ngân hàng nhằm tạo thuận lợi cho công tác xử lý kiểm tra thông tin. Công nghệ này cho phép các máy tính có thể đọc các thông tin vắn tắt (như số tài khoản) trên tài liệu in. Không giống như mã vạch, mã MICR con người có thể đọc được. Việc in bằng từ tính cho phép đọc các ký tự chính xác ngay cả khi chúng bị che khuất.

Để minh họa bài viết về công nghệ nhận dạng chữ in (OCR), chúng tôi dùng 2 trang web nhận dạng tài liệu tiếng việt: free-ocr.com, sohoa.com.vn và 1 phần mềm cài đặt trên máy tính: VietOCR. Cả free-ocr.com và VietOCR đều dùng bộ máy (engine) nhận dạng chữ in Tesseract (Tesseract OCR engine) – bộ máy OCR này được phát triển bởi HP Labs trong giai đoạn 1985-1995 và bây giờ là Google (http://code.google.com/p/tesseract-ocr). Với VietOCR, bạn có thể tùy biến theo yêu cầu vì đây là chương trình nguồn mở.

Free-ocr.com là dịch vụ miễn phí, hỗ trợ các định dạng ảnh thông dụng JPG, GIF, TIFF, BMP với dung lượng mỗi tập tin tải lên tối đa 2MB. Dịch vụ này cho phép trong mỗi giờ bạn chỉ có thể thực hiện 10 lần nhận dạng và trích xuất đoạn văn bản từ ảnh.

Hình 4: Giao diện hiển thị kết quả nhận dạng tài liệu trên trang sohoa.com.vn

Sohoa.com.vn là dịch vụ số hóa tài liệu trực tuyến dùng công nghệ nhận dạng tài liệu ADRT (Adaptive Document Recognition Technology) của hãng ABBYY – Nga. ADRT được dùng để nhận dạng các cấu trúc logic, cách dàn trang cũng như các định dạng khác nhau trong tài liệu nhiều trang, ví dụ như: mục lục, đầu trang, chân trang, chú thích, chú thích bảng, chú thích ảnh… Sohoa.com.vn hỗ trợ nhiều định dạng ảnh khác nhau từ TIFF, JPEG, JPEG 2000, PDF, BMP (đen trắng, xám, màu), PNG (đen trắng, xám, màu) cho đến PCX, DCX (đen trắng, xám, màu). Hiện nay, để sử dụng dịch vụ, người dùng đăng ký một tài khoản và sẽ có 30 trang số hóa tài liệu tiếng Việt miễn phí.

VietOCR là một chương trình nguồn mở Java/.NET, hỗ trợ nhận dạng tài liệu tiếng Việt ở dạng ảnh PDF, TIFF, JPEG, GIF, PNG, và BMP. VietOCR có 2 phiên bản: phiên bản Java đòi hỏi Java Runtime Environment, 6.0 hoặc mới hơn. Phiên bản .NET cần Microsoft .NET Framework 2.0 Redistributable. Xem thêm http://vietocr.sourceforge.net.


Hình 5: kết quả (tập tin Word) sau khi nhận dạng tài liệu mẫu qua trang sohoa.com.vn

Để kiểm tra mức độ nhận dạng tài liệu tiếng Việt, chúng tôi đã thực hiện một tài liệu mẫu có cấu trúc gồm: bảng, đánh dấu số đầu dòng, in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh. Kiểu chữ (font) dùng trong tài liệu mẫu là Arial, mã Unicode. Đầu tiên, thực hiện quét tài liệu mẫu bằng máy quét (chúng tôi dùng Kodak i4600 Scanner) với độ phân giải 200dpi, ảnh xám (grayscale), định dạng JPG. Xem hình 1.

Sau đó, truy cập free-ocr.com, bạn có thể thực hiện ngay việc số hóa tài liệu mà không cần tạo tài khoản đăng nhập. Chọn ngôn ngữ tiếng Việt, sau đó nhất nút “chọn tập tin” để tải lên tập tin cần nhận dạng. Nhập 2 từ xuất hiện ngẫu nhiên trong ô CAPTCHA, nhấn nút “Send file” và đợi vài giây. Kết quả sau khi dịch vụ free-ocr.com nhận dạng ảnh tài liệu tiếng Việt vừa tải lên: hình 2, hình 3.

Ở đây, bạn có thể dễ dàng nhận thấy, free-ocr.com không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích và có một số lỗi nhận dạng chữ. Do đó bạn sẽ phải mất nhiều thời gian để chỉnh sửa và định dạng lại.

Hình 6: tài liệu mẫu (bên trái) và kết quả nhận dạng trên phần mềm VietOCR (bên phải).

Thử kiểm tra với dịch vụ số hóa tài liệu tiếng Việt trên trang sohoa.com.vn. Truy cập sohoa.com.vn, chọn mục “SỐ HÓA”, tạo một tài khoản, đăng nhập tài khoản thành công bạn sẽ có 30 trang nhận dạng miễn phí. Chọn nút “tải file lên”, nhập tiêu đề, chọn ngôn ngữ tiếng Việt, chọn định dạng tập tin xuất ra *.doc (ngoài ra bạn có thể chọn các định dạng tập tin khác: *.xml, *.docx, *.xls, *.ppt, *.pdf, *.csv, *.html, …), nhấn nút “chọn tệp mới” để tải lên ảnh tài liệu tiếng Việt cần nhận dạng, sau đó nhấn nút “thêm mới” để thực hiện. Hình 4. Vài giây sau, kết quả sẽ hiển thị ngay trên giao diện màn hình web, nhấn biểu tượng Word để lưu tập tin đã được nhận dạng về máy. Hình 5.

Kết quả nhận dạng của dịch vụ sohoa.com.vn rất tốt. Tất cả cấu trúc tài liệu: bảng, đánh dấu số đầu dòng, định dạng in đậm, in nghiêng, chữ hoa, chữ thường, chia cột, chú thích ảnh đều thể hiện khá chính xác. Tài liệu sau khi nhận dạng cũng mắc một vài lỗi về chữ.

Sau cùng, chúng tôi thử nghiệm tài liệu mẫu với VietOCR. Truy cập http://sourceforge.net/projects/vietocr tải về bản VietOCR.NET-1.7_32.zip, giải nén và tiến hành cài đặt. Mở chương trình VietOCR, nhấn nút “Open”, chọn tập tin ảnh cần nhận dạng, chọn OCR Language là Vietnamese. Sau đó nhấn nút “OCR” để chương trình tiến hành nhận dạng. Kết quả sau khi nhận dạng: hình 6.

Cũng như dịch vụ free-ocr.com, VietOCR không nhận dạng được bảng, định dạng chữ in đậm, in nghiêng, cột văn bản, không thể hiện được ảnh cùng chú thích – do bộ máy Tesseract 2.0x không hỗ trợ dàn trang, nên chỉ có thể nhận diện văn bản với một cột chữ. Tesseract 3.0 đã tích hợp khả năng phân tích dàn trang, hỗ trợ nhận dạng các văn bản có nhiều cột (xem thêm http://vietocr.sourceforge.net). VietOCR cũng mắc một số lỗi nhận dạng chữ.

Qua các thử nghiệm trên, chúng ta dễ dàng nhận thấy dịch vụ của sohoa.com.vn có khả năng nhận dạng tài liệu văn bản tốt nhất, với đầy đủ định dạng, hình ảnh. Tuy free-ocr.com, VietOCR nhận dạng tài liệu chưa tốt nhưng chúng hoàn toàn miễn phí.

Quốc Dũng

Tham khảo: 
en.wikipedia.org; vietocr.sourceforge.net; free-ocr.com; sohoa.com.vn

doc_scanHiện nay nhu cầu số hóa và lập kho dữ liệu lưu trữ điện tử ngày càng cao mà khả năng đáp ứng của các tổ chức và doanh nghiệp thì có hạn. Nhiều doanh nghiệp tính toán sát sao đến hiệu quả nên hình thức gia công thuê ngoài là phù hợp nhất và ít rủi ro nhất. Ngay cả các cơ quan Nhà nước cũng đã có chủ trương đưa nhiều dịch vụ ra thuê ngoài.

Việc gia công thuê ngoài quá trình số hóa có nhiều lợi ích như không phải đầu tư ban đầu một lượng tiền lớn mà vẫn nhận được dịch vụ chuyên nghiệp, chất lượng dịch vụ phải đảm bảo theo yêu cầu thì mới trả tiền, thanh toán sau khi nhận dịch vụ, hoạch định được các chi phí, v.v… Tuy nhiên công việc số hóa cũng có nhiều đặc thù riêng như được phép tiếp xúc với những văn bản giấy tờ với nhiều mức độ bảo mật khác nhau nên vấn đề an ninh thông tin được cho là nhạy cảm, sau đó là việc đảm bảo tính nguyên vẹn của các tài liệu được số hóa…

Quy trình số hóa V-ScanV-Archive có thể khắc phục được các hạn chế trong những vấn đề nhạy cảm trên, khách hàng có thể yên tâm hơn về dịch vụ gia công số hóa chuyên nghiệp.

main-TEL-spaceTrong trường hợp này, server V-Archive được đặt tại trụ sở của khách hàng, các máy trạm V-Scan được nối mạng trực tiếp đến server và đặt trong phòng riêng phục vụ cho việc scan chụp. Mọi công việc có thể được theo dõi và kiểm soát nghiêm ngặt. Mỗi tài liệu sau khi được scan sẽ tự động chuyển tải về server để quản lý và trên máy trạm không hề lưu bất cứ một file hình ảnh nào. Mọi việc xử lý đóng gói, index, lưu trữ… đều được thực hiện trên server V-Archive và được bảo mật nghiêm ngặt. Khách hàng có thể kiểm soát chất lượng và nghiệm thu ngay trên server V-Archive. Sau đó là quá trình đồng bộ hóa (synchronization) dữ liệu sẽ được triển khai tùy thuộc vào hạ tầng và hệ thống của khách hàng. Ngoài ra việc kiểm soát ra/vào của công nhân thực hiện là một biện pháp tăng cường và cần thiết. Như vậy tất cả các quá trình thực hiện dịch vụ trên đều được khép kín, hay người ta còn gọi là nằm trong “sandbox”.

VIAMI sẵn sàng cung cấp mọi dịch vụ số hóa và lưu trữ điện tử cho các tổ chức và doanh nghiệp trong nước. Hơn nữa, VIAMI cũng có thể cung cấp giải pháp này cho các nhà dịch vụ chuyên nghiệp khác.

Xin tham khảo thêm tại đây.