Mục tiêu
Nghiên cứu các công nghệ lõi liên quan đến bài toán hiểu và bóc tách các văn bản bán cấu trúc tự động. Đây không phải là bài toán NER (Named Entity Recognition) đơn thuần mà tập trung khai thác các đặc trưng đa thể thức như: đặc trưng văn bản, đặc trưng cấu trúc, đặc trưng trực quan, vvv. Hơn nữa,
Tiềm năng thị trường
80% dữ liệu doanh nghiệp là bán cấu trúc (công văn, hợp đồng, hồ sơ tồn tại dưới dạng các tệp tin docx hoặc pdf). Nguồn dữ liệu này hiện chưa thực sự được khai thác, cấu trúc hóa do nhiều thách thức về mặt công nghệ. Tuy nhiên đây lại là nguồn dữ liệu mang nhiều giá trị, chẳng hạn, các tổ chức có thể:
-
Bóc tách tự động các điều khoản trong hợp đồng để sắp xếp phân loại, kiểm tra tính pháp lý của các điều khoản
-
Bóc tách tự động các báo cáo tài chính phục vụ cho phân tích dữ liệu
-
Bóc tách tự động các CV tìm việc để tự động hóa quy trình phân loại và sơ loại ứng viên
-
Bóc tách hồ sơ y tế tự động
-
Xây dựng cơ sở tri thức văn bản pháp luật
Công nghệ
Các công nghệ nhóm Document Understanding AI nghiên cứu là các công nghệ thuộc lĩnh vực học máy, xử lý ngôn ngữ tự nhiên. Cụ thể:
-
Information retrieval
-
Knowledge base construction
-
Active learning, reinforcement learning
-
Đặc biệt, nhóm hướng tới các giải thuật bán giám sát, hoặc giám sát yếu để có thể học trong môi trường ít hoặc không có dữ liệu có nhãn.
Tham khảo demo: http://parser.yourway.vn
https://cloud.google.com/solutions/document-understanding/