Trạng thái: CLOSED

Mục tiêu

Tham gia xây dựng nền tảng gán nhãn dữ liệu cộng đồng để giải quyết hiệu quả và trọn vẹn thách thức xây dựng bộ dữ liệu học trong các bài toán AI, machine learning.

Tiềm năng thị trường

Gán nhãn dữ liệu cho bài toán xây dựng dữ liệu học là một quá trình tốn kém thời gian và nhiều thách thức. Để xây dựng được một bộ dữ liệu có nhãn lớn, thông thường cần huy động rất nhiều tình nguyện viên tham gia. Mỗi tình nguyện viên đóng góp nhãn cho một tập con của bộ dữ liệu ban đầu, tuy nhiên, vì nhãn mang tính chủ quan của mỗi tình nguyện viên nên cần cơ chế kiểm soát chất lượng để đảm bảo bộ dữ liệu gán nhãn xây dựng được là nhất quán.

Để giải quyết các thách thức trong bài toán tạo và xây dựng bộ dữ liệu có nhãn, đã có rất nhiều nghiên cứu và hệ thống được đưa ra nhằm cải thiện tốc độ và nâng cao chất lượng xây dựng bộ dữ liệu. Trong nhóm các bài toán gán nhãn liên quan tới dữ liệu ảnh, LabelMe [156], VGG [157], là công cụ gán nhãn nguồn mở cho ảnh trên nền web cho phép gán nhãn phân lớp và phân vùng ảnh. Tuy nhiên LabelMe và VGG không có chức năng quản trị dự án cũng như hỗ trợ cơ chế kiểm soát chất lượng khi có nhiều người tham gia gán nhãn ảnh. LabelBox[158] là một nền tảng gán nhãn dữ liệu mới được ra mắt vào 2018, ngoài chức năng cho phép gán nhãn phân lớp và phân vùng ảnh theo biên đa giác, LabelBox hỗ trợ chức năng quản trị dự án, phân phối và kiểm soát chất lượng chéo giữa các tình nguyện viên hoặc tài khoản quản trị. Supervise.ly [159] là một công cụ quản lý dữ liệu và gán nhãn hình ảnh mà tích hợp chức năng học chủ động cho phép hỗ trợ người dùng trong quá trình gán nhãn ảnh. Nền tảng này cũng bao gồm một cơ sở hạ tầng cho phép lưu trữ và tạo các mô hình học máy trên dữ liệu gán nhãn.

Cộng đồng học máy và trí tuệ nhân tạo trong nước rất tích cực tham gia nghiên cứu và kết hợp chuyển giao công nghệ cho doanh nghiệp. Tuy nhiên, với vấn đề xây dựng dữ liệu học, hầu hết các nhóm đều sử dụng các công cụ tự phát triển và cài đặt cho bài toán gán nhãn dữ liệu. Điều này dẫn tới các bộ dữ liệu có nhãn được tạo ra mang tính nhỏ lẻ, khó mở rộng và kiểm soát chất lượng ở quy mô lớn.

Nhóm kỹ năng phù hợp để thực tập

Nhóm chào đón các bạn sinh viên yêu thích làm bài toán có tính thực tiễn, có khả năng thành sản phẩm thương mại. Các bạn sinh viên tham gia vào một trong các phần công việc sau:

  • Được đào tạo phát triển NLP, semi-supervised learning, data mining
  • Được đào tạo và phát triển fullstack
  • Được đào tạo và phát triển frontend Angular, React
  • Được đào tạo phát triển GUI mobile phần gán nhãn và quản lý dự án
  • Được đào tạo và phát triển kỹ năng thiết kế và vận hành sản phẩm