Chuẩn bị dữ liệu huấn luyện
Dữ liệu huấn luyện NLP bao gồm số lượng lớn các câu mẫu thể hiện câu nói của khách hàng được thu thập từ nhiều nguồn khác nhau. Trước khi xây dựng bộ dữ liệu huấn luyện cần hiểu và xác định mục tiêu và vấn đề doanh nghiệp cần giải quyết là gì để thu thập dữ liệu phù hợp với mô hình kinh doanh của doanh nghiệp.
Có nhiều phương án khác nhau để xây dựng bộ dữ liệu huấn luyện:
Dữ liệu thực tế của doanh nghiệp: Là những dữ liệu câu mẫu sẵn có trong hệ thống thông tin hoặc được thu thập từ các nguồn tương tác khác nhau giữa khách hàng với doanh nghiệp (Ví dụ: hybridchat, Các đoạn Chat, Email, Mạng xã hội, Diễn đàn,...). Những dữ liệu này mang tính thực tế và có sự chính xác cao về mong muốn và nhu cầu của khách hàng.
Chuyên gia trong ngành: Để đảm bảo tính thực tế và tính ứng dụng, việc tạo và huấn luyện bot sẽ cần đến sự tham gia của nhân sự là những người có chuyên môn nghiệp vụ hoặc những người đã làm việc trong ngành/lĩnh vực liên quan.
Pre-built Dataset/ Dữ liệu dựng sẵn: là những bộ dữ liệu do các chuyên viên thuộc nhiều lĩnh vực khác nhau của EM&AI xây dựng giúp khách hàng đẩy nhanh quá trình đào tạo, giảm bớt thời gian chuẩn bị dữ liệu.
Khái niệm | Một số lưu ý khi chuẩn bị dữ liệu huấn luyện |
Câu mẫu |
|
Ý định |
|
Thực thể |
|
Last updated