Chuẩn bị dữ liệu huấn luyện

Dữ liệu huấn luyện NLP bao gồm số lượng lớn các câu mẫu thể hiện câu nói của khách hàng được thu thập từ nhiều nguồn khác nhau. Trước khi xây dựng bộ dữ liệu huấn luyện cần hiểu và xác định mục tiêu và vấn đề doanh nghiệp cần giải quyết là gì để thu thập dữ liệu phù hợp với mô hình kinh doanh của doanh nghiệp.

Có nhiều phương án khác nhau để xây dựng bộ dữ liệu huấn luyện:

  • Dữ liệu thực tế của doanh nghiệp: Là những dữ liệu câu mẫu sẵn có trong hệ thống thông tin hoặc được thu thập từ các nguồn tương tác khác nhau giữa khách hàng với doanh nghiệp (Ví dụ: hybridchat, Các đoạn Chat, Email, Mạng xã hội, Diễn đàn,...). Những dữ liệu này mang tính thực tế và có sự chính xác cao về mong muốn và nhu cầu của khách hàng.

  • Chuyên gia trong ngành: Để đảm bảo tính thực tế và tính ứng dụng, việc tạo và huấn luyện bot sẽ cần đến sự tham gia của nhân sự là những người có chuyên môn nghiệp vụ hoặc những người đã làm việc trong ngành/lĩnh vực liên quan.

  • Pre-built Dataset/ Dữ liệu dựng sẵn: là những bộ dữ liệu do các chuyên viên thuộc nhiều lĩnh vực khác nhau của EM&AI xây dựng giúp khách hàng đẩy nhanh quá trình đào tạo, giảm bớt thời gian chuẩn bị dữ liệu.

Khái niệm

Một số lưu ý khi chuẩn bị dữ liệu huấn luyện

Câu mẫu

  • Mỗi câu mẫu đều thể hiện một ý định cụ thể của khách hàng.

  • Không nên dùng những câu mẫu không rõ nghĩa, hoặc gần giống nhau gây nhiễu cho hệ thống nhận diện.

  • Dữ liệu câu mẫu cần qua xử lý trước khi nhập liệu lên hệ thống để huấn luyện NLP (Loại bỏ ký tự đặc biệt, emoji, từ ngoại ngữ,...).

  • Cần tối thiểu 10 câu mẫu để huấn luyện VA nhận diện ý định. Số lượng câu mẫu của mỗi ý định không nên chênh lệch nhau quá nhiều để giảm độ nhiễu dữ liệu huấn luyện

Ý định

  • Gọi tên ý định cần chọn nghĩa chính xác nhất phù hợp với bối cảnh của câu mẫu. Thường là sự kết hợp của một động từ và một danh từ.

    Ví dụ:

    • Câu mẫu: “Công ty có làm việc vào ngày thứ 7 không?”

    • Ý định: Hỏi giờ làm việc

  • Có nhiều cách nói khác nhau để thể hiện ý định, vì vậy cần chuẩn bị nhiều câu mẫu khác nhau cho mỗi ý định.

    Ví dụ:

    • Ý định: Hỏi giờ làm việc

    • Câu mẫu:

      1) Công ty có làm việc vào ngày thứ 7 không?

      2) Thứ 7 này công ty có làm việc không?

      3) Thứ 7 có mở cửa không?

      4) Có mở cửa văn phòng thứ 7 này không?

      5) Công ty thứ 7 này có mở cửa không?

Thực thể

  • Thực thể đại diện cho danh từ trong câu (đối tượng hoặc bối cảnh cho hành động đó).

    Ví dụ: ngày giờ, địa điểm, tên thương hiệu, tên riêng, thành phố,...

    1) Câu mẫu: “Thứ 7 này công ty có làm việc không?”

    • Thực thể: Thứ 7

    • Loại thực thể: ngày

    2) Câu mẫu: “Chi nhánh điện biên phủ thứ 7 có làm việc không?”

    • Thực thể: chi nhánh điện biên phủ

    • Loại thực thể: tên chi nhánh