Các khái niệm cơ bản NLP
Câu mẫu là câu nói của khách hàng được sử dụng để huấn luyện NLP cho Chatbot / Voicebot. Mỗi câu mẫu thể hiện một ý định nào đó.
Câu mẫu gồm 3 thành phần: Ý định, Thực thể và Cảm xúc.
Là mong muốn mà khách hàng truyền tải trong câu nói
Là các trường thông tin xuất hiện trong câu nói, bổ nghĩa thêm cho ý định.
Cảm xúc được truyền đạt trong câu nói của khách hàng. Các mức độ của cảm xúc gồm tích cực, tiêu cực và bình thường.
Ví dụ:
Câu mẫu | Ý định | Thực thể | Cảm xúc |
“Tôi khá hài lòng về dịch vụ chăm sóc khách hàng của VN-airline” | Nhận xét dịch vụ chăm sóc khách hàng Ý định: feedback_service | Thực thể: “VN-airline” Loại thực thể: brand_name | “Hài lòng” (Tích cực)
Cảm xúc: positive |
“Tôi muốn đặt một chuyến bay đến Hà Nội” | Đặt chuyến bay Ý định: book_flight | “Hà Nội” Loại thực thể: city | Cảm xúc bình thường Cảm xúc : neutral |
Được dùng để huấn luyện cho bot nhận diện được những từ cùng loại, từ viết tắt, từ mượn, từ đồng nghĩa… cùng nghĩa với một từ nào đó.
STT | Từ khóa | Loại thực thể | Từ nhận diện |
1 | cơm | food | cơm huế, cơm gà, cơm lam (cùng chỉ cơm) |
2 | Hồ Chí Minh | city | hcm, sài gòn |
3 | nhân viên | people | nv, nhan vien |
Là những từ xuất hiện nhiều trong ngôn ngữ tự nhiên, tuy nhiên lại không mang nhiều ý nghĩa. Ví dụ: à, á, a, nhen,…
Là những ký tự viết tắt trong tiếng việt. Ví dụ: ko (không), bjk(biết),...
Tùy theo lĩnh vực, cần xây dựng từ điển riêng cho teencodes và stopwords để huấn luyện NLP