Các khái niệm cơ bản NLP
Khái niệm cơ bản của huấn luyện NLP
Câu mẫu (Sample)
Câu mẫu là câu nói của khách hàng được sử dụng để huấn luyện NLP cho Chatbot / Voicebot. Mỗi câu mẫu thể hiện một ý định nào đó.
Câu mẫu gồm 3 thành phần: Ý định, Thực thể và Cảm xúc.
Ý định (Intent)
Là mong muốn mà khách hàng truyền tải trong câu nói
Thực thể (Entity)
Là các trường thông tin xuất hiện trong câu nói, bổ nghĩa thêm cho ý định.
Cảm xúc (Sentiment)
Cảm xúc được truyền đạt trong câu nói của khách hàng. Các mức độ của cảm xúc gồm tích cực, tiêu cực và bình thường.
Ví dụ:
Câu mẫu | Ý định | Thực thể | Cảm xúc |
“Tôi khá hài lòng về dịch vụ chăm sóc khách hàng của VN-airline” | Nhận xét dịch vụ chăm sóc khách hàng Ý định: feedback_service | Thực thể: “VN-airline” Loại thực thể: brand_name | “Hài lòng” (Tích cực) Cảm xúc: positive |
“Tôi muốn đặt một chuyến bay đến Hà Nội” | Đặt chuyến bay Ý định: book_flight | “Hà Nội” Loại thực thể: city | Cảm xúc bình thường Cảm xúc : neutral |
Từ khóa (Keywords)
Được dùng để huấn luyện cho bot nhận diện được những từ cùng loại, từ viết tắt, từ mượn, từ đồng nghĩa… cùng nghĩa với một từ nào đó.
STT | Từ khóa | Loại thực thể | Từ nhận diện |
1 | cơm | food | cơm huế, cơm gà, cơm lam (cùng chỉ cơm) |
2 | Hồ Chí Minh | city | hcm, sài gòn |
3 | nhân viên | people | nv, nhan vien |
Stopwords
Là những từ xuất hiện nhiều trong ngôn ngữ tự nhiên, tuy nhiên lại không mang nhiều ý nghĩa. Ví dụ: à, á, a, nhen,…
Teencodes
Là những ký tự viết tắt trong tiếng việt. Ví dụ: ko (không), bjk(biết),...
Tùy theo lĩnh vực, cần xây dựng từ điển riêng cho teencodes và stopwords để huấn luyện NLP
Last updated