官宣！言通机器人语义识别引擎即将重磅来袭，请做好准备智能电话语音机器人

官宣！言通机器人语义识别引擎即将重磅来袭，请做好准备

@所有客户，属于你的官宣在这里！！！亲爱的支持与信任言通产品的小伙伴们，言通机器人语义识别引擎即将重磅来袭，请做好准备！

人工智能的智慧在此闪烁

目前，市面上所有的人工智能电话机器人都采用的是关键词匹配技术，但是中国语言博大精深，同样的意思有不同的表达方式，而关键词匹配技术识别单一化。为此，言通正在改善这种情况，将于近期强势推出基于真正的自然语言理解识别客户的对话内容，让机器人达到完美的语义理解。

智能云端销售客服语音服务提供商

640.webp.jpg

深度解读语义识别引擎

情感分析

目的：为了找出说话者在某些话题上的态度，即信息预测。这个态度或许是他（她）的个人判断或是评估，也许是他（她）当时的情感状态。

实现的技术手段：基于监督学习的情感分析，使用的监督学习算法是TFIDF计算TfidTransformer、文本向量化CountVectorizer。通过引入情感词的程度副词等一系列字典来给输入的语句进行打分，从而判断该语句的情感倾向。

微信图片_20181019172720.jpg

意图识别

目的：准确定位询价，了解公司情况，了解产品情况，索要联系方式，嫌贵等意图，在大数量的通话中有效的筛选出意向客户。

整体流程

1.获取训练语料

2.语料预处理

3.生成词向量

4.使用LSTM进行训练

5.外接softmax多分类

深度学习神经网络的方式效果很好，但数据集数量一定要大，且每个类别的数据分布要均衡。为了避免我们的数据集语料每个类别的数据达不到标准，言通机器人语义识别引擎换成了用机器学习的方法来做意图分类：分别采用LDA文档主题模型（通过计算句子相似度，来进行文本的分类），并用特征向量模型来提升AUC的准确率。

改良的多项朴素贝叶斯

由二分类的朴素贝叶斯拓展到多项实现的模型，使用词袋模型，专用的停用词表，近义词林，改良的数学模型等多种手段实现的分类器。以每个话术现有的语料训练，对相似的短句不同的分类，识别敏感。对近义但却未出现在话术中的词句有良好的分类能力。

分类器的敏感度提升

采用骰子概率加样本概率取代了拉普拉斯平滑，对敏感度有正面的影响，用对数解决最小溢出的同时，修改两个概率的底数，降低了概率最大值却不影响最终识别准确率的同时使其能区分极其相似的单个短句。

词袋模型

词袋模型良好的规避了汉语中文本前后倒置的问题，是词集模型的升级版，能够提升反复出现的关键字的权重，提升识别准确率。

用上述方法改进的分类器已经能够对未知样本有很好的支持。比如话术中只包含有“公司什么时候成立”这一句语料。而对于“公司几几年成立的”，“公司成立时间”，或者是“几几年成立的啊你们公司”这样的比较口语化的词句能够准确分类。在此基础上再引入近义词词林，实现对近义但未出现在话术中的词句的分类。

微信图片_20181019170830.jpg

举例近义词林

通过完善一本近义词词典，来达到举一反三的效果。

比如对“公司地址”一句语料进行转换

公司→【商店铺子店铺铺户店家商行商号店铺号庄局肆桂公司洋行代销店店堂供销社小卖部信用社商社商厦铺面营业所合作社商家企业】

地点→【地点地址地方】

由上述两个数组求出笛卡尔积把原本一句语料扩充为29*3再经过改良的模型训练，有效提高分类准确率。

有人说，企业服务的下半场，将是人工智能的对决！为此，言通智能的脚步从未停歇，只为给你提供更好的产品服务！