资料下载网
首页 计算机 考试教辅
基于深度学习聊天机器人实现 pdf电子书免费下载
首页 > 计算机 > AI人工智能 > 基于深度学习聊天机器人实现 pdf电子书免费下载

《基于深度学习聊天机器人实现》pdf电子书免费下载


下载方式一:

百度网盘下载地址:https://pan.baidu.com/s/1nFuO04JsH_f5oCncuFRi7g
百度网盘密码:1111

下载方式二:

http://ziliaoshare.cn/Download/ab_123519_pd_JYSDXXLTJQRSX.zip

 


基于深度学习聊天机器人实现

作者:kanny

页数:27

出版社:天善智能

《基于深度学习聊天机器人实现》介绍

自然语言实战之 kanny www.hellobi.com 基于深度学习聊天机器人的实现 项目背景介绍 •基于行业的机器人 •Faq •我有黑眼圈,那么适合使用什么样的眼霜 •Nlp支持搜索商品库 •我想买一个冰箱,2扇门的,节能型,价格区间是在4000-5000之间。 知识库的要求 •行业顾问的参与 •收集的是客户最为关心的问题 本项目解决的问题 •1. 短文本相似度匹配,得分最高 •2. 上下文理解,实体丢失。(我脸上有痘痘,推荐用什么洗面奶 •机器人回答:使用抗痘洗面奶 •人:那多少钱呢?对皮肤有依赖性吗) •3. 多问多答。(抗痘洗面奶多少钱,功效如何,对皮肤有依赖性吗?) 产品选型 •1. •百度api •脸上有青春痘,应该使用什么洗面奶? 百度分词效果 •邓颖超生前所居住过的房子 想提供一个saas服务 •Python flask–web service ---restful api •使用多线程技术 客户的问题 Q&A 自己部署NLP •1. 使用什么算法? •2. 如何去做检索产品库? •Nosql–的确可以解决属性的变化 •问题是:基于rowkey查询性能是最好的 •问题就来了:如何实时交互? •在人际对话中往往是通过特征来进行搜索的 •文本检索。Index •数据库和文本检索之间数据同步的问题 商品库 后台 增加 删除 修改 检索商品 Nosql技术 全文检索 索引技术 客户 Nlp解析 NLP就业薪资 1、基于深度学习聊天机器人概括 1.1概况 聊天机器人现在非常热门,它是人们用自然语言能与机器交互的一种方式,目的是让机器理解人类语言,达到更好的沟通交流目的。目前聊天机器人在各个领域应用非常广泛,有强大的市场需求。如京东客服机器人,淘宝聊天机器人,小冰娱乐聊天机器人等,还有包括特定领域导购机器人,如软银公司为雀巢咖啡开发的咖啡推荐机器人等。 1.2 分类特定领域机器人&通用机器人 特定领域机器人即有特定的服务目标或者服务对象,如订餐机器人,导购机器人,天气查询机器人,客服机器人…… 通用机器人即无需为特定领域服务,如微软小冰,小黄鸡,小Q…… 1、基于深度学习聊天机器人概括 1.3 几种技术模式 模板模式&检索模式&机器学习模式&深度学习模式 模板模式:人工根据对话场景编辑问题和答案模板,如问句中出现“xx”产品和“多少钱”两个关键字,那肯定是查询价格。Q: 检索模式:用户提前录入问答对在数据库中,当用户问道其中一个问题就输出对应的答案,当用户问的问题在数据库没有一模一样的时候,在数据库中找到语义最相近的问句,输出答案。如用ES作为检索框架。 机器学习模式:机器学习所有的问题都可以转化为数据分类/预测的问题。如2014年牛津大学和谷歌开发一种state-of-art算法,把问答对当做输入,转为特征向量,用户逻辑回归进行分类。训练得到逻辑回归的参数。 1、基于深度学习聊天机器人概括 深度学习模式:用递归神经网络/卷积神经网络,如LSTM/CNN。把问题通过LSTM转化为具有前后关联的特征向量,称为编码过程。再把编码后的特征向量放入LSTM直接预测答案的第一个字,然后依次预测出整个句子。主要代表是2014年谷歌的Seq2Seq算法,掀起一股基于深度学习模式的人机对话的热潮。后来几年很多学者对这个基本算法进行改进,出现了很多的变种,在其中加入注意力机制,加入LDA主题模型,让聊天的内容更加集中在特定主题。如Topic-aware -Seq2Seq,Knowledge-based QA等。成为研究的前沿技术。 2、基于深度学习聊天机器人训练数据收集,清洗 2.1 采用深度学习模式训练聊天机器人需要大量的问答对来进行学习,因此需要采集的数据为问答对文本数据。现实中问答对不太好获取,该怎么办呢? A、收集 1、网络爬取,如百度贴吧,论坛,知乎等有大量的问答对,通过爬虫把它们抓取过来。 2、电影的字幕数据。 3、手工的生成。 4、公开数据集。 B、清洗 采集的数据往往存在很大的噪音,如问答对匹配不上,答非所问,清洗不相关的噪音,如广告信息。最后全部转化为问答对。 3、特征工程:文本数据预处理,特征化和数值化后转化为可训练的数据 计算机只识别0,1代码,或者更高层的数值,机器学习和深度学习的本质是对数值进行处理。如何一句话转化为相应的数值化后的特征向量?给算法取进行学习呢? 思路1:先把句子分解成一个个词语,然后每个词语用一个向量表示。如苹果:(1,0,0,,,,,,0),梨子(0,1,0,,,,,,0)表示。称为One-hot Representation特征。 思路2:词袋模型(Bag-of-words model): •John likes to watch movies. Mary likes too. •John also likes to watch football games. 构建一个字典后: •用词在训练样本中出现的次数构建一个词典(dictionary): •{“John”: 1, “likes”: 2,“to”: 3, “watch”: 4, “movies”: 5,“also”: 6, “football”: 7, “games”: 8,“Mary”: 9, “too”: 10}, 3、特征工程:文本数据预处理,特征化和数值化后转化为可训练的数据 •那么前面两句的特征向量为: •[1, 2, 1, 1, 1, 0, 0, 0, 1, 1] •[1, 1,1, 1, 0, 1, 1, 1, 0, 0] •特征向量的长度为字典中词的个数 •如何改进? •加上词的权重TF/IDF,用TF/IDF值替代词频,如 •{“John”: 0.021, “likes”: 0.12,“to”: 0.001, “watch”:0.34, “movies”: 0.161,“also”: 0.006, “football”: 0.56, “games”: 0.02,“Mary”: 0.09, “too”: 0.001} •思路3:2013Google基于概率的word2vec模型(CBOW和Skip-gram) 3、特征工程:文本数据预处理,特征化和数值化后转化为可训练的数据 cbow(连续词袋模型)利用词语的上下文来预测词语。与之相反,skip-gram利用词语来预测它的上下文。对于相同的输入,输出每个word的概率之和为1 skip-gram模型的目标是最大化以下极大似然估计: 思路4:2014斯坦福大学基于统计的Glove用于词表征的全局向量(Global Vectors for Word Representation) GloVe模型的损失函数是:


《基于深度学习聊天机器人实现》目录

empty

计算机


python
AI人工智能
javascript
计算机网络/服务器
数据库技术
计算机F

考试教辅


考研考博
英语四六级

沪ICP备18046276号-5