留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

聊天机器人技术浅析

王树良 李大鹏 赵柏翔 耿晶 张伟 王海雷

王树良, 李大鹏, 赵柏翔, 耿晶, 张伟, 王海雷. 聊天机器人技术浅析[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177
引用本文: 王树良, 李大鹏, 赵柏翔, 耿晶, 张伟, 王海雷. 聊天机器人技术浅析[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177
WANG Shuliang, LI Dapeng, ZHAO Boxiang, GENG Jing, ZHANG Wei, WANG Hailei. Recent Trends in Chatbots[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177
Citation: WANG Shuliang, LI Dapeng, ZHAO Boxiang, GENG Jing, ZHANG Wei, WANG Hailei. Recent Trends in Chatbots[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177

聊天机器人技术浅析

doi: 10.13203/j.whugis20190177
基金项目: 

国家重点研发计划 2016YFB0502600

北京市科技计划 Z171100005117002

地理国情监测国家测绘地理信息局重点实验室开放基金 2017NGCMZD03

详细信息
    作者简介:

    王树良,博士,教授,主要从事空间数据挖掘理论与应用研究。slwang2011@bit.edu.cn

    通讯作者: 李大鹏,博士生。dapengli@bit.edu.cn
  • 中图分类号: P208

Recent Trends in Chatbots

Funds: 

The National Key Research and Development Program of China 2016YFB0502600

Beijing Municipal Science and Technology Project Z171100005117002

the Open Fund of Key Laboratory for National Geographic Census and Monitoring, National Administration of Surveying, Mapping and Geoinformation 2017NGCMZD03

More Information
    Author Bio:

    WANG Shuliang, PhD, professor, specializes in theories and applications of spatial data mining. E-mail: slwang2011@bit.edu.cn

    Corresponding author: LI Dapeng, PhD candidate. E-mail: dapengli@bit.edu.cn
图(6) / 表(1)
计量
  • 文章访问数:  42
  • HTML全文浏览量:  3
  • PDF下载量:  13
  • 被引次数: 0
出版历程
  • 收稿日期:  2019-06-02
  • 刊出日期:  2021-02-05

聊天机器人技术浅析

doi: 10.13203/j.whugis20190177
    基金项目:

    国家重点研发计划 2016YFB0502600

    北京市科技计划 Z171100005117002

    地理国情监测国家测绘地理信息局重点实验室开放基金 2017NGCMZD03

    作者简介:

    王树良,博士,教授,主要从事空间数据挖掘理论与应用研究。slwang2011@bit.edu.cn

    通讯作者: 李大鹏,博士生。dapengli@bit.edu.cn
  • 中图分类号: P208

摘要: 对话系统已经成为人工智能时代重要的人机交互接口。聊天机器人技术在对话系统技术发展中扮演着至关重要的角色,代表了对话系统技术的前沿发展。从聊天机器人技术的兴起入手,深入分析聊天机器人技术的发展趋势,介绍国内外学术界和产业界的聊天机器人技术研究进展,重点介绍聊天机器人的3项关键技术,即基于检索的多轮对话技术、基于生成的对话技术和基于检索与生成深度融合的对话技术。通过分析聊天机器人技术中存在的问题,展望未来的发展方向。

English Abstract

王树良, 李大鹏, 赵柏翔, 耿晶, 张伟, 王海雷. 聊天机器人技术浅析[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177
引用本文: 王树良, 李大鹏, 赵柏翔, 耿晶, 张伟, 王海雷. 聊天机器人技术浅析[J]. 武汉大学学报 ● 信息科学版, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177
WANG Shuliang, LI Dapeng, ZHAO Boxiang, GENG Jing, ZHANG Wei, WANG Hailei. Recent Trends in Chatbots[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177
Citation: WANG Shuliang, LI Dapeng, ZHAO Boxiang, GENG Jing, ZHANG Wei, WANG Hailei. Recent Trends in Chatbots[J]. Geomatics and Information Science of Wuhan University, 2021, 46(2): 296-302. doi: 10.13203/j.whugis20190177
  • 随着互联网数据的海量增长、硬件计算能力的飞速提高以及自然语言处理和深度学习技术的长足进步,智能问答方法近年来得到快速发展,其应用场景更贴近人们的日常生活[1],聊天机器人为其典型代表。在个人计算机时代,用户主要通过鼠标和键盘与计算机交互;在移动互联网时代,用户则主要通过手指触控与计算机交互;而在智联网时代,用户将通过自然语言与计算机自由交互。人机交互从传统的图形用户界面逐渐发展到对话用户界面(conversational user interface,CUI),聊天机器人技术也扮演着越来越重要的角色。因此,微软、苹果、亚马逊等著名的国际信息技术公司都加入到聊天机器人的研发行列。特别是在个人计算机时代,人机交互的代表者微软认为,CUI是未来的人机交互范式,因此在聊天机器人的研究中投入巨大。鉴于此,本文介绍了聊天机器人技术的概念和性质,总结其关键技术的研究进展并展望未来发展趋势。

    • 自进入互联网时代以来,搜索引擎便成为人们获取信息的主要工具。问答系统是搜索引擎技术的一种扩展,它可以根据用户输入的问题给出精确简练的答案。根据回答问题的范围,问答系统分为开域和闭域。开域的问答系统可以回答多种多样、涉及很多领域的问题;闭域的问答系统为用户回答某个特定领域的问题[2]。以前,由于数据资源的限制,问答系统通常是闭域的,且为执行具体的任务而设计,这种问答系统也称作任务式问答系统。随着大数据和深度学习技术的应用,开域的非任务型聊天机器人得到发展,并受到学术界和产业界越来越多的关注。

    • 21世纪是数据爆炸增长的时代,NatureScience分别于2008年、2011年出版了《Big Data》《Dealing with Data》专辑,指出大数据时代已经到来[3]。文本数据是大数据时代人们普遍使用的数据形式。人类对话数据是文本数据的主要组成部分,互联网每天都产生大量的人类对话数据,这些对话数据为研究聊天机器人奠定了基础。例如,豆瓣对话语料(表 1)收集于中国著名的社交网络豆瓣社区,是真实用户的对话文本数据,其训练集包含了对各种对话主题的问答数据,数量多达100万。在人工标注之后,该语料被聊天机器人研究社区广泛使用。因此,大数据促成了聊天机器人研究的兴起。

      表 1  豆瓣对话语料的统计数据[4]

      Table 1.  Statistics Data on Douban Conversation Corpus[4]

      统计项 训练集 验证集 测试集
      语境与回复对的数量 1 000 000 50 000 10 000
      每个语境配对的候选回复数量 2 2 10
      每个语境包含的平均对话轮数 6.69 6.75 6.45
      每个对话语句包含的平均字数 18.56 18.50 20.74
    • 当前,深度学习[5]技术已经在很多计算机科学领域取代了传统机器学习方法,成为有效的技术工具[6]。在自然语言处理领域,深度学习技术也已占据了主导地位。有研究表明,在ACL(Annual Meeting of the Association for Computational Linguistics)、EMNLP(Conference on Empirical Methods in Natural Language Processing)、EACL(The European Chapter of the Association for Computational Linguistics)、NAACL(The North American Chapter of the Association for Computational Linguistics)等自然语言处理顶级学术会议上,已有70%以上的论文使用了深度学习技术,而且该比例还在增加[7],如图 1所示。在过去的50年,自然语言处理经历了基于语言规则的时代和基于统计学习的时代,目前正处在基于深度学习的时代[8]。聊天机器人技术作为自然语言处理领域的研究热点,也得益于深度学习的发展,主流的聊天机器人基本上都使用了深度学习技术。

      图  1  2012—2017年著名自然语言处理会议接受深度学习论文所占百分比[7]

      Figure 1.  Percentage of Deep Learning Papers Accepted by Famous Natural Language Processing Conferences in 2012-2017[7]

    • 虽然聊天机器人相关技术已经经历了几十年的发展历程,但其成为研究热点并广泛应用也只有短短几年的时间。20世纪80年代,学者们纷纷投入到问答系统的研究。由于当时的研究条件有限,问答系统只能被限制在针对特定领域的专家系统中。直到近几年,大数据和深度学习在自然语言处理中的成功应用才促进了聊天机器人的快速发展。2016年,一大批与聊天机器人相关的公司和产品出现,这进一步推进了聊天机器人技术的发展,很多该领域内的学者把2016年称为“聊天机器人元年”。

    • 1966年,麻省理工学院的Joseph Weizenbaum开发完成了世界上最早的聊天机器人ELIZA,用于扮演心理学医生的角色,揭开了聊天机器人发展的时代帷幕。1988年,加州大学伯克利分校的Robert Wilensky等开发出一款叫做UNIX Consultant的聊天机器人,帮助用户通过自然语言使用UNIX操作系统。1995年,Richard Wallace开始开发ALICE聊天机器人系统,采用启发式的模板匹配,实现了当时最好的人机对话功能。2010年,苹果公司推出Siri聊天机器人,通过理解用户的语音或文字输入,可以帮助用户查找饭店、电影院等信息,查看与其相关的各类评论信息,甚至帮助用户预定用餐位置、电影票等。2014年,微软公司推出的聊天机器人“小冰”[9]更是引发了新一轮聊天机器人的研究热潮。“小冰”注重聊天的情感联系,重新定义人和计算机之间的关系。通过对聊天过程中语境与语义的理解,“小冰”在一定程度上实现了超越简单人机问答的智能交互,能够使用更加类似人的交流方式。

      近几年,学术界对于聊天机器人的研究迎来高峰。在国际著名人工智能与自然语言处理会议上,越来越多关于聊天机器人的研究论文被接收。但由于学术研究本身的特点,很少有对聊天机器人的完整系统进行系统性的研究出现。直到2017年,蒙特利尔学习算法研究所(Montreal Institute of Learning Algorithms,MILA)发表了MILABOT[10]聊天机器人研究成果,其对MILABOT聊天机器人整体技术框架进行了系统的介绍。该聊天机器人采用强化学习方法,整合基于检索的对话模型和基于生成的对话模型,实现了较好的人机对话功能,如图 2所示。

      图  2  MILABOT聊天机器人原理图[10]

      Figure 2.  Architecture of MILABOT Chatbot[10]

    • 随着聊天机器人在国外迅速升温,中国各信息技术公司也开始研发聊天机器人产品。2012年,京东自主开发完成了聊天机器人JIMI,JIMI能够向用户提供24 h的服务,服务内容涵盖电子商务的各个环节,如售前咨询、售后咨询等。2015年,阿里巴巴推出的聊天机器人产品阿里小蜜与JIMI功能很相似,都是向用户提供购物环节中涉及的咨询类对话服务。

      在国内学术界,关于聊天机器人技术的研究也得到了较快发展。国内知名大学和科研机构在聊天机器人研究方面取得了很多成果,多篇关于聊天机器人的研究论文在各大国际人工智能与自然语言处理著名会议上发表。而在聊天机器人原型系统设计研发方面,哈尔滨工业大学社会计算与信息检索研究中心研发的“笨笨”聊天机器人已经可以提供较高质量的开域对话服务。

    • 目前,构建聊天机器人的主流技术主要是基于检索的技术[11-13]和基于生成的技术[14-16]。基于检索的多轮对话建模技术是基于检索的聊天机器人技术的研究热点和难点,而基于生成的对话技术因模仿了人类学习语言的过程,一直以来广受关注。最近提出的基于检索与生成深度融合的对话技术开创了聊天机器人研究的新范式。

    • 与单轮对话只需建模对话中的上一句话不同,基于检索的多轮对话技术需要建模包括重要的词和句子以及对话的逻辑结构在内的整个语境。因此,对话建模的难度大大增加,其基本原理如图 3所示。Lowe等[17]最先发布的聊天机器人多轮对话语料Ubuntu Corpus奠定了该项研究的数据基础。此外,他们还使用了关键词权重计算算法(term frequency-inverse document frequency,TF-IDF)、循环神经网络(recurrent neural networks,RNN)和长短期记忆网络(long short-term memory,LSTM)作为基线方法。Kadlec等[18]在使用更好的词嵌入方法基础上,改进了LSTM作为Ubuntu对话语料的基线方法。同时,将卷积神经网络(convolutional neural networks,CNN)和双向长短期记忆网络(bidirectional long short-term memory,Bi-LSTM)作为新方法用于多轮对话建模。此外,Kadlec等[18]研究发现,将不同的神经网络组合到一起用于多轮对话建模能取得更好的效果。因此,此后的研究将TF-IDF、RNN、CNN、LSTM和Bi-LSTM列为多轮对话建模的基本模型。使用不同的神经网络组合而成的多轮对话模型被称为高级模型。Yan等[19]提出的深度学习回复模型(deep learning to respond,DL2R)被认为是最早的基于检索的多轮对话高级模型。该模型是Bi-LSTM、CNN和多层感知机组合而成的,其效果明显优于其他多轮对话基本模型。不久后,Zhou等[20]发现之前的研究将对话语境和回复仅视为单词的组合,遗漏了很多对话语境中的关键信息,因此提出了多重视角多轮对话模型Multi-view,从词和对话语句两个角度进行多轮对话建模,取得了当时最好的效果。此后,Wu等[4]提出了一个全新的多轮对话模型序列匹配网络(sequential matching network,SMN)。该模型由两个门控循环单元(gated recurrent unit,GRU)和一个CNN组成,其独特之处在于模型中构建了一个词相似度矩阵和一个句子相似度矩阵,模型中的CNN可以从词和句子两个粒度上提取对话语境和回复的匹配特征,从而保留了对话语境中的重要信息,超越了之前所有的多轮对话模型。此外,Wu等[4]还发布了全世界第一个人工标注的中文多轮对话语料——豆瓣对话语料。之后,Zhou等[21]受到著名自然语言处理论文《Attention Is All You Need》[22]的启发,使用Transformer构建模型,提出了深度注意力匹配网络。该模型是一个完全使用注意力机制的模型,取得了目前正式发表成果中最好的多轮对话建模效果。此后,Zhang等[23]在SMN的基础上添加了自注意力机制,改进了SMN,并发布了第一套有详细对话主题分类的中文多轮对话语料——电子商务对话语料。

      图  3  基于检索的多轮对话建模技术基本原理图[18]

      Figure 3.  Basic Principle of Multi-turn Response Selection Model in Retrieval-Based Chatbots[18]

    • 添加注意力机制的序列到序列(sequence to sequence,Seq2Seq)模型在机器翻译领域取得了成功,极大提高了机器翻译的水平。由于原理相近,该模型很快被应用到对话生成领域,可以使通过大量语料训练后的模型直接生成对话。对话生成模型的训练方式与人类学习语言的方式部分类似,都在训练好的模型生成对话的过程中完全摆脱了对检索语料数据的依赖,因此得到了学术界和产业界的广泛关注和研究。Sutskever等[24]将Seq2Seq模型用于生成对话,如图 4所示。然而,Seq2Seq模型存在着一些问题。生成对话的目标是为用户生成句子长度较长、具有多样性且有实际意义的回复,但Seq2Seq模型并不能很好地实现这一目标。Li等[25]将该问题命名为安全回复问题。针对这一问题,许多学者提出了解决方法。Serban等[26]把隐变量加入到基本的Seq2Seq模型中,提高了对话生成的多样性。与此类似,Zhou等[27]也把隐回答机制加入到基本的Seq2Seq模型中,改进了对话生成的多样性。Xing等[28]通过在Seq2Seq模型中引入主题信息对模型进行了改进。Wu等[29]将动态词汇表加入到Seq2Seq模型,进一步改进了模型对话生成的多样性。Li等将重排技术[25]、强化学习技术[30]和对抗学习技术[31]应用到对话生成上,取得了成效。以上技术基本上代表了目前前沿的聊天机器人对话生成技术。但是,对话生成的评价方式通常采用如双语互译质量评估辅助工具等机器翻译评价方法与人工评价相结合,并没有实现完全客观化评价。目前,还没有一套权威的对话生成评价方法能完全客观地评价所有对话生成模型的效果。因此,还无法判定以上哪个方法为目前最好的对话生成技术,但上述方法总体代表了目前聊天机器人对话生成技术的发展现状。

      图  4  基本的Seq2Seq对话生成模型[24]

      Figure 4.  Basic Seq2Seq Model of Response Generation[24]

    • 在聊天机器人研究和应用中,将检索模型和生成模型融合的技术存在已久,其主要采用宏观层次的对话技术融合。如聊天机器人中的对话管理器将检索对话模型和生成对话模型融合到一起,这是聊天机器人系统中系统架构层面的检索对话模型和生成对话模型的融合,但仍然不够自然。基于检索与生成深度融合的对话技术可以解决这一问题。

      Song等[32]提出了一套基于检索与生成深度融合的对话技术方法,如图 5所示。该方法首先将用户输入的问句通过检索模型在语料数据库中寻找一个潜在可能的回复,然后将用户的问句和找到的潜在可能回复一同输入多重序列到序列(multiple sequence to sequence,MultiSeq2Seq)对话生成模型中,再将MultiSeq2Seq模型生成的回复与检索模型得到的潜在可能回复进行排序筛选,选出最好的回复给用户,由此基本实现了基于检索与生成的对话技术的深度融合。

      图  5  最早提出的基于检索与生成深度融合的对话技术方法[32]

      Figure 5.  The First Proposed Dialogue Model Based on Deep Integration of Retrieval and Generation[32]

      Wu等[33]提出的Prototype-Then-Edit人机对话范式成功实现了计算机模拟人类生成对话的过程。该方法的基本原理是先通过对用户输入的语句进行检索,在语料库中找出与用户输入信息类似的语句,将其设定为原型,然后找到该原型语句的回复,并将该回复设定为原型回复,最后以原型回复为模板,根据用户输入语句的信息内容生成回复给用户。当然,Prototype-Then-Edit的实际计算机制更为复杂,如图 6所示。在实验中,Prototype-Then-Edit人机对话范式综合了检索对话模型和生成对话模型的优势,在综合多种对话模型评价体系下超过了众多检索对话模型和生成对话模型。

      图  6  Prototype-Then-Edit人机对话范式原理图[33]

      Figure 6.  Architecture of Prototype-Then-Edit Human-Machine Dialogue Paradigm[33]

    • 从2016年聊天机器人兴起并发展至今,学术界和产业界对聊天机器人的研究热情始终没有消减。各学术机构和产业巨头都加大了对聊天机器人的研究投入,使聊天机器人的人机对话总体水平得到了显著提高。尽管在与聊天机器人技术密切相关的其他自然语言处理研究领域中,其技术方面已经取得了较大突破,但从目前的聊天机器人技术发展来看,要想让聊天机器人拥有近似于人类的思维,还要解决很多技术问题,主要表现为4个方面:(1)聊天机器人的多轮对话;(2)聊天机器人生成对话模型的评价方法;(3)基于检索与生成的对话模型深度融合;(4)低语料资源条件下的聊天机器人构建,这些都有待于进一步研究。

参考文献 (33)

目录

    /

    返回文章
    返回