图像处理神经网络自然语言处理理，就是怎么用计算机跑神经网络

点击联系发帖人 时间：2017-05-13 11:19

神经网络自然语言处理

在过去几年中神经网络自然语訁处理理领域由于深度学习模型的使用取得重大突破。本综述简要介绍了这个领域并简要概述了深度学习架构和方法。然后筛选当前大量最近的研究总结大量相关的贡献。分析了计算语言学的应用及几个神经网络自然语言处理理核心问题在内的研究领域对现有技术进荇了讨论并为未来研究提出了建议。

致力于使用计算机处理理解人类语言的神经网络自然语言处理理涉领域广泛

当代快速增长的计算力、并行化，促进了有事包含百万训练参数的神经网络的应用深度学习。 [Goodfellow et al. 2016]

同时在复杂数据收集程序的帮助下获取的大数据集，使通过相關算法训练如此深度的框架成为现实

近年来，神经网络自然语言处理理研究人员、从业者利用现代人工神经网络取得很多成果开始于 Collobert等嘚开创工作近十年，ANN和深度学习在该领域广泛应用 [Goldberg 2017; Liu and Zhang 2018]这引领了NLP核心领域与应用领域的实践。本综述简单介绍了神经网络自然语言处理理囷深度神经网络并讨论了深度学习如何解决NLP中的问题。这对于想快速熟悉该领域的读者非常有用

神经网络自然语言处理理和人工神经網络的主题包括：

第3部分，如何将深度学习应用并解决NLP领域

第4部分，在实用领域神经网络自然语言处理理的应用

4.6 图像、视频字幕

第5部汾，结论简单总结了，当前最先进的预测、民意调查及这个动态发展领域的未来思路。

当前先进的人工神经技术尤其是深度学习，罙深的影响着机器学习领域形成了很多不同领域一系列复杂问题最先进的解决方案。神经网络自然语言处理理也不例外在NLP的很多领域，深度学习的效果轻易超过了其它的机器学习及使用多年的统计方法本节，介绍了NLP领域研究人员及从业者最关心的主题并简单介绍了鼡于NLP的不同的人工神经网络架构。

神经网络自然语言处理理即计算机语言学，被语言学心理学，哲学认知学，概率与统计机器学習。它主要研究使用计算模型和程序解决理解人类语言的实际问题的机制这些解决方案被用于不同领域的可用软件。NLP的工作可用粗分为兩大类：核心领域和应用核心领域主要要就基础模型，如对自然词汇之间关系进行量化的语言模型；处理有意义的单词组成部分及识别所用单词词性的词法（morphological processing）句法处理或分析（建立为语义处理作准备的句子图），提取文本片段中单词、短语、高级组件的语义处理应鼡领域包括信息提取（如命名实体和关系），翻译文本摘要，问答系统文档分类聚类，图像视频字幕一般需要成功运用一个或多个核心技术来解决实际问题。

早起NLP研究主要是基于运用知识从不同领域提取规则有时规则是用于解决特定问题的ad-hoc。为了简化句法分析和语義处理一系列表达被设计出来用于描述自然语言的语法。语法规则通常与逻辑语义规则对应来获取用于解决实际问题的句子的语义表征当时广泛使用的教科书深入描绘了NLP的早期方法。 [Allen 1995; Winograd 1983].

基于规则处理很脆弱因为人们写或说时不会遵守语法的细节。此外由于社交媒体扩散、手机短信、网上的自由写作，必须要理解和处理拼写、语法都正确的刻意嘲笑为了处理预定义的规则不能处理的内容，自1980s起NLP开始慢慢向主要使用统计、概率计算和机器学习算法的数据驱动领域转变。比如句法分析由基于规则变为结合包括大量解析树的语料库的统计計算和机器学习如Penn Treebank [Marcus et al. 1993]. 此外，不同种类认真收集的文本语料库成为现实从包括多语言认真编写的正式、法律文件的语料库，到维基百科页媔集合还有所有非正式文本如推特及其它社交媒体。正如基于规则的方法NLP领域所有数据驱动的方法在基本著名的教科书中被详细讨论。[Charniak 1996; Jurafsky and Martin 2000; Manning et al.

随着时间推移一系列机器学习方法如贝叶斯、k-最近邻、隐马尔科夫模型、随机条件场、决策树、随机森林、支持向量机被广泛用于NLP。嘫而过去几年NLP领域发生巨变，大部分方法被神经模型完全取代或者大大提升

2.2 神经网络和深度学习

尽管很多现代ANNs具有很多不像人脑结构嘚特征，但是它们有相同的基本规则神经网络由一系列连接多输入单输出的节点、神经组成。最简单的神经网络由两层组成：输入层和鉮经元组成的输出层（有时输入层不算认为是单层网络）。输出层的每个节点将其从输入节点接受的数据进行加权相加并使用非线性函數对加权和进行处理产生输出权重作为节点之间相连的边，将由网络得到大量输入输出对时学习得到权重的修正由网络输出的每个实唎的误差或损失决定。过去常用的学习算法有感知模型（

大部分网络输入输出层之间包含额外的节点层称为隐藏层。如果一个层中的每個节点都连接前一层所有节点称之密集或全连接。不同种类的网络的主要区别是节点如何连接以及层的数目。由有序的层构成每个節点只接收更早层的输出被称为前馈神经网络（ feedforward neural networks ，FFNNs）相反，包含从它自己或直接、间接接收过它的输出的节点接收输出的节点的网络被称为反馈神经网络（feedback neural networks，FBNNs）由于深度神经网络（DNN）的定义没有明确共识，一般包含多个隐藏层认为是深度包含很多层认为是极深 [Schmidhuber 2015]。相對只有一个（或没有）隐藏层的称为浅网络。尽管有些定义更加严谨包含至少一个隐藏层的前馈网络被称为多层感知机（multilayer perceptrons，MLPs）图一展示了一些普通ANN架构。

图1 简单神经网络到现在包含很少层的网络。尽管没有早期网络是全连接的

2.2.1 卷积神经网络。

有些网络包含只接收仩层网络部分节点输出的节点因此不是全连接的。这种网络称为卷积神经网络（CNN） [LeCun et al. ]基于 Fukashima’s []新认知机。名字来源与数学与信号处理卷積神经网络使用称为滤波器的一系列不同完全枚举函数用不同的方式来增强数据，从而同步分析数据的不同特征 [Krizhevsky 2014; LeCun 感知域的一个局域内共位嘚视杆细胞和视锥细胞（眼睛中的视觉感知器）接收信号本质上，这个神经元对输入信号执行了一个函数来判断当前它的感知域有没有特定的低层特征同理，一些其他的包含不同或相似感知场的神经元对激励进行操作来识别其它特征下层神经元从这些及其它感知场的鉮经元接收信号，并识别更高层次的特征随后，CNNs被广泛用于图像、视频处理简单的CNN架构如图2a所示。由于其具有的优点在语音与神经網络自然语言处理理等其它领域也得到应用。

卷积网络两个最大的优点是：共享权重和解释处理不当的数据的能力 [LeCun et al. 1995]由于CNN中的很多节点，尋找的特征与同层的节点相同只是感知区域不同因此它们使用相同的处理函数（相同的权重）是合理的。因此相比在一万个区域中训練100万神经元来识别100个特征，我们可以只训练使用1万次的100个神经元这极大的简化了问题的规模及训练时间。

CNNs另外一个很重要的特征是可以處理格式不一致、不系统的数据由于CNNs有能力学到输入数据不同区域的特征，而不依赖特定区域的特定特征减少了对预处理的需求。这使CNNs可以识别图片中任何位置的目标不论这个目标在整个框架中占多大的比例同理，它使任何区域出现的相同文本的语言特征得到识别這允许不同词形、句法及其它特征不同形式的预处理不需要遵循相同的结构 [Kalchbrenner et 2014]。经常的特定特征在哪出现的精确位置并不重要，重要的是咜在某些位置有没有出现因此，图2b所示的池化操作可以用于减小特征映射的规模（卷积滤波器的输出）。最常用的卷积操作是k-max卷积咜只保留池中最大的k个值而忽略其它所有值。为了避免损失过多的细节卷积池的规模一般比较小。由于卷积可以明显降低后面的层需要處理的位置数它的使用极大的降低了网络的参数数量，并大大降低了训练时间卷积神经网络一般包含多个卷积、池化及它们之后的一些全连接层。

2.2.2 递归神经网络

1987]。类似于卷积网络递归网络也是有了权重共享形式来简化训练。然而CNNs是水平的（一层中）共享权重，而遞归网络纵向共享权重（层之间）由于其使如解析树等结构的建模变得简单，它在NLP中的效果尤为显著在递归网络中，一个权重张量（哽普遍的矩阵）可以先用于树的低层然后递归的的用于后续的更高层 [Socher et al. 2011]。由于RvNNs中的节点依赖它们之前的结果反馈到它们自身，因此RvNNs不是湔馈的

一种NLP中大量使用的简单递归神经网络是循环神经网络（RNN） [Elman 1990; Fausett 1994]。RNN最简单的形式如图3a所示隐藏层一个节点有一个反馈回自己的边。为叻简单说明使网络可以记住有序输入序列之前的输入的链式结构RNN可以展开并可视化 [Medsker and Jain 2001]，如图3c所示由于NLP依赖单词或其他元素如音位、句子嘚顺序，因此处理新元素时有前一元素的记忆很有用 [Mikolov et al. 2011a, b]

有时，存在后向依赖比如某些单词需要依赖后面的单词才能正确处理。这些依赖茬反向分析句子时才会更好获取因此使用两个RNN单元并将它们的输出合并以从前向和后向两个方向分析句子会更有效。这种结构的RNNs称为双姠RNN（bidirectional RNN）如图3e所示。由于RNN的早期记忆随着链表衰减严重依赖早期信息的输出有可能出现错误。由于RNNs分别关注早期和晚期数据从两个方姠处理链表会解决这个问题。注意为了反向处理，在计算之前所有的信息都要被获取这限制了双向RNNs在一些实时应用如语音处理程序中嘚应用。

也要注意有时用一系列相连的RNN单元取代一个RNN单元会取得更好的表现。由于产生长期影响这可以使网络处理比单RNN更长的输入。連续RNN单元的设置成为RNN堆叠（RNN stack） [El Hihi and Bengio 1996; Schmidhuber 1992]当然这可以堆积很多RNN单元，如图3b、3d所示

1997]。LSTMs中反馈节点由一些独立神经元（或一些小ANNs变体）以一定方式連接来保留特定信息。由于单神经元反馈给它自身的普通RNNs技术上有一些长期传递结果的记忆这些结果经过连续迭代被稀释了。更进一步这些结果的所有元素被平等记忆。常见的记忆过去长时间的全面信息很重要，而有时近期的短时记忆并不重要通过在RNNs中使用LSTM模块构慥LSTM网络，这些重要信息可以被无限保留而无关信息会被遗忘然而，信息一旦被遗忘即使后面需要，它也不可能被恢复当前的研究正茬解决这个问题，可能通过保留大量数据并简单选择特定例子关注哪一部分

有很多其他形式的人工神经网络 [Schmidhuber 2015]但是上面列出的是现代神经網络自然语言处理理研究最常见的。进一步的很多神经网络，包括后面提到的包含多种网络的特征。为了理解这些网络必须理解神經网络中使用的额外的组件或方法。其中之一是注意力机制

对于机器翻译、文本摘要、图像或视频字幕等任务输出是文本格式（这与输叺文本输出是分类的任务不同）。这一般通过编码器-解码器对实现编码ANN用于产生一个定长的向量，而解码ANN用于根据这个向量生成文本甴于解码器需要定长向量作为输入，所以编码器需要输出这个长度的向量然而RNNs在每个时间间隔产生一个输出，而时间步数是变化的理想而言，最终输出应该考虑所有输入这个输出有固定长度，因此可以传递到解码器这种结构的问题，如图5a所示RNN强制将整个句子编码荿定长的向量，并不考虑某些输入是不是比其它的更重要

一个鲁棒的解决方案是注意力。注意力机制的首次著名应用是Bahdanau et al【2014】使用一个铨连接层来标注RNN的隐藏状态的重要性的方法，使网络通过考虑当前隐藏状态和标注学会需要注意的部分原理如图5b所示。这个机制有很多變种比较出名的有convolutional [Rush et al. 2015],intra-temporal [Paulus et al. 2017],

深度神经网络通常通过反向传播训练 [Rumelhart et al. 1985]这个方法通过计算输出节点的误差并更新从底层节点连接到它们的所有权重。误差的后向传播及权重边的修正以相同的方式在层与层之间传播直到到达输入层。

另外一种用于训练ANNs的方法是dropoutdropout中，每个训练批次（小组實例）一些节点被随机不激活每个批次不激活的节点不同。这会强制网络将它的记忆通过多个路径分布有助于模型泛化和降低其过拟匼的可能性。为了训练简单通过dropout层实现，这是一个包括所有dropped节点的前馈层（通常是全连接）Dropout比率介于0到1,来指定每个训练批次不被激活嘚节点比例。

NLP核心问题是那些内在的存在于所有计算语言系统的问题为了进行翻译、文本摘要、图像字幕或其他语言学任务必须对潜在語言有所理解。这些潜在理解可以分为四个主要方面：语言模型、词形、语法、语义

语言模型可以从两方面来看。第一它是决定哪个單词跟着某个单词的任务。展开讲这可以看做决定单词含义，因为单个单词含义很弱甚至没有毫无意义与其它单词交互才衍生出全部意义。词形研究单词的形式它关系词根及使用前缀后缀、复合、内部机制变化来表示时态、词性、复数及一系列其它语言结构。语法研究单词之间的相互作用确切的，它研究什么单词互相影响、如何影响、组成成分（各种短语）从而形成句子结构。将这些打包的是语義领域研究单词作为一个集合的含义。必须考虑每个单词的含义、它们如何相互关联相互影响、这些单词所在的上下文、甚至是世界知識如“常识”。

很明显这些领域有很多的重叠部分因此，很多研究模型可以被分类到多个部分同样，模型基于最相关的领域及与它們有影响领域的逻辑关系被讨论

可以这样认为，现代神经网络自然语言处理理最重要的任务是语言模型语言模型（Language modeling，LM）是从语音识别箌机器翻译几乎所有NLP应用必不可少的本质上，语言建模是创造一个给出前面单词或词组能够预测单词或简单语言组件的模型的过程一般是相关概率 [Jurafsky and Martin 2000]。在语音识别中这有助于处理两个发音相似单词或短语的混淆同理，它对于为用户键盘尤其是触屏键盘，输入提供预测能力加快打字速度的应用很有帮助。然而它的效率和广泛应用源于它可以隐式获取线性邻接单词或词组的语法和语义关系，这使它对於必须验证输入\产生输出要复合自然语言形式的机器翻译或文本摘要等任务很有用通过预测，这些程序能够产生更干净和类人的句子并驗验反例

1999].。例如利用来自大型语料库的数据计算了单词出现的概率。最初使用通过单词训练预料中出现的频率（可能经过平滑计数）简单预测单词的词袋（bag-of-words）方法。之后n-gram模型通过计算单词同时出现的频率解决这个问题。由于将简单的长度为词汇表长度v的向量替代为vxv嘚矩阵这不可避免的大大增加了模型尺寸以及构造它所需的计算量。由于自然运用中很多词没有或极少出现在一块这个矩阵是稀疏的。这个特点允许极大地减小模型大小

n-gram方法不能简单看做单词伴随另外一个单词的概率，而是单词伴随一组n-1的优先单词的概率因此，词袋模型可以被看做1-gram或unigram模型只使用一个先行词的是2-gram或bigram模型，两个先行词的trigram模型由于随着n的增长，训练预料库中一组词的相似性衰减同时絀现一系列允许有意义的长n-grams技术被研究出来 [Jurafsky and Martin

统计语言模型的主要问题是不能处理同义词或词典外的词（ out-of-vocabulary，OOV）它们可以预测训练语聊库Φ曾经出现的词组，但是很难预测新的词组比如，来自训练语料的一个词组中的词被同义或不同意义的相似词替换掉（如汽车和卡车、紅色和蓝色）随着自然语言模型的引入这些问题得到了进一步解决 [Bengio et al. 2003]。当NLP开始大量利用ANNs的时代LM社区很快利用它们继续研究复杂模型，其Φ很多被DeMulder【2015】等总结过它们不仅仅能预测同义词，还能对单词间的关系进行建模 [Mikolov et al. 2013a,b]

通过语言模型技术得到的包括数值组分的单词向量被稱为embeddings。典型的单词embeddings维度在50到300之间一个最常用的例子是单词king、queen、man、woman的分布式表征。如果取出这些单词的embedding向量可以用数学得出高度直观的結果。如果表示这些单词的向量分别表示为k、q、m、w可以得到k-q约等于m-w，这对于人类推理非常直观

3.1.3 语言模型的验证

神经网络使LM领域得到很夶突破，但如何量化这些提升比较困难在语音识别或机器翻译领域可以使用单词错误率（ word error rate，WER）度量（单词错误率是实际输出单词与需要輸出单词相比不匹配的比例）然而，在其所处的应用之外独立的验证语言模型一般是可以的尽管提出了一些验证度量，但是完美的解決方案并没有被发现 [Chen et al. 1998; Clarkson and

困惑度对于在相同数据集上训练的LMs是合理的但是当在不同的词典上训练时，这个度量没什么意义幸运的是，这个領域有一系列广泛应用的基准数据集来进行合理的比较例如Penn Treebank（PTB） [Marcus et al. 1993]，以及更新的可以比较需要大量训练数据的大模型的Billion Word Benchmark [Chelba et al. 2013]

3.1.4 语言模型中的记憶网络和注意力机制。

[2017]使用一系列不同的注意力机制测试了不同的网络第一个网络不是全连接的，配置窗口长度为5配置简单的注意力機制。第二、三个网络更新颖尤其是在语言模型领域。研究者假设使用单值来预测下一个标记、为注意力单元编码信息、将阻碍网络的紸意力单元的信息解码这些是不同的任务，很难只训练一个参数同时完成这三个任务因此，在第二中网络中他们设计每个节点有两個输出：一个用于编码解码注意力单元的信息，一个明确用于预测下一个标记第三种网络中，进一步分割了输出使用分离的值解码输叺注意力单元的信息并解码从中获取的信息。这两种网络分别被称为

在自制Wikipedia语料库上的测试表明与基准相比注意力机制提升了困惑度，後续添加的第二和第三个参数进一步提升了困惑度这表明注意力机制，尤其是有不同参数的在语言模型中很有效。也需要注意前面大約5个标记包含了大部分价值（因此选择窗口大小为5）因此，决定测试简单从前面5个单元使用残差连接的第四个网络这个网络可以取得與很多更大的RNNs和LSTMs相比的结果，表明可以使用比推荐的更简单的网络得到理想的结果

2017]。作者没有提到是否测试过多残差连接他们跨越两層的残差连接最有效，之后紧紧跟着之跨越一层的利用这个发现，他们设计了残差连接一次跨越两个单元的递归网络比起每层都有一個连接，它们在每个模块重复出现残差网络出现在第1至4，5至89至13层之间。随着网络深度增加效果也会提高但是这样使用大的训练批次時会导致内存不足。网络宽度对于效果并不是很重要宽网络反而会使训练变得困难。网络在Penn Treebank数据集上被训练并与RNNs和LSTMs的结果进行了比较結果表明相同规模下RMNs表现优于LSTMs。

3.1.5 语言模型中的卷积神经网络

目前语言模型中使用的卷积神经网络的池化层用全连接层进行了替换 [Pham et al. 2016]这些层與池化层一样使特征映射降低了维度。同时这些特征的参考位置在池化层中丢失了，但全连接层保留了这些信息不同CNNs网络的测试都验證了这个特点。总之实现了三种不同的结构：用小型MLPs代替线性滤波器的多层感知CNN（ a multilayer perceptron CNN al. 2009]上测试。研究结果表明堆叠卷积层不利于语言模型泹是MLPconv和COM都可以有效减少所有测试集的困惑度。更进一步将MLPConv与不同核尺寸的COM效果更好，在Penn Treebank上取得了ninety-one的困惑度研究者研究表明，这个网络鈳以学习单词的特殊模式比如“as...as”。最后这个研究表明CNNs可以学到句子的长期依赖。较近的词组是最重要的但是更远的单词也是很重偠的。16个位置远的单词也被考虑到

3.1.6 字母自然语言模型

NLP中最多的CNNs接收单词（或者词嵌入）作为输入，现代一些网络研究字母级的输入 Kim et al. [2016]提絀的了不同于以往只接收字母级输入 [Botha and Blunsom 2014]，而是将其与词嵌入相结合的网络使用一个CNN处理字母级输入来提供单词表征。就像词嵌入一样这些表征输入一个由高速网络（如LSTM的门控网络） [Srivastava et al. Workshop（所有小型和大型数据集）。对于除了Russian之外的所有非英语数据这个网络在大小数据集上都表现比以前的公开成果 [Botha and Blunsom 2014]好。对于Russian小数据上结果更好，大数据集不是在Penn Treebank上，结果与现有最好的结果 [Zaremba et al. 2014]相同达到了78.9（对比78.4）困惑度。然而这种网络只有1900万训练参数，大大低于其他网络而且Penn Treebank中被标为未知的单词对结果有负面影响。由于这种网络关注字母级分析产生的词形楿似它比之前的模型更善于处理语料库中很少出现的单词。研究表明不使用高速层很多单词拥有拼写相似的最近邻，而不是需要的语義相近用于最高性能网络的高速层的增加解决了上述问题。另外网络可以识别拼写错的、不按标准拼写（如looooook代替look）、词典之外的单词。也表明网络可以识别前缀、词根、后缀也可以理解连接符号单词，这使其具有很强的鲁棒性

Benchmark。单模型表现最优在10.4亿训练参数达到30.0困惑度（相比此前最好的200亿参数51.3困惑度）的是使用字母级CNN作为输入网络的大型LSTM模型。然而最佳的结果是由10个LSTMs（并行网络组平均输出）组匼得到的。这个组合的困惑度是23.7,大大超出了此前最优组合 [Shazeer et al. 2015]的41.0

词形研究单个单词的分段，包括词根、词干、前缀、后缀以及中缀词缀（湔缀、后缀或中缀）用于修改词干的词性、数量、人称等。进一步从相同词根衍变的不同的词干经常表达不同但互相联系的含义。

2007]完成汾割由于可得的数据集都不能很好的建模一些词语，产生了一个稀有词数据集构建了两个模型，一个使用语境一个没有。发现不考慮上下文的模型高估了些词形结构尤其是具有相同词干的单词被聚集到一起，尽管它们是反义词上下文敏感模型表现更出色，即注意叻词干的关系也考虑了不同的特征如前缀“un”。这个模型在一些其它留下数据集 [Huang et al. 2012; Miller

在大型语言系统和其它NLP任务中好的词形分析器非常重要因此， Belinkov et al. [2017]的最近研究了一系列神经机器翻译模型对词形学习和利用的程度研究中，一系列将英语翻译成法语、德语、 Czech, Arabic, or Hebrew的语言模型被构建解码器和编码器是基于LSTM（有些有注意力机制）的模型或者 character aware 2012]。然后解码器被part-of-speech（POS）标记和词形标记替换，固定编码器的权重以保持内部表征训练过程中，附加了解码器结果的编码器的结果被检查研究表明注意力机制降低了编码器的表现，但是提高了解码器的表现进一步，字母级模型比其它模型更好的学习词形而输出语言对编码器的表现有影响。特别的输出语言词形越丰富，编码器的表现越差

Morita et al. [2015]为鈈可分割的语言如日语分析了新的词形语言模型。他们构造了定向搜索解码器（beam search decoder）的基于RNN的模型并在他们提出的自动标注 [Kawahara and Kurohashi 2006]语料库和人工標注语料库对其进行了训练。模型同时执行了一系列任务包括词法分析，POS tagging和词形还原（

句法分析研究一个句子中不同的单词和短语如哬互相关联。至少有两种不同的分析方法：成分分析（constituency parsing）和依赖分析(dependency parsing) [Jurafsky and Martin 2000]成分分析中，句子中的短语组分被分层次提取可以组成更长的短語，并进一步组成句子的短语被识别出来另一方面，依赖分析只研究独立单词对的关系

目前神经网络自然语言处理理句法分析的深度學习应用大部分属于依赖分析，其中包括几种主要的解决方案类别图分析（Graph-based parsing）构建一系列分析树，使用时搜索正确的一个大部分图方法都是生成模型，使用基于自然语言的正式语法构建分析树 [Jurafsky and Martin 2000]不使用这种方法，会产生大量的分析树其中大部分毫无逻辑。

近年来比图方法更流行的是基于翻译的方法（transition-based approaches）这些方法一般只构建一个分析树。尽管有一系列变体基于翻译的依赖分析的标准方法是创建包括呴子中所有词的缓存区和只包括ROOT标签的堆栈。当顶层两个词组之间建立关系即弧，将单词压入堆栈根据上层单词（句子中更右边的）依赖低层单词（更左边），还是低层单词依赖上层单词来判断弧是右弧还是左弧一旦建立依赖，将单词出栈直到缓存区为空而堆栈只剩下ROOT标签。主要有三种方法来控制上述操作发生的条件标准弧（arc-standard）方法 [Nivre ]中，一个单词的所有依赖都在其连接父词前被连接弧贪婪（arc-eager）方法 [Nivre ]中，单词立即连接其父词无论其子项是否被全部连接。惰性交换（Swap-Lazy）方法中标准弧方法被修改为可以在堆栈中交换位置。这实现叻非映射边的绘制

3.3.1 早期自然句法。

1992]和RNNs的使用尽管词性标签很明显，它允许语义不同的短语被分别分割作者所知，语法分析中第一个表现较好的神经模型是 Le and Zuidema [2014] 提出的模型使用通过使用两个向量表征（一内一外）允许自上而下和自下至上数据流的内外递归神经网络（ Inside-Out Recursive Neural Network），茬Penn Treebank数据集的标签得分（ 1993]）表明神经模型可以在不同领域泛化。用于依赖句法分析的嵌入层首先由Stenetorp[2013]提出目前大部分自然语言句法分析的研究都围绕它展开。这种方法使用RNN创建一个有向无环图尽管这个模型产生了最先进的结果2%（在 CoNLL 2008 Shared Task dataset [Surdeanu et al. 2008] 的 Wall Street Journal部分），但当其到达句末时似乎不能记住句子前面的句法

目前主流句法分析的基础是 Chen and Manning [2014]的成果，在英文和中文数据集得到了UAS和LAS最好的结果在英文Penn Treebank上UAS得分92.2%。在基于翻译的解析器Φ使用了一个简单的前馈神经网络作为决策器这样就解决了广泛应用的统计模型中一直存在的稀疏问题。尽管取得了最好的结果他们嘚模型很简单，还可以在很多领域进一步提升

第一个领域是模型使用的搜索机制。 Chen and Manning使用的是简单贪婪搜索 Zhou et al. [2015]使用定向搜索对其进行了替換。这样获得了明显的提升，结果接近了新的最先进结果在定向搜索的基础上， Weiss et al. [2015]通过使用残差连接并在池化层后增加感知器层的更深嘚神经网络进一步提升了效果更进一步，他们利用将潜在数据样本输送给另外两个分析器两个分析器一致的样本输送给主要分析器的tri-training [Li et al. 2014] 方法，在更多的样本上进行训练这个方法成为Penn Treebank上最先进，UAS和LAS分数分别为94.26%和92.41% Alberti et 2009]等数据集上的测试，进一步拓展了这个成果在这三个英文數据集及CoNLL2009大部分语言上UAS和LAS都取得了最好的表现。

[Xue et al. 2005]上也取得了最好的效果最后， Andor et al. [2016]在词性标注、句子压缩和依赖分析等一系列任务上使用全局归一化的前馈网络在所有任务上都取得了很好的效果， Wall Street Journal数据集的UAS得分94.61%值得注意的是，他们的模型相比取得类似结果的模型需要明显哽少的计算量

[2013]的成果很像，这个模型使用可选的算法生成有向无环图而不是简单的树。除了基于翻译解析中用到的经典堆栈和缓存区这个算法还使用了双队列。这可以实现英语中很少出现但很多其它自然语言很常见的多父单词的表征更进一步，它允许ROOT标签有多个子項除了生成上述的图，这个成果创新的使用了两种新的基于LSTM的技术：Bi-LSTM Subtraction 和

尽管基于翻译的依赖句法分析依然成果（目前是最先进的）组荿分析和生成模型中深度学习的使用也取得了一些进展。 Dyer et al. [2016]提出了使用递归神经网络进行句法解析和语言建模的模型其它大部分方法使用叻自下而上的解析方法，而这个使用了自上而下的方法除了当前解析树还讲整个句子作为输入。这可以将句子看作一个整体而不是简單的在其内部使用局部解析器。尽管没有在所有解析中取得最好成绩这个模型在英文生成解析和单句语言模型中取得最好的结果。它还茬汉语生成解析中接近了最好的成绩

生成语法解析使用深度学习方法第一个取得先进结果的是 Choe and Charniak [2016]的工作。语法解析被当做语言模型问题並使用LSTM来确定解析树的概率。使用这种方法在Penn Treebank上取得了UAS和LAS分别为95.9%和94.1%。 Fried et al. [2017]研究了这两个模型来确定这些模型的力量来自于重排序还是仅仅来洎两种模型的合并他们发现当使用一个解析器来生成待选树，另外一个对待选进行排序能够取得比单个解析器更好的结果，两个解析器组合明显更优秀他们使用两个解析器来选择候选项并重新排序得到了最好的结果。并进一步推广模型使用三个解析器得到了更好的結果，在Penn

1954]必然的，当使用神经网络处理文本中短语、句子或其他组件对应的向量时一个可以大致看做语义表征的表示被合成计算。这種构成对于摘要、问答和视频字幕等很多任务都是必要的本节中，神经语义处理研究被分为两个不同领域：研究文本两个部分语义相似喥对比的工作和研究语言高级组分尤其是句子含义的获取与转换

测试计算语义方法的一种方式是看看人类判定含义相似的两个短语、句孓、文本是不是也被程序判定为相似。称为 SemEval的一系列研讨会从1998至今每年都被举行来鼓励语义计算方法的研究两个句子的语义相似度比较昰SemEval辩论的主要议题之一，并发表了很多论文

[2014]，使用一个“Siamese”网络其中使用分享权重的两个CNNs并行评估两个句子。第二个网络中两个网絡之间设置了连接使CNNs最终状态前进行共享。通过三个“多选项”实验测试了英文句子补全、中文微博回答、英文含义对比。这个方法优於已有的很多模型

2004].上取得了最好的结果。

虽然比较句子或短语的含义很有用它大大依赖独立句子或短语含义的计算。这在NLP中是一个共哃话题从试图将单词含义表示为向量的自然语言模型拓展，句子模型试图将句子的含义表示为向量取得一些进展的是如 Le and Mikolov [2014]提出的模型，咜试图通过这种方法对段落或更长的文本建模这很有趣，在短语和句子层次有很多成果在本节接下来的部分进行描述。

Kalchbrenner et al. [2014]使用动态卷积鉮经网络（DCNN）生成句子表征其中使用一系列不同的滤波器和动态k-max池化层来决定滤波器检测到的哪些特征最重要。由于动态池化句子中不哃类型和长度的特征可以被识别而不需要对输入进行填充（padding）。这时短程（ 2002]的问题分类问题中也是表现最好的模型之一

毫无疑问，NLP领域中最依赖好的语义理解的是机器翻译因为它对语义理解的依赖和其使用的典型encoder-decoder结构产生的易评估性，神经机器翻译（）neural machine translationNMT)系统对于研究内在语义表征是个非常完美的平台。这方面的研究之一是 Poliak et al. [2018a]完成的结果公开于综述写作期间。解码器在四种不同的语言对上进行了训练：英语和阿拉伯语、英语和西班牙语、英语和中文、英语和德语基于一系列早期研究，解码分类器在四个不同的数据集上进行了训练： SNLI [Nangia et al. 2017]蝂本扩展的 Multi-NLI [Williams et al. 2017] 来自 JHU Decompositional [Reisinger et al. 2015]) 尽管它们在SPR中表现最好，但是以上结果没有特别好的这使研究者得出NMT模型不能很好地获取释义信息和对于指代解析（洳解析词性、单复数等）有帮助的推理信息。但是他们发现这个模型可以学到相当数量的原角色（如，谁或什么是动作的接受者）同期的研究 [Poliak et al. 2018b]分析了用于自然语言推理的许多数据集的质量。

发现在经常出现的单个领域训练的语义解析器不如在多个领域训练的有效这个結论是构建和测试了三个不同的基于LSTM的模型得出的。第一个模型是一个由单个解码器和单个编码器组成的一对一模型由网络本身决定输叺的领域。第二种模型是多对多模型每个领域有一个解码器和两个编码器：领域特定编码器和多领域编码器。第三种模型是一对多模型使用单个编码器，但是每个领域单独使用一个解码器所有模型在数据集“OVERNIGHT”上进行训练 [Wang et al. 2015]。所有模型都得到了不错的结果表现最好的昰一对一模型。

解码-编码网络并对产生的嵌入向量进行了分析。使用了一个编码器接收英文句子的输入使用了四个不同的解码器。第┅个解码器是复述解码器尝试还原原始英文输入。第二、三个解码器用于将文本翻译成德语和法语最后，第四个解码器是POS标注器不哃的解码器组合都被尝试，有的只有复述解码器有的有二、三或者四个解码器来自 EuroParl dataset [Koehn 2005]数据集的有十四种不同结构的句子用于训练该网络。隨后在编码器输入用于测试的一组句子并分析了它们的输出所有情况下，都形成了14个集群每个对应一种句子结构。分析不同集群之间嘚空间和错误分类的数量显示增加更多的解码器可以获得更正确的结果和更明确的集群尤其是使用所有四个解码器得到了0错误率。进一步的研究者测试和确定了关于句子嵌入的假设。他们发现就像逻辑算法处理词嵌入它们也可以处理句子嵌入。例如用“This work”的嵌入向量相近的结果。注意尽管这个句子不正确但它很接近正确结果。进一步的它与期望的句子只是指代不同，这在前文中提到是语义结构處理中最难的部分由于这被认为是控制良好的环境，它展示了NLP模型有能力获得很多含义并为新的研究方向铺平了道路可能是这个领域叧一场革命。

深度学习方法是建立自然语言应用的很好的基石本节展示了一些用深度学习处理这些问题的努力。篇幅所限没有谈到的主題包括词性标注、拼写修正、词义消歧、共指判别、演讲、会话问题及很多其它的下节概述了深度学习做出贡献的几个应用领域。

虽然鉮经网络自然语言处理理核心领域的研究对于理解神经模型如何工作是分重要但在不纯粹进行哲学和科学研究而注重对人类有益应用的笁程学的角度看来毫无意义。这些研究的真正意义来自于可以理解现实世界问题的应用这里总结了神经网络自然语言处理理中解决一些當下有用问题的方法。注意这里的主题只包括文本处理不包括语言处理。由于语音处理需要一些其它主题的专业知识如音频处理，它┅般被认为是与NLP有很多共同点的另一领域语音处理的一系列研究以前被总结过

信息提取使用算法从文本中提取显式或隐式的信息。这些系统的输出由于实现方式的不同而不同但一般提取的数据和它们之间的关系被存储到关系数据库中 [Cowie and Lehnert 1996]。早期方法有简单信息分类、模式匹配、基于规则方法的语法方法 [Andersen et al. 1992; Salton and Harman 2003]目前的信息提取系统使用了不同的机器学习算法——监督和非监督。通常提取的信息包括命名实体和关系、事件及其参与者、暂时信息、事实元祖

的多任务方法包括这个任务，但是没有公布结果他们的方法中，使用了简单前馈网络每个單词的上下文环境使用固定大小的窗口。想必这会导致很难获取长距离单词之间的关系。进一步的使用词嵌入作为输入导致其不能利鼡字母级特征。

长短时记忆（LSTM）首先被 Hammerton [2003]用于命名实体识别这个超出它时代的模型，由于缺乏当时计算力只有很小的网络此外，单词的複杂数值向量模型还没出现对于英语结果比基准稍好，对于德语比基准好很多 Dos Santos et al. corpus，CharWNN在是个命名实体类别的F1分值比此前最好的系统高出7.9分它也在西班牙语料上取得了最好的表现。作者指出只使用词嵌入或字母级嵌入都不如两者同时用这再次证明了NLP社区长期已知的事实：單词级和字母级特征同时使用对于命名实体识别的优秀表现十分重要。

Lample et al. [2016]设计了基于双向LSTMs和条件随机场的架构模型同时使用字母级输入和詞嵌入。输入合并后输送给双向LSTM然后输送给条件随机场（ conditional random field ，CRF）计算层使用dropout训练时，这个模型在德语和西班牙语上取得了最好的成绩LSTM-CRF模型在英语和荷兰语上也很接近。这个研究主要意义在于没有使用手工特征或实体词典就取得了最好的结果

事件提取研究暗示事件发生鉯及参与者如媒介、目标、收件人以及事件发生时间的单词或短语的识别。事件提取一般处理四个子任务：识别事件提及（或描述事件的短语）、识别事件触发（指定事件出现的单词通常是动词、动名词，有时是不定式）、识别事件参与者、识别事件中参与者的角色几乎所有的事件提取工作都使用监督机器学习并依赖特征工程，其中来自词典、语法和基于知识分析的线索当做特征使用这些特征被用于汾来算法来识别特定单词是不是事件触发器，识别触发器所表示的事件类型等早期工作有 [2016]讨论。这些方法有些表现很好，是特征驱动嘚因此具有依赖合适的特征组的生成及不可泛化的缺点。此外由于分几个阶段，当在它们之间传播时错误有被积累的倾向

Chen et al. [2015]提出了不使用复杂NLP工具自动提取词汇级和句子级特征的结构。他们认为使用最大池化的CNNs倾向于只获取句子中最重要的信息因此处理涉及一些事件嘚句子时有可能丢失有价值的因素。为了解决这个缺点他们将特征映射分割为三部分，并保留每个部分的最大值而不是一个最大值他們将其称为动态多池化卷积神经网络（ dynamic multi-pooling convolutional neural network，DMCNN）第一阶段，它将句子中的每个单词分为触发器和非触发器单词如果找到触发器，第二阶段確定参与者的角色实验结果表明这种方法明显优于当时其它先进的方法。下一年 Nguyen et al. [2016]使用基于RNN编码解码器对，来识别事件触发器和角色超过了 Chen et alii的结果。

另外一种从文本提取信息的重要类型是关系包括占有关系、同义或反义关系、自然关系如家族或地理位置。注意这是语義任务的一大块尤其是在神经模型的环境中。因此相关理论的论述不再重复只是简述相关方法。 Zheng et al. [2017]使用双向LSTM和一个CNN来进行实体识别和关系分类这项研究展示了CNNs在这个任务中的效用。 Sun et al. [2018]使用一个有复制机制的attention-based GRU模型这个网络的创新在于使用复制机制（ coverage mechanism）[Tu et al. 2016]的数据结构，这有助於确保所有重要信息都被获取且没有被获取多次

神经网络自然语言处理理的另外一个典型应用是文本分类，或者将自由文本文档分配给預定义的类文档分类有很多应用。很多技术在这个任务上实现了很有价值的结果——用于信息检索的 Rocchio算法 [Rocchio 1971]、支持向量机 [Joachims 1998]、决策树 [Mehta et al. 1996]本节著重介绍其中之一的深度神经网络。

Kim[2014]是第一个将预训练的单词向量用于CNN来进行句子级分类任务的Kim分类的成果调动了大家的积极性，它显礻拥有一个卷积层以及有dropout的softmax层的简单CNNs，经过很小的超参调整就可以在多个基准上取得杰出的表现Kim提出的CNN模型可以提高7个不同的句子分類任务中4个的最佳成绩，包括情感分析和问题分类 Conneau et al. [2017]后来发现使用很多卷积神经网络可以很好地完成文档分类。他们的结构只使用了窗口夶小为3的卷积而不是各种尺寸的卷积。

RBMs）的前馈网络。RBMs是非监督学习方法用于降低数据维度。这是由多次使用前向后向传播传递数據直到达到能量损失函数的最小误差实现的这个过程独立于任务的标签或分类部分，因此初始训练时不包括softmax回归输出层一旦两部分的預训练完成，将它们合并并像普通的深度神经网络一样使用后向传播和准牛顿法训练 [Fletcher 2013]

总结任务就是寻找文档中重要的元素或字母来生成朂重要信息的封装。总结技术有两个主要类别：提取和摘要第一个关注句子提取、简化、重排、连接使用文档中直接提取的文本来表达攵档的重要信息。这些年很多提取总结算法被提出包括基于频率的方法（ frequency-based approaches [Edmundson 1969; Luhn 1958]）、机器学习（贝叶斯）算法（ transformations [Liu et al. 2015]）。最近也来越成功的是深喥学习算法在摘要总结中的应用。深度学习方法一般使用循环编码-解码架构

打破排名的是Rush et al.[2015]提出的前馈神经语言模型总结应用。这个语言模型使用了注意力编码器和生成定向搜索解码器（ generative beam search decoder）原始输入直接输送给语言模型和决定要总结的句子和短语附近上下文重要性的卷积紸意力编码器。这个模型的表现与当时其它先进模型相似

[2017]提出的全卷积模型的精度，其中每一次都实现了注意力机制

与总结和信息提取很像，问答系统（ question answering QA）收集数据、短语、段落的特定目标。然而不同的是，QA返回问题流畅的答案这个问题历史的被分为以下几个子任务：问题分类、短文检索、答案提取 [Ezzeldin and Shaheen 2012]。问题分类决定需要什么种类的信息以及所需答案的格式短文检索中，提取总结经常被用于智能順序的检索、简化、合成信息来创建答案早期答案提取使用的方法很多，比如简单解析匹配方法（simple parse-match methods）通过解析所给的问题并匹配检索攵档中具有相同标记的句子或短语 [Phillips 1960]。其它研究者使用简单第一顺序逻辑语言和定理证明模型如 Green [1969]提出的现代模型和方法类似于总结中所用。

Wang et al. [2017]使用门控注意力循环网络来匹配问题和包含答案的段落一个自匹配注意力机制被用于映射整个段落来提炼机器表征。最后指示网络預测答案的位置和范围。这些网络使用段落的注意力池向量表征及分析的单词建模需要理解的关键标记或必要短语进行建模这种机制有助于将注意力从遍布段落的关键词转移到上下文窗口附近。

[2015]用于从多角度自动分析问题并行网络被用于从输入问题提取相关信息。分割網络用于搜索上下文信息和关系并决定返回什么形式的答案这些网络的输出随后被组合并用于可能答案的排序。这个在问题答案对上训練的模型不需要大的调整就自动学到了逻辑形式

目前最新的方法是关系网络（relational networks, RNs）的使用。首先由 Raposo et al. [2017]提出RNs是在MLP架构上构建，主要关注关系嶊理如定义数据中实体的关系。这种前向网络在所有目标对之间实现了相似的函数来计算它们之间的相关系数RNs使用文档句子的LSTM表征作為输入。这些输入进一步与给出的信息需求配对 [Santoro et al. 2017]RN计算所有排列来确定所给的文档中的句子，或这些句子与提出的问题之间是否有关系

機器翻译（ Machine translation ，MT）是神经网络自然语言处理理中最典型的应用它是使用数学和算法计算将一种语言的文档翻译成另外一种语言。进行有效嘚翻译即使对人类也是一项繁重的工作需要对翻译的两种语义的词法、语法、语义等领域具有专业水准和实力，对其文化有深入理解和辨别力 [Jurafsky and Martin 2000]历史的，这个工作包括基于统计方法的短语 [Koehn 2013]源于连续神经表征在获取语法、语义和词形方面的成功 [Collobert and Weston 2008]以及循环神经网络建立鲁棒的語言模型的能力 [Mikolov et al. 2010]这个原始的NMT模型使用了生成卷积和循环层的组合来编码和优化源语言模型并将其映射到目标语言。此后一系列新颖和有效的改进被提出 [Bahdanau et al. 2014; Sutskever et al. 2014]衍生模型不断提升，发现它们前任缺点的答案并克服对人工的需求 [Britz et al. 2017]现在的进步包括解码器隐藏状态的有效初始化、条件门控注意力单元的使用、嵌入层偏置的移除、可选解码阶段（ alternative decoding phases）的使用、嵌入层因子分解、大规模循环层堆叠、定向搜索算法测试时间利用 [Klein et al. 2017;

[2017]提出的条件GRU（conditional GRU，cGRU）最有效的利用了注意力机制。cGRU单元有三个关键部件组成：两个GRU转换模块和它们之间的注意力机制这三个模块联匼上个隐藏状态，和注意力上下文窗口一起生成下一个隐藏状态将解码流程 [Bahdanau et al. 2014]从Look、Generate、Update (Look at input, 2017]。测试时可以在最后的softmax层旁边使用定向搜索算法来栲虑贪婪模式下的多目标预测，这样不需要搜索整个假设空间就可以找到最佳预测 [Klein et al. 2017]

不同于以前的工作，一些研究者提出了抛弃大量的循環和卷积层从输入到输出专一的使用注意力机制来全局地编码语言 [Ahmed et al. 2017; Vaswani et al. 2017]。选择这种“自注意”机制是基于以下三个原则：减少每层需要的复雜计算、最小化顺序训练步骤、减少输入到输出的路径长度及其对长范围依赖学习的阻碍长范围依赖对于很多序列任务十分必要 [Hochreiter et al. 2001]。除了增加了翻译任务的精度自注意力模型允许整个架构更多的并行计算，降低了训练时间并减少了必要的顺序步骤（ minimizing necessary sequential steps）

4.6 图像和视频字幕

图潒字幕独特的将神经网络自然语言处理理与机器视觉相结合，从图像中编码信息并将其解码到文本中尽管编码过程不在本综述的范畴，泹是这里简单论述了解码过程以及整个模型

2015a,b]）。前一个图像的各方面被识别然后描述这些方面的不同单词根据标准的语法模板组合在┅起。后一个图像与数据库中的图像进行匹配，然后分配与其最相似图像的字幕

使用深度组合字幕（ Deep Compositional Captioning，DCC）模型与词汇分类器和语言模型一起实现了在字幕中包含隐藏单词的能力， Xu et al. [2015]介绍了图像注意力将视觉上最显著属性的动态向量表征输送给解码器。 You et al. [2016]在LSTM语言模型中加叺的反馈程序中将自上至下和自下至上的图像特征组合实现了语义注意力模型 Lu et al. [2017]提出了解码器中包含带有标记门（ sentinel gate）的LSTM结构来确定是考虑編码还是只使用语言模型来生成下一个词的自适应注意力模型。 Rennie et al. [2017]提出了使用强化学习为图像字幕训练深度神经网络

具作者所知，截至综述写作时视觉到语言（ vision-to-language）问题最好的方法使用了区域注意力（ regional attention）和情景专用（ scene-specific）上下文 [Fu et al. 2017]该算法将查询图像分割到空间区域的多尺度水平（ multi-scale level）。给出一个二分类器当图像区域中捕获的语义概念是含义丰富（ semantically meaningful，与高等级概念相关）原始的（ primitive），上下文丰富（ contextually rich 依赖附近的其它区域）的，则认为它是显著的同时，为整个图像计算了情景上下文向量增加的情景向量（关于图像主题的）为LSTM结构提供了额外的支持，它帮助在特定图像上下文选择合适的单词或者在相同的上下文排除不合适的单词

2017; Pan et al. 2016; Yu et al. 2016]。这些网络在一些帧上实现循环层然后在前一層的最终输出上实现另外一层，与前一层实现的循环捕获的帧数目成反比地减少连接到片段的连接数目这大大降低了梯度后向传递需要經过的单元数量。一种新的方法 [Guo et al. 2016]利用了注意力机制和3D卷积进一步工作肯定会整合声音处理来更好的添加字幕并完成更多任务如电影综述。

4.7 深度学习NLP应用总结

神经网络自然语言处理理存在大量其他应用包括语法修正（如文字处理所示）作者模仿（提供充分数据，生成复制特定作者风格的文本）很多这种应用经常使用，正在研究或者还没有使用深度学习但是，应该注意情感分析越来越流行并正在应用深喥学习情感分析的很大一部分是提取作者的情感——对于一些话题或者想法倾向于积极、消极或者中立 [Jurafsky and Martin

本节展示了一系列筛选的深度学習在神经网络自然语言处理理中运用的例子。在这个或相似领域进行了无数的研究记录了深度学习促进神经网络自然语言处理理在广泛哆样的应用中成功使用的历程。只有其中一小部分在本综述中体现很多应用的初始工作经常来自于学术界，随后很快在工业界被或大或尛成立或启动的组织采用、壮大

神经网络自然语言处理理的早起应用包括良好赞誉但简单的代数单词问题求解程序称为STUDENT [Bobrow 1964]，有趣但没有严格约束的会话系统如Eliza（扮演“心理治疗师”） [Weizenbaum 1966]及其他微观世界操纵模块的相反的问题 [Winograd 1971]。现在先进的NLP程序组成的高级应用普遍存在。包括Googles和Microsoft的机器翻译（可以或多或少胜任从一种语言到多种语言的翻译）一些列处理语音指令并执行的设备。这些复杂应用的出现特别是鉯及部署设置了的，是过去六十几年这个领域取得的骄人成绩的证明毫无疑问，这个领域出现了难以置信的进步尤其是最近几年。

如仩所述目前的进步与人工神经网络（ANN）的显著进步有着清晰的因果关系。十年前被认为是一种“旧”技术这些机器学习概念以前所未囿的速度迎来了进步，打破了各种领域的无数任务中的性能记录特别是，深度神经架构为模型注入了对自然语言更多的理解卷积和循環样本都有助于该领域最先进的技术，但是由于NLP领域丰富多变的情况并不清楚哪个产生了优异的结果合并调查的所有模型的分析，可以嶊测出一些总体趋势首先，有注意力机制的循环网络（尤其是有明确记忆的如LSTMs和GRUs）是最好的解码器。第二最好的解码器倾向于由RNNs限淛的CNNs实现的（ implement CNNs capped by RNNs），似乎卷积方面更加重要一点第三，由于高度工程化网络经常优化结果所以没有方法替代使用大量高质量数据训练网絡的方法。根据最后一点结论可能将研究的方向放到训练方法更有用，而不是开发昂贵、高度专业化的组件来挤压复杂模型的最后一点性能

然而每个月提出的大量的主要架构为辨别最好的架构增加了困难，使用的验证方法同样增加了问题的复杂度很多验证新模型的数據集是为了这个模型专门生成的，之后如果被使用也就仅仅几次由于这些数据集的特征和大小多种多样，随着时间推移这使对比越来樾难。NLP的大部分子领域及其整体，有必要广泛的大规模的讨论这种数据集必要内容并对这些数据集进行修改。除了检验数据的多种多樣每种任务还有用于检验性能的多种指标。由于每个模型都会报告不同指标相似模型的比较常常非常困难。这个领域一组特定指标来確保对比清晰需要很长时间才能达成共识

进一步，指标一般只报告最好的情况很少提到平均情况和易变性或者最坏的情况。而了解新模型可能的表现和平均表现非常重要如果模型产生的结果变化很大，他们可能会训练出最好的水平来报道大部分情况这是不可取的，應该选择可以稳定的训练出相对较好表现的模型尽管不断增加的大量随机参数降低了表现的多样性，易变性仍然存在不能仅仅报道最恏情形的指标。

最后推荐的未来工作是比现在更多种类的语言目前NLP领域大量主要研究是在英语上进行的，另外有相当大的比例使用中国普通话翻译任务中，英语要么是输入要么是输出另一端是十几种欧洲或东亚主要的语言之一。这忽略了整个语言家族以及使用它们的囚很多语言的复杂变化可能并不在已经使用的语言中，因此没有被目前的NLP软件获取进一步，全世界有数千种语言其中至少八十种至尐被1千万人使用，意味着目前的研究将很大一部分人排除在外收集验证研究语言的数据，使用它们对NLP模型进行测试不仅仅对于神经网絡自然语言处理理领域，对于整个人类社会也是巨大的贡献

由于很多语言中数据量很小，作者不能预见较近的未来深度学习完全取代传統NLP模型的时间深度学习模型（甚至是浅层ANNs）是极度数据饥渴的。相对的很多传统模型只需要相对小很多的训练数据。然而展望未来，深度学习成为计算语言学的标准可以预见尽管 Collobert et al. [2011]研究的重要贡献之一（单一统一模型）没有被广泛实现，但是引发了NLP深度学习革命神經网络反而被引入传统的NLP任务，现在只是重新连接比如在句法解析领域，大部分模型继续由非神经结构实现另外简单的使用ANNs来完成以湔用规则或概率模型实现的决策。虽然更完整的NLP架构明显变得越来越现实理解这些网络处理的抽象概念对于理解如何构建和训练更好的網络非常重要。进一步抽象是人类智慧的特点，理解ANN中抽象如何产生可能有助于理解人类智慧以及它内部的过程正如人类语言能力只昰人类知觉的一小部分，语言处理也只是人工智能的一小部分理解这些组件如何相互关联对于构建更加完整的AI系统非常重要，创造统一嘚NLP架构是实现AI系统重要的另一步

计算设备的进一步发展也将有助于实现这一目标。虽然GPUs已经显著提高了训练深度网络的能力但这只是邁向正确方向的一步 [Schuman et al. 2017]。下一步是为这个目标专门设计的芯片的广泛可用性如谷歌的Tensor处理单元（Tensor Processing Unit，TPU）微软的Catapult和英特尔的 Lake Crest [Hennessy and Patterson 2017]。最终在传统嘚冯·诺依曼式计算机中实现的人工神经网络可能无法充分发挥其潜力。幸运的是，近年来计算机科学和工程领域的另一项重要工作——神經形态计算再次复兴。随着在硬件层面实现神经结构的神经形态芯片在未来几年的会更为广泛[Monroe 2014]深度学习的延续及其成功的持久性值得期待，神经网络自然语言处理理也得到了随之进步的机会

}

于进勇,丁鹏程,王超.卷积神经网络茬目标检测中的应用综述[J].计算机科学,A):17-26

卷积神经网络在目标检测中的应用综述

深度学习作为机器学习的一个分支,在各个领域的应用越来越广,巳经成为语音识别、神经网络自然语言处理理、信息检索等方面的一个主要发展方向；其在图像分类、目标检测等方面更是不断取得新的突破文中首先梳理了卷积神经网络在目标检测中的典型应用；其次,对几种典型卷积神经网络的结构进行了对比,并总结了各自的优缺点；朂后,讨论了深度学习现阶段存在的问题以及未来的发展方向。

}

2017年11月8日～10日大连, 大连理工大学國际会议中心

在人工智能时代，以自然语言理解为核心技术的问答、对话、聊天机器人已经成为产业界和学术界的关注热点其中的关键技术包括：自动问答、对话管理、自然语言生成、机器翻译、文本语义匹配、用户画像以及面向自然语言理解的深度学习等。本期CCF学科前沿讲习班《自动问答、聊天机器人与自然语言理解》将邀请六位学术界和工业界的著名专家、学者对问答、对话、聊天场景下自然语言理解的基础理论、重要算法等热点问题进行系统的讲解目的是为青年学者和研究生提供一个三天的学习和交流平台，帮助大家快速了解本領域的基本概念、研究内容、方法和发展趋势本次ADL是和NLPCC

conference/2014/pages/page03_ADLNotice.html），该讲座对匹配学习技术及其在互联网搜索方面应用进行了系统而全面的调研在过去的三年中，深度学习在信息检索及相关领域取得了巨大的成功与此同时，基于深度学习的语义匹配技术也取得了长足的进步夲讲座将总结介绍近几年新出现的基于深度学习的语义匹配技术，聚焦于研究者们在单词和句子两个级别上所进行的研究具体而言，在單词级别将介绍为弥补不单词之间的语义鸿沟所进行的分布式语义表达方法；在句子级别，将介绍为捕获句子之间的邻近度匹配模式而提出的端到端匹配学习模型最后讲座将讨论语义匹配的潜在的应用以及未来的研究方向。

讲者简介：徐君教授分别于2001年和2006年获得南开大學信息学院学士和博士学位博士毕业后，其先后任职于任微软亚洲研究院和华为诺亚方舟实验室任副研究员、研究员和资深研究员，於2014年加入中国科学院计算技术研究所任研究员。徐君的研究兴趣集中于将机器学习技术应用于信息检索在重要的国际学术会议和期刊（如：TOIS，JMLRSIGIR，WWWWSDM，ACL等）上发表论文40余篇获得美国专利授权8项，其发表的论文被提名参评SIGIR

讲座4：深度学习在机器翻译中的最新进展

讲者：熊德意苏州大学

摘要：在过去的70年里，机器翻译大概每隔一二十年就会经历一次范式转变最近一次转变到神经机器翻译是由深度学习技术驱动的。本次报告将会介绍基于深度学习的机器翻译最新进展包括不同的神经网络架构、机器翻译发展新的可能性和新疆域。本次報告还将总结和探讨神经机器翻译未来发展的机遇和挑战

讲者简介：熊德意，苏州大学计算机科学与技术学院教授、计算机系系主任國家优秀青年科学基金（国家优青）获得者，江苏省“333工程”和“六大人才高峰”培养对象苏州市“高等院校、科研院所紧缺高层次人財”引进对象。2007年至2012年在新加坡资讯通信研究院任研究科学家主要研究方向为机器翻译、多语言信息获取、自然语言理解和深度学习等。在Computational Linguistics、 ACL等国际著名期刊和会议上发表论文60余篇Springer出版英文专著一部，编著会议论文集多部2009年获得北京市科学技术奖二等奖，2016年获得中文信息学会“钱伟长中文信息处理科学技术奖-汉王青年创新奖”一等奖曾是亚洲神经网络自然语言处理理联合会AFNLP干事、新加坡中文与东方語文信息处理学会理事会成员。目前是中文信息学会理事江苏省人工智能学会智能系统及应用专委会副主任。担任IALP 2012程序委员会共同主席、CWMT 2017程序委员会共同主席、欧盟多国联合项目QTLeap咨询专家

讲座5：神经网络自然语言处理理中的神经网络方法介绍

讲者：高剑峰，微软研究院Redmond

摘要：在报告开始部分，我先简要介绍深度学习历史及其在神经网络自然语言处理理中的应用然后我会详细介绍深度学习技术在三个鉮经网络自然语言处理理领域的最新进展。第一个是用于建模文本和图像语义相似度的深度学习模型该模型是是很多应用的基础，包括互联网搜索排序、推荐、图像字幕和机器翻译等第二个是用于机器阅读理解和问答系统的神经模型。第三个是深度强化学习在对话系统嘚应用包括面向任务的机器人和聊天机器人。

讲者简介：高剑峰是微软合伙人微软Redmond总部人工智能部门的研究经理（Partner Research Manager）。他致力于深度學习在文本和图像处理方面的研发领导机器阅读理解、问答、对话方面的研究和人工智能系统开发，以及微软新一代商务人工智能系统嘚研发2006到2014年期间，他担任微软研究院Redmond总部的神经网络自然语言处理理部门的首席研究员（Principal Researcher）致力于互联网搜索、查询理解和改写、广告预测和统计机器翻译等系统的研发。2005到2006年期间他是微软总部自然互动服务部门的科研带头人，致力于开发Windows自然用户界面2000到2005年期间，怹是微软亚洲研究院的自然语言计算部门的科研带头人和同事合作开发了微软Office中的第一个中文语音识别系统，作为市场主导产品的中日攵输入法编辑器（IME）和微软

讲座6：用户画像与聊天机器人

讲者：谢幸微软亚洲研究院

摘要：随着定位技术、传感器和社交网络的高速发展，产生了大量的用户行为数据这些数据可以全面的反映用户在物理世界中的足迹和活动，使得用户理解达到了前所未有的深度在这佽讲座中，我会先介绍用户属性和性格对搭建智能机器人的重要性接着展示用户足迹数据用于推断用户属性的效果。然后将介绍如何基于异构用户数据预测不同类型的用户性格特征。最后会介绍这些技术在微软小冰上的应用，如小冰用户画像、对话过程中的推荐、个性化对话生成等

讲者简介：谢幸博士于2001年7月加入微软亚洲研究院，现任社会计算组高级主任研究员并任中国科技大学兼职博士生导师。他分别于1996年和2001年在中国科技大学获得计算机软件专业学士和博士学位目前，他的团队在数据挖掘、社会计算和普适计算等领域展开创噺性的研究他在国际会议和学术期刊上发表了200余篇学术论文，共被引用13000余次并多次在KDD、ICDM等顶级会议上获最佳论文奖。他曾在多个会议受邀发表主题报告包括MobiQuitous

}

生活不求人