深度学习2015十佳论文 下载本文

9、对递归神经网络序列预测的定期采样

Scheduled Sampling for Sequence Prediction with Recurrent Neural Networks

SamyBengio, OriolVinyals, NavdeepJaitly, Noam Shazeer

2015/6/9

摘要:

递归神经网络可以被训练用于对给定的输入生成字符序列(sequence of tokens),比如在机器翻译和读图方面最近的一些成果就是例子。现在进行这种训练的方法包括了在给定当前(递归)状态和之前的字符(previous token)的情况下最大化序列中每个元素的可能性(likelihood)。在推断时,之前的字符未知的位置就会被模型自己生成的一个字符所取代。训练和推断之间的差异会导致误差在生成序列的的过程中快速积累。我们提出了一种略微改变训练过程的学习策略,从完全使用真实的之前的字符变成大部分时候使用模型生成的替代字符。我们进行了数个序列预测任务实验,结果显示,这种方法带来了显著的提升效果。

Hugo的点评:

我是这篇文章的大粉丝。它指出了现行序列预测模型的重要缺陷,而且最重要的是,它提供了一个简单却有效的解决方法。我也相信,这篇文章中提出的方法在谷歌获得胜利的读图(image caption)系统中扮演了不可或缺的角色。

我对于Scheduled Sampling方法为何能够起效还有另一种解释。机器学习训练并不会让模型知道它产生的误差的相对质量。从机器学习的角度来说,对一个仅有1个字符错误的输出序列分配高概率,和对一个所有字符都错误的输出序列分配同样高的概率,是一样糟糕的。但是,在读图生成语句的任务中,输出一句只有一个词语与实际情况不同的句子显然是更理想的。

通过将模型训练得稳健于它自己产生的错误,Scheduled Sampling方法确保了误差不会累积,让做出离谱预测的可能性大大减小。

10、LSTM:漫游搜索

LSTM: A Search Space Odyssey

Klaus Greff, Rupesh Kumar Srivastava, Jan Koutník, Bas R. Steunebrink,

Jürgen Schmidhuber

2015/3/13

摘要:

在这篇文章中,我们展示了首个在3种代表性任务上——语音识别,手写识别,和弦建模——对于8种LSTM变种做的大规模分析。每个任务中所有LSTM变种的超参数都通过随机搜索(random search)被单独地优化过,而它们的重要性是通过强大的fANOVA框架进行评估的。我们总共总结了5400次实验的结果(大约15年的CPU时间),这让我们的研究成为了LSTM网络比较分析中规模最大的一个。结果显示,没有一种变种能在标准LSTM架构的基础上表现出显著的提升。我们进一步观察到,研究中涉及的超参数几乎是独立的,于是我们提出了一些方法来改善它们。

Hugo的点评:

这一篇论文非常有用。我会把它列为任何想要开始使用LSTM的人都必读的文章。首先,我发现文中对于LSTM发展历史的介绍非常有趣也非常清晰。更重要的是,它既为刚涉足LSTM的人提供了良好的基础,也充满洞见地阐述了LSTM每个部分的重要性。

这个基于fANOVA(我直到看了这篇文章才知道这种方法)的分析非常简洁明了。也许最让人惊讶的结果就是动量看上去并不能在实际上带来太多帮助。观察超参数之间的二阶交互作用是一个很聪明的做法(结果显示联动地调整学习速率和隐藏层可能并没有想象中那么重要,这是很有启发意义的一点)。图4中展示了学习速率/隐藏层尺寸/输入中的噪音变异(input noise variance)与模型表现/训练时间之间的估测关系,也充满了有用的信息。