深度学习2015十佳论文 下载本文

Clustering is Efficient for Approximate Maximum Inner Product Search

Alex Auvolat, SarathChandar, Pascal Vincent, Hugo Larochelle,

YoshuaBengio 2015/7/21

摘要:

高效的最大内积搜索(MIPS)是一项重要的任务,在推荐系统和分类大量类别的分类器中都有广泛的应用。基于局部敏感哈希算法(Locality-Sensitive Hashing, LSH)的解决方法和基于树的解决方法在近来的文献中都得到许多研究,用以在次线性时间中进行近似MIPS。这篇文章中,我们将这些方法与另一种极为简单的k-平均聚类算法的变种在解决近似MIPS任务上做了比较。

Hugo的点评:

由于内积是神经网络计算中的主要单元之一,我对于MIPS非常感兴趣,猜测它可能在扩大神经网络规模时扮演着重要的角色。这篇文章中提到的一个例子是,一个神经网络语言模型输出层的近似计算,对应于一个对于大量(和词汇里的词语数量一样多)单元的softmax回归。

“MIPS到MCSS”的变换加上球形聚类,我感到这一组合既精巧又简洁。鉴于与哈希算法相比它的结果相当出色,我认为这个方向非常值得研究。

6、在线无回溯训练递归神经网络

Training Recurrent Networks Online without Backtracking

Yann Ollivier, Guillaume Charpiat

2015/7/28

摘要:

我们引入了“无回溯(NoBackTrack)”算法来训练动态系统——例如递归神经网络——的参数。这种算法可以在在线的、没有内存的环境下工作,因此无需进行根据时间的反向传播,并且是可扩缩的,避免了为保留关于参数当前状态的完整梯度所需要的大量的运算成本和存储成本。简单任务上的初步测试显示,与保留完整梯度相比,这个算法中引入的梯度的随机近似值看上去并不会为轨迹带来太多噪音,并且也确认了NoBackTrack的类卡尔曼(Kalman-like)版本拥有良好的性能和可扩缩性。

Hugo的点评:

RNN的在线训练是一个巨大的尚未解决的问题。

目前人们使用的方法是将反向传播截到只剩几步,这只是一种摸索出来的办法。

这篇论文向一种更为理论式的方法做了努力。我非常喜欢作者们在公式7中展现出来的小技巧,棒极了!并且这也是这个方法的关键步骤。

作者们展示了初步的研究结果,他们也的确没有与截断式反向传播作比较。我非常希望他们能在未来做一下比较。另外,我不认为我对他们“随机梯度下降理论可以应用”的说法买账。

7、利用梯形网络进行半监督式学习

Semi-Supervised Learning with Ladder Network

Antti Rasmus, HarriValpola, MikkoHonkala, Mathias Berglund,

TapaniRaiko 2015/7/9

摘要:

我们将深度学习网络中的监督式学习和非监督式学习混合在一起。我们提出的这个模型,训练后用于同时将监督式学习和非监督式学习的反向传播成本降到最低,无需再使用一层一层处理(layer-wise)的预训练。这基于Valpola(2015)提出的梯形网络,我们将监督式方法加入其中,进一步拓展了梯形网络模型。我们展示了最终获得的这个模型在多种任务中——半监督式环境下MNIST和CIFAR-10分类,以及半监督式和全标记(full-labels)环境下置换不变(permutation invariant)的MNIST——都有顶尖水准的表现。

Hugo的点评:

这篇论文最让我感到兴奋的就是模型的表现。在MNIST中,只有100个标记过的例子,而这个模型的错误率却可以低到1.13%!这可以与用全部训练集训练的堆叠去噪自编码器(stacked denoisingautoencoders)媲美了(虽然这是指在做ReLUs和批量正态化之前训练出的自编码器,而这篇论文的模型已经用到了这两种操作)!这与现在深度学习中的一种想法吻合:虽然深度学习领域最近应用

于大体量已标记数据集的研究进展都不依赖于任何非监督式学习方法(不像深度学习2000年代中期“起步”的时候),半监督式环境下的非监督式学习可能才是最适合少量已标记数据的数据集的方法。

不幸的是,作者们提到了实验中有一个小问题:虽然训练时他们没有使用多少标记好的数据,模型选择时仍然用到了验证集中全部10k个标记。这当然是不够理想的。

8、通往基于神经网络的推理

Towards Neural Network-Based Reasoning

Baolin Peng, Zhengdong Lu, Hang Li, Kam-Fai Wong

2015/8/22

摘要:

我们提出了“神经推理器(Neural Reasoner)”,一种基于神经网络对自然语言语句进行推理的架构。对于给定的问题,神经推理器会从多个得到支持的事实中进行推测,随后为这个问题找出答案。神经推理器具有1)一种特殊的池化交互(interaction-pooling)机制,使得它能够查阅多个事实,以及2)一个深度的架构,使得它能够为推理任务中复杂的逻辑关系进行建模。在问题和事实中没有特别的结构的情况下,神经推理器能够适应不同类型的推理和不同形式的语言表述。我们的实证研究显示,神经推理器完胜现存的其他神经推理系统,在2种困难的人工任务(位置推理和路径规划)中都有不俗的优势。

Hugo的点评:

这篇论文对我来说最有趣的一点可能是,它展现了运用非监督的辅助任务,比如“Original”(重构原始语句),可以显著提高模型表现。对我来说这可能是这篇文章指明的最让人兴奋的研究方向。

我也很喜欢这篇文章中表达模型的方式。我没花多少时间就看懂了这个模型,事实上我也发现它比记忆网络(Memory Network)模型更容易理解,尽管它们其实非常相似。我想这个模型的确比记忆网络稍微简单了一点,这是一件好事。这也指出了另一种解决这个问题的方法——不只是问题的表征,事实的表征也在正向传播中不断更新。