深度学习2015十佳论文 下载本文

【arXiv】2015 深度学习年度十大论文

2016-01-09

新智元原创1

来源:Kdnuggets 译者:王婉婷 作者:Matthew Mayo

由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了学术界当前的整体趋势,我们看到,近来发布的机器学习研究有许多都与深度学习有关。

HuhoLarochelle博士是加拿大舍布鲁克大学(Université de Sherbrooke)机器学习教授,Twitter的研究员,有名的神经网络研究者,以及深度学习狂热爱好者。从2015年夏天开始,他就一直在撰写并发布他对于arXiv上他感兴趣的机器学习论文所做的笔记。

以下是HuhoLarochelle评选出的arXiv深度学习年度十佳论文。

1、无穷维度的词向量

Infinite Dimensional Word Embeddings

Eric Nalisnick, Sachin Ravi

2015/11/17

摘要:

我们描述了一种用随机维度(stochastic dimensionality)学习词向量的方法。对于给定的某个词向量、它的语境向量(context vector)、以及它们的维度,我们的无穷Skip-Gram模型(iSG)给出了一种基于能量的联合分布(energy-based joint distribution)。通过运用追踪无穷受限玻尔兹曼机(Infinite Restricted

Boltzmann Machine)变化的技术,我们定义了可数无穷范围内的词向量维度,使得向量在训练中可以根据需要增加。

Hugo的点评:

这是对于我们在iRBM中引入的“无穷维度(infinite dimensionality)”的一种相当有创意的用法。这并不完全是一个“即插即用(plug and play)”的方法,所以作者们需要聪明地估算所需的iSG的训练量。

定性结果显示出了维度数量的条件如何隐含了多义性信息,非常简单利落!分布式词向量背后的假定之一就是它们应该能够表征出一个词的多种含义,所以看到这一点得到验证是一件让人愉快的事。

我觉得这篇论文唯一缺少的东西就是与传统skip-gram(可能还有其他词向量方法)在某个特定任务或是词语相似性任务中进行比较。论文的第二个版本中,作者们的确提到了他们正在做这件事,所以我非常期待能看到结果!

2、利用可逆学习进行基于梯度的超参数优化

Gradient-based Hyperparameter Optimization through Reversible Learning

Dougal Maclaurin, David Duvenaud, Ryan P. Adams

2015/2/11

摘要:

通过在整个训练过程中不断向后链接导数(chaining derivatives backwards),我们计算了对于所有超参数交叉验证的表现的具体梯度。这些梯度让我们能够优化数以千计的超参数,包括步长(step size)和动量(momentum)、初始权重分布、丰富参数化的正则化方法(richly parameterized regularization schemes)、以及神经网络结构。

Hugo的点评:

这是我2015年最喜欢的文章之一。虽然展开梯度下降的一些步骤(论文中写了100次迭代)让这种方法对于大型网络来说有一些不切实际(这可能就是为什么他们考虑的是一个每层仅含50个隐藏单元的3层网络),它为我们打开了一扇有趣到不可思议的窗户,让我们看到什么样的方法才是为神经网络选择超参数的

好方法。值得注意的是,为了大幅降低这种方法需要的内存,作者们在对网络权重变化进行编码的时候表现出了非同一般的创造力和智慧。

有不计其数的有趣实验我想推荐这篇文章读者去看一看(见论文的section3部分)。

“对训练集做训练”的实验——生成10个例子(每个类别一个例子),使得通过这些例子进行训练的网络的验证集损失最少——是一个相当酷的想法(它在本质上是在MNIST上学习从数字0到数字9的原型图像)。

要注意的是,和这篇文章提到的方法类似的这一类方法,会让自动微分工具变得极其有价值。同样由论文作者发布的自动微分Python包,Python autograd(https://github.com/HIPS/autograd,这给了我们灵感开发了我们自己的Torch autograd:https://github.com/twitter/torch-autograd),事实上就是在这个研究进行的时候开发的。

3、在线加速学习

Speed Learning on the Fly

Pierre-Yves Massé, Yann Ollivier

2015/11/8

摘要:

我们将学习轨迹的整体表现视为是关于步长(step size)的函数,提出了通过对步长本身做梯度下降来适应(adapt)步长。重要的是,这种适应的计算可以用很少的代价在线进行,无需向后迭代全部数据。

Hugo的点评:

我觉得作者们准确无误地击中了在线学习面临的挑战。如果是在线训练神经网络的话,我想这些挑战可能会变得更艰巨,现在对此几乎没有让人满意的解决方法。所以这是一个让我非常兴奋的研究方向。

在这篇文章里,实验中考虑到的都是相当简单的学习情景,但我并没有看到任何障碍、使这种方法无法应用到神经网络上。结果中一个有趣的地方是,“学习速

率的学习速率(thelearning rate of the learning rate)”的变异(variation)是相当稳健的。

最后,我还没有时间来完整地消化他们其中一个理论结果:他们的近似值(approximation)实际上对应于一个和梯度下降的效果轨迹(effective trajectory)有关的梯度。但是这个结果看上去非常有趣,值得多加关注。

4、空间变换网络

Spatial Transformer Networks

Max Jaderberg, Karen Simonyan, Andrew Zisserman, KorayKavukcuoglu

2015/6/5

摘要:

我们引入了一个全新的可学习(learnable)模块,空间变化模块(the Spatial Transformer),使得我们能够对网络内的数据进行空间变换操作。这个模块可以被插到现有的卷积结构中,赋予神经网络主动对特征图进行空间转换的能力,无需任何额外增加训练时的监督或是对于优化步骤的调整。

Hugo的点评:

虽然之前就有对于DRAW做的研究,也提出了相似的方法来进行图像的学习变换,但这篇论文比DRAW的那一篇深入得多,并且让这种方法能够实现更多样的变换种类。我也非常喜欢他们在卷积神经网络中应用这种空间变换的想法,这也是那篇DRAW论文中所没有的。

对于这篇论文我实在挑不出什么问题,它太严谨了!

我能想到的唯一一件事就是,在CUB-200-2011实验中,作者们用到了ImageNet预训练的Inception网络来建立他们自己的模型。提到这一点的唯一原因是,CUB-200-2011数据集实际上包括了来自于ImageNet训练集中的图片——幸运的是,数量非常少,所以这不会改变整体的结果分析。我觉得有趣的还有,通过这种变换,学习变得越来越普遍,看上去作为深度学习研究者的我们将会需要开始在未来对这个方向投入更多关注。

5、聚类对于近似最大内积搜索来说是高效的