深度学习2015十佳论文

【arXiv】2015 深度学习年度十大论文

2016-01-09

新智元原创1

来源:Kdnuggets 译者:王婉婷 作者:Matthew Mayo

由康奈尔大学运营维护着的arXiv网站,是一个在学术论文还未被出版时就将之向所有人开放的地方。这里汇聚了无数科学领域中最前沿的研究,机器学习也包括在内。它反映了学术界当前的整体趋势,我们看到,近来发布的机器学习研究有许多都与深度学习有关。

HuhoLarochelle博士是加拿大舍布鲁克大学(Université de Sherbrooke)机器学习教授,Twitter的研究员,有名的神经网络研究者,以及深度学习狂热爱好者。从2015年夏天开始,他就一直在撰写并发布他对于arXiv上他感兴趣的机器学习论文所做的笔记。

以下是HuhoLarochelle评选出的arXiv深度学习年度十佳论文。

1、无穷维度的词向量

Infinite Dimensional Word Embeddings

Eric Nalisnick, Sachin Ravi

2015/11/17

摘要:

我们描述了一种用随机维度(stochastic dimensionality)学习词向量的方法。对于给定的某个词向量、它的语境向量(context vector)、以及它们的维度,我们的无穷Skip-Gram模型(iSG)给出了一种基于能量的联合分布(energy-based joint distribution)。通过运用追踪无穷受限玻尔兹曼机(Infinite Restricted

Boltzmann Machine)变化的技术,我们定义了可数无穷范围内的词向量维度,使得向量在训练中可以根据需要增加。

Hugo的点评:

这是对于我们在iRBM中引入的“无穷维度(infinite dimensionality)”的一种相当有创意的用法。这并不完全是一个“即插即用(plug and play)”的方法,所以作者们需要聪明地估算所需的iSG的训练量。

定性结果显示出了维度数量的条件如何隐含了多义性信息,非常简单利落!分布式词向量背后的假定之一就是它们应该能够表征出一个词的多种含义,所以看到这一点得到验证是一件让人愉快的事。

我觉得这篇论文唯一缺少的东西就是与传统skip-gram(可能还有其他词向量方法)在某个特定任务或是词语相似性任务中进行比较。论文的第二个版本中,作者们的确提到了他们正在做这件事,所以我非常期待能看到结果!

2、利用可逆学习进行基于梯度的超参数优化

Gradient-based Hyperparameter Optimization through Reversible Learning

Dougal Maclaurin, David Duvenaud, Ryan P. Adams

2015/2/11

摘要:

通过在整个训练过程中不断向后链接导数(chaining derivatives backwards),我们计算了对于所有超参数交叉验证的表现的具体梯度。这些梯度让我们能够优化数以千计的超参数,包括步长(step size)和动量(momentum)、初始权重分布、丰富参数化的正则化方法(richly parameterized regularization schemes)、以及神经网络结构。

Hugo的点评:

这是我2015年最喜欢的文章之一。虽然展开梯度下降的一些步骤(论文中写了100次迭代)让这种方法对于大型网络来说有一些不切实际(这可能就是为什么他们考虑的是一个每层仅含50个隐藏单元的3层网络),它为我们打开了一扇有趣到不可思议的窗户,让我们看到什么样的方法才是为神经网络选择超参数的

好方法。值得注意的是,为了大

>>灞曞紑鍏ㄦ枃<<
12@gma联系客服:779662525#qq.com(#替换为@)