一种深度学习的快速学习算法 下载本文

内容发布更新时间 : 2024/6/29 12:14:32星期一 下面是文章的全部内容请认真阅读。

一种深度学习的快速学习算法

Hinton, G. E., Osindero, S. and Teh, Y.

摘要:

我们展示了如何使用“先验的补充”,以消除解释离开的影响,使在有许多隐藏层密集相连的信念网推理困难。使用互补先验,推导一种快速,贪心算法,可以在一个时间学习深,有向信任网络一层,设置在顶部两层形成一个无向相联存储器。快速,贪心算法被用来初始化一个较慢的学习过程,使用所述唤醒睡眠算法的对比版本微调的权重。经过微调,有三个隐藏层的网络构成了手写数字图像和它们的标签的联合分布的一个很好的生成模型。这生成模型提供了更好的数字比分类的判别最好的学习方法。低维流形在其上的数字谎言由长沟壑在顶层联存储器的自由能量景观进行建模,这是容易探索这些沟壑通过使用定向的连接,以显示什么相联存储器具有记。 1.介绍

学习难以在密集连接的,即有许多隐藏层,因为它是难以推断的隐藏活动的条件分布当给定一个数据矢量定向信念网。变分方法使用简单的近似真实条件分布,但近似值可能是差的,特别是在最深隐藏层,其中事先假定独立性。另外,变学习仍然需要所有一起被了解到的参数,使学习时间差缩放作为参数的数量增加。

我们描述了一种模型,其中,顶部的两个隐藏层形成一个无向关联存储器(见图1)和剩余的隐藏层形成,在相联存储器将观测变量的表示变换如图象的象素的向无环图。这种混合模式有一些吸引人的特点:

1.有一个快速的,贪婪的学习算法,可以找到一个相当不错的参数集快,即使在深网络与数以百万计的参数和许多隐藏的图层。

2. 学习算法是无监督,但可以通过学习一个模型,同时生成的标签和数据被施加到标签的数据。

3. 有一个微调算法,学习优良的生成模型优于手写数字的MNIST数据库上判别方法。 4. 生成模型可以很容易地理解在深隐层分布式表示。 5. 需要形成一个知觉推理是既快速又准确。

6. 学习算法是本地:调整突触强度只依赖于突触前和突触后神经元的状态。 7. 沟通是简单的:神经元只需要传达他们随机二进制状态。

第2节介绍的想法“互补”之前这正是取消“解释离开”的现象,使推理难以在指挥模式。定向信念网络具有互补先验的一个实例。第3节显示了限制玻耳兹曼机之间和无限向网络使用权并列的等价性。

第4节介绍了一种快速,贪婪学习算法的时间构建多层向网络一层。使用变约束它表明,因为每个新层添加,整体生成模型提高。贪心算法有某些相似之处,以提高其重复使用相同的“弱”学习的,但不是每个重新加权数据载体,以保证下一步学习新的东西,它会重新代表它。是,用于构造深定向网的“弱”学习者是本身无向图形模型。

第5节指出由快速贪婪算法产生的权重如何能够进行微调使用“上下”算法。这是唤醒休眠算法顿等人的对比版本。(1995),其不从“模式平均”的问题,可能会导致唤醒睡眠算法学习差识别权重受损。

第6节显示了一个网络有三个隐藏层并在MNIST一套手写数字约为170万权重模式识别性能。当没有知识的几何设置,并且没有特殊的预处理,网络的推广能力是在101.25%的误差; 000数字网络官方测试集。这被击败最好的反向传播网实现时,不手工精制而成,为这个特殊的应用,他们的1.5%。它也比同一任务支持向量机报告Decoste和Schoelkopf(2002年)的1.4%的误差略胜一筹。

最后,第7示出当它不被约束通过视觉输入运行在网络的头脑发生了什么。该网络有一个完整的生成模型,所以很容易寻找到了主意 - 我们只是生成了高级别交涉的图像。

整篇文章,我们会考虑网随机二元变量组成,但思想可以推广到其他车型,其中一个变量的数概率是其直连的邻居状态的附加功能(请参阅附录A了解详细信息)。

图1:用于模拟数字图像和数字标签的联合分布的网络。在本文中,每个训练情况下由图像和显式类标签的,但在正在进行的工作已经表明,同样的学习算法可以如果“标签”是由一个多层通路的输入是从多个不同的扬声器谱图替换使用话说隔离数字。然后,网络学习,以产生对,它由一个图象,并且在同一数字类的谱图。

图2:包含两个独立的,少见的原因是变得高度抗相关,当我们观察到的房子跳一个简单的逻辑的信念网。 10地震节点上的偏置装置,在没有任何观察,此节点是E10倍更可能是又比上。如果地震节点上,叉车节点是关闭的,跳转节点具有0总输入,这意味着它具有偶数几率成为上。这是一个更好的解释,房子比跃升20?的适用如果没有隐藏的原因是活动的赔率观察。但它是一种浪费就开启,既隐藏的原因来解释,因为观察他们两人发生的概率为E-10 E-10= E20.当地震节点开启了“解释离开”为卡车节点证据。 2互补先验

客场解释的现象(在网络古尔2所示)进行推理难以在定向信念网。在密集连接的网络,在隐变量的后验分布是棘手除少数特殊情况下,如混合模型或线性模型的加性高斯噪声。马尔可夫链蒙特卡罗方法(尼尔,1992年),可用于从后品尝,但它们通常非常耗时。变分法(尼尔和欣顿,1998年)近似真实后具有更易于处理的分布,它们可以被用来改善对训练数据的对数概率的下限。令人欣慰的学习是保证提高,即使隐藏状态的推断操作不当势必一变,但它会好得多第二科幻消除解释完全走的方式,即使在车型的隐藏的变量有高度相关性的影响上的可见的变量。人们普遍认为这是不可能的。

一个逻辑的信念网(尼尔,1992年)是由随机二进制单位。当网被用于生成数据,装置接通i的概率是它的直接祖先,j的状态的逻辑功能,和权重,Wij,从祖先定向连接:

其中,Bi是我单位的偏差。如果一个逻辑信念净只有一个隐藏层,先验分布在隐变量是阶乘,因为它们的二进制状态为独立选择的,当模型被用来产生数据。非独立于后部分布由似然项从所述数据到来创建。也许我们可以消除额外的使用隐藏层来创建一个“补充”之前,有完全相反的关系到那些在任期的可能性的第一个隐藏层中解释了。然后,当似然性项乘以在先,我们将得到的后这正是阶乘。这是不是在所有明显的互补先验存在的,但网络古尔图3显示的是无限的物流信念网一个简单的例子绑权重,其中先验是每隐藏层补充(见附录A的条件下更加一般治疗这互补先验存在)。使用捆绑的权重,构建互补的先验可能看起来像一个纯粹的把戏使定向模式等同于无向的。正如我们将要看到的,但是,它导致了一种新的和非常有效的学习算法,它通过逐步从权重解开的权重中的每个层中更高的层。 2.1在一个无限定向模型绑权重

我们可以从在无限向网在图3中通过启动与随机配置以在网络连接奈特雷深藏层,然后进行自顶向下的生成数据“祖先”传递,其中,每个变量在一个层中的二进制状态从选择贝努利分布通过自上而下输入从其活跃父母在上面的层未来确定的。在这方面,它只是像任何其他向无环信念网。不同于其他定向网,然而,我们可以从以上所有隐藏层的真实后验分布通过启动上的可见单元的数据向量,然后使用转置权重矩阵来推断在每个隐藏层依次阶乘分布进行采样。在每一个隐藏层,我们计算阶乘后的上述2附录A层,从之前的阶乘样品后表明,该方法给出了公正的样品,因为之前互补每层保证后验分布真的是阶乘。 因为我们可以从真后样,我们可以计算数据的对数概率的衍生物。让我们先来计算衍生的生成量,w00ij,从层H0单位J可我单位在层V0(见图3)。在后勤信念网,用于单个数据向量的最大似然学习规则,V0,是: