当前位置: 网站首页 > 法学论文 > > 文章 当前位置: 法学论文 > 文章

信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公论文

时间:2022-02-27 17:31:46    点击: 113次    来源:论文资源网    作者:网络摘文 - 小 + 大

这篇博士论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果,非常值得一读。

深度学习的黑箱属性一直为人所诟病,很多研究者都在努力解决这一问题。其中,用信息论来提高深度神经网络的可解释性是一个非常有趣的方向。

在这个方向上,「信息瓶颈」提出者、希伯来大学计算机科学教授 Naftali Tishby 及其学生的论文属于必读文献。

2015 年,Tishby 和他的学生 Noga Zaslavsky 发表了一篇论文,假设深度学习是一个信息瓶颈程序,尽可能地压缩数据噪声,保留数据想表达的信息。也就是说,神经网络就像把信息挤进瓶颈一样,只留下与一般概念最为相关的特征,去掉大量无关的噪音数据。

2017 年,Tishby 和他的另一个学生 Ravid Shwartz-Ziv 联合进行了一场引入注目的实验,揭示了发生在深度学习之中的挤压过程,表明深度神经网络在压缩状态中提高泛化能力,从而更加擅长标记测试数据。这篇论文就是大名鼎鼎的《 Opening the black box of Deep Neural Networks via Information 》。深度学习先驱 Geoffrey Hinton 在听了 Tishby 的报告之后给他发了邮件:「信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。」纽约大学心理学和数据科学助理教授 Brenden Lake 也认为,Tishby 的研究成果是「打开神经网络黑箱的重要一步」。

信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公论文

在这篇论文之后,Tishby 及其学生继续在深度学习 + 信息论的方向上深入研究。但不幸的是,Tishby 于去年 8 月份离世,剩下的问题只能交给后人来探索。

在 Tishby 去世的这年,Ravid Shwartz-Ziv 完成了他的博士论文 ——《 Information Flow in Deep Neural Networks 》。

这篇论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果,非常值得一读。

信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公论文

最近,Ravid Shwartz-Ziv 表示,他已经将该论文上传到了 arXiv。

信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公论文

信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公论文

论文链接:https://arxiv.org/pdf/2202.06749.pdf

以下是论文的大致内容。

Ravid Shwartz-Ziv 的博士论文

尽管深度神经网络已经取得了巨大的成功,但我们还没有一个全面的理论来解释这些网络如何工作或如何构造。深度网络通常被视为黑盒,我们无法清楚地解释它们的预测结果或可靠性。如今,了解深度神经网络的突破性性能是科学界面临的最大挑战之一。为了更有效地使用这些算法并改进它们,我们需要了解它们的动态行为(dynamic behavior)以及它们学习新表示的能力。

在这篇博士论文中,作者应用了信息论中的原理和技术来解决上述问题,以提高我们的理论理解,并运用这一理解来设计更好的算法。

信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公论文

论文的主要成果和贡献可以分为三个部分,具体如下:

第二章和第三章介绍了作者针对深度学习模型提出的信息论方法

作为对深度学习系统的解释,作者提出使用信息瓶颈(IB)理论。这种分析网络的新范式揭示了它们的分层结构、泛化能力和学习动态。基于这一分析,作者发现深度网络优化了每一层关于输入和输出变量的互信息,导致每一层都要在压缩和预测之间做出权衡。作者对这些网络的分析和数值研究表明,随机梯度下降算法遵循 IB 权衡原则,分两个阶段工作:快速经验误差最小化阶段和慢速表示压缩阶段。这些阶段通过每层不同的信噪比(SNR)来区分。

此外,他们证明了 SGD 由于压缩阶段而达到了这个最优界限,并在表示压缩上导出了一个新的高斯界限,同时将其与压缩时间联系起来。他们的结果还表明,网络的层收敛到 IB 理论界限,导致编码器和解码器分布之间的自洽关系。

第四章讨论了将 IB 应用于深度神经网络时最困难的问题之一 —— 估计高维空间中的互信息

尽管互信息在数据科学中是一个重要的量,但它在计算方面一直很有挑战性。互信息的计算只适用于离散变量或已知概率分布的有限数量的问题。为了更好地估计信息论数量(information-theoretic quantities)并研究泛化信号,作者研究了几个框架,并利用了最近的理论研究成果,如神经正切核(NTK)框架。

上一篇:安徽省职工养老保险政策论文

下一篇:美国女大学生用论文形式写性爱日记引轰动(组图)论文

热门标签
友情链接
Copyright © 2002-2017 ltmuye.com. 论文资源网 版权所有 网站地图 | TXT | 鲁ICP备16041055号