鄂维南,北京科学智能研究院理事长,北京大学国际机器学习研究中心主任,武汉数学与智能研究院学术委员会主任。中国科学院院士,美国数学学会、美国工业与应用数学学会、英国物理学会、中国工业与应用数学学会、中国运筹学会、中国计算机学会Fellow。研究领域为机器学习、计算数学、应用数学。2022 年国际数学家大会1小时报告人。2022年国际机器学习大会特邀报告人。2003年获国际工业与应用数学协会Collatz奖。2020年获国际高性能计算最高奖ACM Gordon Bell奖。2023年获国际工业与应用数学协会Maxwell奖。
摘要
深度学习方法起源于20世纪80年代。其根源一方面来自于霍普菲尔德在生物物理学方面的工作,另一方面来自于辛顿的玻尔兹曼机、多层感知机和反向传播算法等一系列工作。今年的诺贝尓物理学奖肯定了人工神经网络和深度学习作为物理学的研究对象,给物理学提供了一个迫切需要的新的增长点。这个奖项对物理学和人工智能的发展,都会带来帮助。
关键词:人工神经网络、记忆、吸引子、深度学习
2024年诺贝尔物理学奖授予了约翰·霍普菲尔德(John J. Hopfield)和杰弗里·辛顿(Geoffrey E. Hinton), 以表彰他们用开创性方法和概念在塑造人工神经网络领域方面发挥的重要作用。这一奖项引发了广泛关注和讨论,尤其是辛顿的获奖。从传统的观点来看,辛顿本人的研究生涯跟物理学几乎没有交集。那么他为什么能够获得诺贝尔物理学奖?在许多人眼里,诺贝尔物理学奖是诺贝尔奖中含金量最高也是要求最苛刻的一个奖项。物理学家或者物理学的工作在其它领域获奖的例子并不少见。例如密度泛函理论,虽然是物理学家的工作,也发表在物理学期刊上,但是获得了诺贝尔化学奖。而其他领域的科学家或其他领域的工作获得诺贝尔物理学奖的例子却很难找到。如何看待这个诺贝尔物理学奖,尤其是辛顿的获奖?本文提供一个个人视角。
首先,这个诺贝尔物理学奖究竟奖励的是什么工作。在公开的获奖介绍里提到,此奖项是表彰基于人工神经网络实现机器学习的基础性发现和发明。霍普菲尔德首先提出从一个充分大的、简单重复的动力系统中可以涌现出计算能力,比方说记忆[1]。
这些记忆以动力系统吸引子的形式出现。那些简单重复的单元可以被视为神经元。这个机制是鲁棒的,它对神经元模型的细节并不敏感,所以我们既可以把这个动力系统看成是一个脑神经网络的模型,也可以把它看成是一个集成电路或者人工神经网络的模型。
从一个充分大的、简单单元的叠加构建起来的动力系统中可以涌现出宏观吸引子,这个现象本身并不是霍普菲尔德首先发现的。流体力学中的涡就可以看成是这类现象。但我们不能把涡看成是记忆。一个有用的记忆模型必须能够记住任何我们希望它记住的状态。也就是说,任给几个状态,我们必须能够选取上述动力系统中的超参数,使得这些状态是这个动力系统的吸引子。霍普菲尔德的神经网络模型具备这个性质。
神经网络的概念起源于1943 年McCulloch 和 Pitts 的文章[2]。Rosenblatt的感知机对人工智能的发展也产生了巨大影响[3]。但这些工作关心的都是比较简单直接的计算功能。霍普菲尔德的工作让我们首先看到通过涌现现象,大神经网络可能带来的新的能力。这是一个新的视角,也是一项典型的生物物理学工作。它把复杂动力系统的想法应用于神经科学,对后来神经科学的发展产生了深远影响。随便提一下,多年之后,涌现现象成了深度学习大模型的一个重要标志。
辛顿则是深度学习的孕育者。他缔造了深度学习,也承受了过程中的痛苦。辛顿受霍普菲尔德工作的影响,但关注的是人工智能。他提出的玻尔兹曼机、多层感知机和反向传播算法,为现代深度学习奠定了基础[4, 5]。无论是玻尔兹曼机,还是反向传播算法,离诺贝尔物理学奖的要求还是有距离的。尽管玻尔兹曼机中创造性地引入了概率模型,但在众多的神经网络模型中,很难说它起到了很特别的作用。反向传播算法是训练深度神经网络的基本工具,但类似的想法已经更早出现在控制论方法中[6]。辛顿的主要贡献在于他通过一系列的工作,如多层感知机、反向传播算法以及AlexNet, 引入了深度学习这个工具并让我们看到了它的强大威力[7]。
这个过程并不很顺利,包括辛顿的博士指导导师在内的很多人对他选择的方向都不看好,但他最终通过AlexNet 等工作说服了学术界。这背后的动力,在于他对神经网络的深刻的洞察力。辛顿坚定不移地认为,神经网络有着巨大的潜在能力。如果有足够高质量的数据和足够大的模型,深度学习的威力就会显现出来。人工智能现在的进步,根本上还是来源于辛顿多年来的坚持和推动。
对物理学来说,这个诺贝尔奖至少有两方面的意义。第一,它强化了物理学对人工智能发展的贡献。通过霍普菲尔德到辛顿这样一条线索,让人们意识到物理学在人工神经网络乃至人工智能发展中的重要作用。这是一个极其高明的宣传手段。更重要的是,它为物理学的发展打开了一个巨大的空间。尽管神经网络本质上是一个数学工具,但是物理学的方法很可能可以提供一些新的视角和新的手段。尤其重要的是,大模型是一个复杂系统。许多复杂系统研究中观察到的现象和发展起来的方法,都可能对大模型的研究有帮助。如标度律和涌现现象,都已经在大模型中出现。把它作为物理学新的研究对象,无论是对物理学的发展,还是对人工智能的发展,都会带来帮助。它给物理学提供了一个迫切需要的新的增长点。
如果我们把深度学习看着是一个20世纪80年代诞生的婴儿,那么霍普菲尔德就像是它的父亲,辛顿就像是它的母亲。这就是这个诺贝尔物理学奖的意义。
参考文献(略)
原文链接:《中国科学基金》 | 鄂维南院士:2024年诺贝尔物理学奖评述