训练算法打破深度物理神经网络的障碍

导读 洛桑联邦理工学院的研究人员开发了一种算法,可以像数字神经网络一样准确地训练模拟神经网络,从而能够开发出更高效的替代方案来替代耗电的...

洛桑联邦理工学院的研究人员开发了一种算法,可以像数字神经网络一样准确地训练模拟神经网络,从而能够开发出更高效的替代方案来替代耗电的深度学习硬件。

由于能够通过算法“学习”而不是传统编程来处理大量数据,像 Chat-GPT 这样的深度神经网络通常看起来潜力无限。但随着这些系统的范围和影响不断扩大,它们的规模、复杂性和能源消耗也随之增加——后者的影响足以引起人们对全球碳排放贡献的担忧。

虽然我们经常认为技术进步是从模拟向数字的转变,但研究人员现在正在寻找数字深度神经网络的物理替代方案来解决这个问题。其中一位研究人员是洛桑联邦理工学院工程学院波浪工程实验室的 Romain Fleury 。在《科学》杂志上发表的一篇论文中,他和他的同事描述了一种用于训练物理系统的算法,与其他方法相比,该算法显示出更高的速度、更强的鲁棒性和更低的功耗。

“我们成功地在三种基于波的物理系统上测试了我们的训练算法,这些系统使用声波、光波和微波来携带信息,而不是电子。但我们的多功能方法可以用来训练任何物理系统。”第一作者、LWE 研究员 Ali Momeni 说道。

“在生物学上更合理”的方法

神经网络训练是指帮助系统学习为图像或语音识别等任务生成最佳参数值。传统上它涉及两个步骤:前向传递,通过网络发送数据并根据输出计算误差函数;以及向后传递(也称为反向传播或 BP),其中计算误差函数相对于所有网络参数的梯度。

经过重复迭代,系统根据这两个计算进行自我更新,以返回越来越准确的值。问题?除了非常耗能之外,BP 还不太适合物理系统。事实上,训练物理系统通常需要使用数字孪生来进行 BP 步骤,这种做法效率低下,并且存在现实与模拟不匹配的风险。

科学家们的想法是用通过物理系统的第二次前向传递来取代 BP 步骤,以在本地更新每个网络层。除了减少功耗和消除对数字孪生的需求之外,这种方法还更好地反映了人类的学习能力。

“神经网络的结构受到大脑的启发,但大脑不太可能通过 BP 进行学习,”Momeni 解释道。“这里的想法是,如果我们在本地训练每个物理层,我们就可以使用实际的物理系统,而不是首先构建它的数字模型。因此,我们开发了一种在生物学上更合理的方法。”

洛桑联邦理工学院的研究人员与CNRS IETR的 Philipp del Hougne和微软研究院的 Babak Rahmani 一起,使用他们的物理局部学习算法 (PhyLL) 来训练实验声学和微波系统以及建模光学系统,以对元音声音和图像等数据进行分类。与现有技术相比,该方法不仅显示出与基于 BP 的训练相当的准确性,而且具有鲁棒性和适应性,即使在暴露于不可预测的外部扰动的系统中也是如此。

模拟的未来?

虽然 LWE 的方法是深度物理神经网络的第一个无 BP 训练,但仍然需要对参数进行一些数字更新。“这是一种混合训练方法,但我们的目标是尽可能减少数字计算,”莫梅尼说。

研究人员现在希望在小型光学系统上实现他们的算法,最终目标是提高网络可扩展性。

“在我们的实验中,我们使用了最多 10 层的神经网络,但它仍然可以使用具有数十亿参数的 100 层吗?这是下一步,需要克服物理系统的技术限制。”

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章

<