新研究揭示了大脑如何学习寻求奖励

导读 想象一下你正在教一只狗玩捡东西的游戏。你扔一个球,你的狗会追赶它,捡起它,然后跑回来。然后你用零食奖励你气喘吁吁的小狗。但现在对你...

想象一下你正在教一只狗玩捡东西的游戏。你扔一个球,你的狗会追赶它,捡起它,然后跑回来。然后你用零食奖励你气喘吁吁的小狗。但现在对你的狗来说真正的技巧来了:找出该序列的哪一部分赢得了款待。科学家称其为“学分分配问题”。在大脑中。这是一个关于理解哪些行动对我们所经历的积极结果负责的基本问题。

多巴胺是大脑中的一种关键化学信使,已知在此过程中发挥着至关重要的作用。但大脑究竟如何将特定行为与多巴胺的释放联系起来仍不清楚。

艾伦研究所科学家今天在《自然》杂志上发表的研究,< a i=4>哥伦比亚大学祖克曼心脑行为研究所、尚帕利莫未知中心和西雅图儿童研究所为这个谜团提供了新的线索。它揭示了多巴胺不仅发出奖励信号,而且还引导动物通过反复试验来关注导致这些奖励的特定行为。

有趣的是,研究还表明大脑的奖励系统可以快速、动态地改变动物的全方位运动和行为。 Rui Costa,D.V.M,博士说,这凸显了一种复杂的学习策略,其中行为不仅得到强化,而且还通过经验积极塑造和微调。 ,该研究的资深作者。

艾伦研究所所长兼首席执行官科斯塔说:“当你强化行为时,我们常常认为这只是一种行为。” “但不:你正在改变整个行为结构。真正令人惊讶的是它的速度有多快。”

解码多巴胺如何影响学习

为了揭示这些见解,该团队与尚帕利莫未知中心的工程师和神经科学家合作开发了一种新颖的“闭环”系统,该系统可以将小鼠的特定行为与实时多巴胺释放联系起来。研究人员为小鼠配备了无线传感器,以跟踪它们在简单受控空间内的运动。然后,他们将这些数据输入机器学习算法,该算法将这些行为分为不同的组。然后,研究人员使用光遗传学(一种用光控制神经元的方法)在小鼠执行预定义的“目标动作”后刺激多巴胺神经元。

他们发现小鼠会因多巴胺的释放而迅速改变其行为。最初,他们不仅增加了目标动作的频率,还增加了类似动作以及多巴胺释放前几秒钟发生的动作的频率。与此同时,与目标不同的行动迅速减少。随着时间的推移,这种改进变得更加精确,小鼠越来越关注导致多巴胺释放的确切作用。

该研究还研究了小鼠如何学习一系列动作,揭示了一个类似于倒带时间以了解什么会带来奖励的关键过程。当触发多巴胺的行为发生的时间间隔较远时,小鼠的学习速度会变慢。这表明,行动之间的等待时间越长,小鼠就越难将序列与奖励联系起来。本质上,奖励之前的行动会被快速掌握和改进,而较早的行动会逐渐完善。这种“倒带”过程强化了行为,并帮助小鼠逐步识别哪些精确的动作和序列会产生奖励。

主要作者 Jonathan Tang 博士表示,这些发现可能会影响教育和人工智能 (AI) 等不同领域。 ,华盛顿大学医学 - 儿科、西雅图儿童研究所的助理教授。例如,在课堂上允许探索、犯错和逐步完善可能更符合我们大脑固有的学习过程。

在人工智能领域,这些见解可能会带来更复杂、更高效的学习系统。通过更好地复制生物学习过程,我们可以创建更能适应新数据和新情况的人工智能。

这项研究让我们更深入地了解我们的大脑如何通过反复试验来学习和适应——无论你是科学家还是小狗。

“我们认为很多事情是理所当然的,包括学分分配,”唐说,他在哥伦比亚大学期间与科斯塔一起开始了这项研究。 “但只有当你真正开始投入时,你才会意识到其中的复杂性。这就是人们从事科学研究的原因:关注事物的真相。”

免责声明:本文由用户上传,如有侵权请联系删除!

猜你喜欢

最新文章

<