首页 » 科技 >

DeepMind发现AI学习技术也适用于人脑

2020-01-16 15:44:19来源:

人工智能的发展通常会从人类的思维中汲取灵感,但是现在,人工智能已经扭转了局面,向我们传授了大脑如何学习的知识。

伦敦科技公司DeepMind的威尔·达布尼(Will Dabney)及其同事发现,机器学习的最新发展(称为分布强化学习)也为大脑中奖励途径的工作方式提供了新的解释。这些途径控制着我们对愉悦事件的反应,并由释放大脑化学多巴胺的神经元介导。

达布尼说:“大脑中的多巴胺是一种令人惊讶的信号。”“当情况好于预期时,就会释放出更多的多巴胺。”

以前认为这些多巴胺神经元都反应相同。达布尼说:“有点像合唱团,但每个人都唱完全一样的音符。”

但是研究小组发现,各个多巴胺神经元实际上似乎有所不同-每个神经元都被调到了不同的乐观或悲观水平。

达布尼说:“它们最终都以不同程度的惊喜发出信号。”“更像是合唱团,他们唱着不同的音符,相互协调。”

这一发现从一种称为分布强化学习的过程中获得了启发,该过程是AI用来掌握Go和Starcraft II等游戏的技术之一。

最简单的说,强化学习是一种奖励,它可以强化导致其获得的行为。它需要了解当前的行动如何导致未来的回报。例如,一条狗可能会学习命令“ sit”,因为当它这样做时会得到奖励。

以前,AI和神经科学中的强化学习模型都专注于学习以预测“平均”未来的回报。“但这并不能反映我们所经历的现实,”达布尼说。

他说:“例如,当有人玩彩票时,他们期望赢或输,但是他们并不期望不一定会出现这种中间结果。”

当未来不确定时,可以将可能的结果表示为概率分布:有些是积极的,有些则是消极的。使用分布式强化学习算法的AI能够预测可能的奖励的全部范围。

为了测试大脑的多巴胺奖励途径是否也通过分布起作用,该团队记录了小鼠中单个多巴胺神经元的反应。训练小鼠执行一项任务,并给予它们大小各异且不可预测的奖励。

研究人员发现,不同的多巴胺细胞确实表现出不同程度的惊奇。

爱沙尼亚塔尔图大学的劳尔·维森特说:“将奖励与某些刺激或行动相关联对于生存至关重要。”“大脑无法抛弃任何有关奖励的有价值的信息。”

“从大规模的角度来看,这项研究符合当前的观点,即有效运行大脑不仅需要代表变量的平均值,而且还必须代表变量取不同值的频率,” Vicente说。“这是一个很好的例子,说明了计算算法如何指导我们在神经反应中寻找什么。”

但是,Vicente补充说,需要更多的研究来证明结果是否适用于其他物种或大脑区域。

猜您喜欢