大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)


0
1 一种用于强化时序控制的神经网络模型

当空间可能性无限时,人类和动物如何进行试错学习?在之前的一项研究中,我们使用了间隔时间生产任务探究这一问题,并发现了一种更新策略,执行者在该策略中会通过调整行为和神经信号噪声以进行探索。在本项实验中,人类受试者将主动产生一系列定时运动输出,根据其时间准确性,在每次响应后受试者将收到正性或负性的反馈。我们发现序列运动时间在两个时间尺度上有所不同:由于记忆漂移而导致的目标间隔的长期相关性和根据反馈对计时可变性的短期调整。

大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)(1)

图1.实验设计。


我们之前的研究已经用增强高斯过程描述了时间可变性的这两个关键特征,称为奖励敏感高斯过程 (reward-sensitive Gaussian process,RSGP)。简而言之,时间变量的时间协方差根据反馈历史更新,以重新创建上述两个行为特征。然而,RSGP 主要是描述性的模型,缺乏关于神经回路如何使用奖励反馈来调整运动变异性的神经生物学基础。在本项研究中,我们提供了一个机制模型,并通过递归神经网络 (recurrent neural networks,RNN) 的架构来模拟该过程。

大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)(2)

图2.模型和人类行为


我们的模型能够在贝叶斯框架中递归生成包含内部可变性和外部强化的输出序列。与其他神经网络模型不同,其他神经网络模型会搜索独特的网络连通性以实现模型预测和观察之间的最佳匹配,该模型可以估计与每个结果相关的不确定性,因此在区分可调整的任务相关可变性和无法解释的可变性方面做得更好。本研究所提出的人工神经网络模型与神经系统中的信息处理机制并行,可以扩展连续状态控制中类脑强化学习 (reinforcement learning,RL) 的框架。


参考文献:Wang J, El-Jayyousi Y, Ozden I. A neural network model for timing control with reinforcement. Front Comput Neurosci. 2022 Oct 5;16:918031. doi: 10.3389/fncom.2022.918031. PMID: 36277612; PMCID: PMC9579423.

02 突显刺激的感官间注意捕获的时空神经动力学:大尺度听觉视觉建模研究


内源性(自上而下)和外源性(自下而上)注意力时空动力学特征的神经机制,以及在感官知觉中注意力是如何控制或分配的,目前尚不完全清楚。我们使用短时记忆的视觉-听觉对象处理的生物现实大尺度神经网络模型探究了这些问题。

大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)(3)

图3. 大尺度听觉视觉神经模型的网络图


大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)(4)


图4. 听觉DMS试验中模拟选定模块中所有兴奋性神经元的神经活动


在本研究中,我们对用于控制内源性和外源性注意力的随时间变化的神经机制进行建模,并将其纳入视觉-听觉对象处理模型。该模型成功执行了各种双峰工作记忆任务,并产生了与实验结果一致的模拟行为和神经结果。此外,在视觉-听觉双模态模拟中,我们发现在一种模态中增加工作记忆负载会减少对另一种模态的干扰,并且基于本模型提出了一种可能的调节这种效果的网络。


参考文献:Liu Q, Ulloa A, Horwitz B. The Spatiotemporal Neural Dynamics of Intersensory Attention Capture of Salient Stimuli: A Large-Scale Auditory-Visual Modeling Study. Front Comput Neurosci. 2022 May 12;16:876652. doi: 10.3389/fncom.2022.876652. PMID: 35645750; PMCID: PMC9133449.

03 在猴子的目标搜索任务上测试动态状态空间的强化学习模型:学习任务事件的扩展


学习是生物系统适应环境的重要基础。环境包括各种状态或情节(episode

),而情节相关的学习对于适应这种复杂情况至关重要。在本研究中,我们开发了一个模型来学习灵长类动物生理实验中使用的双目标搜索任务。在本任务中,执行者需要注视四个呈现的光点之一。相邻的两个点交替作为正确目标,连续成功一定次数后切换正确目标对。

大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)(5)

图5.目标搜索任务


大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)(6)

图6. 随着训练进行的模型运行示意图


为了使执行人以高概率获得奖励,需要根据前两次试验的行动和结果做出决定,我们在这里提出了一种“历史情节架构(history-in-episode architecture)”。具体来说,我们将状态分为情节和历史,并根据每个情节中的历史选择动作。当我们将所提出的包含动态状态空间的模型与传统的 SARSA 方法在双目标搜索任务中进行比较时,前者的表现接近理论最优。强化学习模型包括所提出的历史事件架构和动态状态景观,可实现事件相关学习,并为高度适应复杂环境的学习系统提供基础。


参考文献:Sakamoto K, Yamada H, Kawaguchi N, Furusawa Y, Saito N, Mushiake H. Reinforcement Learning Model With Dynamic State Space Tested on Target Search Tasks for Monkeys: Extension to Learning Task Events. Front Comput Neurosci. 2022 Jun 2;16:784604. doi: 10.3389/fncom.2022.784604. PMID: 35720772; PMCID: PMC9201426.


大脑神经元信息传递过程(Frontiers大脑感觉运动和认知功能耦合神经过程的时间结构)(7)

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页