Qianru's paper, published in Science Advances, reveals that neurons in the rat orbitofrontal cortex integrate reward delay or magnitude with their uncertainty signals, forming attribute-specific adaptive reward representations at the single-cell level, thereby supporting flexible learning and risk regulation.
Abstract
Incorporating expected uncertainty into reward evaluation is critical for adaptive learning and behavior. The orbitofrontal cortex (OFC) represents reward attributes, such as delay and magnitude, alongside expected uncertainties about upcoming rewards, serving its established role in both value- and risk-based behaviors. However, the cellular basis of how reward and uncertainty interact remains unclear. To investigate, we trained rats on a task where odor cues predicted sucrose rewards with varying uncertainties in delay or magnitude. Single-unit recordings revealed that many OFC neurons encoded expected uncertainties related to reward delay or magnitude. Population-level analysis showed distinct neural codes for delay and magnitude uncertainties, separate from those for reward delay and magnitude. Signals for each reward attribute and associated uncertainty converged onto the same neurons, reducing the sensitivity of delay and magnitude encoding as uncertainty increased. These findings suggest a cellular-level computation in OFC neurons, whereby uncertainty signals are integrated into attribute-specific reward representations, potentially supporting flexible learning and risk control.

Find the full article here.
Read the news.
面对风险,大脑如何“随机应变”? 周景峰课题组揭示大脑整合奖赏与不确定性信息以调控灵活行为 | Science Advances
2025年7月16日,北京脑科学与类脑研究所和北京师范大学认知神经科学与学习国家重点实验室周景峰课题组在Science Advances发表题Adaptive reward representations integrate expected uncertainty signals in orbitofrontal cortex的研究论文。研究发现,大鼠眶额叶皮层中的神经元能够将奖赏的延迟或大小与其不确定性信号整合,在单细胞水平上形成属性特异的适应性奖赏信息表征,从而支持灵活学习与风险调节。
在动物和人类中,强化学习依赖于对获得结果(perceived outcome)的感知,将其作为反馈信号,用于更新预测和行为策略。有趣的是,特定结果的主观价值或效用并非恒定不变,而是会受到个体对其发生概率的先验知识或主观信念的影响。这种对结果不确定性的主观估计被称为“预期不确定性(expected uncertainty)”或“风险(risk)”。举例来说,当我们习惯于网购快递准时送达时,就形成了较低的预期不确定性;此时,偶尔出现的提前或延误会引起显著的注意和情绪反应。相反,在高度不确定的投资环境中,投资者可能对短期盈亏的波动不那么敏感,而更关注长期收益。大脑是如何根据不同程度的预期不确定性,灵活地评估结果并调整行为策略的呢?
已有研究表明,大脑的眶额叶皮层(orbitofrontal cortex, OFC)在表征奖赏结果的多个属性(如延迟和大小)方面起着关键作用,这一发现在人类、灵长类动物和啮齿类动物中得到广泛验证。同时,OFC也是风险决策的重要脑区,其活动水平与奖赏大小的不确定性密切相关。既然一个脑区能够同时编码奖赏属性与相关的不确定性信号,那么一个重要问题也随之出现:这些信号是否会在同一神经元内发生相互作用,从而使奖赏表征能够整合不确定性信息,体现出对不同情境的适应性?
经济价值假说是关于眶额叶皮层功能的主流理论之一。根据该假说推测:与预期不确定性相关的神经活动,可能在部分神经元中与对应的奖赏属性,以及其它奖赏属性等信息整合于统一的价值维度中。如果存在这种整合,应该能够在单个神经元或神经群体层面被观测到。然而,该猜想尚未得到系统验证,多个关键问题仍待解决:神经元如何编码多种奖赏属性相关的预期不确定性?这些信号是否在单神经元或群体层面具有相同的编码方式?奖赏属性的神经表征是否会随着不确定性的变化而发生调节?
为回答上述问题,研究人员训练大鼠执行一项“气味–奖赏”关联任务,其中每种气味提示一种蔗糖水奖赏,同时该奖赏的延迟或大小分别具有特定的预期不确定性。通过记录大鼠OFC的单神经元活动,研究发现:部分OFC神经元能同时编码与奖赏延迟和大小相关的不确定性。然而,在神经群体层面,这些不确定性信号呈现出彼此不同的神经编码模式,且与延迟和大小本身的编码相互可区分,与经济价值假说的预测相悖。更重要的是,OFC中关于奖赏属性及其不确定性的神经信号在单神经元层面发生非线性整合和相互作用。随着预期不确定性的增加,神经元对延迟和大小的表征灵敏度降低。进一步的分析与模型比较表明,这种灵敏度下降并非源于奖赏延迟或大小的绝对值数增加,而更可能反映了神经元在不同情境中根据输入范围动态调整响应增益的“范围适应(range adaptation)”机制。研究因此揭示了OFC在细胞层面整合不确定性信息、形成适应性奖赏表征的神经机制。
这项研究表明,OFC单神经元以属性特异性的方式将不确定性信号整合进奖赏结果表征中,使得个体能够根据环境变化灵活调整反馈评估。这一机制可能有助于个体在不确定和动态的环境中调节风险行为,并为理解赌博障碍和成瘾障碍中OFC功能异常所对应的神经编码机制提供了新的线索。
论文信息:
本研究得到了科技创新2030—“脑科学与类脑研究”重大项目、国家自然科学基金面上项目以及北京脑科学与类脑研究所的资助。2021级博士生张倩如为本文第一作者,周景峰为通讯作者。