IM官方网页版-IM中国

网站地图
English
联系我们
中国科IM官方网页版-IM中国
网上办公

首页
机构概况
- 研究所简介
- 形象标识
- 现任领导
- 历任领导
- 地理位置
- 联系我们
机构设置
- 学术委员会
- 学位评定委员会
- 科研部门
- 管理支撑部门
科学研究
- 科研动态
- 科技奖励
- 论文与专著
- 专利
- 国际合作
- 科学数据库
人才队伍
- 院士风采
- 国家杰出青年基金获得者
- 国家优秀青年基金获得者
- 研究员(正高级工程师)
- 副研究员(高级工程师)
- 中国科IM官方网页版-IM中国青年创新促进会会员
- 博士后之家
- 人才招聘
研究生教育
- 招生信息
- 导师介绍
- 就业工作
- 联系方式
党群园地
科学传播
- 科普动态
- 科普文章
- 科普视频
信息公开
- 信息公开
- 信息公开规定
- 信息公开指南
- 信息公开目录
- 依申请公开
- 信息公开联系方式

IM官方网页版-IM中国: 科学研究

科研动态

首页 > 科学研究 > 科研动态

国际机器学习大会（ICML?2026）自动化所入选成果速览

发布时间: 2026-06-03

【字体：大中小】

国际机器学习大会（International Conference on Machine Learning，简称ICML）是机器学习领域的顶级会议。ICML 2026将于7月6日至11日在韩国首尔举行。本文介绍自动化所在本届会议上的录用论文成果。

1.Mind-Omni:利用离散扩散模型实现统一多任务的脑-图-文建模（入选spotlight）

Mind-Omni: A Unified Multi-Task Framework for Brain-Vision-Language Modeling via Discrete Diffusion

论文作者：卢一卓、杜长德、史清宇、陈航、彭杰、蒋刘赟、赵双辰、何晖光

研究介绍：

建模外部刺激与内部神经表征之间的相互作用，是脑机接口（BCI）领域中的一个关键研究方向。以往工作的一个主要局限在于，它们大多遵循专门化的单任务模型范式，这不仅限制了模型的通用性，也忽视了不同任务之间可能存在的协同效应。为了解决这一问题，我们提出了 Mind-Omni，这是首个通过离散扩散范式统一七种不同编码与解码任务的通用框架。其核心是一种新颖的 Brain Tokenizer，能够将异构、连续的脑信号转换为标准化的离散 token。这使得任意两种或多种模态之间，能够在共享语义空间中实现直接的 token 级交互，从而支持相互理解与生成。为了进一步赋予模型更强的推理能力，我们还构建了一个专门的脑信号问答（BQA）指令微调数据集。我们的模型不仅在多任务统一框架中建立了新的最优性能，也为多任务协同效应提供了有力证据。通过展现出与更大规模专用模型相当、甚至在某些情况下更优的性能，我们的工作为神经建模提供了一种强有力的新范式，并为构建神经活动基础模型铺平了道路。

我们提出框架的训练流程包含两个核心部分：Brain Tokenizer 和基于 DiT 的离散扩散模型。
(a) Brain Tokenizer 将连续的 fMRI 信号离散化为一系列 token。其训练目标是一个复合损失函数，包括重建损失和承诺损失，并辅以粗粒度模态对齐损失、细粒度模态对齐损失以及感知对齐损失。
(b) 随后，扩散模型基于掩码预测目标进行训练，这里以 B→I&T 任务为例进行说明。模型在去噪过程中通过交叉熵损失学习恢复被掩码的图像和文本 token。我们还在 masked MM-DiT 中引入了特定的模态掩码方案，以处理训练和推理过程中模态缺失的情况。

2. Skill-Pro：通过非参数PPO为大语言模型智能体从经验中学习可复用的技能（入选spotlight）

Skill-Pro: Learning Reusable Skills from Experience via Non-Parametric PPO for LLM Agents

论文作者：米祈睿、马志剑、杨梦月、李昊轩、王奕森、张海峰、汪军

研究介绍：基于大语言模型的智能体在序列决策任务中表现优异，但往往依赖即时推理，即使面对反复出现的相似场景，仍需从头推导解决方案。这种经验复用的缺失导致了大量冗余计算和执行结果的不稳定。为此，本文提出了 Skill-Pro 框架，使智能体能够在无需参数更新的前提下，从交互经验中自主学习可复用的程序化技能。通过形式化定义 Skill-MDP，Skill-Pro 将被动的片段式交互记录转化为结构化的可执行技能（Skill），每项技能由激活条件、执行流程和终止条件三部分组成，从而保障其可执行性。为了在复用过程中兼顾可靠性与能力保持，本文进一步提出了 Non-Parametric PPO 方法：利用语义梯度生成高质量的候选技能，并通过 PPO Gate 机制对技能进行鲁棒性验证。此外，Skill-Pro 采用基于评分的维护策略，持续保持技能库的精简与高质量。本文在域内、跨任务和跨智能体三类场景下开展了实验，结果表明 Skill-Pro 在实现高复用率和显著性能提升的同时，极大地压缩了记忆开销。通过可视化技能的演化轨迹与分布，本文进一步揭示了 Skill-Pro 如何透明地完成程序化知识的积累、精炼与复用，从而支撑智能体的长期自主运行。

图1. LLM智能体中的情景记忆与程序化记忆的对比。情景记忆通过检索历史交互辅助决策，依赖推理时的大量计算；程序化记忆可以将经验编码为可复用的程序化技能，直接建立情境到动作的映射，实现高效的经验复用。

图2. Skill-Pro框架总览。（左）Skill-MDP：智能体根据当前状态与激活条件选择技能，由冻结的LLM将其展开为原子动作序列，交互轨迹存入缓冲区。（中）程序化技能池：通过精炼、生成与基于评分的剪枝实现动态维护。（右）Non-Parametric PPO：① 语义梯度：基于事后归因为每条轨迹计算并聚合梯度，生成候选技能；②PPO Gate：通过信赖域验证筛选候。鼋钣徘液瞎娴募寄苣扇爰寄艹。

3.CoRe：基于视觉语言模型反馈的偏好对齐强化学习奖励构建方法

CoRe: Combined Rewards with Vision-Language Model Feedback for Preference-Aligned Reinforcement Learning

论文作者：倪贺贤、鲁涛、蔡莹皓

研究介绍：

本文针对机器人操控中强化学习奖励设计困难、策略难以有效对齐人类意图等问题，提出了一种基于视觉语言模型反馈的偏好对齐强化学习框架 CoRe。该方法受认知科学中“先验知识+交互学习”机制启发，将奖励分解为形式化奖励与残差奖励两部分。其中，形式化奖励模块利用大语言模型生成并迭代优化代码化奖励函数，并结合视觉语言模型反馈实现奖励-偏好对齐；残差奖励模块通过视觉语言模型对视频轨迹进行偏好IM官方网页版-IM中国与状态重要性分析，学习难以手工设计的隐式奖励，实现对复杂操控行为和细粒度人类偏好的建模。CoRe无需人工偏好标注即可自动构建稳定、可靠且符合人类意图的奖励信号。在 MetaWorld、SoftGym 共10个机器人操控任务及5个真实机器人任务上的实验结果表明，CoRe在任务成功率与训练稳定性等方面均优于现有方法。

CoRe整体框架：CoRe将强化学习奖励分解为形式化奖励与残差奖励两部分，结合大语言模型与视觉语言模型反。迪只魅瞬倏夭呗缘母咝枚云胙。

4.广义协变动作建模：通过时空解耦构建广义流形

General Covariant Action Modeling: Constructing Generalized Manifolds via Spatio-Temporal Decoupling

论文作者：吕怀海、陈超凡、曹洺语、冀昱衡、徐常胜

研究介绍：

如何从有限的演示数据中实现稳健的泛化能力，是具身智能的核心挑战。当前主流的视觉-语言-动作（VLA）模型通常将机器人动作视为无结构的欧几里得向量进行回归，这违背了广义协变性原则——即任务表征应当独立于坐标系。具体而言，直接回归绝对坐标将任务的内禀几何与特定执行模式（如运动速度、参考坐标系）混淆在一起，导致学习过程退化为一个多模态非凸优化问题，产生"模式平均"等物理不一致现象。为解决上述问题，本文提出了广义动作流形（Generalized Action Manifold, GAM）框架，通过结构化解耦来强制实施广义协变性。GAM在两个正交维度上施加不变性约束：（1）时间不变性——利用弧长参数化器将空间路径几何与时间动力学正交分离，使策略对速度变化保持鲁棒；（2）几何不变性——通过模式-仿射分解机制，将轨迹映射到李代数切空间的标准"世界线"，从而将不变的几何模式与等变的仿射调制分离。在此基础上，我们将GAM集成于结构化VLA架构中，使稀疏演示能够稠密填充连续的有效动作流形。

图1.GAM的优化景观变换。(a) 非凸陷阱：相同观测下，有效动作在几何（执行路径）和动力学（执行速度）上呈现多模态性，直接回归导致优化停滞于高能鞍点。(b) 几何坍缩：GAM注入时空先验来消解冲突——时间不变性解耦执行速度，几何不变性锁定几何意图。

图2.GAM框架示意图。弧长参数化器（ALP）将轨迹重参数化为弧长，实现时间不变性；模式-仿射分解（SAF）通过李代数映射将轨迹分解为不变的几何模式和等变的仿射参数，实现几何不变性。

5. LAST：基于Gromov-Wasserstein对齐的视觉-语言与动作流形桥接方法

LAST: Bridging Vision-Language and Action Manifolds via Gromov-Wasserstein Alignment

论文作者：吕怀海、陈超凡、冀昱衡、陈贤生、王鹏伟、仉尚航、徐常胜

研究介绍：

通用具身智能的核心挑战之一是如何让视觉-语言-动作（VLA）模型有效地将语义理解转化为精确的机器人控制。现有方法通常将连续动作简单离散化为token，以利用自回归Transformer的扩展能力，但忽略了语义空间与动作空间之间的本质数学异构性——视觉-语言嵌入在归一化余弦度量下呈各向同性分布，而机器人动作位于非欧几何的李群SE(3)流形上且具有强烈的各向异性。这种度量结构的不匹配使得标准回归方法难以建立有效的跨模态对应关系。本文将VLA学习重新建模为Gromov-Wasserstein对齐问题，并提出LAST（Lie-algebraic Action Space Tokenizer），通过重构动作空间的几何结构来实现与语义空间的度量兼容对齐。LAST包含两个核心阶段：（1）全局拓扑线性化——通过李代数映射将动作流形投射到切空间，将变长曲线轨迹转化为定长、物理可加的向量表示；（2）局部度量离散化——通过协方差感知白化消除统计各向异性，将动作残差正则化为与VL嵌入同构的各向同性空间，再经残差向量量化得到层次化动作token。

图1.LAST方法动机示意图。(a) 语义嵌入在归一化余弦几何下呈现近各向同性的局部邻域（圆形），而动作模式呈各向异性（椭圆形）且SE(3)复合运算不满足加法性；(b) LAST将动作映射到切空间以获得局部可加残差，并通过协方差感知白化消除各向异性。

图2.LAST整体框架图。展示从连续轨迹到李代数切空间线性化、B样条参数化、层次化动作token离散化的完整流程。

6. SC?-WM：面向连续环境视觉语言导航的闭环反馈自校正世界模型

SC²-WM: A Self-Correcting World Model with Closed-Loop Feedback for Vision-and-Language Navigation in Continuous Environments

论文作者：姚暄、朱昱泽、高君宇、王宗萌、徐常胜

研究介绍：

针对连续环境下的视觉语言导航（VLN-CE）任务中，现有方法大多依赖开环执行范式，缺乏在推理过程中检测和纠正的机制，导致早期决策错误容易随时间累积而严重降低导航性能的问题，本文提出了一种带有闭环反馈的自校正世界模型框架SC?-WM。与依赖稀疏且滞后的外部监督信号不同，该框架创新性地通过世界模型的前瞻性预测来提取可计算的内部反馈信号，从而实现高效的闭环决策。具体而言，SC?-WM引入了双层自校正机制：在状态层面，模型通过比较当前潜在状态与其前瞻预测之间的差异生成内部参考信号，并利用这种反馈引导的规划优化机制在执行动作前对当前潜在状态进行调节，有效缓解了局部的推理漂移；在模型层面，为了应对更具挑战性的未知场景，本文提出了条件性的世界感知适应机制，当内部反馈表明模型自身能力不足时，在测试阶段选择性地对世界模型进行动态更新，实现模型级别的校正。在VLN-CE基准测试以及真实世界部署中的大量实验充分表明，SC?-WM显著提升了导航的准确性与泛化能力。

本文提出的闭环反馈自校正世界模型

7.基于时间步可扩展神经元解决脉冲神经网络中的时间扩展悖论问题

英文标题：Resolving the Timestep Scaling Paradox in Spiking Neural Networks with a Timestep-Scalable Neuron Model

论文作者：叶炳昊、李文娟、薛登峰、李兵、胡卫明、梁栋、商琨

研究介绍：

脉冲神经网络凭借其生物可解释性、事件驱动的低功耗特性以及时序建模能力，近年来备受关注。由于脉冲发放过程的不可微性，当前主流监督训练方法多采用基于替代梯度的时间反向传播（BPTT），并在较少时间步下取得了良好性能。直观上，增加时间步应能增强神经元的时序动态表达能力，从而进一步提升效果。然而，实践中却存在“时间步扩展悖论”：随着时间步增加，模型准确率反而下降。经分析，该问题主要源于长时序下的时间梯度消失以及跨时间步依赖的薄弱。针对上述难题，文章提出一种时间步可扩展的神经元模型。该模型通过长期记忆重塑机制增强跨时间步的信息流动，并引入时间遗忘机制，抑制过量时序信息的堆积。理论分析与大量实验结果表明，所提模型能够在时间步扩展时持续提升性能，在EEG信号处理、事件识别、时间序列预测等任务上取得领先结果，同时在传统图像分类与目标检测任务中也保持了优异表现。

方法的前向传播和时间反向传播过程概览（以的情况为例）

8. AIR-VLA：面向空中受控操作的视觉-语言-动作系统

英文标题：AIR-VLA: Vision-Language-Action Systems for Aerial Manipulation

论文作者：孙健力、田滨、张起耀、李程翔、宋姊涵、崔志勇、吕宜生、田永林

研究介绍：

虽然视觉-语言-动作（VLA）模型在地面具身智能领域取得了显著成功，但其在空中机械臂或空中操作平台（Aerial Manipulation Systems, AMS）中的应用仍是一片未被充分探索的领域。AMS具有浮动基座动态变化、无人机与机械臂强耦合以及3D空间内多步骤、长视野任务等固有特性，这给现有的为静态或2D移动基座设计的VLA范式带来了严峻挑战。

为了填补这一空白，本文提出了首个专门针对空中受控操作的VLA基准测试平台——AIR-VLA 。研究团队基于NVIDIA Isaac Sim构建了物理仿真环境，并发布了一个包含3000条高质量人类遥操演示数据的多模态数据集。该测试基准涵盖了四类核心任务：基座操控、物体与空间理解、语义推理以及长视野规划。

基于该平台，研究人员系统地IM官方网页版-IM中国了主流的VLA模型和视觉语言模型（VLM）。实验结果不仅验证了将VLA范式迁移至空中系统的可行性，还通过量身定制的多维IM官方网页版-IM中国指标，揭示了当前模型在无人机移动控制、机械臂微操及高层规划方面的能力边界与局限性。该研究为空中通用机器人的未来探索建立了一个标准化的测试台和数据基础。

AIR-VLA模型框架及空中操作任务数据集概览。

AIR-VLA基准概览。AIR-VLA是一个专为空中操作平台量身定制的全栈视觉-语言-动作测试平台。它集成了一个基于仿真的遥操数据采集流水线、一个在线仿真环境以及多样化的多模态数据集。此外，它还提供了一个全面的基准，用于在各种空中操作任务中IM官方网页版-IM中国主流的VLA和VLM模型。

9. VideoVeritas：基于感知代理学习的AI视频鉴真

VideoVeritas: AI-Generated Video Detection via Perception Pretext Reinforcement Learning

论文作者：谭淏、兰钧、石森源、谭资昌、虞子涧、祝慧佳、王维强、万军、雷震

研究介绍：

AI生成视频极大丰富了我们的数字生活，但安全问题也日益严峻。本文提出VideoVeritas，面向AI生成视频鉴别，将细粒度时空感知与事实推理能力统一建模。我们发现，现有多模态大模型虽具备较强推理能力，但其面向鉴真任务的时空感知能力仍然不足。为此，我们先通过联合偏好对齐整合伪影分析与事实判断能力，并提出感知代理强化学习（PPRL），利用自监督计数等低成本代理任务提升模型细粒度时空感知能力，在无需人工伪影标注情况下，大幅提升了高质量生成视频的检测能力。我们还构建轻量、高质的生成视频数据集，兼顾“感知”与“推理”测评，覆盖商用视频生成模型、人脸生成模型及违反客观事实的视频。

分析发现，感知学习能促使模型形成更好的推理行为，如更好地“解构物体”、“时空跟踪”等，因此有助于捕捉细粒度时空不一致，提升高质量视频的检测上限。

感知学习增益与原因分析（上）与PPRL方法示意图（下）

10.面向大语言模型推理的科学逻辑性增强方法：以物理学为例

Scientific Logicality Enriched Methodology for LLM Reasoning: A Practice in Physics

论文作者：余昭昕、徐楠、陈坤、赵嘉豪、王磊、毛文吉

研究介绍：

本文面向大语言模型在科学推理任务中“重结果、轻过程”的问题，提出一种科学逻辑性增强方法。研究认为，可靠的科学推理不仅依赖最终答案正确，更需要推理步骤在内容一致性、因果顺序和前向推进性上符合科学逻辑。为此，本文设计了逻辑忠实度、因果连接性和推理推进性三类IM官方网页版-IM中国指标，并基于这些指标构建逻辑增强的数据采样与监督微调方法。研究以物理学为实践场景，从学术论文中抽取问题、答案和核心逻辑节点，构建 PhysLogic 基准与训练数据。实验表明，该方法能够显著提升大语言模型在物理推理中的逻辑性，并进一步改善其在多个科学问答任务上的最终性能。

图1.所设计的逻辑忠实度、因果连接性和推理推进性三类科学逻辑性IM官方网页版-IM中国指标

图2.科学逻辑性增强的监督微调训练数据构造方法

11.基于Token交互的多模态大语言模型蒸馏

Beyond Next-Token Alignment: Distilling Multimodal Large Language Models via Token Interactions

论文作者：陈林、赵小柯、丁昆、冯巍巍、缪长涛、王子立、郭文轩、王颖、郑开元、张博、李哲、向世明

研究介绍：

多模态大语言模型展现出了令人瞩目的跨模态能力，但其庞大的模型规模给实际部署带来了巨大的挑战。知识蒸馏是压缩这些模型的一种极具前景的解决方案，但现有的方法主要依赖于静态的“下一个Token”对齐，忽略了动态的Token交互，而这些交互恰恰蕴含着多模态理解与生成的关键能力。为此我们提出了一种从Token交互视角设计的全新知识蒸馏框架Align-TI。我们的方法源于这样一个洞察：多模态大语言模型的运行依赖于两种主要的交互机制，用于提取相关视觉信息的视觉-指令Token交互，以及用于实现连贯生成的响应内Token交互。因此Align-TI引入了两个核心组件。指令视觉对齐使学生模型能够通过在显著视觉区域上进行对齐，来模仿教师模型提取与指令相关的视觉信息的能力。转移概率对齐通过对齐序列中Token到Token的转移概率，来捕捉教师模型动态的生成逻辑。

基于token交互的多模态大语言模型蒸馏架构图

12. HVR-Met：一种用于极端天气诊断的假设-验证-重规划智能体系统

HVR-Met: A Hypothesis-Verification-Replanning Agentic System for Extreme Weather Diagnosis

论文作者：唐硕、张家栋、徐健、周庚显、靳淇兆、王沁轩、胡艺、胡宁、任宏昌、何灵莉、符娇兰、丁璟韬、向世明、刘成林

研究介绍：

尽管近期的天气预报范式取得了显著进展，但极端天气诊断仍然是一项艰巨的挑战。其主要原因在于，诊断过程需要复杂的多步逻辑推理、动态工具调用以及专家级先验判断。虽然智能体在任务分解和自主执行方面具有天然优势，但当前架构仍受关键瓶颈的制约：专家知识整合不足、缺乏专业级的迭代推理闭环，以及缺少面向极端条件下复杂工作流的细粒度验证与IM官方网页版-IM中国体系。为此，我们提出 HVR-Met，一个深度融合专家知识的多智能体气象诊断系统。具体而言，该系统以“假设-验证-重规划”闭环机制为核心，能够对极端天气事件中的异常气象信号开展复杂的迭代推理。为了弥补现有IM官方网页版-IM中国框架中的不足，我们进一步引入了一个聚焦于原子级子任务的新基准。实验结果表明，该系统在复杂诊断场景中表现优异。

HVR-Met 的框架示意图

13.基于阶段策略演进的混合多任务强化学习框架

HyMTRL: A Hybrid Multi-Task Reinforcement Learning Framework via Phased Policy Evolution

论文作者：何金岷、李凯、董晓艺、臧一凡、景煜恒、张一帆、兴军亮、程健

研究介绍：

多任务强化学习（MTRL）旨在通过在相关任务间共享知识来提升样本利用率，但该方法往往会因任务难度的固有差异，出现学习进程不同步的问题。这种学习失衡会给共享评论家网络带来巨大表征压力，进而成为制约模型性能的主要瓶颈。为解决该问题，本文提出混合多任务强化学习框架（HyMTRL），该框架通过阶段策略演进方法缓解评论家网络过载问题。HyMTRL 将任务学习划分为强化探索阶段与模仿精炼阶段。将已掌握任务从基于强化学习的策略优化转为基于模仿学习的行为固化，可将这类任务从评论家网络的优化目标中剥离，有效降低网络的表征压力。此外，本文设计评论家重置机制，在保留已学习策略与历史经验的同时，恢复评论家网络的表征容量。HyMTRL 属于通用框架，可便捷适配各类现有多任务强化学习方法。在 MetaWorld 基准数据集上的实验结果表明，将 HyMTRL 与主流基线方法结合后，模型的学习效率与最终性能均得到显著提升。

HyMTRL框架示意图

14.临时团队协作中上下文强化学习能力边界的基准评测

Benchmarking the Limits of In-Context Reinforcement Learning for Ad-Hoc Teamwork

论文作者：景煜恒、李凯、张家骏、马泽尧、杨家玺、张磊、吴哲、何金岷、兴军亮、程健

研究介绍：

上下文强化学习（In-Context Reinforcement Learning, ICRL）使基础智能体能够即时适应新任务，但其在临时团队协作（Ad-Hoc Teamwork, AHT）场景中的有效性仍未得到充分探索；在该场景中，智能体需要与未知伙伴进行协调。为系统IM官方网页版-IM中国这一问题，我们提出了大规模基准 ICRL4AHT，该基准构建于高吞吐量的 JAX 版 Overcooked-V2 之上。ICRL4AHT 包含一个规模大且多样化的队友套件，涵盖强化学习策略与启发式策略，支持可控的训练—测试分布迁移；同时提供端到端流程，用于生成学习历史、将其序列化为可复现实验数据集，并开展在线多回合IM官方网页版-IM中国。我们在数百万条状态转移上IM官方网页版-IM中国了当前先进的 ICRL 算法，包括算法蒸馏（Algorithm Distillation, AD）和决策预训练 Transformer（Decision-Pretrained Transformer, DPT）。实验结果揭示了显著局限：与其在单智能体任务中的成功相反，现有 ICRL 架构在多智能体场景中未能表现出测试时适应能力。具体而言，在未知队友与未知布局两类评测轨道上，这些方法常常劣于随机基线，并且在长时域内未呈现可观测的上下文内性能提升。上述发现凸显了部分可观测条件下进行策略性推断的根本挑战，也表明我们的基准可作为下一代协作算法的重要测试平台。

ICRL4AHTIM官方网页版-IM中国基准示意图

15.让代码“活”起来：通过规模化自动试玩与强化学习优化交互式前端小游戏

Bringing Code ALIVE: Optimizing Interactive Frontend Mini-Games via Automated Play and Reinforcement Learning at Scale

作者：张家骏*、景煜恒*、崔泽宇、：、陈文弢、李开新、杨家玺、谢天宝、马泽尧、白天祎、Kashun SHUM、张磊、李凯、程健、王子磊、刘强、王亮、林俊旸、惠彬原

研究介绍：

大语言模型（Large Language Models, LLMs）的快速发展，使非程序员也能通过单条指令生成具有视觉吸引力的前端小游戏。然而，在这一领域，开源模型仍显著落后于闭源模型。其核心瓶颈在于缺乏兼具可靠性与可扩展性的评测机制：现有方法要么无法验证动态交互性，要么计算成本过高，难以规模化应用。为弥合这一差距，我们提出 ALIVE（Aligning LLMs via Interactive Visual Execution），一个高吞吐量框架，通过一次性规划与基于 DOM 的分析，实现对生成游戏的大规模自动化评测。大量实验表明，相较于静态评判器基线，ALIVE 能更有效地识别功能缺陷；同时，其效率较 GUI 智能体高出数个数量级。作为可扩展的“预检”评测层，ALIVE 能够为监督微调（Supervised Fine-Tuning, SFT）筛选高质量数据，并为强化学习（Reinforcement Learning, RL）提供一致的奖励信号。基于该流程，我们训练得到 ALIVE-Coder，其在交互式前端生成任务中取得了更优性能。据我们所知，本文首次提出了一条可扩展的交互式代码评测与优化路径，显著推动了开源模型在该方向上的能力发展。

图1. 现有静态IM官方网页版-IM中国范式的局限性

图2. ALIVE框架示意图

16.平均流策略优化算法

Mean Flow Policy Optimization

论文作者：董晓艺、张希、程健

研究介绍：

现有在线强化学习算法通常采用确定性策略或高斯策略作为策略表示。虽然这类方法结构简单、训练和推理成本较低，但其表达能力有限，难以刻画复杂控制任务中的多峰动作分布。近年来，扩散模型和流模型被引入在线强化学习，通过迭代式生成过程逐步将噪声转化为动作，能够表示复杂的多峰策略分布，展现了强大的探索能力与性能优势。然而，这类生成式策略通常需要多步采样，显著增加了训练和推理开销，限制了其在现实控制任务中的广泛应用。为缓解这一效率瓶颈，本文采用平均流模型作为策略表示。此类模型通过学习采样轨迹上的平均速度，而非传统流模型中的瞬时速度。芄挥行Ы档屠肷⒒蟛，从而以较少采样步数生成高质量动作。因此，平均流策略既保留了生成模型刻画复杂动作分布的能力，又显著提升了训练和推理效率。此外，本文采用了最大熵强化学习目标，来鼓励智能体对状态——动作空间进行充分探索，并通过软策略迭代算法来优化平均流策略。针对平均流策略应用于软策略迭代算法时面临的两个关键挑战，本文分别提出了平均散度网络学习和自适应瞬时速度估计方法。前者用于拟合动作似然计算中难以求解的散度积分，从而实现软Q函数的有效IM官方网页版-IM中国；后者则在无法直接获得目标策略分布样本的情况下，构造可行的策略训练目标。实验结果表明，本算法在 MuJoCo 和 DeepMind Control Suite 等连续控制基准任务上能够达到或超过现有基于扩散策略的强化学习方法的性能，同时显著减少了采样步数并降低了训练与推理的时间。

平均流策略优化算法示意图

17.规划引导与双向经验驱动的启发式算法自动设计

RefineEvo: Planning-Guided Heuristic Evolution with Bidirectional Experience

论文作者：吴洋、潘俊燃、张一帆、徐宁、曾凡硕、程健

研究介绍：

组合优化问题广泛存在于物流调度、路径规划、芯片设计等场景中，是复杂决策任务中的基础问题。启发式算法因求解效率高、适用范围广，长期以来是求解组合优化问题的重要手段。然而，高质量启发式算法通常依赖专家对问题结构和搜索过程的深入理解，需要反复设计、调参和验证，开发成本较高，也难以快速适配新场景。近年来，大语言模型为自动生成启发式算法提供了新的技术路径。已有方法通常将启发式算法表示为代码，并通过演化搜索生成和筛选候选算法。但这些方法大多依赖固定演化算子，搜索过程中存在大量重复试错，难以根据当前状态动态调整策略。同时，对历史搜索中的成功与失败案例利用不足，模型容易重复无效修改，也难以判断经验的适用场景。

针对上述问题，我们提出了RefineEvo，一种基于规划引导与双向经验的启发式算法自动设计框架。该框架引入规划器模块，根据种群质量、搜索停滞程度和算子历史表现，动态选择演化策略。当某类算子持续失效时，规划器会对该算子进行改进，使搜索工具随演化过程不断调整。此外，这一方法构建了双向经验池，同时记录有效修改和失败模式。不同于仅总结最终优劣解的做法，该机制从父代到子代的演化轨迹中提取经验，并标注适用条件。生成新启发式算法时，模型可以检索相关正向和负向经验，从而强化有效设计，避免重复失败。实验表明，RefineEvo 在旅行商问题、在线装箱问题、背包问题和容量约束车辆路径问题等经典组合优化任务上取得了优于现有方法的结果，并能够适配构造式启发式、蚁群优化和引导局部搜索等不同算法范式。在真实 TSPLIB 测试中，相较于表现最好的基线 MCTS-AHD，该方法的平均最优性差距下降约 20.6%。同时，相较于直接调用全部演化算子的策略，这一框架将 token 使用量降低约 47.0%，显著提升了搜索效率。这些结果表明，规划引导与轨迹级经验积累提升了大语言模型在启发式算法生成中的搜索效率和结果稳定性。

RefineEvo框架

18.面向大语言模型自动启发式发现的博弈论协同进化框架

Game-Theoretic Co-Evolution for LLM-Based Heuristic Discovery

论文作者：柯馨逸、李凯、兴军亮、张一帆、程健

研究介绍：

大语言模型（LLM）已显著推动自动启发式发现（Automatic Heuristic Discovery, AHD）的发展，但现有方法大多受困于“静态IM官方网页版-IM中国”范式，即在固定分布上反复优化。这不仅导致算法极易对特定分布产生过拟合，更使其在面对分布外（OOD）场景时性能显著下降。

为应对这一挑战，我们提出了 ASRO（Algorithm Space Response Oracles），一种基于博弈论协同演化的创新框架，将启发式算法的发现过程重新建模为求解器（Solver）与实例生成器（Generator）之间的二人零和博弈。该框架的核心是一种自适应的数据生成与训练机制：生成器持续构造能够暴露当前求解器弱点的实例，而求解器在不断变化的对抗压力下优化，从而打破固定IM官方网页版-IM中国所带来的性能瓶颈。

在具体实现上，ASRO维护并持续扩展求解器与实例生成器的策略池（Strategy Pool）。每一轮迭代中，算法更新收益矩阵并在受限博弈上求解混合策略，随后通过LLM驱动的程序搜索生成针对对手的近似最优响应（Approximate Best Response），并将其加入策略池中，从而推动协同进化。该设计使训练过程从固定分布上的静态拟合转向对抗环境中的持续响应，避免性能早期收敛并提升泛化能力。ASRO对具体的程序搜索机制保持解耦，可与多种LLM-AHD方法结合（如EoH、ReEvo等）实现近似最优响应。

实验结果表明，ASRO在在线装箱问题（OBP）、旅行商问题（TSP）和车辆路径问题（CVRP）三类经典组合优化任务上均显著优于对应的静态训练方法。在TSPLIB大规模旅行商问题测试中，ASRO将平均相对误差（gap）由4.20%降低至3.00%；在CVRPLIB复杂车辆路径问题实例上，则由41.83%降低至20.21%。此外，进一步实验分析发现，传统静态方法通常在训练早期便达到性能瓶颈，而ASRO能够在整个训练过程中持续提升性能，表现出更稳定的优化过程与更强的泛化能力。

我们首次将博弈论中的响应预言机（Response Oracle）思想系统性引入LLM自动启发式发现领域，为“生成器—求解器”协同进化提供了统一的程序级优化框架，也为未来大语言模型在复杂优化与自动算法设计中的应用提供了新的研究方向。

ASRO框架整体结构

19.最优传输引导的图组合优化方法

Optimal Transport–Guided Stochastic Control for Graph Combinatorial Optimization

论文作者：黄洋、张一帆、程健

研究介绍：

最大独立集（Maximum Independent Set, MIS）和最大割（Max-Cut）是图组合优化中的代表性问题，广泛应用于网络分析、任务调度和机器学习等场景。这类问题通常具有离散决策空间大、变量耦合强、目标函数高度非凸等特点，传统方法要么依赖复杂的离散搜索，要么在连续优化中容易陷入局部最优。如何在保持原始组合结构的同时实现高效搜索，一直是该方向的重要挑战。

针对这一问题，本文提出了一种最优传输引导的随机控制优化框架。该方法首先将图组合优化问题统一写成二次无约束二值优化（QUBO）形式，并进一步构造其精确连续多线性重写，在不引入松弛误差的前提下把离散问题映射到连续空间。随后，研究将目标函数视为能量函数，把优化过程转化为从参考分布向目标分布演化的采样过程；在此基础上，引入最优传输理论刻画更加高效的概率流路径，并将其进一步写成随机最优控制问题。为了更好利用图结构信息，本文还使用图神经网络对控制策略进行参数化，从而在大规模图上实现结构感知的高效搜索。

实验结果表明，该方法在最大独立集和最大割两个经典 NP-hard 图优化任务上表现出较强的解质量与效率优势。在 ER-[700--800] 的 MIS 任务上，本文方法取得了 43.41 的最优独立集规模，优于 RLNN 的 43.34 和 RLSA 的 43.26，同时运行时间仅为 19 秒；在 BA-[200--300] 的 Max-Cut 任务上，本文方法取得了 734.18 的最佳 cut 值，优于 Gurobi 的 730.87 和 RLSA 的 733.54，耗时 25 秒。对于更大规模的 BA-[800--1200] Max-Cut 实例，本文方法达到 2960.13 的 cut 值，明显优于 Gurobi 的 2944.38，同时将运行时间从 1.28 小时缩短到 1.70 分钟。整体来看，该工作说明，将“精确连续重写 + 最优传输引导采样 + 图神经控制策略”结合起来，可以为图组合优化提供一条兼顾求解质量与计算效率的新路径。

本文从概率演化与几何视角理解采样优化过程。不同采样方法对应从参考分布到目标分布的不同搜索路径，其中最优传输提供了更高效的分布演化轨迹，并据此指导本文的随机控制设计。

20.偏好调制结构注意力的多目标组合优化

Preference-Modulated Structural Attention for Multi-Objective Combinatorial Optimization

论文作者：贾荣盛、张一帆、张军、程健

研究介绍：

本文提出了一种名为PMSA的新型轻量级神经网络求解器，专门用于解决多目标组合优化问题。针对现有方法过度依赖节点特征而忽略边特征，导致难以捕捉复杂图拓扑结构及其与偏好之间互补关系的问题，PMSA 通过将偏好调制的边特征作为显式结构偏置注入注意力机制，使模型能够根据特定的偏好权重动态感知子问题的拓扑结构。此外，该框架还设计了一种节点引导的动态边特征聚合策略，利用注意力权重作为实时上下文来更新边表示，从而在保持低计算复杂度的同时，显著增强了模型对偏好感知结构的表征能力。

在实验表现上，PMSA展示了卓越的性能与泛化能力。在Bi-TSP、Bi-CVRP和 Bi-KP等多个经典基准测试中，PMSA获得的解质量明显优于现有的 SOTA 神经求解器。在应对大规模任务时，PMSA 表现出极强的竞争力，不仅显著缩小了与传统强力启发式算法之间的近似差距，同时在推理效率上保持了神经求解器的固有优势。研究结果表明，这种“节点-边特征协同演化”的范式有效增强了模型对分布外规模问题的泛化性能。通过在注意力机制中引入结构先验，PMSA为优化复杂多目标决策任务提供了一种更为高效且稳健的技术路径。

PMSA将偏好调制的结构信息注入注意力机制中

21. RaGEP：面向混合专家模型的秩感知的几何专家剪枝框架

RaGEP: Rank-aware Geometric Expert Pruning for Mixture-of-Experts Language Models

论文作者：胡文韬*、朱泽雨*、赵明宽、安振华、翟彦博、于山宏、周慧琳、赖鑫、朱晓燕、王嘉寅

研究介绍：

本文提出了一种面向稀疏混合专家模型（MoE）的后训练压缩框架 RaGEP（Rank-aware Geometric Expert Pruning），旨在缓解大规模 MoE 模型在内存受限设备上部署时面临的巨大参数存储压力。不同于现有方法主要依赖专家激活频率、权重范数等标量统计指标，RaGEP 从专家表征空间的几何结构出发，分析不同层和不同专家的有效信息维度与子空间互补性。在层间预算分配阶段，RaGEP 基于层级表征的有效秩自适应分配保留专家数量，使高复杂度层获得更多压缩预算；在层内专家选择阶段，进一步提出结合子空间正交性与激活强度的 Spectral-Salience 指标，优先保留高能量且互补性强的专家，从而减少冗余专家保留。实验结果表明，RaGEP 在多种规模的 MoE 模型和多个零样本任务上均稳定优于现有剪枝方法，在显著降低模型体积和推理成本的同时保持更好的任务性能，为 MoE 模型的高效部署提供了一种新的几何感知压缩思路。

RaGEP 整体框架图

22. FiSeR：基于细粒度来源表征的跨域AI生成图像检测方法

FiSeR: Fine-Grained Source Representations for Cross-Domain AI Image Detection

论文作者：章珊、何永鑫、张明明、田惠文、马雷

研究介绍：

AI生成图像检测旨在识别图像是否由生成模型合成。在实际应用中，检测器需要泛化到新的真实图像来源和未见生成模型，但现有方法的跨域性能往往明显下降。UMAP显示，未见数据中两类图像表征仍具有一定可分性，这提示性能退化可能源于分类头过度依赖训练域痕迹，导致决策边界难以迁移。为此，我们提出FiSeR，一种基于细粒度来源表征的跨域AI生成图像检测方法。FiSeR通过层次化监督对比学习，同时捕捉真实图像与AI生成图像之间的粗粒度差异，以及不同生成模型之间的细粒度来源差异，在增强图像可分性的同时保留生成来源结构，从而学习更稳定、更可迁移的图像表征。在WildFake上训练后，FiSeR在四个数据集上进行跨域测试。在相同实验设置下，相比强基线方法DIRE，平均AUROC提升+10.22。少样本适配实验中，我们冻结特征网络，并用每类10个样本训练SVM分类头。对12个检测器取平均后，该方式在AIGIBench和Chameleon上分别带来+10.64和+17.41的AUROC提升，表明跨域退化更多与分类头对训练域痕迹的依赖有关，而非表征完全失效。

FiSeR方法概览图

23.高置信头部，低置信尾部：细粒度混合专家模型中基于专家采样的测试时拓展方法

Certain Head, Uncertain Tail: Expert-Sample for Test-Time-Scaling in Fine-Grained MoE

论文作者：陈远腾、王培松、曾楠馨、邵远天、邱爽、李钢、刘静、程健

研究介绍：

测试时扩展（Test-Time Scaling）已成为提升大语言模型复杂推理能力的重要手段，其核心思想是生成多个候选答案，并通过验证器或投票机制从中选出最优结果。然而，现有方法主要依赖 token 级采样来制造多样性，往往需要调节温度参数，在“输出多样性”和“单样本稳定性”之间艰难权衡。温度过低时，多次采样容易产生相似推理路径；温度过高时，又可能破坏模型原有的推理质量。

为解决这一问题，我们从细粒度 MoE 模型的专家路由机制出发，提出了一种新的测试时扩展方法 Expert-Sample。我们首先系统分析了 Qwen3-MoE、GPT-OSS、Ling-Lite、Qwen3-Next 等细粒度 MoE 模型的路由行为，发现了一个稳定存在的现象：排名靠前的少数高置信专家构成 certain head，主要决定模型的核心推理能力；而后续大量得分接近的低置信专家构成 uncertain tail，虽然对单次贪心推理影响有限，却与多样化推理路径密切相关。基于这一发现，Expert-Sample 在推理时保留高置信专家，确保模型输出的稳定性；同时在低置信专家区域引入受控随机采样，从而在不破坏核心推理能力的前提下，激发更多结构化的推理路径。与传统 token 级采样不同，Expert-Sample 将多样性注入到模型内部的专家选择阶段，因此能够产生更深层次的“结构多样性”，而不仅仅是表述层面的差异。该方法无需训练、无需修改模型结构，可作为即插即用的轻量级推理策略，并不与常规 token sampling相冲突。实验表明，Expert-Sample 在数学推理、知识推理和代码生成任务上均能稳定提升测试时扩展效果。在 AIME-120、GPQA-Diamond 和 LiveCodeBench-V6-Lite 等基准上，Expert-Sample 在四类细粒度 MoE 模型中持续提升 Pass@n 表现，在 12 组模型-任务组合上，Pass@64 平均提升 4.32%。进一步结合Verify策略如 Best-of-N 和加权多数投票时，Expert-Sample 也分别带来了 4.28% 和 3.15% 的平均实际准确率提升。

左：Expert-Sample流程图；右：Expert-Sample提升Pass@n及结合verify实际准确率提升效果图。

24.分块旋转是实现 MXFP4 量化的关键

Block Rotation is All You Need for MXFP4 Quantization

论文作者：邵远天、王培松、陈远腾、徐畅、韦志辉、程健

研究介绍：

大语言模型（Large Language Models, LLMs）已经取得了显著成功，但其规模的快速增长也带来了高昂的存储、计算与能耗成本。训练后量化（Post-Training Quantization, PTQ）是实现高效部署的一种有前景的方案，然而，实现精确的 W4A4 量化仍然是一个开放挑战。尽管现有大多数方法主要面向 INT4 格式设计，MXFP4 这一新兴 FP4 格式的出现及其在 NVIDIA、AMD、Intel 等硬件平台上的支持，引发了一个重要问题：现有技术是否仍然适用于 MXFP4 格式？

在本文中，我们构建了一个面向 MXFP4 格式的 PTQ 方法综合基准。通过系统IM官方网页版-IM中国，我们发现 GPTQ 等方法能够持续取得较强性能，而几乎被所有当前最先进方法采用的旋转类方法，在 MXFP4 下则表现出严重的不兼容性。进一步地，我们首次对这一冲突进行了深入分析，并将其根源追溯到 MXFP4 的 2 的幂次（Power-of-Two, PoT）分块缩放机制与全局旋转所引起的离群值能量重分布之间的根本性不匹配。基于这一发现，我们提出了一种简单而有效的分块旋转策略，使旋转类方法能够适配 MXFP4，并在多种大语言模型上带来了显著的精度提升。我们的研究结果不仅为实践者提供了清晰的指导，也为新兴低精度格式下的 PTQ 研究奠定了基础。

块旋转的直觉：全局旋转将异常值分散到所有通道，块旋转将异常值在局部重新分配

25. DV-World：真实世界场景下数据可视化智能体的基准评测

DV-World: Benchmarking Data Visualization Agents in Real-World Scenarios

论文作者：孟金翔^*、黄少平^*、雷方雨^*、郭婧瑜、刘昊翔、苏佳豪、王思涵、王瑶、王恩瑞、杨晔、柴泓泽、吕金明、余安邦、张煌婧、张弋彤、黄忆铭、马泽耀、何世柱、赵军、刘康^?

研究介绍：

真实世界的数据可视化（DV）需要智能体具备原生环境感知、跨平台适配和主动理解用户意图的能力。然而，现有基准常局限于代码沙盒、单一语言的生成任务，并默认用户需求完全明确。为此，我们提出 DV-World，包含 260 个任务，用于IM官方网页版-IM中国数据可视化智能体在真实专业流程中的表现。DV-World 覆盖三类任务：DV-Sheet 面向电子表格中的图表、仪表盘创建与修复；DV-Evolution IM官方网页版-IM中国跨平台可视化迁移与重构；DV-Interact 通过用户模拟器考察：枨笙碌闹鞫馔级云。实验显示，当前先进模型总体表现低于 50%，说明其仍难以应对真实数据可视化场景中的复杂挑战。

DV-World 旨在IM官方网页版-IM中国数据可视化智能体在完整生命周期中的能力，涵盖真实软件环境下的原生操作（DV-Sheet）、跨模态逻辑演化（DV-Evolution）以及主动式迭代交互（DV-Interact）等场景。

26.摆脱子空间陷阱：优化器几何在模型宽度扩展中的作用

Escaping the Subspace Trap: The Role of Optimizer Geometry in Model Width Expansion

论文作者：陈佳倍、王浩喻、于杨、徐遥、王良栋、刘广、何世柱、赵军、刘康

研究介绍：

随着模型规模的不断扩大，从零开始预训练大语言模型的成本变得极其高昂。一种切实可行的替代方案是模型宽度扩展（Model Width Expansion, MWE），它通过扩展一个已经充分预训练的“种子”模型来构建更大的模型，从而在初始化阶段继承其现有的知识和能力。然而，我们发现了一种被称为“子空间陷阱”的现象：在持续预训练期间，参数的更新在很大程度上停滞在了与初始化对齐的低维子空间内，从而限制了扩展后模型的有效容量。我们的理论分析对这一问题进行了深入探讨，并将其归因于宽度扩展的“函数保持”特性。具体而言，逐元素自适应优化器会受困于该陷阱中，而能够产生各向同性参数更新几何结构的优化器则能够成功逃脱。为了论证子空间陷阱对模型性能的影响，我们在不同规：拖盗械哪Ｐ蜕辖辛耸抵ぱ芯。实验结果表明，逃脱该陷阱对于提升训练效率和模型整体性能具有关键作用。详细的机制分析进一步证实，逃脱陷阱确实激活了新的维度来编码通用知识。

模型宽度扩展下的子空间陷阱可视化

不同优化器在模型宽度扩展训练与从头训练的损失表现对比图

27.迈向大语言模型的表征原子

Towards Atoms of Large Language Models

作者：胡晨辉，曹鹏飞，陈玉博，刘康，赵军

大语言模型（LLMs）的基本表征单元（FRUs）目前仍未被明确界定，这限制了对其底层机制的进一步理解。本研究提出了原子理论，用于系统地定义、IM官方网页版-IM中国并识别FRUs，并将其称为原子。基于原子内积（AIP），一种能够捕捉LLMs表征底层几何结构的非欧几里得度量，我们形式化地定义了原子，并提出了理想原子的两个关键标准：忠实性（R²）和稳定性（q^*）。进一步地，我们证明了在阈值激活稀疏自编码器（TSAEs）下，原子是可识别的。通过实验，我们发现LLMs中普遍存在一种表征偏移，并证明AIP能够校正这种偏移，从而捕捉底层的表征几何结构。我们发现，两类被广泛使用的表征单元，即神经元和特征，都不能被视为理想原子：神经元具有忠实性（R²=1），但稳定性较差（q*=0.5%）；而特征虽然更加稳定（q*=68.2%），但忠实性不足（R²=48.8%）。为了找到LLMs中的原子，我们利用TSAEs下原子的可识别性，并通过大规模实验证明：只有当TSAEs的容量与数据规模相匹配时，可靠的原子识别才会出现。在此基础上，我们在Gemma2-2B、Gemma2-9B和Llama3.1-8B的各层中识别出了FRUs，它们在忠实性（R²=99.9%）和稳定性（q*=99.8%）上都接近完美，从统计意义上满足理想原子的标准。进一步分析证实，这些原子与理论预期一致，并表现出显著更高的单义性。总体而言，我们提出并验证了原子理论，将其作为理解大语言模型内部表征的基础。

图1.原子理论示意图

(a) 原子基于原子内积进行定义，并由此引出可表征性、稀疏性和可分离性。(b) 原子通过忠实性（R²）和稳定性（q*）进行IM官方网页版-IM中国，分别用于衡量表征保真度和稳定原子比例。(c) 阈值激活稀疏自编码器能够实现原子识别，其中编码器作为检测器，解码器作为目标原子集合。

图2.不同大语言模型各层中神经元、特征与理想原子的比较。理想原子需要同时表现出高忠实性和高稳定性，分别对应于R²=1和q*=1。

28.污染推理中的几何收缩

A Narrowing Geometry in Contaminated Reasoning

作者：谢甲宽，曹鹏飞，刘康，赵军

随着大语言模型（LLM）推理能力的快速发展，评测数据泄露所导致的数据污染问题正在削弱现有评测结果的可靠性，并阻碍我们深入理解模型的推理过程。尽管已有研究指出，许多主流推理评测基准均存在不同程度的数据污染风险，但我们对数据污染如何影响模型推理机制仍缺乏清晰认识。这不仅使我们难以判断模型的思维链是否真正体现了推理能力，也限制了可靠评测框架的构建。本文对污染推理的机制进行研究并发现，在数据污染条件下，模型表示会出现显著的谱集中现象，导致计算过程退化为低维计算。同时，表示与梯度的白化协方差矩阵在奇异值层面呈现出一致的偏序收缩行为，从而导致表示与梯度的互信息衰减，而这一现象正是污染推理的内在信号。基于上述发现，本文建立了污染推理的机制链条，并进一步提出了一种针对计算收缩的干预方法，成功恢复了部分泄露样本上的原始推理性能，为理解和缓解大模型推理中的数据污染问题提供了新的机制视角。

分析框架与主要发现

29.面向一致性长视频生成的免训练无限帧生成增强方法

Enhancing Train-Free Infinite-Frame Generation for Consistent Long Videos

论文作者：丰效坤、朱家树、武美奇、陈楚彬、毛方圆、郭海洋、吴佳洪、初祥祥、黄凯奇

研究介绍：

在不引入显著计算开销的前提下，免训练长视频生成旨在使基础视频生成模型能够生成更长的视频。基于帧级自回归的框架，例如 FIFO-diffusion，具有以恒定内存消耗生成无限长视频的优势。然而，训练与推理之间的不匹配，以及维持长期时序一致性的困难，限制了基础模型能力的有效发挥。为缓解上述问题，我们提出了 MIGA，一种新颖的无限帧长视频生成方法。首先，我们提出了一种有效的两阶段对齐机制，通过减少输入模型的过大噪声跨度，从而缓解训练-推理之间的差距。随后，我们引入了一种创新性的双重一致性增强机制：其中，自反思方法用于修正早期高噪声。こ讨∫挤椒ㄔ蚶煤笃诟哺欠段Ц愕牡驮肷±匆忌，二者协同提升视频的时序一致性。在 VBench 和 NarrLV 上的大量实验结果表明，MIGA 达到了SOTA的性能水平。

MIGA 以免训练的方式实现了具有时序一致性的无限帧视频生成。我们展示了三个由 MIGA 生成的长视频（1000+ 。，而 MIGA 所基于的基础模型 Wan2.1-1.3B默认仅支持生成 81 帧。

30. PlotCraft：突破大语言模型在复杂交互式数据可视化中的极限

PlotCraft: Pushing the Limits of LLMs for Complex and Interactive Data Visualization

论文作者：张家骏、张荐科、崔泽宇、杨家玺、张磊、王子磊、刘强、王亮、惠彬原、林俊旸

研究介绍：

近期，大语言模型（LLM）在代码生成方面展现出了卓越的能力。然而，它们为规模化和结构化数据创建复杂可视化的能力，在很大程度上仍未得到充分的IM官方网页版-IM中国与发展。为了填补这一空白，我们引入了 PlotCraft，这是一个全新的基准测试，包含 1000 个具有挑战性的可视化任务，涵盖金融、科学研究和社会学等广泛领域。该基准测试围绕 7 种高阶可视化任务构建，并包含 48 种不同的图表类型。关键在于，它是首个在多种任务复杂度下，系统性IM官方网页版-IM中国单轮生成和多轮优化（refinement）能力的基准测试。我们在 PlotCraft 上对 23 个领先的 LLM 进行了全面IM官方网页版-IM中国，结果表明它们在处理复杂可视化任务时存在明显的性能不足。

为了弥补这一性能差距，我们开发了 SynthVis-30K，这是一个通过多智能体协作框架合成的大规模、高质量复杂可视化代码数据集。基于该数据集，我们开发了 PlotCraftor，这是一种新颖的代码生成模型，它以极小的参数规模在复杂数据可视化方面展现出了强大的能力。在 VisEval、PandasPlotBench 以及我们提出的 PlotCraft 上，PlotCraftor 展现出了与领先的闭源方法相媲美的性能。特别是在高难度任务上，我们的模型实现了超过 50% 的性能提升。

31.面向测试时提示微调的统一自集成框架

USE: A Unified Self-Ensembling Framework for Test-Time Prompt Tuning

论文作者：蒋思如、梁坚、赫然、谭铁牛

研究介绍：

测试时自适应已成为提升视觉语言模型在下游任务性能的流行范式。在现有基于CLIP的TTA方法中，测试时提示微调（TPT）是一项开创性的工作，它利用测试时数据增强来优化文本提示，至今仍是一个强大的基线方法。本文重新审视了TPT，并揭示了其优化过程可被解释为从自身生成的伪标签中进行隐式学习。基于这一视角，我们提出了一种统一的自集成框架（USE），联合改进优化与推理阶段。在优化过程中，我们引入了一种简单且有效的自集成（SE）策略，该策略自适应地赋予测试图像本身比其增强视图更高的权重，从而获得更可靠的伪标签。为了充分发挥增强视图的潜力，我们在推理时进一步应用了相同的策略，从而统一了这两个阶段的目标。值得注意的是，SE本身也可以作为一种轻量级的免训练TTA方法。大量实验表明，SE和USE分别优于其对应的基准方法。此外，将SE作为即插即用模块与现有的TTA方法结合使用时，能够带来稳定的性能提升。

统一自集成（USE）框架流程图。优化阶段基于熵筛选强增强视图，并通过自集成（SE）策略将其与弱增强视图自适应结合，生成可靠的伪标签，随后使用逆交叉熵损失优化文本提示。推理阶段采用与优化阶段完全相同的SE策略计算最终预测，从而使优化目标与推理目标对齐。

32. MedREK：面向医疗大语言模型的检索式知识编辑框架

MedREK: Retrieval-Based Editing for Medical LLMs with Key-Aware Prompts

论文作者：夏姝珺*、林浩坤*、吴一尘、周熠楠、李子轩、邢兴润、郑冶枫、李响、单彩峰、孙哲南、李权政

研究介绍：

近年来，医疗大语言模型在医学问答、临床辅助决策和健康咨询等场景中展现出较大潜力，但医学知识会随着临床指南更新、新药物发现和研究证据变化而不断演进。如果模型无法及时吸收这些变化，就可能生成过时甚至错误的医学建议。我们提出了MedREK，一个面向医疗大语言模型的检索式知识编辑框架。医疗知识更新快，直接修改模型参数的方法虽然能修正部分事实，但容易影响无关知识，在高风险医疗场景中存在安全隐患。为此，文章构建了MedVersa 基准，首次系统IM官方网页版-IM中国医疗知识的批量编辑能力，并覆盖更广泛的医学主题。MedREK 将新增或修正的医学知识存入外部知识库，通过共享query-key MLP 提升查询与知识条目的匹配精度，再利用attention-based prompt encoder 生成更有信息量的连续提示，引导模型输出更新后的答案。实验表明，MedREK 在单条编辑和10/50/100 条批量编辑设置下，均在Efficacy、Generality 和Locality 等核心指标上取得领先表现，尤其能在更新知识的同时更好地保持无关医学知识不被破坏，为医疗LLM 的安全、可控更新提供了有效方案。

MedREK 知识编辑流程图

33. VlogReward:Vlog编辑的多维IM官方网页版-IM中国学习

VlogReward: Learning Multi-Dimensional Evaluation for Vlog Editing

论文作者：刘烨翔、钟文、朱思捷、辜心、陈凡、段俊贤、曹杰、文珑银、陈振方

研究介绍：

vlog领域专家指导下，定义了vlog编辑方案的六维度的系统性IM官方网页版-IM中国框架，构建了100k的vlog编辑方案“打分IM官方网页版-IM中国+反馈意见”的训练数据，以及测试基准VRMBench，包含200组主观维度上有区别和200组客观维度上有区别的编辑方案，每组包含4个质量不一的编辑方案。对GRPO进行改进，提出组间比较奖励模块，训练了vlog自动IM官方网页版-IM中国模型VlogReward，能够取得比标准GRPO取得更好的打分效果和好坏样本区分能力。

数据示例

34. DynVLA：面向自动驾驶动作推理的世界动态学习

DynVLA: Learning World Dynamics for Action Reasoning in Autonomous Driving

论文作者：尚书尧、詹兵、雁云飞、王宇琪、李颖彦、安亚松、王晓曼、刘杰瑞、侯璐、范略、张兆翔、谭铁牛

研究介绍：

本文提出了一种面向自动驾驶的视觉-语言-动作（VLA）模型 DynVLA，并首次引入“Dynamics Chain-of-Thought（Dynamics CoT）”推理范式，用于在动作生成前显式推理未来世界动态。与传统文本式CoT难以建模复杂时空关系、视觉式CoT推理冗余且计算开销较大的问题不同，DynVLA通过“动态Tokenizer”将未来场景演化压缩为少量离散动态Token，实现了紧凑、高效且具有物理可解释性的推理过程。模型进一步将动态解耦为“自车运动动态”和“环境交互动态”，并结合动作约束与跨视角一致性约束，使学习到的动态表示更加稳定、可迁移且符合真实驾驶规律。在训练阶段，DynVLA先通过监督微调学习“先推理动态、再生成动作”的结构化推理流程，再结合强化微调进一步提升规划安全性与决策质量。实验结果表明在 NAVSIM、Bench2Drive 等多个自动驾驶基准测试中均显著优于现有文本CoT与视觉CoT方法，同时将推理延迟降低一个数量级，展示了 Dynamics CoT 在自动驾驶推理中的重要潜力。

DynVLA整体框架与Dynamics CoT流程

35. KBQA-R1：基于强化学习增强大语言模型的知识库问答

KBQA-R1: Reinforcing Large Language Models for Knowledge Base Question Answering

论文作者：孙鑫、陈中奇、郑行、刘强、吴书、宋博文、王子磊、王维强、王亮

研究介绍：

知识库问答（KBQA）旨在利用大型结构化知识库（如 Freebase）来回答自然语言问题。尽管大语言模型（LLM）在此领域取得了显著进展，但现有方法通常面临两难困境：要么在不验证知识库架构的情况下生成带有“幻觉”的查询，要么采用僵化的模板式推理，缺乏对环境反馈的真实理解。为了解决这些局限性，本研究提出了 KBQA-R1 框架，将传统的文本模仿范式转变为基于强化学习（RL）的交互式优化范式。模型在预定义的结构化动作空间（如 Find_relation、Merge 等）内探索知识库，并根据执行引擎返回的真实反馈动态调整其推理轨迹，而非生成无法验证的静态代码。为了克服强化学习中的“冷启动”问题，研究团队提出了一种全新的数据合成方法。 RRS 通过将模型的推理轨迹与真实的动作序列严格对齐，有效防止了逻辑幻觉，为模型提供了高质量的监督微调数据。广泛的实验表明，KBQA-R1 在 WebQSP、GrailQA 和 GraphQuestions 等主流基准测试中均达到了业界领先（SOTA）的性能。

KBQA-R1 训练框架

36.通过自适应安全情境学习缓解LLM对齐中的安全性和效用权衡

Mitigating the Safety-utility Trade-off in LLM Alignment via Adaptive Safe Context Learning

论文作者：王彦博、王民政、梁坚、王璐、余永灿、赫然

研究介绍：

尽管推理模型在复杂推理任务中取得了显著的成功，但其日益强大的能力也要求采取严格的安全措施。对于安全对齐而言，核心挑战在于安全性和效用之间固有的权衡。然而，现有的对齐策略通常通过上下文蒸馏构建包含明确安全规则的CoT训练数据。这种方法无意中限制了推理能力，因为它在规则记忆和拒绝之间建立了一种僵化的关联。为了缓解安全性和效用之间的权衡，我们提出了自适应安全上下文学习（ASCL）框架，以在适当的上下文条件下提升推理能力。ASCL将安全对齐建模为一个多轮工具使用过程，使模型能够自主决定何时参考安全规则以及如何生成持续的推理。此外，为了抵消强化学习过程中对规则参考的偏好，我们引入了逆频率策略优化（IFPO）来重新平衡优势估计。通过解耦规则检索和后续推理，我们的方法相比基线方法取得了更高的整体性能。

37. OmniSIFT：面向高效全模态大语言模型的模态非对称 Token 压缩

OmniSIFT: Modality-Asymmetric Token Compression for Efficient Omni-modal Large Language Models

论文作者：丁悦、嵇屹岩、李俊钢、刘旭洋、陈鑫龙、吴俊飞、李博洲、曾博涵、史阳、关玉烁、张远行、刘佳恒、刘强、万鹏飞、王亮

研究介绍：

全模态大语言模型在音视频理解任务中展现出强大能力，但长视频和高分辨率音频会带来大量多模态 token，显著增加推理成本。本文提出 OmniSIFT，一种面向 Omni-LLM 的模态非对称 token 压缩框架。不同于将音频和视频对称压缩的已有方法，OmniSIFT 首先从视频流中去除空间和局部时间冗余，得到紧凑的视觉锚点；随后利用这些视觉信息指导音频 token 选择，从而保留与场景语义更相关的关键音频线索。该框架仅引入 4.85M 额外参数，并通过端到端训练实现高效压缩。在五个代表性音视频理解基准上的实验表明，OmniSIFT 在仅保留 25% 原始 token 的情况下，仍能稳定优于现有压缩方法，并在部分任务上超过完整 token 模型，同时显著降低推理延迟和显存开销。

图1.OmniSIFT 采用两阶段模态非对称压缩流程。时空视觉预处理模块首先去除视频令牌中的空间与时间冗余信息，生成精简视觉锚点；视觉引导音频选择模块再依据这些视觉锚点筛选音频令牌，随后将压缩后的多模态序列输入大语言模型主干网络。

图2.该可视化展示了 OmniSIFT 在高强度压缩下，如何保留显著的视觉动态特征以及上下文对齐的音频线索，从而实现对细粒度音视频事件的精准推理分析。

38.思维链并非真相之链：推理大语言模型生成假新闻的实证内部分析

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

论文作者：童昭、巩春林、张艺平、石海超、刘强、徐兴成、吴书、张晓宇

研究介绍：

本研究挑战了推理大模型（Reasoning LLMs）安全IM官方网页版-IM中国中“拒绝即安全”的传统假设，揭示了一个关键隐患：即使在假新闻生成任务中模型最终拒绝了有害请求，其思维链（CoT）推理过程内部仍可能隐含并传播不安全叙事与描述。为此，本文提出了一套从粗到细的统一安全分析框架。首先，在大模型架构层面量化各层表征差异，精准定位安全关键层；其次，在关键层内引入基于雅可比矩阵的谱分析，捕捉驱动安全分歧的核心注意力头。研究创新性地提出三项可解释度量指标——稳定性、几何一致性与能量集中度，以量化注意力头对欺骗性推理模式的响应机制。在Llama-8B、Qwen-4B、Qwen-8B以及Deepseek R1 70B等推理模型上的实验表明，开启思维模式后生成风险显著上升，关键路由决策高度集中于网络中部连续层（约30%-60%深度）。研究发现，即便模型表面拒绝，约80%的CoT仍潜藏安全风险。该工作通过实验分析挑战了“拒绝即安全”的固有认知，为深层推理风险的监测与干预提供了新视角。

图1.分别在不同模型上展示了安全关键层（阴影部分）的集中情况，在这些层中，安全推理与不安全推理在隐藏表示上的差异最大。蓝色和橙色曲线分别代表安全生成和不安全生成的输入平均值，阴影带则表示这些值的方差。

图2. 对 Llama-8B 安全关键层内的注意力头级路由进行可视化展示，涉及三个频谱指标：B1（稳定性）、B2（几何形状）和 B3（能量）。蓝色（安全）和橙色（不安全）曲线代表输入的平均轨迹，阴影区域表示输入的差异范围。

39.为噪声着色：面向可信图像超分辨率的对抗式 Sobolev 对齐方法

Coloring the Noise: Adversarial Sobolev Alignment for Faithful Image Super Resolution

论文作者：王宏博、黄怀波、王品、郝进华、周超、赫然

研究介绍：

本文研究图像超分辨率任务，即从低质量图像中恢复高质量图像。近年来，基于大规模视觉生成模型的方法能够生成更加真实的纹理细节，但现有方法通常依赖人工合成的退化数据进行监督训练，容易过度拟合这些人为假设，导致恢复结果虽然“看起来清晰”，但可能偏离真实自然图像分布，并产生高频伪影。针对这一问题，本文提出 ASASR：对抗式 Sobolev 对齐超分辨率框架，旨在提升图像恢复的真实性与可信度。具体而言，我们从自然图像的频谱统计规律出发，提出 Sobolev 频谱校正方法，对训练中的噪声建模进行结构化调整，使模型更符合真实图像纹理的频率分布。同时，我们设计了对抗式流形引导机制，动态生成具有挑战性的负样本，帮助模型识别并修正潜在伪影。大量实验表明，ASASR 在图像保真度、真实感、频谱一致性以及下游视觉任务表现上均优于现有代表性方法，能够更稳定地恢复符合自然图像统计规律的细节纹理。

ASASR 框架及频谱错配问题示意图。（a）传统超分辨率方法通常基于各向同性欧氏空间假设，忽略真实图像的频谱特性，导致生成结果与真实图像之间存在频谱偏差。（b）我们利用多种基线结果刻画真实伪影流形，并通过对抗器学习潜在伪影分布。（c）ASASR 在 Sobolev 几何空间中引入各向异性先验，引导模型生成频谱更一致、结构更可信的超分辨率结果。

40. Reranker虽有帮助但仍不足：面向检索增强生成系统的强投毒攻击

Reranker Helps, but Not Enough: Towards Strong Poisoning Attacks Against Retrieval-Augmented Generation

论文作者：杨晓琨、梁坚、刘业圣、熊欣、赫然、谭铁牛

研究介绍：

检索增强生成（RAG）系统通过引入外部知识提升大语言模型的事实性与时效性，但也因此暴露于数据投毒风险。现有研究发现，大多数投毒攻击在加入重排序器后效果会显著下降，而这一防御能力甚至无需专门的对抗训练。针对这一问题，本文分析了重排序器在文本偏好上的盲点，总结出四项有效的提示设计原则，并在此基础上提出Prompt-Perturbation Poisoning Attack（P3A）框架。该方法首先利用基于规则的提示工程生成初始恶意文本，随后通过细粒度字符级扰动进一步提升恶意文本在重排序阶段的排名，同时保持文本的自然性与可读性。大量实验结果表明，即使只投毒单个文档，P3A依然能够在多种数据集与模型设置下实现较高的攻击成功率，并展现出较强的鲁棒性与迁移能力。

Prompt-Perturbation Poisoning Attack（P3A）框架流程图

41. PixCLIP：面向细粒度视觉语言理解的任意粒度像素-文本对齐模型

PixCLIP: Towards Fine-grained Vision-Language Understanding via Any-granularity Pixel-Text Alignment

论文作者：肖以成、陈宇、马浩轩、洪家乐、李操瑞、吴凌翔、郭海云、王金桥

研究介绍：

针对细粒度图文基础模型的需求，以及传统工作在视觉指代和长文本上的粒度限制，我们提出了PixCLIP，第一个能够同时接受任意长度文本和任意粒度视觉指代的基础模型。
我们构建了自动化pipeline，使用多个先进的MLLM构造LongGrit数据集，以解决训练数据的短缺；并提出了一个三分支训练框架，实现跨粒度的稳健对齐。
PixCLIP在区域级任务上和传统的图文任务上都达到了SOTA。在DOCCI，Flickr，Urban等多个benchmark上显著提升性能。

图1. PixCLIP实现了更细粒度的视觉-文本对齐

图2. PixCLIP训练框架图

42.科学思维基准测试：面向复杂推理的生物医学视觉问答IM官方网页版-IM中国

Benchmarking the Scientific Mind: Toward Evaluation of Complex-Reasoning Biomedical VQA

论文作者：赵梓宇、刘一阳、王雅娇、王效涛、黎洋、彭雨旸、周嘉恒、王金桥、陈盈盈、杨戈、王海鑫

研究介绍：

本论文提出了 SORBE（Scientific Observation & Reasoning for Biomedical Evaluation），一种面向生物医学多图像视觉问答的科学推理IM官方网页版-IM中国基准。现有生物医学 VQA 数据集多为单图像和结果导向的评测，无法衡量模型在多步骤证据推理中的能力。SORBE 基于文献构建实验相关图像集，通过整合图像、说明文字及实验背景生成问题-推理-答案三元组，从而IM官方网页版-IM中国多步骤科学推理和证据对齐能力。实验证明，当前最先进的多模态大模型在 SORBE 上表现显著下降，揭示了模型在证据基础推理与因果推断上的系统性局限性。

SORBE数据集构建框架

SORBE样本示例

43. R-Diverse：缓解大语言模型自博弈训练中的多样性幻觉

R-Diverse: Mitigating Diversity Illusion in Self-Play LLM Training

论文作者：李庚晟、贺靖涵、王世杰、张丹、刘瑞奇、张仁瑞、姚子俊、方俊峰、郭海云、王金桥

研究介绍：

自博弈通过迭代式的“出题者—解题者”循环来引导大语言模型的推理能力提升：出题者被训练以生成针对解题者当前能力的问题，解题者则在生成的数据上进行优化以拓展自身的推理技能。然而，R-Zero 等现有框架往往表现出改进不可持续的问题——早期取得的增益会随着自博弈的延续而逐渐衰退。我们识别出一种关键的失效模式，称之为多样性幻觉：解题者所接收的训练信号看似多样，实则坍缩到反复出现的潜在模式之中。该现象表现为两种子类型：（1）局部多样性幻觉，即多样性仅在批次内部得到约束，从而诱发跨迭代的模式循环；（2）表层多样性幻觉，即问题在表面形式上有所变化，但所需的推理技能几乎相同。为缓解上述问题，我们提出 R-Diverse，包含两项相互配合的创新设计：记忆增强惩罚借助一个持久化的记忆库来抑制跨迭代的样本回收；技能感知度量则从所调用的推理技能层面来IM官方网页版-IM中国多样性，而非仅从问题的表层差异出发。在 10 个数学与通用推理基准上的实验表明，R-Diverse 能够在更多迭代轮次中持续保持性能增益，并稳定优于已有的自博弈方法。

图 1. 多样性幻觉与 R-Diverse 框架总览。(a) 尽管重复惩罚持续下降，跨迭代重复与迭代内重复却双双上升，揭示了优化目标所惩罚的对象与解题者实际所训练内容之间的错位。(b) 现有方法同时存在局部多样性幻觉与表层多样性幻觉。(c) R-Diverse 通过记忆增强惩罚实施全局的、具备历史感知能力的探索，并通过技能感知度量在底层推理技能层面识别重复，从而化解上述失效。(d) 由此，R-Diverse 在五轮迭代中持续提升，避免了 R-Zero 中观察到的性能坍缩。

表 1. 数学推理与通用推理基准上的主要实验结果。R-Diverse* 表示训练 3 轮迭代（与其他基线方法的配置保持一致）；完整 R-Diverse 训练 5 轮迭代。加粗：最优结果；下划线：次优结果。

44.PretrainZero：强化主动预训练

PretrainZero: Reinforcement Active Pretraining

论文作者：邢兴润、范致远、娄杰、李国齐、张家俊、张德兵

研究介绍：

近年来，基于强化学习（RL）的大型推理模型在软件、数学等领域展现出接近专家水平的能力，但仍高度依赖特定领域的可验证奖励，限制了通用推理能力的进一步扩展。本文提出 PretrainZero，一种构建在预训练语料上的强化主动学习框架，将强化学习从特定领域后训练扩展到通用预训练。PretrainZero 具有以下特点：1）主动预训练：受人类主动学习启发，PretrainZero 学习统一推理策略，从预训练语料中主动识别合理且信息量丰富的内容，并通过强化学习进行推理与预测。2）自监督学习：该方法不依赖可验证标签、奖励模型或监督微调数据，直接在 Wikipedia 语料上对 3B 至 30B 基座模型进行强化学习预训练，从而缓解通用推理问题中的可验证数据瓶颈。3）可验证数据的扩展：通过持续预测更具挑战性的掩码片段，PretrainZero 显著提升基座模型的通用推理能力，使 Qwen3-4B-Base 在 MMLU-Pro、SuperGPQA 和数学平均成绩上分别提升 8.43、5.96 和 10.60 分，并可作为后续 RLVR 任务的推理基础模型。

强化学习主动预训练方法概览。与普通强化学习预训练方法相比，PretrainZero 能够在预训练语料中主动探索并学习具有信息量的内容。

45.语义增强的隐空间视觉推理

Semantic-Enriched Latent Visual Reasoning

论文作者：徐添润、孙悦、王启迅、陆静怡、王源、章天任、郭龙腾、饶峰云、吕静、陈峰、刘静

研究介绍：

本文提出了一种语义增强的隐空间视觉推理框架SLVR，旨在解决现有视觉隐变量推理方法语义丰富性缺乏的问题。现有方法主要依赖视觉监督，导致隐变量仅编码外观级线索，难以支持多样化的区域级推理任务。为此，作者提出了两阶段学习框架：第一阶段通过细粒度属性级监督学习语义丰富的区域中心隐变量，从而显式编码对象属性、状态等结构化语义信息；第二阶段设计多查询组相对策略优化（M-GRPO），通过对同一视觉区域的多个语义不同查询进行联合优化，鼓励隐变量在保持回答正确性的同时实现跨查询一致性。此外，研究构建了包含约40万区域属性注释和80万多查询问答对的SLV-Set数据集，以及用于IM官方网页版-IM中国语义变化下隐变量推理鲁棒性的SV-QA基准。实验结果表明，SLVR在标准VQA基准和SV-QA上均显著优于现有隐变量推理基线，验证了语义增强隐变量在提升推理鲁棒性和语义一致性方面的有效性。

语义增强的隐空间视觉推理框架

46. DeFacto：基于图像反事实思考的忠实推理方法

DeFacto: Counterfactual Thinking with Images for Enforcing Evidence-Grounded and Faithful Reasoning

论文作者：徐添润、景皓达、李烨、魏羽泉、冯俊、陈冠宇、高海川、章天任、刘静、陈峰

研究介绍：

近年来，多模态大语言模型（MLLMs）在图像推理方面取得了显著进展，使“看图思考”（thinking with images）成为一种主流范式。然而，现有方法往往依赖语言先验，难以保证“证据-答案”的一致性，即正确的答案必须由对应的图像依据来支撑。为了缓解这一问题，本文提出了一种名为DeFacto的反事实推理框架，旨在通过联合优化任务回答的正确性与证据的一致性，将推理过程和视觉证据进行显式对齐。DeFacto引入了三种互补的训练范式：（1）正向监督（提供完整证据）；（2）反事实弃权（掩盖关键证据，要求模型输出“不知道”以防乱猜）；（3）随机掩码（掩盖无关上下文以防产生学习捷径）。为避免昂贵的人工标注，本文开发了一种基于语言引导的构建流水线：利用MLLM解析提问特征，结合OCR和开集目标检测定位关键证据框并生成反事实样例，从而构建了拥有10万级样本的DeFacto-100K训练集。在此基础上，本文对模型进行基于GRPO的强化学习，并设计了答案正确性、格式一致性和证据选择连贯性三种奖励信号。此外，本文还引入了由人工标注的高质量验证基准DeFacto-1.5K，用于系统IM官方网页版-IM中国除了答案准确性之外的细粒度证据忠实度。在多项VQA和文档理解基准的广泛实验表明，与现有的强基线相比，DeFacto在答案精确度和视觉对齐的忠实度方面均取得了显著提升。

基于图像反事实思考的忠实推理方法框架

47.跨模态、规模与训练轨迹的趋同演化：人脑与人工智能表征对齐的证据

Convergent Evolution across Modalities, Scales and Training Trajectories: Evidence for Human Brain-AI Alignment

论文作者：申国斌、赵东城、董一廷、张倩、曾毅

研究介绍：

本研究系统检验了"趋同演化"假说——结构与学习机制截然不同的人工智能模型与人类大脑，是否会在表征层面自发收敛到相似的计算策略。我们构建了迄今规模最大的脑—AI表征对齐分析框架，将630个模型（36个大语言模型，参数规模0.5–72B；594个视觉模型，参数规模1.33M–1.01B）的内部表征，与Natural Scenes Dataset（NSD）中的fMRI神经记录进行系统比对，基于Centered Kernel Alignment（CKA）累计获得超过6000万次对齐测量。

研究有三方面核心发现：（1）在每个模态内部，模型性能与脑对齐均呈显著的对数型正相关（语言模型 r=0.89；视觉模型 r=0.53），控制参数量后偏相关依然成立，表明该现象并非由规模混淆所致；（2）纵向训练分析配合双向Granger因果检验显示，脑对齐在训练极早期即快速上升，并显著领先于任务性能的提升（10条轨迹中9条呈现"对齐→性能"的方向性预测），将脑样表征确立为有效学习的早期相关指征；（3）对齐呈现清晰的模态特异组织：视觉模型沿网络深度逐级映射到视觉皮层层级，语言模型则与边缘系统、默认模式网络等高阶整合脑区强烈对齐；多尺度核分析进一步揭示由初级感觉区到联合皮层的"后—前"梯度。研究为人工与生物智能间的趋同演化提供了系统的大规模实证证据，也为构建更可解释、更贴近人脑组织原则的AI系统提供了新的设计依据。

图1.脑—AI对齐分析的实验框架。通过统一的多模态分析框架，对630个模型（594个视觉模型与36个大语言模型）的逐层表征与NSD中的fMRI神经记录进行系统比对，覆盖模型规模、训练轨迹与模态差异，共获得约6000万次CKA对齐测量。

图2：训练过程中脑对齐的演化。MixNet视觉模型（a, c, e）与Pythia语言模型（b, d, f）的纵向训练分析显示，脑对齐在训练极早期即迅速上升并接近饱和，明显领先于任务性能的提升；分层视图（e, f）进一步显示出模态特异的层级动力学。该结果将"脑样表征"确立为有效学习的早期可观察指征。

48. TEFormer：脉冲 Transformer 中的结构化双向时间增强建模

TEFormer: Structured Bidirectional Temporal Enhancement Modeling in Spiking Transformers

论文作者：沈思成、吕明扬、韩冰、赵东城、申国斌、赵菲菲、曾毅

研究介绍：

现有 Spiking Transformer 将脉冲神经网络的稀疏事件驱动计算与 Transformer 的序列建模能力结合起来，但其时间建模能力仍然有限。已有方法通常只在注意力模块中进行单向时间增强，容易依赖任务敏感的超参数，或引入跨时间步的顺序计算，从而影响 Transformer 原本的并行效率。

本文提出 TEFormer，一个用于 Spiking Transformer 的结构化双向时间增强框架。该方法受视觉系统中前馈—反馈调制机制启发，将时间建模解耦到 Transformer 的两个核心组件中：在注意力模块中设计 Temporal Enhanced Attention（TEA），通过单个可学习标量构造时间掩码矩阵，实现轻量、并行的前向时间融合；在 MLP 模块中设计 Temporal MLP（T-MLP），用门控反向递归机制从后向前聚合时间信息，补充未来到当前的时间约束。

通过 TEA 与 T-MLP 的协同作用，TEFormer 在不显著破坏计算效率的前提下实现了双向时间融合。实验覆盖静态图像数据集、神经形态数据集和复杂时序任务，结果表明该方法在 CIFAR10、CIFAR100、CIFAR10-DVS、N-CALTECH101、SHD、UCF101-DVS 等多个基准上均优于现有 Spiking Transformer。进一步的神经编码实验表明，TEFormer 的性能提升在 direct、phase、rate 和 TTFS 等不同编码方式下保持稳定，说明其改进主要来自更有效的时间依赖建模，而非特定编码策略。

TEFormer双向时序增强示意图

49.基于异常值自吸收的大模型低比特量化

OSAQ: Outlier Self-Absorption for Accurate Low-bit LLM Quantization

论文作者：李志凯、董镇、刘学文、张静、顾庆毅

研究介绍：

大语言模型参数规模巨大，在推理时会带来较高的资源消耗和延迟。训练后仅权重量化能够减小模型体积，并通过缓解内存带宽瓶颈来提升生成速度。为此，本文提出一种新的低比特大模型量化方法，通过利用二阶信息的低秩特性，对权重进行加性抑制以减弱异常值影响。具体而言，本文发现 Hessian 矩阵在不同输入下具有稳定的低秩结构，部分方向的曲率始终接近于零。据此，可构建 Hessian 的稳定零空间，并通过对其中向量的线性组合生成加性权重变换，在不影响任务损失的前提下抑制异常值。该变换可离线吸收到模型权重中，无需额外推理开销，同时可通过闭式解高效求得，无需复杂训练或迭代优化。实验结果表明，该方法能够显著提升低比特量化性能；在 2 比特量化下，结合 GPTQ 后的困惑度相比原始 GPTQ 降低超过 40%。

方法整体框架

50.强化微调对多模态持续后训练中灾难性遗忘的抑制效应

Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Multimodal Continual Post-Training

论文作者：赖嵩、赵浩瀚、冯戎、马畅翼、刘文卓、赵宏博、林熙、易东、张青富、刘宏斌、孟高峰、朱飞

研究介绍：

随着多模态大模型在真实场景中的持续部署，模型需要不断吸收任务与新领域知识，这使得持续后训练（Continual Post-Training, CPT）成为关键应用。然而，已有研究大多聚焦于数据回放、模型扩展与参数正则化等外部策略，并以监督微调（SFT）作为基础范式，学习范式本身在持续学习中的作用长期被忽视。本文首次系统性地比较了 SFT 与强化微调（RFT）两种范式在多模态持续后训练中的知识保持能力。

以 Qwen2.5-VL模型为基座，在涵盖科学问答、文本视觉问答、几何推理、医学影像等多类下游任务上开展连续学习实验，结果表明：（1）SFT 在顺序学习中出现显著的灾难性遗忘，而 RFT 在不依赖任何数据回放或显式正则化的情况下，即可稳定保持已学任务性能，并接近多任务联合训练的性能上界；（2）SFT会损害模型的通用能力，而 RFT 保留了基座模型的通用知识。进一步实验分析显示，这种稳定性并不主要来自显式 KL 约束或链式思维格式。我们的实验结果揭示了一种样本级选择性更新现象，并据此提出了一种基于Rollout的实例筛选算法RIF-RFT，在降低训练开销的同时仍保持抗遗忘能力。本研究表明，RFT是多模态大模型持续后训练中更稳健的学习范式，为构建可持续演进的多模态基础模型提供了新的经验分析。

图1.?(a) SFT 表现出典型的灾难性遗忘：随着新任务的引入，已学任务性能显著下降；(b) RFT 在整个任务序列中始终保持稳定的高性能，展现出范式层面的内在抗遗忘特性。

图2.下游任务训练后，SFT等通用评测上出现明显退化；RFT 则能够较好保持甚至提升模型原有的通用能力。

附件：

下一篇：世界模型新探索，自动化所牵头队伍获得国际比赛第一名

此网站支持IE9及以上浏览器访问

© IM官方网页版-IM中国版权所有

备案序号：京ICP备14019135号-3 京公网安备110108003079号

地址：北京市海淀区中关村东路95号邮编：100190 Email：casia@ia.ac.cn

IM官方网页版-IM中国

<tfoot id='G4SHhN'></tfoot>

<legend id='HAgs4'><style id='PNnb0sL'><dir id='sWYwJK'><q id='VuTQAZ'></q></dir></style></legend>

<i id='4TMli'><tr id='CbfxZ'><dt id='bHXIc2W'><q id='pQGzDKk'><span id='paa3qa26'><b id='x2yND4e'><form id='bdfmO'><ins id='fgCfx34'></ins><ul id='BhpO9e'></ul><sub id='PP9Bo7'></sub></form><legend id='rzCkLTwm'></legend><bdo id='wvrAyl'><pre id='rm8HRf'><center id='DVRL'></center></pre></bdo></b><th id='J9cbql'></th></span></q></dt></tr></i><div id='J4g9r'><tfoot id='letWr'></tfoot><dl id='5Rkzwe'><fieldset id='l7LV6'></fieldset></dl></div>

<li id='58u6O9wW'><abbr id='HoSh'></abbr></li>