您当前位置: 首页  >  新闻中心  >  学院新闻  >  正文

学院新闻

计算机科学与技术学院两篇论文被ICLR 2026接收

发布日期:2026-02-06 发布人: 点击量:

(一)

计算机科学与技术学院2020级博士生刘佳奇,2024硕士研究生孙朗,以及鼎新博士后付荣昊(通信作者)共同完成的论文“Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models”被International Conference on Learning Representations(ICLR 2026)接收。该论文的指导教师是杨博教授。

现有遥感视觉语言模型大多采用端到端解译方式,由于缺乏明确的推理过程,模型在分析遥感影像时极易生成缺少视觉依据的错误结论。针对这一问题,该文提出了一种基于感知的地理空间思维链(Perceptually-Grounded Geo-CoT)框架,并构建了首个大规模结构化遥感思维链数据集Geo-CoT380k。在此基础上,研究团队设计了首个具备显式推理过程的遥感多模态大模型RSThinker,使模型在解译过程中能够给出对应的推理依据。RSThinker采用两阶段训练方式:首先通过监督微调(SFT)学习带有推理步骤的示例数据,其后引入群体相对策略优化(GRPO)进行强化学习训练,重点约束推理过程与最终结论之间的一致性。实验结果表明,该方法在视觉问答、目标检测和视觉定位等多项精细遥感基准任务上的性能均显著超越了现有模型,同时支持输出与目标对应的推理过程,有助于提高遥感解译结果的可靠性和可解释性。


(二)

王英教授团队论文 "Differential Fine-Tuning Large Language Models Towards Better Diverse Reasoning Abilities" ICLR 2026 录用,论文第一作者为王英教授和管仁初教授指导的 2021 级博士生苑小松,王英教授为通讯作者,其他合作者来自阿里云飞天实验室、浙江大学和上海交通大学。

监督微调(SFT)通过在各类推理数据上训练能有效赋予大语言模型(LLMs)多种推理能力,但当前的联合训练(mix-up)或持续训练(continual)往往无法保持单一数据集微调的最佳性能,甚至会导致不同推理任务间产生“任务冲突(task conflict)”从而损害特定能力。本文首先通过分析推理微调模型与基础模型在推理过程中的参数变化差异,然后根据实验现象提出了差异化微调(DiFTDifferential Fine-Tuning)框架。该框架首先通过引入“增量尺度行(DSR)”分析以精准识别特定任务的关键专属参数,随后根据具体的推理任务组合进行差异化的选择性更新:在混合微调中仅更新相关任务专属参数的并集,而在持续微调中仅更新新任务相对于旧任务专属参数的差集。在 Llama3-8BMistral-7B Qwen2.5-3B/14B 等主流 LLMs 及多个推理任务上进行的实验结果展示了 SFT 性能的一致提升和任务冲突的显著缓解,证明了该方法不仅能在 mix-up SFT 中稳定增强多重推理能力,还能有效防止 continual SFT 中的性能崩溃,为大模型处理多样化推理任务提供了一种避免冲突并维持增益的高效策略。


ICLR是人工智能领域的重要国际会议之一,长期关注机器学习与深度学习方法的基础研究与应用发展。