计算机科学与技术学院2020级博士生刘佳奇,2024硕士研究生孙朗,以及鼎新博士后付荣昊(通信作者)共同完成的论文“Towards Faithful Reasoning in Remote Sensing: A Perceptually-Grounded GeoSpatial Chain-of-Thought for Vision-Language Models”被International Conference on Learning Representations(ICLR 2026)接收。该论文的指导教师是杨博教授。
现有遥感视觉语言模型大多采用端到端解译方式,由于缺乏明确的推理过程,模型在分析遥感影像时极易生成缺少视觉依据的错误结论。针对这一问题,该文提出了一种基于感知的地理空间思维链(Perceptually-Grounded Geo-CoT)框架,并构建了首个大规模结构化遥感思维链数据集Geo-CoT380k。在此基础上,研究团队设计了首个具备显式推理过程的遥感多模态大模型RSThinker,使模型在解译过程中能够给出对应的推理依据。
RSThinker采用两阶段训练方式:首先通过监督微调(SFT)学习带有推理步骤的示例数据,其后引入群体相对策略优化(GRPO)进行强化学习训练,重点约束推理过程与最终结论之间的一致性。实验结果表明,该方法在视觉问答、目标检测和视觉定位等多项精细遥感基准任务上的性能均显著超越了现有模型,同时支持输出与目标对应的推理过程,有助于提高遥感解译结果的可靠性和可解释性。相关论文(https://arxiv.org/abs/2509.22221)及代码已同步开源。
ICLR是人工智能领域的重要国际会议之一,长期关注机器学习与深度学习方法的基础研究与应用发展。