大模型复杂场景理解与轻量化应用论坛

学术论坛

大模型复杂场景理解与轻量化应用论坛

论坛简介

本次论坛以“大模型复杂场景理解与轻量化应用”为主题，聚焦大模型在复杂场景中的前沿探索与轻量化实践。随着人工智能技术的快速发展，大模型在感知、推理、决策等领域的应用日益广泛，但同时也面临计算资源消耗大、部署成本高等挑战。如何在复杂场景中实现高效理解与交互，并推动大模型的轻量化应用，成为当前研究的重要方向。论坛邀请了多位专家分享最新研究成果，涵盖多模态数字智能体、时空预报基础模型、低质量视觉增强、医学大模型可信推理以及大小模型协同推理等前沿议题。这些报告不仅展示了大模型在复杂场景中的感知与交互能力，还探讨了模型小型化、轻量化的创新路径，为实际应用提供了重要参考。本次论坛旨在促进学术界与产业界的交流与合作，推动大模型技术在更多场景中的落地应用，同时为轻量化技术的发展提供新思路，助力人工智能的高效、可持续发展。

论坛日程

论坛时间：2025年5月9日15:50-17:50

论坛名称：大模型复杂场景理解与轻量化应用论坛

主持人：冯婕、纪家沂

论坛主席

冯婕
西安电子科技大学教授
个人简介： 冯婕，西安电子科技大学教授，博士生导师，研究方向空天遥感图像智能处理，发表学术论文80余篇，其中包括CCFA类和中科院I区论文40余篇，ESI高被引/热点论文9篇，出版专著2部，连续多年入选“全球前2%顶尖科学家榜单”。主持军科委基础加强领域基金、装备预研教育部联合基金等。入选中国科协青年托举人才计划、陕西省特支计划青年拔尖人才等。担任Frontiers in Imaging副主编、Remote Sensing编委。获得中国自动化学会自然科学二等奖、中国航天集团技术进步奖二等奖。担任国际期刊 Frontiers in Imaging 副主编、Remote Sensing期刊编委、中国电子学会青年科学家俱乐部理事等。
纪家沂
新加坡国立大学博士后研究员
个人简介： 纪家沂是新加坡国立大学NExT++研究中心博士后，合作导师为新加坡国立大学Tat-seng Chua教授。博士毕业于厦门大学，师从纪荣嵘教授。长期从事计算机视觉和多模态处理领域研究。主持国家自然科学基金青年基金项目和博士后面上基金，博士后创新人才支持计划进入会评环节，作为骨干成员参与科技创新2030—“新一代人工智能”重大项目和重点研发项目。共发表顶级会议期刊论文超过30篇，包括TPAMI、TIP、CVPR、ICCV、NeurIPS和ICML等。担任ACM MM 2024、ICME2025领域主席和IJCAI 2025高级程序委员会成员，曾担任CVPR、ICCV、ECCV、NeurIPS、ICLR、ICML、ACL、TPAMI和TCSVT等顶级会议期刊的审稿人，担任2024中国媒体大会的论坛主席和第三届机器学习算法与自然语言处理大会论坛主席。

论坛讲者信息

张兆翔
中国科学院自动化研究所研究员
报告题目： AI PC浪潮下的多模态数字智能体：复杂场景中的感知交互及小型化探索
报告摘要： 随着AI PC概念的兴起，人机交互对复杂场景感知和轻量化模型的需求日益迫切。本报告聚焦于视觉语言大模型在复杂数字界面场景中的应用挑战，探索数字界面感知与交互智能体的构建方法，并提供一种模型小型化的实践方案。该场景下数据规模化有利于智能体泛化到多种类数字界面，为此我们提出了一套混合标注系统，以无需人类干预的方式全自动生产大规模蕴含丰富语义的元素标注，标注正确率可达到受训人类标注员水平。基于采集的千万级别指令微调数据，我们训练了具有可泛化数字界面理解能力的智能体。我们还尝试统一了不同数字界面的动作空间，使融合不同来源的交互轨迹数据更加便利，并整合得到包含多平台的数字界面交互训练集。该阶段训练显著提升智能体在不同平台执行用户意图的成功率。最后，我们探索了智能体小型化的实践思路，同时大幅精简训练数据，显著降低了模型参数量、时延以及训练开销，仅需约1/10的参数量即可达到与7B模型相当的数字界面元素定位准确度。
个人简介： 张兆翔，博士，研究员，博士生导师，长江学者特聘教授，中国科学院自动化研究所模式识别实验室常务副主任，中国科学院大学岗位教授。研究兴趣包括：模式识别、具身智能、智能体学习，在IEEE T-PAMI、IJCV、JMLR、National Science Review等顶级期刊与CVPR、ICCV、ECCV、NeurIPS、ICLR、AAAI、IJCAI等顶级会议发表论文200余篇，授权专利30余项，承担了国家自然科学基金重点项目、重点国际(地区)合作研究项目、中电科企业联合重点支持项目、国家重点研发项目等多项国家级科研项目，多次担任CVPR、ICCV、NeurIPS、ICLR等顶会Area Chair。以第一完成人获得北京市科学技术奖科技进步奖一等奖。
董军宇
中国海洋大学教授
报告题目： 北极海冰时空多尺度预报基础模型
报告摘要： 在全球气候变暖的背景下，北极海冰呈现出逐年减少的趋势。北极海冰变化不仅影响局地的气候系统，还可以通过海洋和大气环流变异等物理过程调制全球变化。当前对北极海冰变化的预报主要依赖基于物理方程的数值模式，需要在数值模式中充分考虑与复杂海洋现象相关的各种自然过程及其相互作用，因此海冰变化的精准预报具有极大的挑战性。与此同时，海洋卫星遥感数据的迅速增加为海洋科学的深入探索提供了契机。本报告将介绍将历史观测数据中的物理知识转移至数值模型的北极海冰的预测方法，构建先验知识与数据融合的深度学习基础模型，提升海冰预报的准确性，以补充传统数值模式方法的不足。
个人简介： 董军宇，中国海洋大学教授，博士生导师，国家高层次人才计划科技创新领军人才，主要研究方向为计算机视觉、水下视觉及海洋大数据分析。现任中国海洋大学海德学院院长，计算机学院院长，国际计算机学会（ACM）青岛分会主席，SCI期刊KSII Transactions on Internet and Information Systems编委，法国Interdisciplinary Graduate School for the Blue Planet (ISBlue)国际学术委员会委员。多次担任国际会议主席或者主要组织者。主持承担了科技部国际合作项目一项、国家自然科学基金项目六项，包括重大仪器（自由申请）项目一项、NSFC-山东联合基金一项，此外还主持承担了多个省部级项目。已在多个主流国际期刊及国际学术会议上发表论文200余篇，其中SCI期刊论文80余篇，获山东省自然科学二等奖（首位）。
查正军
中国科学技术大学教授
报告题目： 低质量视觉内容增强和表征模型
报告摘要： 在诸多真实应用场景下，视觉数据在产生和获取的过程中受多种因素干扰而导致复杂的质量退化现象。低质量视觉数据严重影响视觉系统的性能和应用。本报告将介绍真实场景下低质量视觉数据质量增强和内容分析方面的研究工作。
个人简介： 查正军，中国科学技术大学教授、博导，科研部部长、类脑智能国家工程实验室执行主任，国家杰出青年科学基金获得者、国家优秀青年科学基金获得者，入选国家创新人才引进计划青年项目、首届MIT TR35 China等。主要从事多媒体分析、计算机视觉、具身感知与交互、神经形态视觉等领域的研究，成果发表于一系列ACM/IEEE Transactions和CCF-A类会议长文。多次获得国际会议论文奖励，包括CCF-A类会议 ACM Multimedia 最佳论文奖和最佳学生论文奖、AAAI 杰出论文奖等。获中国科学院青年科学家奖、安徽省自然科学一等奖、国家教学成果二等奖、安徽省教学成果特等奖等。先后主持科技部创新2030-新一代人工智能重大项目、基金委重点基金、联合重点基金等多项科研项目。担任IEEE Trans. PAMI/MM/CSVT、ACM Trans. MM等权威国际期刊编委。
俞俊
哈尔滨工业大学（深圳）教授
报告题目： 跨模态协同计算理论与方法
报告摘要： 随着多模态大模型（如GPT-4V、Flamingo、CLIP）的爆发式发展，跨模态协同计算成为推动通用人工智能进化的核心方向。本报告聚焦跨模态表征、语义对齐与推理三大方向的理论研究成果，同时探讨多模态大模型在医学影像分析、新闻多模成稿等领域的落地应用成果。此外，尽管目前多模态大模型在开放域任务中表现较好，但其在数据偏差敏感、逻辑可解释性不足等问题仍待突破。未来需重点研究高效跨模态基础架构、跨模态长思维链推理、跨模态大小模型协同等方向，赋能智能制造、智慧医疗等垂直场景的智能化升级。
个人简介： 哈尔滨工业大学（深圳）教授、博士生导师，国家杰出青年基金获得者。主要研究方向为跨媒体分析技术。相关工作发表于SCI源期刊论文100余篇，包括ACM汇刊与IEEE汇刊及CCF A类会议60余篇。论文的Google Scholar引用次数21000余次。10余篇论文入选ESI高被引/热点论文；近年来主持国家自然科学基金重点项目、国家自然科学基金面上项目等，获IEEE TMM、TIP、TCYB最佳论文奖，2018年教育部自然科学二等奖，2021年浙江省自然科学一等奖。担任多个国际期刊的副编辑。
陈景东
蚂蚁集团资深算法专家
报告题目： 蚂蚁多模态大模型应用实践
报告摘要： 介绍蚂蚁在多模态大模型方向技术探索及应用，在应用方面，介绍面向复杂应用场景中典型问题的系统化解决方案，以及面向行业应用、推动可信智能、助力产业发展的应用概要和能力展示。在技术探索方面，介绍多模态大模型结构优化和原生多模等方向的算法探索。
个人简介： 陈景东，蚂蚁集团资深算法专家，负责多模态大模型技术研发。基于OCR的智能理赔和基于遥感的对农信贷的项目，分别荣获CCF 2022、2023科技进步二等奖。在计算机视觉、机器学习领域发表多篇论文，引用量5300+，语音识别技术成果入选2016年MIT全球技术突破Top10。
刘新旺
国防科技大学教授
报告题目： 大小模型协同知识推理
报告摘要： 如何基于现有的背景知识、所处环境和过往行为推理出全新的、有价值的知识，对搜索推荐、金融、医学以及军事等领域有着关键性的影响。随着大语言模型（Large Language Model，LLM）的兴起，利用LLM的推理能力来分析已有背景信息，进而精准预测新的知识成为近期研究的热点。然而，由于LLM海量的参数，使得其在资源受限的环境下难以使用与推广。为了解决上述问题，课题组提出了基于大小模型协同策略的知识推理系列算法，包括基于自适应思考的轻量化语言模型推理、基于跳跃思考的高效语言模型推理以及思维链引导的结构化知识推理等方法。这些方法不仅减少计算开销，还全面提升了推理的准确性。此外，课题组还探索了大小模型协同的推荐算法，也取得了不错的效果。
个人简介： 刘新旺，国防科技大学计算机学院教授、博导，国家杰青(2023)、国家优青(2019)获得者，基金委重点项目、科技创新2030重大项目负责人，基金委创新群体A类核心成员，多次获得省部级科研奖励，包括一次获得吴恩俊自然科学一等奖(2024, 排1)，两次获湖南省自然科学一等奖 (2014, 2021), 中国图象图形学学会自然科学二等奖 (2024)等奖项。主要研究方向为机器学习、数据挖掘等。共发表CCF A类期刊/会议论文150余篇, 其中包括IEEE T-PAMI 16篇 (含3篇独立作者), ESI高被引论文16篇, 谷歌学术引用共1.9万余次, 连续3年入选全球2%顶尖科学奖榜单 (2022-2024)。担任IEEE T-NNLS, IEEE T-CYB等国际顶刊副主编, 以及ICML, NeurIPS等国际顶会领域主席。

论坛联系人

冯婕
西安电子科技大学
jiefeng0109@163.com

2025中国图象图形大会（CCIG2025）

联系我们

你知道你的Internet Explorer是过时了吗?