特色论坛

CSIG奖励论坛

论坛简介

奖励论坛特邀请2023年度中国图象图形学学会科学技术奖一等奖的获奖人，分享获奖项目的学术成果与获奖经验。这些项目是中国图像图形学领域研究成果的杰出代表，获奖者们将在论坛中亲身展示这些关键理论与技术的突破，包括动态特征的不变量学习理论与方法、异构媒体的协同计算与泛化推理、知识引导的视觉内容理解、高速高分辨计算摄像关键技术及应用、智能多媒体内容安全中间件关键技术及应用、低空航拍影像智能感知与分析关键技术及应用、复杂工业场景机器视觉鲁棒感知关键技术及应用等。获奖者们将深入介绍取得相关成果的历程、心得和最新进展。欢迎各位同仁加入我们，共同探讨图像图形学前沿，激发学术思想的火花，见证学术创新的闪耀时刻！

论坛日程

论坛名称：CSIG奖励论坛

论坛时间：2024.5.25 下午 14:00-17:20

主持人：彭宇新、陈健生

论坛主席

彭宇新

CSIG会士、提名与奖励工作委员会副主任，北京大学教授

个人简介：彭宇新，北京大学二级教授、博雅特聘教授、CAAI/CIE/CSIG Fellow、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、中国图象图形学学会副秘书长、提名与奖励委员会副主任、北京图象图形学学会副理事长。主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步奖一等奖，2008年获北京大学宝钢奖教金优秀奖，2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等40多个项目，发表论文200多篇，包括ACM/IEEE Trans和CCF A类论文100多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛，均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TMM、TCSVT等期刊编委。

陈健生

北京科技大学教授

个人简介：陈健生，北京科技大学计算机与通信工程学院教授，博士生导师。主要研究方向为鲁棒计算机视觉与机器学习方法，包括鲁棒的图像识别与目标检测、三维场景与人体姿态重建、图像与视频的语义理解等。作为负责人主持国家自然科学基金，科技部重大项目课题，重点研发计划创新特区，北京高校英才计划在内的科研项目十余项。在包括TPAMI、Nature Communications、TNNLS、CVPR、ICCV在内国际期刊和会议上发表学术论文百余篇。曾获北京市科学技术一等奖，CSIG自然科学二等奖。国家级一流本科课程和北京高等学校优质本科课程的课程负责人。

论坛讲者信息

侯臣平

国防科技大学教授

报告题目：动态特征挖掘理论与应用

报告摘要：在国防安全等领域的大数据分析中，数据特征通常随时间动态变化。现有方法无法有效应对特征动态变化。如何找到特征动态变化过程中的不变量，实现变化前后的知识继承，是迫切需要解决的关键科学问题。本报告主要聚焦增减、累积和延拓三个典型场景下不同类型不变量的学习问题，介绍历史模型不变量的高可靠性复用机理、内蕴结构不变量的高准确性挖掘模型和一致表征不变量的高时效性融合方法，最后介绍理论成果在国防领域的应用情况。

个人简介：侯臣平，国防科技大学教授，博士生导师。主要从事人工智能基础方面的研究工作，在自适应学习理论与应用等方面取得了系列研究成果，并成功应用于军事领域。近年来，在IEEE TPAMI等国内外著名刊物和会议上以第一/通讯作者发表学术论文100余篇（包括IEEE/ACM汇刊长文40余篇），担任ICML、IJCAI、AAAI等会议的AC/SPC/PC等，是Neurocomputing等SCI期刊的编委，多篇论文进入ESI各层次高被引论文。担任军科委基础加强重点项目首席，主持科技创新2030重大项目课题、国家自然科学基金、国防973专题等15项项目。获中国图象图形学学会自然科学一等奖1项、省部级一等奖1项，获国家优秀青年科学基金、湖南省杰出青年科学基金，享受军队专业技术岗位二类津贴等。

许倩倩

中国科学院计算技术研究所研究员

报告题目：异构媒体的协同计算与泛化推理

报告摘要：本报告将围绕异构媒体的协同计算与泛化推理展开介绍：1）针对标注质量难保障问题，揭示了主观认知偏差机制并提出高效的异常样本检测方法；（2）针对表征鸿沟难跨越问题，形成了双重历程理论下的异构表征解耦及多空间-数域下的表征交互机制，统一了实数域和复数域、欧式空间和非欧空间；3）针对决策偏差难消除问题，提出了风险敏感推理问题中的决策不变学习范式XCurve，使推理泛化到不同决策条件对应的场景中。

个人简介：许倩倩，中国科学院计算技术研究所，研究员，博士生导师，基金委优秀青年基金获得者。研究领域为数据挖掘和机器学习，共发表CCF-A类论文80余篇（其中一作/通作TPAMI 16篇）。先后获得：中国图象图形学学会自然科学一等奖、吴文俊人工智能自然科学一等奖、吴文俊人工智能科技进步二等奖、浙江省技术发明二等奖、茅以升北京青年科技奖、中国图象图形学学会石青云女科学家奖、吴文俊人工智能优秀青年奖、中国人工智能学会最佳青年科技成果奖、ACM中国SIGMM新星奖、并入选首份AI华人女性青年学者榜单。担任国际期刊TMM、T-CSVT和ACM TOMM编委，担任CSIG青工委/CSIG多媒体专委会/CAAI深度学习专委会副秘书长。研究成果应用于中央网信办安全中心、阿里巴巴、百度等。

刘偲

CSIG理事，北京航空航天大学教授

报告题目：图文自适应源驱动的3D场景编辑

报告摘要：本报告旨在解决图文自适应源驱动的3D场景编辑，并详细介绍了一种名为CustomNeRF的3D场景编辑框架。该框架对文本源驱动和图像源驱动的3D场景编辑进行了统一，并针对现有方法难以准确修改待编辑区域以及编辑后的结果存在多面问题这两个缺点，分别提出了局部-全局迭代编辑的训练方案以实现前景区域精准修改并保持背景不变，以及类引导正则化以利用生成模型中的类先验来实现不同视角间的一致性保持。

个人简介：刘偲，北京航空航天大学教授，国家优青。担任中国图象图形学学会理事、副秘书长。主持企业创新发展联合基金重点支持项目，担任科技创新2030—重大项目课题负责人。研究方向是具身智能和智能感知。发表CCF-A类论文80余篇（含TPAMI 13篇）。Google Scholar引用1.3万余次。获国家科技进步二等奖(9/10)、中国图象图形学学会自然科学奖一等奖（1/5）、CCF-腾讯犀牛鸟专利奖、吴文俊人工智能优青奖、石青云女科学家奖。获CCF-A类会议ACM MM最佳论文奖两次，获十余项CCF-A类会议竞赛冠军。

索津莉

清华大学长聘副教授

报告题目：高速高分辨计算摄像关键技术及应用

报告摘要：高速高分辨摄像能够捕获场景时域变化细节和空间精细结构，可广泛应用于工业检测、科学观测、军事国防等。传统相机受传感器带宽限制，难以同时实现高速高分辨观测。项目组通过设计计算摄像新机制，实现了低带宽下高通量视频耦合采集与解耦重建，解决了紧致耦合视频数据高精度、高效率解耦的难题，并研制了系列装置，在生物医学和工业检测领域推广应用，为基因测序、病理扫片、高速工业产线缺陷检测等提供装备与技术支撑。

个人简介：索津莉，清华大学自动化系长聘副教授、博士生导师。近年来主要从事计算摄像学理论与关键技术研究，包括高通量计算摄像、生物医学数据编码与传输等，在领域国际期刊与会议上发表高质量学术论文100余篇，包括领域顶级期刊Nature Photonics、Nature Communications、IEEE TPAMI、Proceedings of the IEEE等。先后承担国家自然科学基金项目（面上项目、重大仪器研制专项子课题、重点项目、优青项目）、科技部重点研发计划子课题、北京市自然科学基金重点项目等。关键技术获授权国家发明专利30余项、国际发明专利3项。相关成果获2023年度中国图象图形学学会技术发明一等奖（第1完成人）、2016年国家科技进步二等奖（第3完成人）、2015年度电子学会科学技术奖一等奖（第2完成人）。

马占宇

CSIG理事，北京邮电大学教授

报告题目：智能多媒体内容安全中间件关键技术及应用

报告摘要：信息内容管控与治理对于建设网络强国有着重要意义，然而随着图像视频不断产生、海量文本迅速增长以及中间件技术壁垒不断升高，信息内容管控面临着图像视频数据分布不均、质量参差不齐，文本表达形式丰富、过滤需求多样，以及国外技术垄断、产品集成化低等挑战，进而导致异常内容检测难、文本挖掘效率低以及核心技术受制于国外厂商的难题。为了解决上述问题，该报告将以“智能多媒体内容安全中间件关键技术及应用”为核心，向大家介绍项目团队在互联网信息内容管控与治理方面所取得的理论突破、技术创新，以及相关应用。

个人简介：马占宇，北京邮电大学人工智能学院教授/博导，发展规划处处长，瑞典皇家理工学院博士、博士后，国家杰出青年科学基金获得者，国务院学位委员会学科评议组成员，IEEE高级会员，亚太信号与信息处理协会杰出讲者，中国图象图形学学会理事兼副秘书长、青工委副主任，中国计算机学会计算机视觉专委会常务委员，中国自动化学会人工智能与机器人教育专委会副主任。主要研究兴趣是人工智能、模式识别与机器学习基础理论与方法，及其在计算机视觉、多媒体信号处理等领域的应用。在包括IEEE TPAMI、CVPR在内的顶级国际期刊和会议上发表论文多篇，担任IEEE TNNLS、IEEE TVT等国际期刊编委（Editor）和CVPR、AAAI AC等，授权发明专利30余项（含美国发明专利一项）；先后主持国家自然科学基金委“杰青”、“优青”、联合重点等项目以及科技部“科技冬奥”重点研发计划课题、北京市自然科学基金重点项目等；曾获中国人工智能学会“第七届吴文俊人工智能科学技术奖”一等奖，中国图象图形学学会技术发明一等奖，“北京市科学技术奖”二等奖，国际会议最佳论文奖等；入选“北京市科技新星”计划；获北京高校“优秀共产党员”、北京市教育系统“教书育人先锋”等荣誉称号。

卓力

北京工业大学教授

报告题目：低空航拍影像智能感知与分析关键技术及应用

报告摘要：低空航拍影像借助无人机等低空移动平台拍摄地面目标，具有传统高空航拍难以企及的分辨率，在公共安全、军事国防等领域发挥着不可替代的作用。然而低空航拍影像数据量庞大，采用人工方式进行判读费时费力，效率低下。研究团队针对低空航拍影像的具体特点和应用需求，深入开展了低空航拍影像智能感知与分析关键技术研究，包括航拍影像质量感知与增强、小目标检测方法和地物目标长时鲁棒跟踪方法等，并通过软硬件协同设计集成研发了多套嵌入式低空航拍影像智能处理与分析系统，目前已经应用于航空航天、军事国防、智慧农业、智慧交通等领域。

个人简介：卓力，教授、博士生导师，北京工业大学信息学部人工智能与视觉大数据研究所所长。1992年毕业于电子科技大学，1998年和2004年分别获得东南大学信号硕士学位和北京工业大学博士学位。先后入选北京市 “高创计划” 百千万工程领军人才，北京市百千万人才工程，北京市“长城学者”，教育部“新世纪优秀人才”等各种人才培养计划。作为项目负责人主持了包括国家自然科学基金重点项目、面上项目、863计划等在内的项目30多项，在国际期刊和国际会议上发表论文200余篇。出版了4部专著，译著5部，申请发明专利42项，软件著作权4项。获得科技奖2项（均排名第一）。

刘敏

湖南大学教授

报告题目：复杂工业场景机器视觉鲁棒感知关键技术及应用

报告摘要：机器视觉技术赋予机器“观察”和“理解”外部世界的能力，已成为推动工业制造向高端化、智能化发展的关键一环。针对复杂工业场景下机器视觉感知技术面临的目标成像不易、数据质量不高、模型性能不好等挑战，团队突破了目标自适应多视角成像、视觉数据自动增广增强、复杂场景高效鲁棒识别等关键核心技术，构建了复杂工业场景机器视觉鲁棒感知系统及装备，应用于中国航发、三一重工等智能制造龙头企业，取得了显著的经济和社会效益。

个人简介：刘敏，湖南大学二级教授，副院长。国家重点研发计划项目首席科学家，国家高层次青年人才，国家自然科学基金创新群体核心成员。机械工业先进制造视觉检测与控制技术重点实验室主任，中国图象图形学学会会员发展与服务工作委员会副主任、组织建设工作委员会秘书长，任IEEE TNNLS等期刊编委。主持国家重点研发计划项目、国家自然科学基金重点项目、国家重点研发计划国际合作重点项目，以第一、通讯作者在IEEE TPAMI等汇刊发表论文40余篇，获中国图象图形学学会科技进步一等奖（第1）、国家教学成果二等奖（第2）、中国自动化学会青年科学家奖、中国自动化学会科技进步一等奖、湖南省教学成果特等奖、一等奖。

论坛联系人

姓名：陈健生

单位：北京科技大学

邮箱：jschen@ustb.edu.cn

视觉智能前沿论坛

论坛简介

立足和服务于图像图形学领域研究，由中国图象图形学学会主办的Visual Intelligence（《视觉智能》）期刊于2023年创刊。期刊致力于推动“视觉”与“智能”的有机结合与协同发展，主要发表视觉智能领域具有国际先进水平的新理论、新思想、新技术等的研究成果和技术进展，为促进视觉智能技术的高质量发展和学术交流服务。

本次专题论坛精选了Visual Intelligence发表的六篇高影响力论文，作者均来自国内外知名研究机构及其团队，包括瑞士苏黎世联邦理工学院Luc Van Gool教授团队、安徽大学罗斌教授团队、国防科技大学郭裕兰副教授团队、北京大学林宙辰教授团队、厦门大学纪荣嵘教授团队、以及江南大学吴小俊教授团队。本次论坛的报告嘉宾将由以上团队的核心成员组成，以期为参会人员带来最新进展及成果分享，一方面从学术上促进视觉智能社区的交流和讨论，另一方面也能借此向更多Visual Intelligence作者、读者展现视觉智能领域的前沿研究进展。

论坛主席

罗斌

CSIG常务理事，安徽大学教授

个人简介：罗斌，安徽大学计算机科学与技术学院教授、博士生导师，安徽省学术技术带头人，安徽省模范教师。现任中国图象图形学学会常务理事、安徽省计算机学会监事长。曾受聘英国电信公司短期研究员、美国弗罗里达技术学院客座教授、澳大利亚新南威尔士大学客座研究员、新加坡南洋理工大学客座教授、英国Stirling大学客座教授、英国York大学博士后研究员等。研究方向为模式识别与数字图像处理。目前主持国家自然科学基金国际合作重点项目。代表性成果发表于IEEE TPAMI和CVPR等国际期刊和会议。任Visual Intelligence副主编和《安徽大学学报（自然科学版）》主编。

程明明

CSIG理事，南开大学教授

个人简介：程明明，南开大学杰出教授，计算机系主任。主持承担了国家杰出青年科学基金、优秀青年科学基金项目、科技部重大项目课题等。他的主要研究方向是计算机视觉和计算机图形学，在SCI一区/CCF A类刊物上发表学术论文100余篇（含IEEE TPAMI论文30余篇），h-index为80，论文谷歌引用4万余次，单篇最高引用4700余次，多次入选全球高被引科学家和中国高被引学者。技术成果被应用于华为、国家减灾中心等多个单位的旗舰产品。获得教育部自然科学一等奖2项、其他省部级科技奖2项。培养的3名博士生获得省部级优秀博士论文奖。现担任中国图象图形学学会副秘书长、天津市人工智能学会副理事长和顶级期刊IEEE TPAMI、IEEE TIP和《中国科学：信息科学》、Visual Intelligence编委。

论坛讲者信息

范登平

南开大学教授

报告题目：伪装场景理解研究进展

报告摘要：伪装场景理解（Concealed Scene Understanding）旨在利用视觉智能技术识别具有主动或被动伪装特性的目标。伪装场景通常包括那些经过掩盖、隐藏或以其他方式伪装的物体，这些物体可能被忽略或难以识别，增加了物体感知和认知的难度。因此，伪装场景理解的目标是利用视觉智能技术设计一套超越人类视觉的智能系统，以提高对伪装场景的感知和认知能力，以应对更加复杂和具有挑战性的场景。相关技术将为新一代人工智能技术的发展和技术突破提供支持。英国皇家科学院院士、牛津大学Andrew Zisserman教授和阿联酋起源人工智能研究院范登平博士团队早在2020年初相继开展了前沿性的探索，并构建了两大基础研究数据库MoCA和COD10K。目前，伪装场景理解相关的子课题超过10项，包括伪装目标检测/分割、伪装实例分割、伪装目标计数、伪装实例排序、视频伪装目标检测/分割、伪装图像生成、植物伪装检测、水下伪装目标挖掘、工业伪装检测等主题。相关技术可在国内开发的生态系统（如：华为Ascend、清华Jittor）上稳定运行。本次报告从伪装场景理解出发，介绍相关前沿任务、技术、应用成果以及未来研究趋势。

个人简介：范登平，南开大学教授、博导，媒体计算实验室副主任，入选国家级“四青”人才，曾任阿联酋起源人工智能研究院研究主管。2019年从南开大学毕业获得博士学位，曾在瑞士苏黎世联邦理工学院担任博士后研究员。研究方向为计算机视觉、多模态学习和医学图像分析。在伪装场景理解方向上有突出成果，因系统地提出“伪装目标检测”任务并取得高精度而被中国人工智能学会评定相关技术取得国际领先水平，被英国权威期刊New Scientist报道。应用方面，公开16项中国/美国发明专利，技术被用于华为、阿里、韩国三星、日本LPIXEL等公司。发表高质量论文约20篇（含9篇TPAMI）：2篇CVPR最佳论文提名、1篇世界人工智能大会青年优秀论文、1篇NeurIPS研讨会最佳论文、13篇高被引论文（含5篇热点论文），谷歌学术引用约1.8万次，H指数52，5篇论文单篇引用超1000次（最高3000余次）。是IEEE高级会员、CCF-CV执行委员，担任IEEE TIP、VI编委，CVPR’23-24、MICCAI’24领域主席，主编一部中文学术专著。获得CCF优秀博士学位论文奖、吴文俊优秀青年奖、吴文俊人工智能科学技术奖自然科学二等奖（排四），2022-2023连续两年被评为MIR优秀编委、2021-2023连续三年入选斯坦福全球前2%顶尖科学家榜单。

殷赵霞

华东师范大学教授

报告题目：从信息隐藏到智能感知安全

报告摘要：多媒体与人工智能安全是近年来迅速发展的研究领域。信息隐藏与发现是网络空间战的重要组成部分，被列入《中国禁止出口限制出口技术目录》；人工智能已成为大国科技竞争的战略高地，保证人工智能模型和智能感知安全、可靠是事关国家安全和经济民生的重要议题。本报告从信息隐藏到智能感知安全介绍前沿问题与挑战、核心方法及课题组研究进展。

个人简介：殷赵霞，华东师范大学教授、博士生导师，兼任安徽大学研究生导师。国家自然科学基金函评专家、中国图象图形学学会（CSIG）和中国计算机学会（CCF）高级会员、中国人工智能学会（CAAI）终身会员，担任CSIG数字媒体取证与安全专委常务委员、CAAI人工智能与安全专委委员等。从事信息隐藏、多媒体与AI安全研究。主持科研项目十余项，包括国家自然科学基金3项、国家重点研发计划子课题、启元实验室委托课题等。在IEEE T-MM、IEEE T-DSC、IEEE T-CSVT、《计算机学报》、《通信学报》、ICASSP等中英文顶刊和学术会议以第一/通讯作者发表论文超过50篇。以第一发明人授权国家发明专利11项，软件著作权9项。受邀在国际国内学术会议ICIG、ChinaMFS女科学家论坛等做特邀报告。担任TIP、TIFS、《计算机学报》、《中国科学》等多家国际国内学术期刊审稿人，APSIPA ASC、IWDW等国际学术会议TPC member、Co-Chair或Session Chair。获《中国图象图形学报》优秀论文奖、安徽省教学成果一等奖等。

王龙光

空军航空大学讲师

报告题目：基于高斯混合模型的户外场景三维点云全景分割

报告摘要：点云全景分割旨在对三维场景进行细粒度的感知理解，在智慧城市、物流机器人、无人机作业、自动驾驶等领域都具有广泛的应用。现有基于聚类的点云全景分割方法对特征学习与实例聚类两个步骤进行独立优化，且没有充分考虑不同物体的分割难易程度，限制了其在复杂室外场景中的分割精度。针对这一问题，本报告介绍一种基于高斯混合模型的点云全景分割方法。所提方法将不同实例建模为参数化的高斯模型，进而将整个场景建模为高斯混合模型；在此基础上引入统一的损失函数，实现了特征学习与实例聚类两个步骤的端对端训练，有效提升了真实室外场景中的分割精度。

个人简介：王龙光，空军航空大学讲师。主要研究方向为低层计算机视觉与三维视觉，专注于二者的交叉领域。在IEEE T-PAMI、IEEE T-IP、CVPR、ICCV、ECCV上发表论文20余篇，其中以一作CCF A类论文10篇， ESI高被引论文3篇，Google学术总引用2700余次。主持国家自然科学基金、军队装备综合研究等项目。曾获全军优博、中国图象图形学学会（CSIG）优博提名、国防科技大学优博、CSIG青年科学家会议最佳论文、VALSE焦点论文等奖励，入选全球前2%科学家榜单、TechBeat年度最受欢迎讲者。作为客座编辑在IET Computer Vision等期刊组织专刊，在CVPR 2022/2023/2024上组织双目图像与光场图像超分辨率重建挑战赛，担任IEEE TPAMI、IJCV、IEEE TIP等期刊以及CVPR、ICCV、ECCV等会议的审稿人。

吴建龙

哈尔滨工业大学(深圳) 副教授

报告题目：标注受限场景下的视觉表征与聚类算法研究

报告摘要：得益于海量的标注数据，深度学习近年来取得了巨大的成功。但在现实场景中，收集得到的大部分数据缺少标注，并且人工标注耗费大量人力物力，从而限制了相关算法在具体任务上的性能。针对以上问题，本报告将深入探讨标注数据受限场景下的视觉表征和聚类算法，具体包括基于学习优化的子空间聚类算法、基于跨模态语义一致性的大模型聚类算法、基于层次对比学习的半监督视觉表征与分类算法等，并结合具体应用加以介绍。

个人简介：吴建龙，哈尔滨工业大学（深圳）计算机科学与技术学院副教授，博士生导师，入选中国科协青年人才托举工程，深圳市“鹏城孔雀计划”特聘岗位和哈尔滨工业大学“青年拔尖人才计划”。主要研究兴趣包括计算机视觉和多模态学习等。近五年在TPAMI、TIP、ICML、CVPR和ICCV等顶级期刊和会议上发表论文超过40篇，谷歌学术引用超过3000次。担任CCF A类会议NeurIPS和ACM Multimedia领域主席、期刊TCSVT客座编委、以及TPAMI、IJCV、ICML和CVPR等顶级期刊和会议的审稿人。主持3项国家级项目，包括国家自然科学基金面上项目和青年项目等。荣获CCF A类会议SIGIR 2021最佳学生论文奖和2021年山东省科技进步一等奖等。

刘弘

日本大阪大学助理教授

报告题目：基于隐式Prompt的文生图模型

报告摘要：当前文本生成图像（T2I）受到学术界和工业界的广泛关注。面向文本到图像生成模型的安全问题，我们重点研究隐式提示信息，旨在绕过现有模型的安全检测机制。为此，我们设计了超过2000个隐式提示，涵盖了通用场景、名人隐私、以及Not Safe For Wrok等方面。我们构建了一个ImplictBench的评测基准库，并对主流的T2I模型（如DALL-E）在隐式提示下的表现进行了调查，发现：（1）T2I模型能够精确依据隐式提示生成对应的图片；（2）隐私提示验证了T2I存在隐私泄露的风险；（3）大多数T2I模型依据隐式提示可以绕过系统安全约束并输出有害信息。我们希望也呼吁社区关注隐式提示带来的安全风险与伦理问题，也提倡大家健康地使用T2I模型。

个人简介：刘弘，日本大阪大学助理教授。曾任日本学术振兴会外国人特任研究员，日本国立情报学研究所博士后。研究方向为计算机视觉、机器学习、多媒体分析与计算等。在TPAMI、IJCV、CVPR等国际期刊和会议上发表多篇学术论文。获得JSPS International Fellowships、中国图象图形学学会优秀博士学位论文奖，福建省优秀博士学位论文奖，ICLR最佳审稿人奖等，入选2021百度全球AI华人新星百强榜。担任ACM MM等会议领域主席，IJCV等期刊客座编委，以及Visual Intelligence编委。

徐天阳

江南大学副教授

报告题目：基于时空依赖关系矫正的视觉目标跟踪

报告摘要：随着神经网络在计算机视觉领域中的广泛应用和大规模标注数据集的持续发布，视觉目标的定位和识别性能获得了显著提升，如何通过显示的建模设计将期望的语义表观从输入中有效提取是关键问题。本报告将从时空信息依赖的角度出发，重点介绍多模态场景下的视频目标跟踪模型，构建信息选择和信息融合的矫正模式，探索多模态交互、时序表观建模、生成表示等机制，提升模型性能和可解释性，并阐述报告人对相关方向的理解和思考。

个人简介：徐天阳，江南大学副教授。2019年博士毕业于江南大学，后任英国萨里大学CVSSP博士后。目前于江南大学吴小俊教授团队从事计算机视觉、多模态分析、流形学习等方向的研究工作。在IEEE TPAMI、IJCV、IEEE TIP、ICCV等国际期刊和会议上发表学术论文50余篇，谷歌学术引用3000余次。获中国图象图形学学会优秀博士学位论文奖，获CVPR/ICCV/ECCV举办的视频分析相关学术竞赛（VOT、MMVRAC、Anti-UAV、AI City Challenge、Perception Test Challenge）冠军4项、亚军5项，组织CVPR/ICPR/PRCV反无人机论坛和多模态模式识别讲习班，任VALSE2023大会程序委员会主席，指导学生获PRCV2022最佳学生论文奖。

论坛联系人

姓名：彭琳

单位：中国图像图形学学会，副编审

邮箱：VI-EiC@csig.org.cn

航天信息智能处理与应用论坛

论坛简介

随着大数据、深度学习的飞速发展，人工智能技术在航天领域的应用愈加广泛，有效提高了航天器的智能化、自主化探测能力。本论坛以航天信息智能处理与应用为主题，讨论人工智能技术在遥感、深空探测等领域的发展和应用，包括遥感图像智能处理、变化检测、遥感数据成本、遥感大模型数据的泛化性以及多模态遥感大模型等，同时就人工智能技术在航天领域面临的挑战问题展开讨论，共同推动航天信息智能处理的研究。

论坛日程

论坛时间：2024年5月26日13:30-16:50（15:10-15:30茶歇）

论坛名称：航天信息智能处理与应用论坛

主持人：史振威李露

论坛主席

史振威

CSIG理事，北京航空航天大学教授

个人简介：史振威，教授/博导，国家杰青年科学基金获得者，教育部“新世纪优秀人才”。主要研究方向为图像处理、模式识别与机器学习、人工智能等基础理论与算法，包括全色、高光谱、多光谱遥感图像处理；可见光遥感图像特定目标检测识别；图像增强和去雾等图像预处理、交通标识图文检测识别等。研究工作得到国家自然科学基金、科技部重点研发计划课题、北京市自然科学基金等50余项基金课题的资助。在 IEEE TPAMI、TIP、TGRS、ICCV、CVPR等国内外学术刊物和会议发表科研论文200余篇（其中IEEE期刊论文90余篇，一作/通讯SCI论文100余篇）。担任学术期刊IEEE TGRS、Pattern Recognition、ISPRS Journal of Photogrammetry and Remote Sensing、Remote Sensing和Infrared Physics & Technology编委；担任中文核心期刊《中国图象图形学报》《数据采集与处理》《中国空间科学技术》编委。

李露

北京航空航天大学副教授

个人简介：李露，北京航空航天大学宇航学院副教授，主要从事遥感、深空探测等领域的图像处理、计算机视觉、机器学习等方面的研究工作，包括图像分割、目标检测与识别、三维重建以及影像智能诊断等。主持国家自然科学基金青年基金，参与国家自然基金面上项目、国家重点研发计划、中航工业产学研项目、航天运载火箭研究院等科研项目，一作在JBHI、IEEE TITS、ICIP、NEURO COMPUTING等国际期刊/会议发表论文二十余篇，授权发明专利6项。获评北航“蓝天新星”，北航“凡舟”教学一等奖，北航青年教师讲课比赛二等奖，出版教材1部，指导学生获 2022北京大数据技能大赛二等奖、2023第十八届挑战杯专项赛二等奖等。担任Frontiers in Applied Mathematics and Statistics期刊评审编辑，微电子学与计算机青年编委、中国图象图形学学会女科技工作者工作委员会委员，IEEE JBHI、CSVT、TMI、TITS等国际期刊审稿人。

论坛讲者信息

杜博

武汉大学教授

报告题目：大模型驱动的多模态信息智能处理

报告摘要：综述了当前大模型的进展，包括图像和语言大模型进展，重点研究遥感大模型，也称为遥感预训练基础模型，是一种利用大量的未标注遥感图像来训练大规模深度学习模型的方法，目的是提取遥感图像中的通用特征表示，进而提高遥感图像分析任务的性能、效率和通用性。现有的遥感大模型总体上通用性偏低，极大地限制了其在真实场景中的应用潜力。提出从任务可通用、数据可通用和知识可通用三个方面开展大模型驱动的多模态遥感信息智能处理研究，突破当前的遥感图像解译深度学习模型可通用性差的瓶颈，提升空天信息处理领域的创新研究水平，推动航空航天及卫星应用产业的应用落地。

个人简介：

杜博，武汉大学弘毅特聘教授，国家自然科学基金杰出青年科学基金、优秀青年科学基金获得者。现任国家多媒体软件工程技术研究中心主任，武汉大学计算机学院院长，武汉大学人工智能研究院常务副院长，多媒体网络通信工程湖北省重点实验室主任。SCI期刊Neural Networks\Pattern Recognition\Neurocomputing\Neural Processing Letters的Associate Editor，《中国图象图形学报》编委。主要从事计算机视觉、遥感和医学图像解译等方面的研究工作，近五年主持和参与相关纵向研究课题30余项。出版著作1部，发表ESI高引或热点论文23篇。授权国家发明专利24项。获得2019年湖北省自然科学一等奖（序1）；2020 IEEE TGRS最佳论文；2020、2021年第22、23届中国国际高新技术成果交易会优秀产品奖；2020年湖北省首届专利银奖；2019-2021年科睿维安全球高引学者；2020、2021年Elsevier中国高被引学者；人工智能顶会 IJCAI 2018杰出论文奖（CCF A类）；2018 IEEE 全球数据融合大赛冠军； 2018 MICCAI全球核磁共振医学图像前列腺分割大赛冠军；2018 医学信息处理人工智能顶会MICCAI MLMI Workshop 最佳论文奖；ICCV 多模态视频理解大赛无人机行人重识别赛道冠军；全球自然语言处理领域顶级赛事 GLUE和SuperGULE 榜单冠军。

孙显

中国科学院空天信息创新研究院研究员

报告题目：多模态遥感解译基础模型关键技术及应用实践

报告摘要：对地观测数据量急速增加，传统依靠人工专家判读的方式难以有效处理，遥感基础模型已成为技术趋势。本报告阐述了遥感基础模型构建过程中面临的数据、模型、任务等方面挑战，包括如何结合成像机理设计网络结构、如何将任务和知识嵌入下游任务学习，如何有效构建高质量样本数据集，实现对遥感图像解译从地物要素提取到演化规律推理的能力提升。并介绍了遥感基础模型在多个行业领域的典型应用案例。

个人简介：孙显，中国科学院空天信息创新研究院，研究员。研究方向为遥感数据智能分析。主持国家重大科研任务十余项，发表SCI论文70余篇，出版专著2部，授权专利24项。IET Fellow，入选国家级青年人才计划、2023年度全球前2％顶尖科学家，CICC青年科学家奖。获国家科技进步一等奖1项、中国科学院杰出成就奖等省部级奖励4项。IEEE GRSL等多个国际期刊副主编/编委。

方乐缘

湖南大学教授

报告题目：遥感大模型微调及下游高效应用

报告摘要：随着遥感影像数量的快速激增和深度学习技术的迅速发展，多种遥感大模型不断涌现。然而，如何在下游任务中高效地利用遥感大模型已经成为当前亟需探索的问题。围绕遥感大模型在下游任务中的迫切应用需求，报告人针对大模型在变化检测、场景分类、语义分割等遥感下游任务中的高效应用开展了一系列研究。报告人构建了大模型遥感变化检测数据高效生成方法，有效解决了下游变化检测任务中训练样本难以获取的问题；提出了实例级遥感视觉提示微调方法，仅微调遥感模型1%左右的参数量，达到与全微调相当的精度；研究了图像示例遥感语义分割技术，无需重新训练模型即可分割遥感新目标。

个人简介：方乐缘，湖南大学岳麓学者特聘教授，国家优青，科睿唯安（ClarivateAnalytics）全球“高被引科学家”, 爱思唯尔中国高被引学者，湖南省创新领军人才。获得国家自然科学二等奖1项（排名第二）、湖南省自然科学一等奖2项（排名第二和第三）等奖项。担任SCI期刊IEEE Transactions on Image Processing、IEEE Transactions on Neural Networks and Learning System、IEEE Transactions on Geoscience and Remote Sensing、Neurocomputing等期刊编委。现主要从事深度学习、弱监督学习以及在遥感图像处理与分析等方面的研究。研究成果在国际权威期刊和会议发表论文160余篇，其中SCI期刊发表论文100余篇（IEEE TPAMI、IJCV、TIP等本领域顶级期刊论文70余篇），国际权威会议论文30篇，Google scholar引用14000余次，ESI高被引（1%）22篇，ESI热点论文（0.1%）4篇。主持国家自然科学基金联合重点、国家重点研发课题等项目。

梅少辉

西北工业大学教授

报告题目：遥感预训练基础模型发展与展望

报告摘要：随着训练数据体量和深度学习模型规模的不断提升，视觉基础模型和大语言模型面对陌生样本和多种类型下游任务表现出的优异泛化能力，引发研究热潮。围绕遥感领域多源数据特性和丰富地物关系设计训练的基础大模型，对于提取通用鲁棒特征表示、智能解译遥感影像具有至关重要的意义。本报告主要聚焦遥感领域基础模型预训练技术，系统性解读单模态和文本-视觉多模态遥感基础模型的研究进展，通过分析总结遥感预训练模型在场景任务与视觉特征表达、有监督和无监督学习方法、数据质量和获取成本等角度面临的挑战，对其未来可能的研究方向进行展望。

个人简介：梅少辉，长聘教授，博士生导师，陕西省信息获取与处理国际联合研究中心副主任，入选中组部国家级青年人才支持计划、2023全球前2%顶尖科学家榜单以及西北工业大学翱翔青年学者支持计划。主要从事高光谱遥感图像获取与处理、光电探测与对抗以及人工智能与机器学习等方面的研究。近五年主持国家自然科学基金和国防创新特区等国家级项目和国防创新类项目20余项，发表学术论文150多篇，包括IEEE TGRS、IEEE TIP以及PR等中国科学院TOP期刊论文30余篇，4篇论文入选ESI高被引论文，获得陕西省自然科学一等奖、陕西省优秀博士论文和陕西省科技进步二等奖以及国际会议IEEE ISPACS等多项奖励，担任国际顶级期刊IEEE TGRS编委、IEEE JSTARS编委、Agronomy编委以及JRS和中国图象图形学报青年编委。

邹征夏

北京航空航天大学教授

报告题目：生成式遥感大模型及应用初探

报告摘要：遥感大模型作为遥感技术与智能前沿的交叉融合，是航天科技战略制胜的基础前沿方向。生成式遥感大模型作为其中的一类重要分支，在数字化遥感场景构建、赋能下游遥感图像解译等任务都起着关键的作用。在本次报告中，讲者将介绍课题组近期在遥感生成大模型方面的相关工作，包括多模态遥感图文生成、基于图文交互的虚拟环境生成、全球范围遥感场景生成等。最后，还将介绍上述生成方法在赋能下游遥感图像解译方面的应用初探进行介绍。

个人简介：邹征夏，北京航空航天大学宇航学院教授、博士生导师，国家级青年人才。主要研究方向包括遥感图像处理、计算机视觉、深度学习等，研究成果以第一/通讯作者身份发表在Proceedings of the IEEE、Nature Communications（首页论文）、IEEE Transactions汇刊、CVPR、ICCV等重要期刊和会议，谷歌学术论文引用5000余次，单篇论文引用2000余次。入选2022/2023全球前2%科学家名单，担任Nature旗下期刊Communications Engineering特刊编辑，研究成果收录于斯坦福大学著名公开课，被新华社、中央电视台、新科学人等媒体报道和采用，服务于航天国防、自动驾驶等重要应用。

王剑

蚂蚁集团资深算法专家

报告题目：蚂蚁集团遥感大模型SkySense

报告摘要：随着人工智能的快速发展，大模型技术与卫星遥感技术相结合不断产生新的突破。蚂蚁集团基于蚂蚁百灵大模型平台研发出了20亿参数的多模态遥感模型SkySense。SkySense使用大模型技术对多模态遥感数据、时间序列、地理先验知识综合建模，在土地利用监测、高分辨率目标识别、地物变化检测等7种常见遥感感知任务，17项测评中均名列第一，相关论文被世界计算机视觉顶会CVPR 2024接收。SkySense可广泛应用于城市规划、森林保护、应急救灾、绿色金融、农业监测等重要领域，目前已通过内部的MEarth平台提供数据与识别服务。

个人简介：王剑，2016年硕士毕业于中国科学院自动化研究所模式识别国家重点实验室，主要研究方向为跨模态图像检索。拥有十余年的计算机视觉/机器学习/深度学习经验，在人工智能和遥感领域的顶级期刊和会议发表论文30余篇，专利30余项。在蚂蚁集团参与了深度学习平台、图像识别平台等多个人工智能项目。主导的具有金融特色的图像识别算法，在保险理赔、商户安全风控、内容安全风控、视觉UTC风控、农村金融信贷等多个场景广泛应用。2019年开始研发基于卫星遥感和人工智能技术的智能化农村金融服务“大山雀”系统，目前该技术已在全国累计服务农户100多万。

论坛联系人

姓名：李露

单位：北京航空航天大学

邮箱：lilu@buaa.edu.cn

第四届CSIG年度学科发展报告论坛

论坛简介

根据中国图象图形学学会的学科发展报告制度，咨询与评议工委会每年组织专业委员会撰写《图像图形学发展年度报告》，系统分析图像图形学各重要研究方向的发展现状、前沿动态、热点问题和发展趋势。基于此，我们已申请并成功举办了三届CSIG年度学科发展报告论坛（ICIG2021、CCIG2022、CCIG2023），并邀请了马思伟、徐迈、孙哲南、刘越、金连文、左旺孟等《图像图形学发展年度报告》撰写组专家介绍了图像图形学各领域方向的最新进展与前沿展望，反响良好。

基于此，在2024年中国图象图形大会（CCIG2024）上继续举办第四届CSIG年度学科发展报告论坛。论坛嘉宾和报告方面，结合SAM、AIGC、大模型等领域前沿热点，邀请了浙江大学吴飞教授、复旦大学张军平教授、天津大学刘安安教授、四川大学雷印杰教授和北京大学刘家瑛副教授，在恶劣场景下视觉感知与理解、三维场景理解与生成等基础上，系统探讨SAM模型的进展与应用、视觉内容生成与安全、大小模型协同进化等方向的最新进展与发展趋势，以期通过与会人员研讨交流，促进本领域的持续健康发展。

论坛日程

论坛时间：2024年5月26日13:30-16:50（15:10-15:30茶歇）

论坛名称：第四届CSIG年度学科发展报告论坛

主持人：李波、张永飞

论坛主席

李波

CSIG常务理事、会士，北京航空航天大学教授

个人简介：李波，北京航空航天大学计算机学院长江学者特聘教授、杰青，人工智能研究院常务副院长。兼任国务院学位委员会软件工程学科评议组成员、教育部人工智能科技创新专家组工作组副组长、军委装备发展部人工智能装备应用基础技术专家组成员。主要研究方向为计算机视觉、机器学习、知识推理、嵌入式智能系统。已主持国家、省部级课题40余项，是国家重点研发计划项目“公共安全监控视频安全共享与特征分析关键技术研究”负责人、国家973计划项目“数字媒体理解的理论与方法研究”首席科学家，原总装“十五”、“十二五”某边海防视频系统型号总设计师。在领域重要期刊学术会议发表论文100余篇，有国内外发明专利80余项，获国家技术发明二等奖1项、国家科技进步二等奖1项。

张永飞

北京航空航天大学教授

个人简介：张永飞，北京航空航天大学计算机学院教授、博士生导师，入选国家级青年人才计划，IEEE/CSIG/CCF高级会员。目前主要研究方向为视觉大数据智能分析处理。主持国家自然基金面上项目（3项）、国家重点研发计划项目子课题、国家自然基金重点项目子课题、863项目子课题、国家重点实验室自主课题、企业合作预研项目等多项科研任务；作为技术骨干参与国家973计划、杰出青年基金、国家自然科学基金项目等多项国家级项目。在IEEE TMM、TCSVT、CVPR、AAAI等发表论文60余篇，获省部级科技奖励2项，申请发明专利近30项（已授权20余项，转化近10项）。担任中国图象图形学学会咨询与评议工作委员会秘书长，负责学会学科发展年度报告撰写工作的组织、评审与推荐，并协助科技成果鉴定等工作。

论坛讲者信息

吴飞

CSIG理事，浙江大学教授

报告题目：基座赋能：大小模型协同进化

报告摘要：

生成式基座大模型正在引发人工智能领域的重大变革，在自然语言处理、多模态理解与内容合成等任务展现通用能力。大模型部署于云侧提供通用智能服务，但面临时延大、个性化不足等关键挑战，小模型部署于端侧捕捉个性化场景数据，但存在泛化性不足难题。大小模型协同技术旨在结合大模型通用能力和小模型专用能力，以协同交互方式学习演化进而赋能下游垂直行业场景。本报告以大语言模型和多模态大模型为代表梳理生成式基座大模型的主流架构、典型预训练技术和适配微调等方法，介绍在大模型背景下模型剪枝、模型量化、知识蒸馏等大模型小型化关键技术的发展历史和研究近况，依据模型间协作目的及协同原理异同，提出大小模型协同训练、协同推理、协同规划的协同进化分类方法，概述端云模型双向蒸馏、模块化设计、生成式智能体等系列代表性新技术、新思路。总体而言，本报告从生成式基座大模型、大模型小型化技术、大小模型协同方式三个方面探讨大小模型协同进化的国际和国内发展现状，对比优势和差距，并从应用前景、模型架构设计、垂直领域模型融合、个性化、安全可信挑战等层面分析基座赋能发展趋势。

个人简介：吴飞，浙江大学求是特聘教授，博士生导师。主要研究领域为人工智能、多媒体分析与检索。浙江大学上海高等研究院常务副院长、浙江大学人工智能研究所所长。国家杰出青年基金获得者、国务院学位委员会智能科学与技术学科评议组成员、教育部人工智能科技创新专家组工作组组长（2018.8-2020.12）、中国工程院院刊《Engineering》信息与电子工程学科执行主编，浙江大学第九届永平杰出教学贡献奖获得者，曾获2022年度教育部科技进步一等奖（排名第一）和中国电子学会2021年度科技进步一等奖（排名第一）。教育部计算机领域本科教育教学改革试点工作计划（101计划）核心课程《人工智能引论》负责人，开设国家级首批线上一流课程《人工智能：模型与算法》，著有《人工智能引论》《人工智能导论：模型与算法》《走进人工智能》和《人工智能初步》等教材和科普读物。

张军平

复旦大学教授

报告题目：分割一切模型综述

报告摘要：Meta公司提出的“分割一切模型”(Segment Anything Model，简称SAM)于2023年在图像分割领域获得了优异的性能。在SAM开源后不久，科研人员提出了一系列改进的方法和应用。为了能全面深入了解分割一切模型的发展脉络，优势与不足，本报告将对SAM的研究进展进行综述。我将先介绍分割一切模型的背景和核心框架。在此基础上，综述相关改进方法，并探讨SAM在图像处理、视频处理以及其他领域的应用。最后，对SAM未来的发展方向和潜在应用前景进行分析和讨论。

个人简介：张军平，复旦大学计算机科学技术学院教授、博士生导师，中国自动化学会普及工作委员会主任。主要研究方向包括人工智能、机器学习、图像处理、生物认证、智能交通及气象预测。至今发表论文100余篇，连续两年（2022、2023）入选全球前2%顶尖科学家榜单终身科学影响力排行榜。著有《人工智能极简史》《爱犯错的智能体》《高质量读研》，主编《人机混合增强智能》，译著《统计学习要素》（第二版）。

刘安安

天津大学教授

报告题目：AIGC时代视觉内容生成与安全研究进展

报告摘要：随着数字媒体与创意产业的快速发展，AIGC技术以其在视觉内容生成中的创新应用而逐渐受到关注。本报告旨在围绕AIGC视觉内容生成与溯源研究进展深入研讨。首先，针对图像生成技术进行了探讨，从基于生成式对抗网络的传统方法出发，系统地分析了基于生成式对抗网络、自回归模型和扩散概率模型的最新进展。接着，深入探讨可控图像生成技术，突出了通过布局、线稿等附加信息以及基于视觉参考的方法来为创作者提供精确控制的技术现状。进而对生成图像溯源技术进行研讨，并聚焦水印技术在确保生成内容可靠性和安全性方面的应用。最后对生成图像溯源技术进行总结和展望。鉴于视觉内容生成在质量和安全上的挑战，本报告旨在为研究者提供一个视觉内容生成与溯源的系统研究视角，以促进数字媒体创作环境的安全与可信，并引导未来相关技术的发展方向。

个人简介：刘安安，天津大学教授，天津大学电视与图像信息研究所所长。从事视觉内容解析、生成、传播研究，服务于人民网等网络视觉内容安全审核与引导。作为负责人承担国家基金联合重点、重点研发课题等；以第一完成人获天津市科技进步特等奖；以第一/通讯作者发表IEEE/ACM汇刊、CCF-A类期刊和会议论文70余篇（TPAMI、IJCV）；入选IET Fellow、爱思唯尔高被引学者等，担任4个IEEE/ACM期刊编委，连续5年担任CCF-A类国际会议ACM Multimedia领域主席。

雷印杰

四川大学教授

报告题目：面向三维场景理解与生成的多模态学习研究进展

报告摘要：

近年来，多模态3D任务在自动驾驶、增强现实等众多领域广泛应用。相较于传统单模态技术，引入额外模态信息显著提高任务性能，使算法适用于内容丰富且复杂多变的真实场景。本报告聚焦于两类最具代表性的研究工作：三维场景理解与生成，并系统性概括领域内研究进展。首先，总结多模态三维场景理解与生成的挑战。其次，按照任务所依赖的数据模态以及所关注的下游任务对方法进行分类，并深入探讨各类方法的优缺点。最后，未来发展前景进行展望，以促进该领域的深入研究与广泛应用。

个人简介：雷印杰，四川大学教授、博士生导师，四川大学电子信息学院副院长。主要研究领域包括人工智能、计算机视觉。近年来，主持了包括国家自然科学基金联合基金重点项目、国家重点研发计划课题、国防基础科研重点项目、四川省杰出青年科学基金等三十余项国家级、省部级及企业委托科研项目。在人工智能等领域的国内外顶级学术会议和期刊上发表学术论文60余篇，包括 CVPR、ICCV、ECCV（均为CCF-A类人工智能顶级国际会议），EMNLP（自然语言处理顶级国际会议），IEEE TPAMI、TIP、TNNLS、TMM（均为中国科学院一区）等，并申请了三十余项国家发明专利。先后担任 CVPR、ICCV、ECCV、AAAI、WACV 等人工智能领域国际知名学术会议的领域主席（AC）、高级程序委员会委员（SPC）以及程序委员会委员（PC）。

刘家瑛

北京大学副教授

报告题目：恶劣场景下视觉感知与理解

报告摘要：恶劣场景下采集的图像与视频数据存在复杂的视觉降质，一方面降低视觉呈现与感知体验，另一方面也为视觉分析理解带来了很大困难。本报告系统地分析了国际国内近年恶劣场景下视觉感知与理解领域的重要研究进展，包括图像视频与降质建模、恶劣场景视觉增强、恶劣场景下视觉分析理解等技术。报告详细综述了上述研究的挑战性，梳理了发展脉络和前沿动态。最后，根据上述分析展望了恶劣场景下视觉感知与理解的发展方向。

个人简介：

刘家瑛，博士，北京大学王选计算机研究所副教授，博士生导师，教育部青年长江学者，北京大学博雅青年学者。研究领域为智能媒体计算与视觉理解。累计发表IEEE/ACM汇刊与CCF A类论文100余篇，谷歌学术引用1.6万余次，其中ESI高被引论文5篇，获得授权国家发明专利70余项。担任APSIPA杰出讲者，CCF杰出会员，IEEE/CSIG高级会员，IEEE CASS MSA技术委员会委员，CSIG多媒体专委会秘书长。担任IEEE TIP, IEEE TCSVT等期刊编委，IEEE ICME/ACM ICMR指导委员会委员，ACM ICMR-2021/IEEE ICME-2021/VCIP-2019程序主席，CVPR/ICCV/ECCV/AAAI会议领域主席等多个国际会议组织工作。获教育部科技进步二等奖、CSIG石青云女科学家奖、北京大学教学卓越奖、王选青年学者奖，IEEE ICME 2020最佳论文奖等。主讲的全球MOOC课程获教育部首批国家精品在线开放课程，教育部首批国家级一流本科课程。

论坛联系人

姓名：张永飞

单位：北京航空航天大学

邮箱：yfzhang@buaa.edu.cn

CCIG2024女科学家论坛

论坛简介

“世界需要科学，科学需要女性”，女性科技人才是科技人才队伍的重要组成部分，是我国科技事业十分重要的力量。近年来，我国女性科技人才队伍规模逐步扩大、结构不断优化、能力显著提升，在基础理论、应用技术、工程实践等多个领域都取得了卓越成绩，充分彰显出巾帼力量。本论坛旨在汇集相关模式识别领域的优秀专家学者，分享各自的研究方向与个人发展趋势，为青年科技女性树立榜样，提升女科技工作者参与度、认同感和学术影响力，助力女性科技人才发挥更大作用。

论坛主席

张艳宁

CSIG副理事长、会士，西北工业大学教授

个人简介：张艳宁，西北工业大学教授、博士生导师，教育部“长江学者”特聘教授、中组部首批“万人计划”科技创新领军人才、973技术首席。现任西北工业大学副校长兼研究生院院长。先后主持和承担某基础加强重点项目、国防973项目、国家自然科学基金重点项目、国家/国防863、总装预研等国家级项目40余项。兼任中国图象图形学学会副理事长等。在IEEE TPAMI、IEEE TIP、IJCV、CVPR、ICCV等国内外本领域权威期刊和重要国际会议上发表论文百余篇，出版专著3部，获国家/国防授权发明专利50余项，以第一完成人获国家技术发明二等奖、国防技术发明一等奖、国家教学成果二等奖、陕西省科技进步一等奖等8项。她主要从事图像处理、模式识别、计算机视觉与智能信息处理等研究，长期致力于图像处理、模式识别、计算机视觉与智能信息处理等的研究，并与航天、航空等方面的国家重大需求相结合。其团队在空间态势感知、空天地海一体化大数据应用技术上发展出了丰富成果。

董晶

CSIG理事、中国科学院自动化研究所研究员

个人简介：
董晶，中科院自动化所智能感知与计算研究中心研究员。现为中国图象图形学学会(CSIG)理事、副秘书长，CSIG女科技工作者委员会秘书长，北京图象图形学学会常务理事、青工委主任，中国人工智能学会(CAAI)理事、杰出会员，IEEE/CCF/CSIG高级会员，中国科学院青年创新促进会会员，IEEE亚太区执委（2017-2022），IEEE信号处理协会全球会员发展主席（2022-2024），
IEEE亚太区人道主义科技活动委员会主席 (2019-2022)，IEEE亚太区女工程师委员会主席 (2017-2018)。担任 IAPR《Newsletter》主编，Elsevier《Journal of InformationSecurity andApplication》国际期刊副主编。曾获2016年度1BM教职人员奖、2018年度国际模式识别大会最佳科技论文奖、2019年度中国人工智能学会杰出贡献会员奖、2020年度CSIG石青云女科学家奖（青年组）、2021年度CSIG科技奖二等奖、2021年度吴文俊人工智能科学技术奖。主要从事计算机视觉、生物特征识别、多媒体内容取证与安全等AI前沿方向的技术研究，已在国际权威期刊及学术会议上发表学术论文60余篇，申请发明专利30余项，其中已授权18项中国专利含3项美国专利。主持或主要参与了国家863计划973计划，科技支撑计划、重点研发计划、国家自然科学基金、北京市杰青等20余项国家和省部级科研项目。

论坛讲者信息

鲍秉坤

南京邮电大学教授

报告题目：跨模态图像生成

报告摘要：近年来跨模态图像生成在图像生成、图像编辑等任务中取得了广泛应用。尽管现有研究在生成图像的质量方面取得了一定的进步，但生成图片的速度较慢，且对硬件需求较高。这主要归因于当前预训练生成模型具有庞大的参数规模，生成过程高度复杂，每个生成步骤都需要进行大量计算，从而导致整个生成过程耗时相当长。这一缺陷使得模型训练成本极高，同时也提高了用户的硬件和时间成本。本报告将首先介绍近期跨模态图像生成任务的研究进展，从提高预训练GAN模型生成质量且保证生成速度的角度出发，介绍团队在文本生成图像任务的研究思路和研究成果，最后探讨如何使用大规模预训练多模态模型优化文本到图像生成任务。

个人简介：鲍秉坤，南京邮电大学计算机学院、软件学院、网络空间安全学院副院长（主持工作），教授、博士生导师。国家杰出青年基金获得者、中组部万人计划-青年拔尖人才、江苏省杰青、江苏省双创人才。研究方向为多媒体计算、社交多媒体、计算机视觉、人工智能等。先后主持多项国家和省部级项目，包括国家重点研发计划：科技创新2030-人工智能重大专项、国家自然科学基金重点项目、国防科技173计划技术领域基金项目、江苏省重点研发计划等。荣获2018年度电子学会科学技术（自然科学类）一等奖。荣获多媒体领域的ACM汇刊TOMM 2016年度最佳论文奖、IEEE MM 2017年度最佳论文奖、Multimedia Modeling 2019年度最佳论文Runner Up奖。荣获ICME 2020 Outstanding Areas Chair。

谢卫莹

西安电子科技大学教授

报告题目：遥感图像智能解译的轻量化实现方法探索

报告摘要：遥感图像智能解译轻量化实现领域的发展仍面临模型训练困难和推理计算量庞大等挑战。本报告从样本筛选、模型剪枝，以及一体化压缩的角度出发，致力于实现遥感智能解译任务在边缘节点的有效在线训练和部署推理，以促进星载、机载等资源受限条件下遥感图像智能解译的发展。

个人简介：谢卫莹，西安电子科技大学，教授、博导，国家优秀青年科学基金获得者，IEEE Senior Member。主持国家自然科学基金、科技委领域基金、ZF项目、博士后特别资助等多项项目。以第一/通讯作者身份发表IEEE Trans.系列中国科学院一区TOP期刊及CCF A类会议论文50篇，其中ESI高被引论文7篇，热点论文1篇，h指数为31。获陕西省自然科学优秀学术论文奖、”天智杯”人工智能挑战赛全国冠军及100万项目奖励、”互联网+”大赛全国金奖、”强芯健魂，铸基智能”计算平台挑战赛全国二等奖及369万项目奖励。以第一发明人获授权国家发明专利10件已完成转化应用。入选全球前2%顶尖科学家榜单、全国优秀创新创业导师、中国科协青年人才托举工程、中国科协优秀中外青年交流计划。

吴丹

浙江大学教授

报告题目：基于高时高分辨率磁共振的人类脑发育图谱

报告摘要：0-18岁是人类脑发育的关键时期，而磁共振成像提供了对大脑发发育过程的多尺度全方位刻画。本次报告将以胎儿-婴幼儿-儿童-青少年为主线，介绍针对脑发育早期成像的新型成像技术和分析算法，以及基于大数据队列的大脑中后期发育研究。

个人简介：吴丹，浙江大学生物医学工程与仪器科学学院研究员，生物医学工程系系主任，国家优青、海外高层次引进人才。美国约翰霍普金斯大学博士，曾任约翰霍普金斯大学助理教授。主要研究方向为磁共振成像序列与医学影像的分析方法的研究，特别在快速高分辨率成像序列的开发、基于弥散磁共振的微结构成像与脑连接网络、胎儿与婴幼儿方面做出了若干原创新贡献。在PNAS、Radiology、Neuroimage等高水平期刊发表了论文70余篇，申请发明专利24余项，获授权专利14项。目前主持国家自然科学基金优秀青年基金、面上、青年、重点项目子课题、国家科技部重点专项、浙江省创新创业团队等；在美期间曾主持美国国家卫生所R01、R21、R03基金项目。担任国际磁医学共振学会年会程序委员会委员、教育委员会委员、出版委员会委员、儿童磁共振分会秘书（候任主席）、胎儿与胎盘磁共振分会秘书（候任主席）。入选麻省理工科技评论35岁以下35人中国榜单、达沃斯世界经济论坛青年科学家、浙江省“鲲鹏行动”计划、中国图象图形学学会女科学家奖、中国生物医学工程学会青年学者、国际磁医学共振学会Junior Fellow等。

冯婕

西安电子科技大学教授

报告题目：数据受限下的遥感图像智能解译及应用

报告摘要：遥感影像智能感知与解译是遥感影像处理过程中的关键环节，高效准确的解译技术有助于提高遥感应用水平、拓展应用领域。由于遥感影像远距离、鸟瞰成像的机理，其解译中存在表征受限、标注受限、内容受限的数据受限问题，为遥感影像智能解译提出了挑战。本报告围绕“表征受限下时空谱元知识提取-标注受限下多任务小样本学习-内容受限下时空引导的目标定位关联”为主线，从理论和实际出发介绍高时效、高精度、高泛化的遥感图像和视频的智能解译的相关研究及应用进展。最后，面向“表征受限-杂特征-小目标”的场景，讨论相关方法在无人机遥感秦岭北麓松材线虫病监测和可见光-红外多模态可疑目标实时跟踪方面的应用。

个人简介：冯婕，西安电子科技大学教授，博士生导师。目前主要从事遥感数据处理与解译的研究。研究成果发表学术论文80余篇，其中包括中国科学院I区IEEE会刊（IEEE TCYB、IEEE TIP、IEEE TGRS）、遥感领域顶级期刊ISPRS P&RS在内的中国科学院I区论文41篇，ESI高被引/热点论文5篇，出版专著2部，入选“全球前2%顶尖科学家榜单”。主持军科委基础加强领域基金、国家自然科学基金面上项目、装备预研教育部联合基金等。入选“陕西省特支计划青年拔尖人才”“中国科协青年托举人才计划”“陕西省青年科技新星”。担任Frontiers in Imaging副主编、Remote Sensing编委。获得中国自动化学会自然科学二等奖。目前为中国电子学会青年科学家俱乐部理事、IEEE高级会员、VALSE执行领域主席委员会委员、PRCV领域主席、CSIG遥感图像专委会委员。带领团队获遥感稀疏表征与智能分析和“计图”人工智能挑战赛全国二等奖。

曹刘娟

厦门大学教授

报告题目：面向复杂场景的高效视觉感知

报告摘要：在智能制造、慧城市及数字经济等关键应用领域，基于深度学习的视觉感知模型扮演着核心角色。这些模型虽然展现出强大的潜力，但其设计、训练和部署的复杂性和资源消耗却成为了高效应用的主要障碍。本次报告主要关注复杂场景下的高效视觉感知模型，涵盖高质量样本学习，结构自动化建模以及模型自适应压缩技术，将重点分享课题组在样本高效训练、结构高效设计和模型高效部署的相关研究成果，并对未来的研究工作进行展望。

个人简介：曹刘娟，厦门大学信息学院教授，博士生导师，入选中组部万人青拔，福建省杰青。长期从事计算机视觉、目标检测等人工智能领域前沿技术研究，以一作/通讯在TPAMI，IJCV，CVPR，ICCV等国际顶级期刊会议上发表论文60余篇，其中JCR一区期刊及CCF-A类会议30余篇，获多项国际竞赛冠军。主持国家级纵向科研项目多项，包括国家自然科学基金联合基金重点项目、面上项目、重要国防项目等，主持华为/腾讯/百度等头部企业项目多项。作为第一完成人获2020年福建省科技进步一等奖和2023年厦门市科技进步一等奖，入选2023AI华人女性青年学者榜单，获CSIG石青云女科学家奖等荣誉。

论坛联系人

姓名：董晶

单位：中国科学院自动化研究所研究员

邮箱：jdong@nlpr.ia.ac.cn

以人为中心的可信视觉计算论坛

论坛简介

随着视觉基础模型的兴起，以人为中心的视觉感知取得了显著研究进展，学术界和工业界纷纷推出多种视觉基础大模型，提升了姿态估计、人体解析、行人检测等以人为中心的视觉计算任务的性能。这些重大进展在推动视觉模型在多个领域的应用中发挥了关键作用，包括但不限于运动分析、自动驾驶和电子零售。然而对于以人为中心的视觉基础模型来说，要取得更广泛的应用并创造更多的经济价值，对可信安全的担忧已经成为一个巨大的障碍。本论坛将就以人为中心的可信视觉计算领域的研究问题、最新研究成果以及应用进展进行广泛交流和深入探讨，期望能够推动相关研究的持续发展。

论坛日程

论坛时间：2024年5月26日13:30-16:50（15:10-15:30茶歇）

论坛名称：青年学者论坛：以人为中心的可信视觉计算

主持人：赵才荣、朱磊

论坛主席

赵才荣

同济大学教授

个人简介 ：赵才荣，现任同济大学电信学院教授，博士生导师。曾任香港理工大学兼职研究员（2016-2017）。担任上海市计算机学会计算机视觉专委会主任，中国图象图形学学会青工委副秘书长，中国自动化学会模式识别与机器智能专业委员会副秘书长，中国计算机学会杰出会员。担任IEEE TMM Guest Editor、担任IET IP Associate Editor。研究聚焦于视觉与智能学习。已在IJCV、IEEE TIP、TIFS等国内外重要学术期刊及国际学术会议CVPR，ICLR, ICML, ACM MM, ICCV等发表论文40余篇，受理发明专利20余项（授权12项），研究成果获上海市科技进步一等奖（排名第四）。主持国家自然科学基金3项，主持国家重点研发计划子课题以及企业横向课题十余项。建设国家级线下精品课程1门，上海市精品课程1门。

朱磊

同济大学研究员

个人简介：朱磊，同济大学研究员、博士生导师。主要研究方向是高效能跨模态分析与检索。共发表CCF A类会议长文、ACM/IEEE汇刊论文百余篇，主编学术专著2部，ESI高被引或热点论文9篇，Google引用近8000次。获得CCF A类会议ACM SIGIR 2019和ACM MM 2019的最佳论文提名，1篇论文入选2019年中国百篇最具影响国际学术论文，拥有授权专利22件。担任ACM TOMM、IEEE TBD两个汇刊的编委，CCF A类会议AC或SPC，CSIG青年工作委员会副秘书长（连续两年获CSIG青年工作突出贡献奖）。主持/参与基金委青年/面上/重点等10余项横纵课题。获得山东省自然科学二等奖（序1），吴文俊人工智能自然科学二等奖（序2），ACM中国SIGMM新星奖，山东省留学回国人员创业奖等。指导两篇一级学会的优硕学位论文。

论坛讲者信息

杨健

CSIG理事、南京理工大学教授

报告题目：以人为中心的视觉感知：由表及里

报告摘要：首先，简要回顾一下以人为中心的视觉感知研究方法的发展历程，然后重点介绍近期课题组在稳健人脸识别、人脸检测与超分辨、行人检测与再识别、人体姿态估计、3D人体运动捕捉、远距离体温测量和心率估计等方面的研究进展。

个人简介：杨健，南京理工大学计算机学院教授，长期从事模式识别和智能系统方面的研究，在IEEE Transactions及Pattern Recognition等国际权威期刊和顶级会议上发表论文200余篇，Google Scholar被引30000余次。担任/曾担任国际学术期刊Pattern Recognition, IEEE Trans. on Neural Networks and Learning Systems等编委。2016年入选IAPR Fellow。曾获国家自然科学二等奖1项（第二完成人）；省部级一等奖3项（第一完成人）。获2011年度国家杰出青年科学基金; 2013年入选国家百千万人才工程，被授予“有突出贡献中青年专家”。2013-2014年度教育部长江学者特聘教授；2018年入选万人计划科技创新领军人才。

邓成

西安电子科技大学教授

报告题目：大规模预训练模型——人工智能的新范式与展望

报告摘要：近年来，人工智能和深度学习技术的飞速发展极大地改变了我们的工作和生活方式。随着大规模预训练模型的出现，形成了“预训练-微调”新的发展范式。为了深入探讨这一话题，本报告将介绍大规模模型的研究背景和当前的研究状态以及这种模型在诸多领域下游任务中的成功应用。同时，我们还将讨论大模型的局限性和发展趋势, 特别是其安全性问题及对策。

个人简介：邓成，西安电子科技大学二级教授、长江学者特聘教授、国家百千万人才工程入选者、陕西省教学名师、陕西省师德标兵，享受国务院政府特殊津贴。主要从事人工智能、多模态学习。主持国家重点研发计划、国家自然科学基金重点、陕西省重点研发计划等课题30项，获发明专利授权26项，在国际一流期刊和国际顶级会议发表论文200余篇。研究成果获2019年陕西省自然科学一等奖（第一完成人）、2016年国家自然科学二等奖（第三完成人）、陕西省科学技术奖一等奖2项（2011, 2015，第三完成人）、2013年教育部自然科学二等奖。

沈超

西安交通大学教授

报告题目：智能驾驶系统与大模型安全

报告摘要：近10年智能技术飞速发展，取得了巨大成功并在智能驾驶等多个领域落地应用，与此同时针对以深度学习为代表的智能系统与模型面临着前所未有的对抗性风险，智能的安全性问题广受关注。本报告，本报告围绕智能驾驶系统中智能算法与模型的安全性分析与测试评估修复展开，将智能驾驶系统中智能算法与模型的研发与测试分为开发阶段、测试阶段与运行阶段，并从各阶段分别介绍相关的安全性分析与测试评估修复技术。本报告介绍团队提出的数据机理融合的AI安全对抗框架，及面向智能驾驶系统的安全测试与修复平台，以人工智能技术的可持续发展以及该技术在智能汽车行业的安全应用。

个人简介：沈超，西安交通大学二级教授，人才办公室副主任，教育部长江学者特聘教授，教育部创新团队负责人，国家重点研发计划首席科学家，国防基础加强计划首席科学家，阿里巴巴达摩院青橙奖、霍英东青年教师一等奖、麻省理工MIT-TR35 China、国家优秀青年科学基金、IEEE SMC Early Career Award获得者。主要从事智能系统安全与控制的研究工作，发表学术刊物180余篇，获学术期刊/会议最佳论文奖9次。获得陕西省自然科学一等奖、中国自动化学会自然科学一等奖等4项，主持国家重点研发计划、国防基础加强计划、国家自然科学基金重点项目、国家自然科学基金国际(地区)合作项目、企业横向等项目30余项，制定国际/行业/团体标准5项。担任IEEE TDSC、TCYB汇刊等10余个国际期刊副编辑、IEEE Xi’an Section SMC&CS主席、ACM SIGSAC China副主席、中国人工智能学会组织工委副主任等。

赵洲

浙江大学教授

报告题目：以人为中心的多模态生成式模型研究

报告摘要：多模态生成式模型最近取得了巨大的突破，用户可以输入自然语言生成图像、视频、音频，甚至是3D内容。本报告首先介绍针对以人为中心的多模态生成式模型存在的一些挑战和现有工作的最新进展，包括可泛化说话人视频合成和低延时说话人语音合成等。其次，本次分享一些我们面向数字说话人方面的多模态生成式模型的工作，包括可泛化说话人视频合成GeneFace（ICLR23）、单图三维重构说话人Real3D-Portrait（ICLR24）和低延时说话人并行化语音合成FastSpeech 1/2（NeurIPS19/ICLR21）、歌声合成DiffSinger（AAAI22）和零样本合成MegaTTS（ICLR24）。

个人简介：赵洲，浙江大学计算机学院教授/博士生导师，主要研究方向为多媒体计算和交互式生成模型，在国际期刊TPAMI和机器学习和视觉计算会议NeurIPS、ICML、ICLR、CVPR和ICCV等上发表60余篇论文，包括：低延时伪数值扩散模型推理算法PNDM（ICLR22）、并行化语音生成算法FastSpeech 1/2和DiffSinger（NeurIPS19/ICLR21/AAAI22）、单图三维重构算法GeneFace（ICLR23/ICLR24）和零样本语音合成MegaTTS（ICLR24）等，谷歌学术引用12720次，应用于微软、字节、Stability AI、华为等公司，获2021年度中国电子学会科技进步一等奖、2022年度教育部科技进步一等奖，入选斯坦福大学发布的“全球前2%顶尖科学家榜单”。

陈静静

复旦大学副教授

报告题目：以人为中心的智能视觉生成管控：进展与挑战

报告摘要：

近年来，生成式人工智能在视觉内容创作方面取得了显著进展。在生成高质量视觉内容的同时也给视觉模型安全以及视觉内容安全性监管带来了新的挑战。本报告旨在探讨在新一代智能视觉生成技术背景下，以人为中心的可信计算机视觉环境中，生成内容的安全性与合规性的智能管控的研究进展与面临的挑战。同时，本报告将分享我们在生成式视觉内容安全上最新工作，包括如何利用生成式模型生成新型“对抗样本”，如何让视觉模型应对上述新型“对抗样本”，以及如何在不影响模型生成能力的前提下，实现可靠的违规概念擦除等。

个人简介：

陈静静，复旦大学计算机科学技术学院副教授。2018年在香港城市大学获得博士学位，2018年9 月～2019年7月在新加坡国立大学从事博士后工作。主要研究领域为多媒体内容分析、计算机视觉、多媒体模型安全等。主持/参与了包括国家自然科学基金、科技部2020年“科技创新2030-新一代人工智能”重大项目、上海市行动创新计划等多项科研项目。在 ACM Multimedia, CVPR, ICCV，AAAI，IEEE TPAMI，IEEE TIP，IEEE TMM等重要国际会议、期刊上发表论文 70 余篇，先后获得了2016年ACM Multimedia（CCF A类会议）最佳学生论文奖，2017年Multimedia Modeling最佳学生论文奖，以及2022年中国多媒体大会最佳论文奖。此外，还获得2020年度“ACM上海新星奖”、2023年度IEEE “ICME新星奖提名奖”（全球仅3人）、入选2023年度百度“AI华人女性青年学者榜单”等。

论坛联系人

姓名：朱磊

单位：同济大学

邮箱：leizhu0608@gmail.com