特色论坛
CSIG青托论坛
论坛简介
中国图象图形学学会(CSIG)青托俱乐部是由中国科协青年人才托举工程项目和各省市级科协(北京等)青年人才托举工程项目入选者组成的团体,旨在团结图像图形领域的青年人才托举工程入选者和优秀青年科技工作者,培养他们在科研攻关中挑大梁、当主角,致力于为国家科技事业贡献更多青年力量,同时集聚一批热心学会工作和活动的青年骨干力量,共同推动图像图形学领域的发展,为我国在这一领域取得更多重要成果而不懈奋斗。本次青托论坛依托CCIG举办,旨在为第十届中国科协青年人才托举工程入选者提供展示成果、交流经验的平台。
论坛日程
论坛时间:2025年5月11日13:30-16:00
论坛名称:CSIG青托论坛
主持人:魏秀参

a50118320d8de8cb2701babe8fa1ea2d.png

论坛主席

  • 图片

    魏秀参
    东南大学 教授
    个人简介: 魏秀参,东南大学计算机科学与工程学院教授、博士生导师。主要从事计算机视觉和机器学习方面研究,带领团队开源“PyRetri”、“Hawkeye”等细粒度图像分析算法库(均入选ACM Multimedia开源竞赛Winner Entry)。在国际顶级期刊和会议发表论文六十余篇,相关研究工作获得“江苏省自然科学百篇优秀学术成果”以及含CVPR iNaturalist在内的国际权威学术评测共10项世界冠军。担任IEEE TIP/TMM编委,CVPR、ICCV、AAAI、IJCAI等国际会议的领域主席、研讨会主席、讲习班主席等10余次,并任Fundamental Research/电子学报(英文版)青年编委、CSIG青托俱乐部主席、CCF-CV/CSIG-青工委副秘书长、VALSE常务AC等。曾入选CSIG青年科学家奖、吴文俊人工智能优秀青年奖、中国科协青年人才托举工程等。主编教材《解析深度学习(第2版)》入选省部级重点教材和“十四五”国家重点出版物出版规划,出版学术专著1部。主持国家重点研发计划青年科学家项目、科技委专项等。
论坛讲者信息
  • 31be80f3dde9a2e938a512df1af32582.png

    陈姝宇
    中国科学院计算技术研究所 副研究员   
    报告题目: 基于特征解耦的人脸运动生成
    报告摘要: 针对人脸图像中姿态、动作和光影等属性高度耦合的技术挑战,本报告提出一种对人脸运动与光影的解耦建模的三维人脸生成模型。该方法结合隐式光照表示技术,解耦人脸表观与光照控制条件;同时引入特征层面的光流变形,从动态视频的时序信息中隐式学习三维人脸空间中的精细化的运动变化,对比传统人脸参数化模型具有更强的表示能力。基于该方法可以实现光照和运动可控的高真实感三维人脸驱动与视频生成。
    个人简介: 陈姝宇,博士毕业于中国科学院计算技术研究所,现任中国科学院计算技术研究所副研究员,研究方向为计算机图形学。系列研究成果发表在ACM SIGGRAPH\TOG, IEEE TVCG等知名期刊会议上,获得国家自然科学基金面上项目、青年基金和博士后面上项目资助,并获得中国图象图形学学会石青云女科学家奖(青英组),中科院院长优秀奖,国家奖学金,北京市优秀毕业生等奖励,入选中国科协青年人才托举工程。目前担任中国计算机学会计算机辅助设计与图形学专委会执行委员,中国图象图形学学会智能图形专委会委员,可视化与认知计算专委会委员以及三维视觉专委会委员。

  • b3413dafaed7219aab57e1769279f4e7.png

    陈文拯
    北京大学 助理教授
    报告题目: RainyGS:面向开放世界的真实雨景模拟器
    报告摘要: 在复杂且不可控的户外环境中,真实且物理精确地模拟降雨一直是一项重要挑战。传统的基于物理的模拟方法虽能生成高质量的雨滴、飞溅等效果,但依赖繁琐的场景设置,难以扩展。近年来,诸如神经辐射场(NeRF)和三维高斯投影(3D Gaussian Splatting,简称3DGS)等三维重建技术在灵活建模与新视角合成方面取得了显著进展,但在处理如雨水模拟等动态场景编辑任务时仍显不足。在本报告中,我将向大家汇报RainyGS——一种融合了基于物理的降雨模拟与3DGS框架高效灵活性的创新方法。RainyGS支持无需手动设置即可在真实世界场景中实时渲染从细雨到暴雨等多种降雨效果,达到照片级真实感。该方法将浅水动力学、雨滴运动及真实反射建模集成到3DGS中,实现了超过30帧/秒的渲染速度,并支持包括城市驾驶场景在内的多种开放世界应用。
    个人简介: 陈文拯博士是北京大学王选计算机研究所的助理教授,曾任 NVIDIA 研究科学家。他的研究聚焦于三维视觉和计算摄影,主要探索如何结合物理成像原理与人工智能,实现对场景三维属性的精确感知。他的研究推动了三维重建、神经表征和新视角合成技术的发展,并在 CVPR、NeurIPS、SIGGRAPH 等国际顶级会议和期刊上发表论文 30 余篇。其工作荣获国际计算摄影大会 Best Poster Award,并入选普林斯顿大学科学艺术展览。他的研究成果已广泛应用于工业界,包括 NVIDIA Omniverse 和 Snapchat 等平台。同时,陈文拯博士还担任 CVPR 2025 领域主席及 SIGGRAPH 2025 程序委员。更多信息请访问个人主页https://wenzhengchen.github.io/。
  • b759d8703ef5bdfd4cc00a77a76a1345.png

    傅朝友
    南京大学 研究员
    报告题目: 多模态大模型研究与展望
    报告摘要: 近年来,多模态大模型因其强大的泛化和推理能力,受到了国内外学者以及工业界的广泛关注。本报告将简要回顾多模态大模型的发展历程,并围绕架构、训练、评测和应用等方面展开系统性阐述,深度探讨多模态大模型中存在的问题以及未来的发展方向。
    个人简介: 傅朝友,南京大学智能科学与技术学院研究员、助理教授、博导,入选中国科协青年人才托举工程,南京大学紫金学者。2022年博士毕业于中国科学院自动化研究所;2022-2024年通过腾讯“天才少年”计划加入优图实验室担任高级研究员,作为Technology&Project Leader从事学术研究和工程落地工作;2024年8月加入南京大学。研究方向为多模态智能,已发表国际期刊、会议论文20余篇,谷歌学术引用3200余次,作为Owner的GitHub开源项目累计获得1.8万余次Stars。代表性工作包括VITA多模态大模型系列(一作VITA-1.0&-1.5,通讯Long-VITA,2.4千GitHub Stars),MME多模态评测基准系列(一作MME&Video-MME,引用千余次)和Awesome-MLLM多模态社区(Owner,1万余次GitHub Stars)等。曾获中科院院长特别奖、IEEE Biometrics Council最佳博士学位论文、北京市优秀博士学位论文、中科院优秀博士学位论文、小米青年学者-科技创新奖、CVPR杰出审稿人等。

  • 14b314bffa9088015738cd0b9b656ca3.png

    高君宇
    中国科学院自动化研究所 副研究员  
    报告题目: 面向复杂时空环境的视频自主理解
    报告摘要: 随着便携式数码设备的普及和移动互联网的发展,海量的视频大数据亟需智能的视频理解技术。视频大数据具有纷繁复杂的关系信息,这为视频的智能理解带来了巨大的挑战。本报告围绕如何设计有效的视频自主学习方法来进行视频理解展开,递进地研究了视频理解的三个层次:(1)在实体感知层,根据视觉表观分析视频中有什么,主要研究感兴趣视频实体概念抽取和时空关联;(2)在内容认知层,深入推理视频内容在做什么,主要研究利用知识、经验等理解和推理视频内容;(3)在用户应用层,研究交互场景下视频怎么用,主要研究基于视频数据的视觉智能体学习与交互等。
    个人简介: 高君宇,中国科学院自动化研究所副研究员。主要研究方向为多媒体计算、视频理解、具身智能等,在CVPR, ICCV, ECCV, ACM MM, AAAI和TPAMI, TIP, TMM, TCSVT等人工智能领域顶级会议和期刊发表论文60余篇,其中一作论文19篇,谷歌引用2000余次。获得中国科学院院长特别奖、中国科学院优秀博士论文、ACM China SIGMM优博、百度奖学金等荣誉,入选第十届中国科协青年人才托举工程。作为项目和课题负责人,主持了基金委面上项目、青年基金、科技创新2030 “新一代人工智能”重大项目子课题、基金重点课题等多个项目。

  • c1af28b5f0d5e8c6b754aa838ba3657f.png

    郭春乐
    南开大学 副教授
    报告题目: 面向移动终端的影像AI娱乐化应用
    报告摘要: 移动终端娱乐化需求日益增长,注重可玩性,交互性的娱乐化功能越来越重要。消费者影像娱乐化的需求主要包括定制化、可交互、多样性这三个维度。一方面影像算法需要更加智能,能够适应用户习惯,产生符合用户预期的结果,另一方面,也需要满足用户能够介入影像产生的过程的需求,使其获得创作的乐趣。更进一步的,影像AI娱乐化算法需要能够拓宽维度,创造新的娱乐需求。本报告将围绕“面向移动终端的影像AI娱乐化应用”这一主题,介绍本课题组在定制化人像修复、可交互的图像修饰与编辑、以及基于RAW数据的实时HDR视图合成等任务中的研究进展与实践探索。
    个人简介: 郭春乐,南开大学计算机学院副教授,博导,入选南开大学“百名青年学科带头人培养计划”,第十届中国科协青年托举计划,2024斯坦福全球前2%顶尖科学家榜。博士毕业于天津大学,攻读博士期间曾前往伦敦玛丽女王大学和香港城市大学交流访问。主持包括国家自然科学基金、华为、三星等资助的多项科研项目,相关多项专利技术完成成果转化。他的主要研究内容包括计算成像、图像复原与复原、图像生成与编辑等。作为第一(通讯)作者在TPAMI、TIP、CVPR等国际学术期刊及会议上发表论文20余篇,谷歌学术引用8000余次,其中一作论文单篇最高引用1800余次。参与组织2022-2025年VALSE大会,曾任BMVC2022领域主席,参与组织CVPR 2024年MIPI Workshop。现担任SCI二区期刊IEEE Journal of Oceanic Engineering编委。
  • e5bea7abab593f3647cee2d8e0c06876.png

    江奎
    哈尔滨工业大学 副教授
    报告题目: 开放环境场景感知增强与理解
    报告摘要: 随着人工智能技术的快速发展,开放环境下的场景感知与理解成为智能系统实现自主决策与交互的核心挑战。本报告围绕开放复杂环境中动态、多变的感知需求,提出高效样本生成-要素解耦表征-知识聚合推理的开放场景感知增强与理解框架。通过结合RGB、深度、文本等多源异构信息,构建鲁棒性更强的环境感知模型,并引入自适应特征融合机制优化场景动态变化的实时捕捉能力。实验表明,该框架在自动驾驶、智能安防等实际场景中显著提升了复杂天气、光照、遮挡等场景下的感知与理解精度,同时具备良好的可扩展性与场景迁移能力。研究成果为开放环境下智能系统的环境适应性与决策可靠性提供了理论支撑与技术路径。
    个人简介: 江奎,博士,哈尔滨工业大学网络安全与信息化办公室副主任,计算学部副教授,“青年科学家工作室”团队负责人。研究方向主要包括开放环境视频图像处理增强、多模态融合感知与理解、数字人生成和视觉驱动等。相关研究成果发表IEEE Transactions期刊论文和CCF A类会议论文60余篇,谷歌学术累计引用6000余次,入选全球前2%顶尖科学家榜单(2023-2024)。担任CSIG交通视频专委会、CSIG多媒体专委会、CCF多媒体专委会执行委员。曾获华为“天才少年”计划,第十届中国科协青年人才托举工程、黑龙江省优秀青年、中国图象图形学学会优秀博士论文激励计划、ACM-武汉优秀博士论文奖、中国地理信息产业协会 科技进步特等奖、中国图象图形学学会自然科学二等奖。主持和参与国家自然科学基金联合基金重点/面上项目、湖北省技术创新重大项目、哈工大神舟青年人才支持计划项目。

  • 963c1a1bfeda647ee23502c19424ece9.png

    蒋铼
    北京航空航天大学 副教授  
    报告题目: 视觉感知驱动下的智能图像处理技术
    报告摘要: 近年来,多媒体移动终端和互联网技术快速发展,以图像和视频为主的多媒体数据量呈爆炸性增长,对传输带宽、计算资源和存储空间构成巨大挑战。传统多媒体计算技术受理论“边际效应”制约,性能的小幅提升都会以巨大的计算开销为代价,技术发展遭遇瓶颈。因此,亟需借鉴人类视觉系统的感知机制,设计符合人脑认知的视觉感知模型,预测图像和视频中的显著性区域,去除感知冗余,从而大幅降低多媒体数据量。本报告介绍了近年来我们对数据与认知驱动下的感知模型的一些代表性工作,以及进一步将感知模型应用在多个多媒体计算场景上的探索尝试。
    个人简介: 蒋铼,北京航空航天大学副教授,曾于加拿大英属哥伦比亚大学(UBC)进行博士联合培养与博士后研究工作。长期致力于基于视觉感知的智能图像/视频处理的理论、方法与应用研究,应用于计算机视觉、多媒体信号处理、医学影像分析等多个领域。在计算机视觉、人工智能、医学图像等领域权威期刊和会议上共发表学术论文40余篇,其中第一或通讯作者论文30余篇,包括IEEE TPAMI、IJCV、IEEE TIP、IEEE TMI、CVPR、ICCV、AAAI等。谷歌学术引用2000余次,单篇文章最高引用290余次。基于研究成果,入选第十届中国科协青年人才托举工程、中组部海外博后引才专项计划,获得北京市优秀博士学位论文、中国图象图形学学会优秀博士学位论文、北航博士研究生十佳、北航优秀博士学位论文等多个奖项。研究成果在国际竞赛中获得多个荣誉,包括2022年CVPR NTIRE视频质量增强大赛双赛道冠军、2022年ECCV RVC3D立体匹配大赛冠军等。作为项目责人主持国自然青年项目、华为卓越青年学者、阿里巴巴公司AIR高校合作项目,参与国家自然科学基金首批原创探索项目、重点项目等。
  • 10de48c699f0cf694f119722f74e9d03.png

    钱学林
    西北工业大学 副教授
    报告题目: 面向开放场景下的行人重识别研究
    报告摘要: 开放场景的监控视角下,目标个体的衣着、外貌可能发生不断更替和变化;随目标行进的背景环境在地域、光照等方面也会发生持续演变。这些因素相互交织,使得行人的视觉外貌可能发生显著变化和不一致性,难以提取准确、稳定的行人身份特征,对行人重识别任务带来严峻的挑战。本报告首先介绍了行人重识别在开放场景下的研究意义和挑战;其次针对目标个体的衣着外貌变化,分析了细粒度属性与行人重识别任务的关联性,提出了细粒度表征与增强学习策略,提升行人特征表征的细粒度可分性;最后针对地域变化下的持续学习问题,探讨了数据域差异对重识别知识的影响,通过构建可扩展的结构化知识模块,实现不同知识的跨场景复用与自适应融合。
    个人简介: 钱学林,西北工业大学自动化学院副教授,主要从事图像识别与重识别领域的研究工作。2021年于复旦大学获博士学位。获国家自然科学奖二等、教育部自然科学奖一等,入选中国科协第十届青年人才托举计划、陕西省高层次人才计划等。以第一作者及通讯作者身份发表TPAMI, CVPR, ICCV等高水平国际期刊及会议论文20余篇,谷歌学术引用1800余次,获IEEE Computer Society 论文最具影响力奖。主持国自然青年基金、博士后面上、上海市超博、广东省自然基金面上等项目,参与国家级重点项目2项。

  • d069e9f60a8e55aaba51692012c7082e.png

    徐偲
    西安电子科技大学 副教授
    报告题目: 面向低质量多模态数据的可信机器学习研究进展
    报告摘要: 近年来,多模态机器学习取得了显著进展,在医疗、机器人和自动驾驶等领域得到了广泛应用。然而,多模态数据的质量容易受到噪声、缺失等多种因素的影响,从而导致模型在遇到低质量多模态数据时可能会给出灾难性的错误预测。可信多模态学习为解决这一问题提供了新的机遇,其核心理念是赋予模型自我认知的能力,使其能够合理评估每次决策的不确定性。本报告将结合课题组的研究工作,介绍可信多模态学习领域的主要问题和研究进展,并讨论面临的挑战及未来工作的展望。
    个人简介: 徐偲,西安电子科技大学计算机科学与技术学院副教授。主要从事可信多模态学习相关研究工作。获得AAAI-24的最佳论文奖 (唯一第一作者),在IEEE TPAMI等中科院一区期刊或CCF A类会议发表论文31篇,其中一作/通讯19篇。入选“第十届中国科协青年人才托举工程”,获得“陕西省优秀博士学位论文”,西安电子科技大学“校长奖”。作为骨干成员参与国基金重点项目2项,主持国基金面上、青年基金项目等。
  • 79a644ca3cff1cabfa988661d6cbb6c7.png

    鄢杰斌
    江西财经大学 讲师
    报告题目: 面向沉浸式体验的全景图像质量评价技术
    报告摘要: 本次报告将着重讲解研究团队近年来在沉浸式体验下全景图像质量评价技术的研究进展,并探索未来研究方向。报告首先介绍全景图像质量评价研究背景、主流的研究范式和存在的问题。然后从主观和客观的角度介绍研究团队在全景图像质量评价方面的研究成果,定量化分析当前全景图像质量评价的发展现状。最后讨论全景图像质量评价的发展方向。
    个人简介: 鄢杰斌,江西财经大学讲师,硕士生导师。入选中国科协青年人才托举工程项目、江西省赣鄱俊才支持计划-主要学科学术和技术带头人培养项目--青苗人才,荣获江西省自然科学奖一等奖(排 2)、中国图象图形学学会博士学位论文激励计划、江西省优秀博士学位论文、江西省博士研究生十佳学术之星。主持国家自科基金项目、中国博士后基金特别资助/面上项目、江西省自科基金项目共6项;在中国计算机学会推荐A类期刊/会议和ACM/IEEE汇刊等权威国内/际刊物上发表20余篇论文,谷歌学术引用650余次。

  • 87f57c573ea3af58323de152ab8e51b9.png

    杨学
    上海交通大学 助理教授
    报告题目: 基于内源性视觉预训练的原生多模态模型初探
    报告摘要: 现有的多模态大模型(MLLM)通常采用视觉编码器-对齐模块-语言模型的结构,将视觉编码和语言解码分别进行处理,通常通过将预训练的视觉编码器与大语言模型(LLM)结合来实现,即模块化MLLM。最近新兴的Chameleon、EVE等原生MLLM将视觉感知和多模态理解直接集成到一个LLM中,可以更方便地通过现有工具进行部署、具备更高的推理效率。然而,由于灾难性遗忘问题,现有原生MLLM的性能仍显著低于模块化MLLM。Mono-InternVL提出采用增量微调的方法解决此前原生MLLM中的灾难性遗忘问题,我们认为这一问题源于用于联合视觉和语言建模的共享架构,其中对视觉的优化可能对语言能力产生负面影响。因此,我们在预训练的LLM中增加了视觉专家,采用多模态MoE的结构,从而通过仅微调视觉部分的参数来进行视觉预训练,同时保持预训练语言模型的能力。
    个人简介: 杨学,上海交通大学自动化与感知学院助理教授。曾入选2023年CCF博士学位论文激励计划、2023年上海交通大学优秀博士论文、2022年CCF-CV学术新锐学者奖,并于2023/2024连续两年入选斯坦福大学评选的全球前2%顶尖科学家榜单以及在2024年入选爱思唯尔“中国高被引学者”榜单。主要研究方向为基础视觉,聚焦于多模态大模型和遥感影像解译。在TPAMI/IJCV/CVPR/NeurIPS等CCF-A类期刊和会议上发表40余篇论文,其中第一/通信作者24篇,包含一篇Paper Digest最具影响力AAAI21论文榜首,谷歌学术引用超过8000次,任ICLR领域主席。主导开发MMRotate、JDet、AlphaRotate等有向目标工具,相关开源代码在社区累计收获点赞约 1 万余次。
  • 6fe8825fdbfca173c6b3553bff3e1495.png

    张鸿文
    北京师范大学 副教授
    报告题目: 面向交互感知的运动捕捉与生成
    报告摘要: 运动捕捉和运动生成是构建虚拟数字化身、赋能具身智能等应用的基础。目前,通过结合深度学习和大规模数据,现有方法在单目运动捕捉和文本运动生成方面取得一定进展,但其重建和生成的运动在交互合理性方面仍然存在诸多挑战性问题。本报告将介绍课题组在面向人物场交互感知的运动捕捉和生成系列方法,核心研究思路是通过在神经网络的学习和推理过程中引入交互状态反馈,在保证算法实时性的同时提升运动重建的全局准确性,增强人体和场景、手部与物体的交互合理性。报告还将进一步展望探讨运动捕捉与生成统一的学习框架和未来研究趋势。
    个人简介: 张鸿文,北京师范大学人工智能学院副教授,博士生导师。主要从事虚拟数字人和人形智能体的运动捕捉、化身重建、具身交互与行为生成等研究,发表TPAMI/TOG和SIGGRAPH/CVPR/ICCV等顶刊顶会论文40余篇,包含口头报告/亮点论文7篇,Google Scholar引用量4500余次,一作提出的动捕系列开源算法累计获GitHub星标上千次,主持承担国家重点研发计划子课题、中国人工智能学会-联想蓝天基金等科研项目,入选或获评中国科学院院长奖、中国科学院优秀博士论文、中国科协青年人才托举工程等。代表性成果详见个人主页:https://zhanghongwen.cn。
论坛联系人
  • 魏秀参
    东南大学
    weixs@seu.edu.cn
参会注册

你知道你的Internet Explorer是过时了吗?

为了得到我们网站最好的体验效果,我们建议您升级到最新版本的Internet Explorer或选择另一个web浏览器.一个列表最流行的web浏览器在下面可以找到.