学术论坛
- 人工智能生成艺术论坛
- 复杂交通场景感知技术及其前沿应用论坛
- 文字识别与文档智能论坛
- 三维感知与显示技术论坛
- 视觉质量感知与评估前沿论坛
- 流程工业智能视觉感知技术论坛
- 情感计算大模型论坛
- 持续学习的理论与应用论坛
- 智能影像增强与可控内容生成论坛
- 多模态智能模型安全隐患洞察与防护论坛
- 空天探测成像前沿论坛
- 高效视频通信中的语义编码与内容增强论坛
- 智能图像感知微系统论坛
- 面向精神健康促进的具身交互智能研究论坛
- 工业视觉智能检测技术前沿论坛
- 面向具身智能的图像图形技术
- 生物特征识别论坛
- 大模型的表征学习与编码通信论坛
- 大模型复杂场景理解与轻量化应用论坛
- 视频动作理解与生成前沿论坛
- 生物医学成像与人工智能论坛
- 开放环境无人驾驶“感-通-算”前沿技术论坛
- 智能视觉传感信号处理论坛
- NeRF与3DGS智能生成技术探索论坛
- 深空探测人工智能技术论坛
- 生成式视频通信论坛
- 类脑计算、感知和智能论坛
- 多模态大模型应用安全与生成式人工智能监管论坛
- 多模态遥感大模型及应用论坛
- 机器视觉与学习论坛
- 具身智能感知交互论坛
- 规模化与轻量化协同演进技术论坛
- 空间计算前沿技术论坛
- 人脑影像图谱与人工智能论坛
- 低代价高质量信息智能获取论坛
- 工业具身智能感知前沿论坛
生成式视频通信论坛
论坛简介
生成式人工智能技术的范式性突破正深刻重塑全球科技版图,其在内容生成等领域的变革性成果已引发学术界和产业界的广泛关注。然而,作为数字化时代核心交互载体的视频通信领域,尚未充分释放生成式技术的革命性潜能——从多媒体内容表征范式的重构、编码传输机理的智能化演进,到端到端通信系统的自适应优化,均存在亟待探索的理论盲区与技术瓶颈。本论坛汇集领域资深专家学者,深度解读生成式技术的发展趋势,系统分析其对多媒体表达、编码、传输、评价等领域的实际应用价值。论坛构筑人工智能、多媒体、通信等领域的跨界合作桥梁,期望凝聚各方智慧,加速生成式人工智能技术在视频通信领域的落地应用,并为相关专家学者打造务实高效的交流平台。
论坛日程
论坛时间:2025年5月10日13:30-15:30
论坛名称:生成式视频通信
主持人:张文军
论坛主席
- 张文军上海交通大学、讲席教授个人简介: 张文军,上海交通大学讲席教授、电子工程系图像通信与网络工程研究所所长,教育部未来媒体网络协同创新中心主任。主要从事图像编码与通信、媒体网络融合、宽带无线传输、视听电子系统芯片设计等领域技术研究。国家自然科学基金委数字媒体通信创新群体带头人、杰出青年基金获得者,教育部首批长江学者特聘教授,国家百千万工程领军人才,国务院特殊津贴专家,中国电子学会会士,IEEE Fellow。合作发表SCI论文140余篇、获得授权发明专利236项(含35项国际发明专利),主编工信部“十四五”规划教材《视频通信》。以第一完成人获得国家科技进步二等奖4项、中国专利金奖、何梁何利科技进步奖和广电行业CCBN学术贡献奖等荣誉。
- 鲁国上海交通大学、副教授个人简介: 鲁国,上海交通大学电子工程系长聘教轨副教授、博士生导师。2020年博士毕业于上海交通大学,主要研究方向是视频编码。在IEEE T-PAMI/T-IP及CVPR/ECCV/ICCV等上发表论文50余篇。作为项目负责人先后承担自然基金委青年、面上以及华为、平头哥等企业项目,参与自然基金重点、科技部重点研发计划项目等。担任权威期刊IJCV,IEEE T-CSVT客座编辑,在 CVPR/ACMMM 上组织多次智能编码讲座,担任AAAI-2022 Senior PC。入选中国科协青年人才托举工程,获首届IEEE视觉信号处理与通信新星奖,中国图象图形学学会优秀博士论文奖,上海交通大学优秀博士论文奖。
论坛讲者信息
- 朱文武清华大学 教授报告题目: 面向动态开放环境的生成式AI报告摘要: 生成式AI旨在通过人工智能技术创造文本、图像、视频等内容,在机器翻译、艺术创作等多个领域都得到了广泛应用。近年来,基于预训练的大语言模型和扩散模型等更是极大促进了对生成式AI的发展。然而,预训练大模型通常难以满足动态变化的用户需求,因此研究面向动态开放环境的生成式AI变得尤为重要。首先介绍生成式AI发展现状,然后探讨动态开放环境下生成式AI研究的关键科学问题, 围绕动态开放环境下多主体、多行为、多场景以及多视角协同的可控生成难题,提出一系列基于解耦不变学习的生成式AI模型,并对其关键技术进行探讨。最后,本报告讨论生成式AI的未来研究方向。个人简介: 朱文武,清华大学计算机系教授,信息科学与技术国家研究中心副主任。曾任国家973计划项目首席科学家,国家基金委重大项目负责人,教育部人工智能科技创新专家组成员等。先后担任IEEE Transactions on Multimedia主编、IEEE Transactions on Circuits and Systems for Video Technology主编,曾任IEEE Transactions on Multimedia 指导委员会主席。ACM Fellow、IEEE Fellow、AAAS Fellow、SPIE Fellow、欧洲科学院外籍院士。获2023年ACM SIGMM技术成就奖和2024年IEEE电路与系统学会Charles A. Desoer技术成就奖。三次获国家自然科学二等奖。
- 乔宇上海人工智能实验室 教授报告题目: 多模态生成与理解大模型:前沿与趋势报告摘要: 近年来,预训练语言大模型推动人工智能技术取得突破性进展,开辟通向通用人工智能的重要途径。通用大模型以规模定理为指引,构建大工程与大创新相结合的新范式,极大拓展了人工智能技术与应用的边界。当前,通用大模型正处于从语言向多模态再向具身演进的关键阶段,图像、三维、物理交互等能力的引入将大大拓展模型的应用场景,大模型垂域应用高速发展。大模型的技术本质是生成式压缩,与语言大模型专注于训练测模型参数和训练数据规模扩增的scaling law相比,未来多模态和具身大模型scaling维度将更加丰富,理解与生成的融合面临新问题,同时也带来新的技术挑战和创新机遇。这个报告将介绍通用多模态大模型的最新进展,特别是上海人工智能实验室“书生”通用大模型体系,还将分析未来的发展趋势。个人简介: 乔宇,上海人工智能实验室主任助理、领军科学家、教授,上海创智学院副院长。从事通用大模型、计算机视觉、深度学习等方面的研究。领导研发了国内首个广泛覆盖多种视觉任务的通用视觉大模型,以及开源社区性能领先的多模态大模型书生·万象InternVL。论文发表300余篇,累计被引8万余次,H指数120+,获得发明专利授权100余项。获得王选奖青年学者奖、CVPR 2023最佳论文奖,AAAI 2021杰出论文奖、ACL 2024杰出论文奖等,以第一完成人获广东省技术发明一等奖。入选国家级领军人才计划、科技部中青年科技创新领军人才、上海市优秀学术带头人、中科院百人计划等。主持科技部科技创新2030-“新一代人工智能”重大项目。担任国家人工智能标准化总体组大模型标准化专题组组长、网络安全与空间协会人工智能安全治理专业委员会副主任等。
- 雷建军天津大学 教授报告题目: 3D视频智能编码与处理报告摘要: 人类生活的世界是3D立体的,由于受技术条件的限制,传统的显示技术采用2D平面影像表达和传递对世界的认识。继黑白、彩色、高分辨率信息在屏幕上完美再现之后,3D视频技术成为了新一代信息技术的发展方向和趋势。3D视频能够再现真实景物的立体信息,提供沉浸式的立体视觉感受和灵活的交互式体验,在多个领域都具有广阔的应用前景。报告将介绍3D视频系统与视频编码基本原理、阐述3D视频智能编码与处理方法。个人简介: 雷建军,天津大学讲席教授,国家杰出青年科学基金获得者。主要研究方向包括视频编码、3D视频处理、计算机视觉等。主持承担了国家重点研发计划项目、国家自然科学基金重点项目、国家国际科技合作项目课题、天津市人工智能重大专项课题等;发表IEEE Trans汇刊长文60余篇;担任IEEE Transactions on Vehicular Technology、Neurocomputing、China Communications、电子学报编委;获天津市科技进步一等奖、天津市技术发明一等奖、国家技术发明二等奖,入选了天津市中青年科技创新领军人才、天津市131人才工程、北洋学者计划。
- 陈敏华为公司,视频工程部部长报告题目: 大模型时代的视频领域挑战与机遇报告摘要: 大模型时代下视频技术领域正经历前所未有的变革。本次报告将重点从产业视角分享视频生成、视频编创与视频传输在大模型时代面临的挑战与机遇。有别于传统PGC/UGC制作方式,生成式AI能大幅提升视频生成效率,然而生成式视频在时间一致性、物理规律遵循和细节保真度方面等仍面临中大挑战,尤其是在长视频生成时更为明显。视频编创领域,大模型已开始理解视频叙事结构,能实现智能剪辑、自动配乐和内容摘要,但在把握叙事逻辑和情感层次上仍不及人类专业编辑。另一方面,爆炸式增长的生成式视频内容对网络传输带来巨大压力,特别是在分布式多用户协同视频编创以及实时交互大模型应用中,如何保证视频的高保真和实时性是关键挑战。本报告也会发布视频生成、视频编创与视频传输领域的产业难题。个人简介: 陈敏,华为公司2012实验室中央媒体技术院视频工程部部长。
论坛联系人
- 鲁国上海交通大学luguo2014@sjtu.edu.cn