学术论坛
- 三维感知与显示技术论坛
- 规模化与轻量化协同演进技术论坛
- 文字识别与文档智能论坛
- 智能影像增强与可控内容生成论坛
- 视觉质量感知与评估前沿论坛
- 面向精神健康促进的具身交互智能研究论坛
- 工业视觉智能检测技术前沿论坛
- 情感计算大模型论坛
- 多模态大模型应用安全与生成式人工智能监管论坛
- 人工智能生成艺术论坛
- 流程工业智能视觉感知技术论坛
- NeRF与3DGS智能生成技术探索论坛
- 复杂交通场景感知技术及其前沿应用论坛
- 智能视觉传感信号处理论坛
- 深空探测人工智能技术论坛
- 低代价高质量信息智能获取
- 多模态智能模型安全隐患洞察与防护论坛
- 生物医学成像与人工智能
- 高效视频通信中的语义编码与内容增强
- 具身智能感知交互论坛
- 智能图像感知微系统
- 多模态遥感大模型及应用
- 持续学习的理论与应用论坛
- 空间计算前沿技术论坛
- 开放环境无人驾驶“感-通-算”前沿技术论坛
- 面向具身智能的图像图形技术
- 生成式视频通信
- 大模型复杂场景理解与轻量化应用
- 机器视觉与学习
- 人脑连接图谱与人工智能论坛
- 类脑计算、感知和智能
- 文字识别与文档智能论坛
- 大模型的表征学习与编码通信论坛
面向具身智能的图像图形技术
论坛简介
具身智能强调智能体通过与环境的交互,具备像人一样感知、规划、决策和行动的能力,这不仅拓展了未来科技的边界,也带来了广阔的创业机遇。具身智能的发展,与图像图形技术紧密相关,它涉及到多模态感知、视觉数据合成等关键技术,这些技术使得智能体能够整合视觉、听觉、触觉等感知数据,对现实世界作出精准反应。本论坛将为学术界和产业界提供了一个交流的平台,共同探讨这一领域的挑战、前沿进展和未来路线,推动领域发展,同时也为实现更高层次的智能表现和应用提供了思路和方向。
论坛日程
论坛时间:2025年5月9日15:50-17:50
论坛名称:面向具身智能的图形图像技术
主持人:徐凯,胡瑞珍
论坛主席
-
徐凯国防科技大学 教授个人简介: 徐凯,国防科技大学教授/博导,国家杰出青年基金获得者。普林斯顿大学访问学者。研究方向为计算机图形学、三维视觉、具身智能、数字孪生等。在国际上较早开展了数据驱动三维感知、建模与交互工作,提出面向复杂三维数据的结构化感知、建模与交互理论方法系统。发表TOG/TPAMI/TVCG等A类论文90余篇,其中图形学顶会SIGGRAPH论文30余篇(第一作者10篇)。担任图形领域顶级国际期刊ACM Transactions on Graphics、IEEE Transactions on Visualization and Computer Graphics的编委,以及多个领域重要会议的程序主席。任中国图象图形学学会三维视觉专委会副主任、中国工业与应用数学学会几何设计与计算专委会副主任。获湖南省自然科学一等奖2项(排名1和3)、中国计算机学会自然科学一等奖(排名3)、军队科技进步二等奖、军队教学成果二等奖等。
-
胡瑞珍深圳大学 教授个人简介: 胡瑞珍,深圳大学特聘教授,博士生导师,国家优秀青年科学基金、广东省杰出青年项目获得者。研究方向为计算机图形学,长期从事智能几何建模与处理方面的研究,发表 ACM SIGGRAPH/TOG 论文三十余篇;入选中科协青年人才托举工程;荣获亚洲图形学协会青年学者奖、全国几何设计与计算青年学者奖;担任期刊IEEE TVCG、IEEE CG&A和Computers & Graphics等国际期刊编委;担任国际会议SGP 2024/CVM 2023/SMI 2020 Technical Paper、SIGGRAPH Asia Technical Communications and Posters以及EG 2024 Short Paper程序委员会主席,连续多年担任SIGGRAPH等大会程序委员会委员;担任中国计算机学会计算机辅助设计与图形学专委会常委、计算机图形学与混合现实在线平台(GAMES)执委会主席。
论坛讲者信息
-
弋力清华大学助理教授报告题目: 从人类运动中学习多样化的人形机器人交互技能报告摘要: 为人形机器人配备多样化的场景交互技能一直是具身人工智能中的关键研究目标。人形动力学的复杂性、高维感知与控制需求以及这些系统的欠驱动特性为其技能学习带来巨大挑战,现有基于特定任务的强化学习或模型预测控制方案常常限制了系统的交互能力,使其只能应用于狭窄定义的场景、任务和目标。这在实现通用交互技能方面留下了一个显著的缺口。为了解决这个问题,团队提出了一种方法,通过跨本体追踪控制范式利用人类运动数据,为人形机器人配备更广泛的交互能力。通过在场景交互中捕获广泛的人类运动数据,训练了一个生成性的人类-场景交互运动规划器。这个规划器使人形机器人能够与新的场景进行交互,并通过对跨本体追踪控制实现多样化的目标。本次报告将重点展示该范式在实现多场景、多任务交互中的潜力。个人简介: 弋力博士现任清华大学交叉信息研究院助理教授,国家优青(海外)。他在斯坦福大学取得博士学位,导师为美国三院院士Leonidas J. Guibas教授,毕业后在谷歌研究院任研究科学家。他近期的研究聚焦于三维视觉与具身智能,他的研究目标是赋予机器人理解并与三维世界交互的能力。他在计算机顶级会议期刊上已发表论文七十余篇,引用数两万余次,代表作品包括ShapeNet Part,SyncSpecCNN,PointNet++等,大大影响了三维深度学习这一领域的出现与发展。此外他还曾担任CVPR、IJCAI、NeurIPS等顶会的领域主席与SIGGRAPH TPC等。
-
王鹤北京大学助理教授报告题目: 合成大数据驱动的具身端到端VLA大模型报告摘要: 具身数据的昂贵和不足目前是具身智能的重要瓶颈,而高质量的合成大数据为具身端到端大模型的泛化提供了一个低成本方案。本报告以端到端操作模型GraspVLA 和 端到端导航Uni-NaVid 等系列工作为例,探讨视觉-语言-动作(VLA)大模型系统的技术突破及其泛化能力的实现。个人简介: 王鹤博士是北京大学计算机学院前沿计算研究中心的助理教授和博士生导师。他同时是北京银河通用机器人公司的创始人和CTO,智源学者。他的研究目标是通过研究具身多模态大模型和人形机器人技能学习来推进通用机器人的发展。他获得蚂蚁科技奖,英特尔中国学术英才计划荣誉学者等称号,并获得2024年北京大学-中国光谷科技成果转化奖。他的论文获得ICCV2023最佳论文候选,ICRA2023最佳操纵论文候选,2022年世界人工智能大会青年优秀论文(WAICYOP)奖,Eurographics 2019最佳论文提名奖。他担任CVPR和ICCV的领域主席。在加入北京大学之前,他于2021年从斯坦福大学获得博士学位,师从美国三院院士Leonidas. J Guibas教授,于2014年从清华大学获得学士学位。
-
赵昊清华大学助理教授报告题目: 生成式仿真为具身智能释放无限灵感报告摘要: 人工智能学科正在走入具身智能新时代。与传统人工智能领域(视觉和语言等)不同,具身智能需要有标注的感知决策混合数据,而在真实世界中获取此类数据的成本高且风险大,因此真实感仿真成为重要解决思路。而传统的仿真面临资产建模成本高,仿真环境和真实环境差别大等问题,生成式模型的最新突破是解决这些老问题的重要途经。因此,本人的研究为具有丰富物理光学属性的三维四维生成式模型,以其赋能真实感黑盒白盒神经渲染仿真,进一步推进端对端具身智能感知决策算法的进步。个人简介: 赵昊,清华大学智能产业研究院助理教授,于清华大学电子工程系获得学士和博士学位,在北京大学从事博士后研究。主要研究方向是与机器人相关的计算机视觉。在CVPR / ICCV / ECCV等顶级学术会议以及T-PAMI / IJCV 等顶级学术期刊上发表了30余篇研究论文。主导研发了全球首个开源的模块化真实感自动驾驶仿真器MARS,在CICAI 2023获得Best Paper Runner-up奖项。其研发的渲染阶段可调整精度速度的神经渲染方法SlimmeRF于3DV 2024获得Best Paper奖项。
-
窦琪香港中文大学助理教授报告题目: 手术机器人具身智能中的创新与挑战报告摘要: 具身智能作为交叉学科的前沿方向,具有广泛的应用前景和巨大发展潜力。医疗具身智能是其中一个重要课题,通过赋予机器人智能感知、决策与执行的能力,为各类医疗场景提供全方位支持,包括手术机器人、康复机器人、医学检查、药房自动化和医院护理等智能化系统。本报告聚焦手术机器人具身智能方向,将介绍关键技术创新与挑战,包括团队开源的手术机器人具身智能仿真平台SurRoL、手术视频场景理解、三维场景重建与动态建模、基于大语言模型的术中动作规划,以及AR技术在导航中的应用。该领域应用图像图形技术,结合多模态感知、虚拟仿真、强化学习、自主操控和人机交互系统,旨在实现更高效、精准、灵活、安全的手术操作,推动手术机器人向智能化方向发展。个人简介: 窦琪, 香港中文大学计算机科学与工程学系助理教授,博导,国家优秀青年科学基金(港澳)获得者。担任港中文智能医疗与扩展现实研究所副所长,港中文天石机器人研究所研究员,香港医疗机械人创新技术中心研究员, 香港物流机器人研究中心成员。研究方向为医学影像分析和手术机器人具身智能。获国家教育部自然科学二等奖,IEEE EMBS Early Career Achievement Award,香港科学会青年科学家奖,北京市科学技术一等奖。谷歌总引用3万余次,H-index 70。文章曾获 MICCAI 2022青年科学家最佳论文奖,IJCARS-MICCAI 2021最佳论文奖,IEEE ICRA 2021医疗机器人最佳论文奖, MedIA-MICCAI 2017 最佳论文奖。2020年起连续入选斯坦福大学全球前2%顶尖科学家榜单。 担任MICCAI 2024,IPCAI 2023,MICCAI 2022,MIDL 2022会议联席程序主席, IROS SPC, NeurIPS AC,IEEE TMI,IEEE TBME,IEEE RAL,Medical Image Analysis期刊副编。
-
彭思达浙江大学研究员报告题目: 基于大规模训练的通用空间感知技术研究报告摘要: 空间感知是实现具身智能体与真实环境交互的核心基础,其核心任务包括场景深度解析、特征关联、运动跟踪及物体位姿估计等。传统方法在动态场景泛化性、多模态数据融合等方面存在显著局限。针对上述挑战,本研究提出基于大规模训练与信号序列化的研究思路,提出一系列通用空间感知技术,提升了空间感知算法的泛化性和准确性,为机器人在动态开放环境中的自主交互提供了可靠空间认知基础。个人简介: 彭思达,浙江大学软件学院“百人计划”研究员,博士生导师,研究方向为三维计算机视觉和计算机图形学。至今在TPAMI、CVPR、ICCV等期刊或会议发表五十余篇论文,谷歌学术引用5100余次,其中一篇一作论文获得CVPR最佳论文提名,成果获得GitHub数万次stars和2024年中国CCF图形开源软件奖;入选斯坦福2024全球Top 2%科学家榜单、2024年CCF优博、2023年世界人工智能大会云帆奖-明日之星、浙江省优博;被苹果公司评为2022 Apple Scholar(亚太地区唯一),被华为公司评为2024启真优秀青年学者。
论坛联系人
-
胡瑞珍深圳大学ruizhen.hu@gmail.com