淘天集团 - 2024中国图象图形大会 CCIG2024

银牌合作单位展示

淘天集团（Taobao & Tmall Group）

淘天集团是阿里巴巴集团全资拥有的业务集团，全球领先的科技商业公司。

淘天集团以淘宝APP为主要服务载体，构建国内国际供给、线上线下场景、远场近场履约相结合的商业矩阵，汇聚数十万全球和中国品牌、上千万中小商家及内容创作者，满足9亿中国消费者多元化、个性化、品质化的生活需求。

淘天集团拥有淘宝、天猫、1688、闲鱼等商业品牌，并通过天猫国际、淘宝直播、天猫超市、淘宝买菜、阿里妈妈等业务，提供进口、直播、超市、买菜、数字营销等服务。按GMV计算，淘宝是中国最大的数字零售平台；由天猫首创的双11全球狂欢季，已经成为全球最大的购物节之一。

未来三年，淘天集团将全力实施用户为先、生态繁荣、科技驱动三大战略，在继续服务最大规模消费者和商家的同时，逐步升级为一个一站式的消费及生活平台。

2.技术和产品介绍

淘天集团的核心技术团队，支撑着淘宝、天猫等核心电商业务。依托淘天集团丰富的业务形态和海量的用户，大淘宝技术通过持续的技术创新和突破，不断探索和衍生颠覆性互联网新体验技术，以更加智能、友好、普惠的科技帮助商家更好的经营，让用户享受更好的消费体验。

随着电商业务的持续探索与快速发展，我们不断吸引算法、大数据、音视频通信、端侧智能、3DXR、终端、服务端等技术领域全球顶尖专业人才加入，让科技引领面向未来的商业创新和进步。

以下是我们在图象图形领域的技术和产品介绍——

（1）商品建模，ObjectDrawer描物坊是业内首个基于神经渲染的商品3D建模工具。ObjectDrawer支持输入商品环拍视频或图片，基于神经渲染技术即可完成商品3D建模，建模结果支持商品手机端3D展示、3D场景搭建及展示、渲染生成商品2D素材图和2D视频等多种应用。ObjectDrawer建模具有低成本高质量的特点，商品还原度高，精准还原商品卖点，建模成本低，相比手工建模，建模成本下降70%以上，部分类目下降90%以上。ObjectDrawer率先将神经渲染技术用于商品3D建模领域，完成一系列探索和研究工作，在模型压缩、纹理还原、端上渲染等方面达到业内领先水平。ObjectDrawer对于海量商品的3D建模以及VR、AR等应用的推广将发挥重要的作用。

ObjectDrawer建模流程介绍：

（2）真人重建，创造属于每个人的数字分身（Digital Human for Everyone），以“真人”为中心生产低成本、高质量、可规模化的真人数字人，给消费者和商家带来全新的电商体验。基于NeRF、3D Gaussian等前沿技术，以“真人”为中心提供完整的技术解决方案，不断积累高质量数据，做到生产成本低至中小商家乃至C端消费者可规模化使用，最终效果超过竞品接近真人。

真人重建效果展示：

（3）AceNNR 3D渲染引擎，是由淘天集团Meta技术团队自主研发的3D引擎，具有轻量级（<5M）、高性能，对标主流3D引擎渲染移动端效果且支持神经渲染（NeRF、Gaussian-Splatting等），支持跨平台(H5、Android、iOS等）、跨设备（包括Apple最新的VisionPro），提供TypeScript接口便于业务逻辑开发。此外，AceNNR提供完善的生产工作流，通过辅助建模插件、自动化资产优化系统和引擎运行时的紧密配合，实现高品质3D素材的规模化制作，支撑淘宝天猫的十几个3D业务落地。

（4） 美颜美体技术，依托底层MNN深度学习引擎，结合资源受限的移动端直播场景，持续打磨对视频场景实时处理的2D/3D图形图像算法，包括但不限于人脸/人体检测、人脸/人体关键点、3D人脸重建、人脸分割、皮肤分割等算子。借助这些算子的能力，调节业务层的人脸磨皮、人脸形变、人脸美妆素材、肤色调节、人体形变等，从而很好地服务于淘宝直播的磨皮、美型、美妆、美白、美体等功能项。除此之外，必须兼顾实时性、发热等性能强相关因素。算子的编排与联合优化、OpenGL等渲染算法优化以及不同端（iOS、Android、PC）、不同算力平台的（NPU、GPU、CPU）的适配也是人像美化的攻坚重点。

（5） RACE（Render And Compute Engine），是淘天集团音视频技术团队自主研发的轻量级、高性能、跨平台的多媒体渲染计算引擎。RACE提供了丰富的美颜美型、视频处理、模板渲染、智能互动、2D/3D渲染等能力，结合完整的资源创作的生产工作流，广泛应用于淘系的直播、短视频、相机、图文等相关业务，为淘天内容业务提供核心技术支撑。

（6） STaoVideo，是由淘天集团音视频技术团队自研的视频增强方案，STaoVideo 包含差异化的普惠高清、智美高清、超分等视频增强算子，通过传统算法和深度学习结合，在考虑计算成本的前提下，给用户最好的画质体验。目前STaoVideo全面应用与淘宝直播和短视频业务，每天处理数以万计的淘宝视频，通过噪声伪影去除、细节增强修复和生成、超分等手段全面提升淘宝的视频观看体验。除了专注于业务本身，团队自研的视频超分方法 TaoMC2 曾参与CVPR NTIRE 2022视频超分与增强比赛，在三个赛道中斩获两冠一亚的骄人成绩。

（7） 视频编码S265/S266，淘天音视频技术团队自研的S265编码器是对H.265/HEVC标准的高效实现，全面应用于淘宝直播、首页信息流、淘宝逛逛等业务，对比前一代标准，压缩效率提升40%以上，经S265压缩后，普通手机在3G网络也可顺滑观看1080p，高端手机可支持4k 30FPS超高清直播。

基于S265的核心技术，团队还开发了H.266/VVC标准编码器S266，通过延伸S265中的优化手段，以及预分析、自适应量化、时域运动滤波等，配合多种快速算法、汇编优化、并行加速等，S266比参考软件VTM11有了极大的速度提升，目前已在淘宝直播和短视频转码业务中落地。

S265和S266，分别参加了MSU 2020和2021两届比赛，取得多个赛道第一。

（8）商品图片生成，淘天集团供给智能团队基于StableDiffusion模型框架，自研了一套在电商领域的图像生成技术。相较于开源的图像生成模型，我们重点提升了图像生成的可控性问题，保证生成图像可以100%精准还原商品细节，避免出现货不对板的问题。我们对图像生成多样且复杂的生图控制方式进行了优化，同时结合商品理解能力，能够自动基于商品的风格调性生成最合适的商品背景和模特。同时我们制定了一套电商领域的模特生成美学标准，并训练了模特美学评估模型，借此不断优化我们的训练数据质量。相较于开源的人物生成模型，我们的模型在真实感和手部细节控制等方面具有明显的优势。相关图像生成产品包括：商品背景替换、模特图生成、虚拟试衣等。这些产品均已在淘天的商家端上线，获得大量商家的使用和认可。

（9）商品图片编辑，针对电商场景高频且多样的商品图片素材更改需求，我们基于最新的图像生成和编辑模型，自研了一套电商图片编辑技术。开源的图像延展和擦除模型在电商场景因为图片数据分布的差异并不能做到很好地适配，比如针对带牛皮癣边框的图片就难以实现图片的尺寸修改。我们针对电商场景的具体需求，自研了图像延展、目标擦除、白底图生成等图像编辑技术，并在商家端的发品、营销、图片治理等多个场景落地。同时我们还在探索基于大语言模型Agent的交互式图片编辑技术，为商家提供近乎真人美工的图像编辑体验。

（10）商品理解多模态大模型，对商品的理解和结构化能力一直是淘天作为一家电商公司的核心算法能力，经过多年的积累淘天已经在基于文本的商品理解能力上有了丰富的积累，并且基于此构建起了数十亿规模的商品库。随着近来多模态大模型技术的突破，在商品理解上我们看到了技术上的更大可能性，多模态大模型可以直接基于商品的外包装图片等信息实现商品信息的抽取与推断。目前我们正在积极探索多模态大模型技术在商品理解与商品库构建场景的落地应用。

3.招聘信息

算法工程师-三维重建和3D模型生成方向-北京/杭州

投递邮箱：jiangjing.ljj@taobao.com

职位描述

负责神经渲染建模相关技术研究，包括模型表示、模型压缩、模型编辑、模型质量优化、模型仿真等等方面；
负责神经渲染建模相关图象图形技术研究，包括图像检测、分割、超分，位姿估计，Mesh模型优化等等；
负责扫描建模相关技术研究，包括可微分几何建模、可微分纹理生成、基于深度先验的建模算法等等；
负责神经渲染建模的渲染相关研究，包括重光照技术、神经渲染的材质表示、透明反光材质渲染等等；
负责结合生成技术做3D物体模型、3D场景模型的生成，保障生成模型的高效果、可控性等等。

职位要求

相关领域国际会议发表多篇论文，或作为重要角色在权威比赛中取得优秀成绩；
极佳的工程实现能力，熟练掌握C++/Java/Python等至少一门语言；
精通计算机视觉、机器学习、渲染引擎、多视图几何等相关领域技术；
敢于突破现状，勇于探索新思路、新技术，能够积极主动地进行协助沟通，配合团队共同完成目标。

算法工程师-内容电商AIGC视觉生成算法-北京/杭州

投递邮箱：linxin.yyp@taobao.com

职位描述

负责视觉AIGC算法的研究和落地，并落地到内容电商的业务场景，职责包括以下之一：

文生图基础模型的研发。
图生图及其他控制条件下图生成算法的研发。
LLM结合的图生成算法的研发。

职位要求

计算机、数学或统计学相关专业硕士及以上学历；
熟练掌握Python，有扎实的数据结构和算法基础；
熟悉常用的机器学习算法，熟练使用tensorflow/Pytorch等深度学习开发平台；
2年及以上图像理解、图像编辑、图像生成等领域相关经验；
熟悉掌握StableDiffusion, Controlnet，Dreambooth, Lora, Inpainting，3D，GAN，VAE，多模态等一项或多项相关工作，具有综合使用各类算法实现特定功能的能力；
具备优秀的分析和解决问题的能力，良好的沟通协作能力；对使用AIGC能力创造新事物有热情。

加分项

有顶会论文发表者优先；
参加过ACM或数据挖掘&机器学习类竞赛(天池大奖赛、Kaggle)并取得好名次者更佳；
参与过机器学习开源项目并有突出贡献者更佳。

算法工程师-AIGC视频生成算法-北京/杭州

投递邮箱：aixi.zhax@taobao.com

职位描述

负责AIGC视频生成算法的研究和落地，并落地到内容电商的业务场景，职责包括以下之一：

通用视频基础模型和人像视频基础模型的研发
针对电商场景的可控服饰模特的视频生成模型研发
细粒度可控的图像、视频生成和编辑，以及交互创意玩法

职位要求

计算机、数学或统计学相关专业硕士及以上学历；
熟练掌握Python，有扎实的数据结构和算法基础；
熟悉常用的机器学习算法，熟练使用tensorflow/Pytorch等深度学习开发平台；
熟悉掌握StableDiffusion, Controlnet，Dreambooth, Lora, Inpainting，3D，GAN，VAE，多模态等一项或多项相关工作，具有综合使用各类算法实现特定功能的能力；
具备优秀的分析和解决问题的能力，良好的沟通协作能力；对使用AIGC能力创造新事物有热情。

加分项

有视觉生成AIGC方向的顶会论文发表者优先；
参加过ACM或数据挖掘&机器学习类竞赛(天池大奖赛、Kaggle)并取得好名次者优先；
参与过机器学习开源项目并有突出贡献者优先。

高级算法工程师-人脸方向-杭州/北京

投递邮箱：zhonggan.dzg@taobao.com

职位描述

负责人脸与人体相关算法研发和落地工作，包含但不限于探索最前沿的算法，与产品化落地
针对淘宝直播、短视频拍摄场景，针对性提出解决方案，提升用户体验
参与计算机视觉领域的前沿技术研究

职位要求

硕士及以上学历，具有三年以上图像处理，计算机视觉相关工作经验；
在人脸或人体的检测，关键点，分割，生成，三维重建等一个或多个方向有较深研究及实践经验，具有实际线上项目经验；
具有较强的工程能力，熟练使用C、C++或python，熟悉openCV等常用库，具备算法部署能力；
熟悉深度学习原理，熟练使用相关框架；
主动学习，对于相关任务有较强兴趣，熟悉了解业界发展；
在国际顶尖会议或期刊（包括但不限于SIGGRAPH, CVPR, ICCV, ECCV等）上发表过论文者优先。

高级渲染工程师-内容-杭州/北京

投递邮箱：liuhuaida.lhd@taobao.com

职位描述

自研渲染引擎底层功能模块的维护、扩展和优化。
负责直播和短视频中美颜、特效等业务的落地、性能分析调优和缺陷修复。
尝试新的技术和效果应用到直播和短视频场景中。

职位要求

扎实掌握C++，数据结构，多线程，计算机原理，良好的设计和编码能力。
良好的3D图形学基础，熟悉3D渲染管线，熟悉OpenGL/Metal/Vulkan一种图形API，可以自主编写和优化shader满足各种需求，有渲染管线优化经验。
有开发过或者使用游戏引擎、图形引擎的经验包括Unity3D、Unreal、Cocos2D等。
熟悉xCode和Android Studio等移动开发平台者优先。
有视觉算法经验者优先。
善于沟通，有良好的的团队合作精神，抗压能力强。

视频增强算法工程师-杭州/北京

投递邮箱：sibin.dsb@taobao.com

职位描述

负责淘宝直播、短视频场景下视频图像处理算法开发，包括但不限于视频增强、去噪、超分、亮度优化、色彩增强等；
负责视频图像处理算法的工程落地、链路优化、数据回收，保障项目顺利落地；

职位要求

计算机、电子、数学等相关专业硕士及以上学历；
有丰富的计算机视觉算法工程落地经验，包括传统和深度学习算法，熟悉主流的开发环境；
熟悉模型量化、蒸馏、TensorRT、MNN、TVM等性能优化工具中的至少1种，以及熟悉Sql开发的优先；
有落地以下算法的优先：场景检测和内容自适应增强、视频亮度和色彩优化等；
具备优秀的分析问题和解决问题的能力、良好的沟通协作能力；

视频编解码算法专家-杭州/北京

投递邮箱：kaishi.lk@taobao.com

职位描述

完成视频编解码器的集成、测试和上线，包括PC端、IOS端和云端；
调用硬编解码器实现音视频的编解码，并能根据应用场景的特点进行调优；
维护转码系统的稳定性，跟进行业相关技术进展，并根据业务需求进行技术创新；

职位要求

计算机、电子信息、数学等相关专业硕士及以上学历, 具备扎实的理论基础和编程功底；
熟悉并有基于ffmpeg、webrtc等开源音视频库进行二次开发的经验；
熟悉mp4、flv等视频封装格式，YUV/RGB等视频文件格式，SDR/HDR等；
了解AVC/HEVC/VVC等主流视频编码标准，了解x264/x265等开源编码器, 有编解码器算法优化经验者优先；

算法工程师-多模态大模型方向-杭州/北京

投递邮箱：baixuefeng.bxf@taobao.com

职位描述

负责多模态大模型在淘天商品理解与商品库构建场景场景的研发与落地应用
基于淘天海量的商品数据，构建高质量的商品多模态大模型训练数据，实现多模态大模型的高质量预训练与指令微调。
基于多模态商品理解大模型实现淘天海量商品的理解与结构化，构建全球最大的高质量商品库，服务于淘天商品的精准分发与生态的有效治理

职位要求

具有2年(含)以上的视觉/多模态算法实践经验，熟悉视觉/多模态的各种任务建模，尤其是跨模态表征和生成等多模态任务；
对视觉/多模态的前沿算法理论有深入的了解和运用，熟悉新的多模态预训练模型，跨模态表征等相关研究；
熟练使用Python/Java/C++ 语言等其中一种语言优先，熟练掌握TensorFlow/Pytorch等任一主流深度学习框架；
熟练掌握DeepSpeed、Megatron等分布式训练框架并有大模型训练经验者优先；
有高质量论文、开源项目、ACM竞赛等相关经历者优先；

算法工程师-视觉生成与编辑方向-杭州/北京

投递邮箱：baixuefeng.bxf@taobao.com

职位描述

负责AIGC视觉生成相关算法在商品发布、营销活动、行业玩法等电商业务场景的落地应用
基于淘宝海量的商品数据，构建高质量图文训练数据，实现大规模LDM相关算法的训练优化，构建大模型的核心技术壁垒
搭建多种基于AIGC相关算法的行业和商家应用（如：主图生成、图片编辑、AI试衣、营销图生成等），极大降低商家的经营成本，提升商品供给效率和质量

职位要求

具有2年(含)以上的视觉/ 图形图像生成算法实践经验，熟悉视觉/多模态的各种任务建模，包含但不仅限生成、检测、分割等；
对视觉/图形/AIGC的前沿算法理论有深入的了解和运用，熟悉最新的GAN/LDM算法模型等相关研究；
熟练使用Python/Java/C++ 语言等其中一种语言优先，熟练掌握TensorFlow/Pytorch等任一主流深度学习框架
熟练掌握SD WebUI、Diffusers、ComfyUI等生成式算法框架者优先；
拥有姿态编辑、高精度分割相关算法和项目经验这有限

有高质量论文、开源项目、ACM竞赛等相关经历者优先；

银牌合作单位展示

淘天集团（Taobao & Tmall Group）

2.技术和产品介绍

以下是我们在图象图形领域的技术和产品介绍——

3.招聘信息

联系我们

会议秘书：骆岩峰

手机：13520837421

中国图象图形学学会
联系人：骆老师、王老师
电话：010-82544676
邮箱: ccig@csig.org.cn