文字识别与文档智能论坛

学术论坛

文字识别与文档智能论坛

论坛简介

近年来，大模型技术在图像与自然语言处理等领域取得突破，为文字识别与文档智能技术的发展注入强大动力。大模型显著提升了对复杂字体、多语种以及低质量文档图像的识别能力。同时，其在文档理解、信息抽取和文档问答等方面展现出强大的潜力，为文档智能领域开辟了广阔的应用场景。本次论坛旨在汇聚学术界和产业界的专家，共同探讨文字识别与文档智能领域的前沿技术与产业应用。论坛将促进技术交流，加速科研成果转化，推动金融、医疗、教育和政务等领域的智能化升级。通过此次论坛，进一步推动人工智能与文档智能技术的深度融合，打造一个科技与产业共赢的创新生态。本次论坛计划设置panel环节。

论坛日程

论坛时间：2025年5月9日09:11-11:30

论坛名称：文字识别与文档智能论坛

主持人：殷绪成，郭丰俊

论坛主席

殷绪成

北京科技大学教授

个人简介： 殷绪成，教授、博导，模式识别与人工智能专家，国家杰出青年科学基金项目获得者、科技创新2030——“新一代人工智能”重大项目首席科学家，北京科技大学计算机与通信工程学院院长、模式识别与人工智能技术创新实验室主任，中国图象图形学学会文档图像分析与识别专委会主任。主要研究领域包括模式识别、文字识别、计算机视觉、人工智能芯片、工业智能与工业软件技术及应用，在中国计算机学会推荐国际期刊和会议上发表论文一百多篇，曾获获北京市科技进步一等奖、中国电子学会科技进步一等奖、中国人工智能学会吴文俊人工智能奖技术发明一等奖。
郭丰俊

上海合合信息科技股份有限公司研发总监

个人简介： 郭丰俊毕业于上海交通大学，系模式识别与智能系统博士，CSIG文档图像分析与识别专委会常务委员，上海市图像图形学学会理事。长期从事文字识别，图像处理、计算机视觉及内容安全方向研究。近年来，郭丰俊带领团队获得过ICDAR19大会表格检测竞赛冠军，中国图象图形学会2021年度科技进步二等奖等奖项，获CSIG2022中英文购物小票信息理解大赛冠军、第三届CSIG图像图形技术挑战赛决赛总冠军、ICDAR2023文档图像篡改检测竞赛冠军、2024全球AI攻防挑战赛篡改检测赛道冠军。现任合合信息图像算法研发总监。

论坛讲者信息

金连文

CSIG常务理事
华南理工大学教授

报告题目： 古籍图文理解与古代语言文化智能对话大模型

报告摘要： 近年来，大语言模型技术取得了突破性进展，并在各垂直领域展现出巨大潜力，受到学术界和产业界的广泛关注。本报告将介绍我们研发的面向古籍图文理解与中国古代文化智能问答的垂域大模型---“通古大模型”，介绍训练评测通古大模型的多样式SFT数据构建方法（涵盖古籍图文识别、文白翻译、句读、古文写作、字词释意、诗词鉴赏、实体抽取、国学常识、书画鉴赏、文物知识、甲骨文识别、印章识别等40余种细分任务），阐述相关的大模型增量预训练技术、指令微调方法、多模态检索增强技术等。此外，我还将简要介绍我们在残缺古籍图像智能修复的一些最新研究进展，并对AGI时代的大模型技术进行讨论和展望。

个人简介： 金连文，男，华南理工大学二级教授，兼任中国图象图形学学会（CSIG）常务理事、广东省图象图形学会理事长、广东省高校音视频图文智能信息处理工程研究中心主任等职。2006年入选教育部“新世纪优秀人才”计划，2024年入选国际模式识别协会（IAPR） Fellow。主要研究领域为文字识别、文档图像处理、多模态大模型与通用人工智能等，在国内外权威学术出版物（中科院一区SCI期刊或CCF A类会议）发表学术论文100余篇；Google Scholar论文被引用数17000余次，H-Index 69。获省部级科技奖5项（其中一等奖2项，二等奖3项）；荣获CAAI、CIE、CSIG等全国性学会科技进步二等奖3项；指导学生参加CVPR、ICDAR、ICPR、PRCV、CCIG等国际国内知名会议上的学术竞赛并荣获冠军20余次。
周宇

南开大学教授

报告题目： 可视文本检测、识别与理解技术

报告摘要： 可视文本意指场景图像或文档图像等视觉载体中蕴含的文本元素，对其进行检测、识别与理解具有重要的理论意义与应用价值。针对任意阅读顺序的文本检测识别、自监督的文本识别、视频中文本问答和多语言视觉信息抽取难点问题，分别提出了局部语义引导的任意阅读顺序文字检测识别方法、语言学驱动的掩码图像建模方法、时空线索追踪的视频场景文本问答方法及语种信息解耦的视觉文档预训练方法，从而进一步推进了可视文本智能技术发展。

个人简介： 周宇，南开大学计算机/网安学院教授、博导。研究方向为计算机视觉、多模态人工智能、自然语言处理及深度学习等，近期聚焦于可视文字处理/检测/识别/理解/安全（OCR）、多模态大模型（含理解与生成）、终身学习、自监督学习等主题。研发的场景文字提取系统、特定目标检测系统、钓鱼网站检测系统等应用于多个国家部委及企业，发挥关键作用。在国内外高水平会议及期刊如发表学术论文近80篇，其中近5年在CCF-A类/SCI一区会议期刊发表论文30余篇，主持国家重点研发计划课题&子课题、国家自然科学基金面上&青年基金项目、国家部委重大工程课题、中国博士后科学基金、企业委托等项目/课题20 余项，累计经费近2000万。
武亚强

联想研究院研究员

报告题目： 从任务专用到通用化：基础模型时代的图像分割演进

报告摘要： 图像分割作为计算机视觉的核心任务，经历了从手工特征到深度学习，再到基础模型的范式转变。本报告系统梳理了图像分割技术的演进脉络，提出“分割技术三阶段论”（传统方法→深度学习→基础模型时代）。重点分析了以Segment Anything Model (SAM)为代表的基础模型如何重塑分割任务的解决范式，并探讨了基础模型在医学影像、自动驾驶及文档智能等领域的应用潜力。针对文档智能，探讨了基础模型如何赋能高精度文档定位、版面分析与文字识别等场景。报告进一步讨论了面向动态场景理解、多模态交互优化及跨模态文档智能的未来研究方向。最后，介绍了报告人在通用分割模型与文档智能交叉领域的研究工作，及其在工业场景中的落地实践。

个人简介： 武亚强，联想集团高级总监，研究院主任研究员。长期致力于行业人工智能技术和应用研发，研究人工智能在教育，办公，车等领域的落地应用。主要技术方向包括智能人机交互，多媒体智能等。在基于多设备自然融合交互、多媒体技术等领域已授权海内外发明专利百余项，带领团队在文档类国际学术竞赛中获得过十多次冠军，曾获CCF科技进步一等奖、产学研创新成果一等奖、北京市科技进步二等奖和吴文俊科技进步二等奖等。
连宙辉

北京大学副教授

报告题目： 汉字书法的理解生成及其应用

报告摘要： 汉字书法是中华民族独有的艺术瑰宝，承载着数千年的历史文化底蕴，是中国传统文化的重要组成部分，也是世界艺术宝库中一颗璀璨的明珠。本报告将介绍我们团队在基于人工智能技术的汉字书法理解生成及其应用方面的一些最新研究成果：1、如何让AI模仿人类进行书法临摹？[ICRA 2024] 2、如何让AI进行书法内容识别、分析鉴赏？[Arxiv 2025] 3、如何让AI进行书法创作、字体生成？[TOG 2024 (SIGGRAPH Asia)]。

个人简介： 连宙辉，北京大学王选计算机研究所副教授、博士生导师，中国文字字体设计与研究中心副主任，入选国家级青年人才计划和北京市科技新星计划。研究领域为计算机图形学、计算机视觉与人工智能，主要研究方向是面向文字的图形图像生成、三维视觉，在领域重要期刊（TOG, TPAMI, IJCV等）和会议（SIGGRAPH/SIGGRAPH Asia, CVPR, NeurIPS等）上发表论文90余篇。多次担任NeurIPS、CVPR、ICCV、ICML等国际会议领域主席，担任《Pattern Recognition》、《计算机辅助设计与图形学学报》等国内外重要期刊编委，获北京市技术发明奖二等奖（排名1）、中国专利优秀奖（排名1）、ICRA2024服务机器人最佳论文候选、吴文俊人工智能优秀青年奖、北京大学-中国光谷成果转化奖等奖励。
陆大公

上海合合信息科技股份有限公司技术专家

报告题目： 大模型时代的篡改检测：挑战、机遇与治理实践

报告摘要： 随着人工智能技术的迅猛发展，包括图像和视频在内的视觉内容安全正面临前所未有的挑战。图像篡改与人脸伪造已成为主要风险。生成式大模型的不断迭代进一步降低了伪造门槛，各类伪造手法交织，新型工具层出不穷；与此同时，由于图像和视频在存储传输过程中常伴随信息损失，篡改特征也变得更加复杂多样，使得现有检测技术在泛化能力上难以满足实际需求。为解决上述问题，本次报告将介绍包括基于大模型技术在内的视觉内容篡改检测技术的最新进展，并展望视觉内容安全产业的应用前景与治理实践。

个人简介： 陆大公毕业于复旦大学电子通信系，现任上海合合信息科技股份有限公司图像算法技术专家，专注于图像处理、计算机视觉及内容安全领域的前沿研究，带领团队获得ICDAR2023文档图像篡改检测竞赛冠军、2024全球AI攻防挑战赛篡改检测赛道冠军。依托合合信息自主研发的篡改检测系统，团队已联合中国信通院等单位编写了《文本图像篡改检测系统技术要求》行业标准，并入选中国信通院《护证计划》首批技术支撑单位。

论坛联系人

杨春

北京科技大学

chunyang@ustb.edu.cn

2025中国图象图形大会

联系我们

你知道你的Internet Explorer是过时了吗?