十月底的一个雨天,叶昀收到了一封来自国家古籍保护中心的邮件。邮件标题很简洁:“古文字智能识别系统项目合作邀请”。正文内容详细阐述了项目的目标和需求——利用人工智能技术,开发一套能够自动识别、分类、标注古代手写文字的辅助系统。
邮件的最后一段写道:“经孙文修教授推荐,我们了解到您具备深厚的数据分析和机器学习背景,同时您的团队成员林久久女士在古籍修复和古文字辨识方面有丰富经验。我们诚挚邀请二位共同参与本项目,共同探索科技与人文的跨界融合。”
叶昀看完邮件,手指在键盘上停留了几秒。他调出项目资料,快速浏览技术方案、时间节点和预期成果。这是一个典型的跨学科项目,技术难度不低,但很有意义——如果成功,能大幅提升古籍数字化整理的效率。
他保存了邮件,走到公共休息区。落地窗外秋雨绵绵,久久正窝在沙发一角,膝盖上摊着一本厚重的《甲骨文字形汇编》,手里拿着放大镜,仔细比对两页上的细微差异。
“久久,”叶昀在她对面坐下,“有个项目邀请,需要你的专业协助。”
久久抬起头,放下放大镜:“什么项目?”
叶昀把平板电脑推过去,屏幕上显示着那封邮件和项目概要。久久接过来,认真读着,眉头随着阅读逐渐蹙起,又渐渐舒展。
“人工智能识别古文字……”她喃喃道,“这个想法很有意思。但现在手写识别技术,对印刷体还好,对古文字尤其是手写变体,准确率不高吧?”
“现有模型的准确率大约在65%到75%之间,”叶昀调出几份技术报告,“主要难点在于:第一,古文字字形变化多端;第二,同一字在不同时期、不同书写者笔下有差异;第三,纸张老化、墨迹褪色、破损等因素干扰识别。”
他顿了顿,继续道:“项目组希望我们能将准确率提升到85%以上。这需要大量高质量的训练数据,以及专业的校验和标注。”
久久的手指轻轻划过屏幕上那些古代文献的扫描图。那些泛黄的纸张、深浅不一的墨迹、或工整或潦草的字迹,都是她工作中最熟悉的东西。
“你需要我做什么?”她问。
“三件事,”叶昀推了推眼镜,这是他一贯的条理性,“第一,提供古文字分类和演变的基础知识框架;第二,协助标注训练数据集,确保标注的准确性;第三,作为‘人类专家’校验模型的输出结果,反馈错误类型。”
他调出一个图表:“按照计划,第一阶段是数据准备,需要标注至少十万个古文字样本。这需要大量时间,但我们可以分阶段进行。”
久久看着那些密密麻麻的计划表,心里有些犹豫。她手头还有自己的修复项目,而且对人工智能领域完全陌生。
“我对技术不懂……”她实话实说。
“你不需要懂技术,”叶昀说,“你只需要做你最擅长的事——识别古文字,判断异同,提供专业的分类依据。技术部分我来负责。”
这时,顾璟从楼上下来,看到两人严肃讨论的样子,走过来问:“有新项目?”
叶昀简单介绍了情况。顾璟听完,看向久久:“你的时间安排得开吗?”
“下个月要完成《花月笺》的修复收尾工作,”久久计算着,“但如果合理安排,每天应该能抽出两到三个小时。”
“那就接,”顾璟点头,“这对你和团队都是很好的机会。而且,”他看向叶昀,“这个项目如果成功,影响力会很大。”
叶昀难得地露出一丝笑意:“我也这么认为。”
项目就这样定下来了。三天后,叶昀和久久参加了线上的项目启动会。会议室屏幕上,来自古籍保护中心、高校计算机系、人工智能企业的十几位专家齐聚。主持人是古籍保护中心的副主任李教授,一位头发花白但精神矍铄的老先生。
“欢迎各位,”李教授开门见山,“古文字智能识别这个课题,我们探索了三年,始终卡在准确率这个瓶颈上。这次邀请叶昀老师和林久久老师加入,就是希望能在技术和专业的结合上有所突破。”
他展示了现有的识别系统演示——上传一张古籍扫描图,系统会自动框选出文字区域,进行识别并给出候选字。测试用的是一页明代医书,系统识别出了大约70%的字,但剩下的30%要么识别错误,要么直接标注“无法识别”。
“错误主要集中在这些地方,”李教授圈出几个区域,“字形特殊的异体字、笔画粘连的连笔字、墨迹晕染的模糊字、纸张破损处的残缺字。这些都是手写古籍的常见问题,但恰恰是现有模型的薄弱环节。”
叶昀在笔记本上快速记录着。久久则盯着那些识别错误的字,轻声说:“这个‘药’字,明代医书中常写作这种草书变体,和标准楷书差别很大。系统可能没有见过足够多的样本。”
“正是如此,”李教授点头,“林老师说到点子上了。我们缺的不是技术,是足够丰富、足够专业的训练数据。而这,需要像您这样的专家来指导和校验。”
会议确定了分工:叶昀负责算法模型的优化和系统架构,其他技术团队提供支持;久久负责提供专业知识、标注数据、校验结果;双方每周同步进展,每月进行一次综合评估。
会议结束后,叶昀建立了一个专门的项目协作平台,设置了数据标注、模型训练、结果校验等不同模块。久久的账号权限很高,可以查看所有环节,但她的主要工作区在“数据标注”和“专家校验”两个板块。
“第一阶段,我们需要标注一千页古籍扫描图,”叶昀在团队内部简单通报了情况,“每页平均一百字,总计十万字左右。标注内容包括:文字区域框选、单字切分、字形分类、字义标注、书写风格评估。”
夏飞听完咋舌:“十万字!这要标到什么时候?”
“如果久久一个人做,可能需要半年,”叶昀推了推眼镜,“所以我们开发了辅助标注工具。久久只需要标注其中一部分作为‘种子数据’,模型会学习她的标注习惯,自动完成剩余部分。然后久久再校验自动标注的结果,纠正错误。这样迭代进行,效率会高很多。”
这个方案听起来合理。久久问:“我需要从什么时候开始?”
“明天,”叶昀说,“我先带你熟悉标注平台。”
第二天上午,叶昀在久久的电脑上安装了标注平台客户端。界面很简洁,左侧是古籍扫描图,右侧是标注工具和分类选项。
“我们先从简单的开始,”叶昀选了一页保存完好的宋代刻本,“这是印刷体,字形规整,破损少。你试试框选文字区域。”
久久用鼠标在页面上画了一个矩形,框住一行文字。系统自动识别出了这行字里的每个单字,用虚线框标出。
“现在,点击每个单字框,选择正确的字,”叶昀指导,“如果系统给的候选字里有正确的,直接选;如果没有,手动输入。”
第一个字是“天”,系统给出了三个候选:“天”“夫”“无”。久久点击“天”,系统记录下这个选择,并显示“标注正确,置信度0.95”。
第二个字是“地”,系统只给出了“地”一个候选,置信度0.98。久久点击确认。
第三个字出了问题。字形看起来像“玄”,但系统给出的候选是“畜”“兹”“率”,没有“玄”。久久手动输入“玄”,系统弹出一个提示:“该字形与标准‘玄’字差异较大,是否确认?”
久久放大图像仔细看。确实,这个“玄”字的写法很特别,最后一笔拉得很长,看起来有点像“畜”。但她根据上下文判断,应该是“玄”——这一句是“天地玄黄”,出自《千字文》。
“确认。”她点击。
系统记录下这个标注,并在旁边备注:“专家修正,原候选无匹配”。
一页标注下来,花了十五分钟。久久标注了八十七个字,其中七十个系统识别正确,十个候选中有正确项,七个需要手动修正。
“准确率80.5%,”叶昀看着后台数据,“对于印刷体来说,这个基础模型的表现尚可。但我们需要把它提升到95%以上,而且还要处理手写体。”
下午,他们开始尝试手写古籍的标注。这次选的是一页明代文人手札,行草书,字迹潇洒但不易辨认。
情况立刻变得复杂。系统对很多字完全无法识别,候选列表空空如也。久久需要逐个手动输入。有些字连笔严重,她得仔细分辨笔画走向;有些字墨迹晕染,要结合上下文推测;还有些字用了异体写法,得翻查工具书确认。
一页手札,标注了整整四十分钟。
“累吗?”叶昀问。
“有点,”久久揉了揉眼睛,“但挺有意思的。感觉像在教一个特别聪明的孩子认字——它认得一些,但很多需要从头教。”
这个比喻让叶昀若有所思。他调出刚才标注的数据,开始分析错误类型:“你看,系统出错的地方有规律——连笔字、异体字、破损字。我们需要针对这些难点,收集更多样本,设计专门的识别策略。”
接下来的一周,久久每天抽出两小时进行标注工作。她渐渐掌握了技巧,速度也快了起来。更重要的是,她开始理解人工智能的“学习方式”——它不是真的“理解”文字,而是通过大量样本,统计出字形和字义的对应关系。
“所以教它认字,和教人认字不一样,”一次标注间隙,她对叶昀说,“人看到一个陌生的字,会拆解笔画、分析结构、联想已知的字。但AI是看这个字的‘样子’和哪些字的‘样子’最像。”
“准确地说,是计算图像特征的相似度,”叶昀解释,“所以我们需要给它看足够多的‘样子’,包括同一个字的不同写法。你标注时,如果遇到异体字,记得在备注里说明这是哪种异体,出自哪个时期、哪种文献风格。这些元数据对模型学习很重要。”
于是久久的标注工作变得更加细致。她不仅标注文字本身,还会添加各种注释:
“‘寿’字草书写法,明代祝寿文书常见变体”
“‘云’字上部雨字头简写,清代民间抄本特征”
“‘马’字四点底连笔,书法作品风格”
这些专业的标注,逐渐构建起一个丰富的知识库。叶昀则利用这些数据,不断调整模型参数,增加针对性的训练模块。
两周后,他们进行了第一次小规模测试。使用久久标注过的五百页数据训练出的新模型,在同一批数据上进行测试,准确率提升到了88.7%。
“进步很明显,”李教授在周会上肯定道,“尤其是对异体字的识别,比之前提升了15个百分点。林老师的专业标注功不可没。”
但问题也随之暴露。在新数据的测试中,模型表现不稳定——对久久标注过的字体风格识别率很高,但对未见过的新风格,准确率又掉回了70%左右。
“这就是机器学习中的‘过拟合’问题,”叶昀分析,“模型太适应训练数据的特征,泛化能力不足。我们需要更多样化的数据。”
这意味着需要标注更多不同时期、不同风格、不同保存状态的古籍样本。工作量几乎要翻倍。
久久看着长长的任务列表,深吸一口气:“我可以增加标注时间。但有些特别生僻的字,或者保存状况极差的,可能需要查阅大量资料才能确定。”
“那就查,”叶昀说,“你的查阅过程,本身就是一种知识积累。我们可以把这些查阅记录也纳入数据库,构建一个古籍文字的‘知识图谱’。”
这个想法很大胆。传统的古籍研究,知识都分散在不同专家的脑子里、不同的论文和专着里。如果能系统化地整理出来,对学界将是巨大的贡献。
从那天起,久久的标注工作不再仅仅是“教AI认字”,更像是在建设一个庞大的古文字知识体系。每遇到一个疑难字,她不仅会标注它是什么字,还会记录:这个字在哪些文献中出现过,有哪些变体,不同时期的变化规律是什么,在什么语境下使用……
这些记录逐渐累积,形成了一份珍贵的学术资料。有时叶昀看着那些详细的备注,会忍不住说:“这些内容,足够写几篇论文了。”
“也许等项目结束,真的可以整理出来,”久久微笑,“让更多研究者受益。”
项目进行到第二个月,叶昀和久久的合作模式已经高度默契。他们开发了一套高效的远程协作流程:
每天早上,久久会收到系统自动分配的标注任务,通常是五十页古籍扫描图。她会在上午完成修复工作后,花两小时进行标注。标注时遇到的疑难问题,她会记录下来。
下午,叶昀处理这些标注数据,更新模型。他会特别关注久久标记的难点,分析错误类型,调整算法。
晚上七点,两人会进行十五分钟的线上同步。叶昀展示当天的模型改进效果,久久反馈标注中的观察和问题。没有多余的寒暄,直接切入专业讨论,效率极高。
有一次,顾璟路过书房,听到久久正在视频通话中快速说着:“……‘龙’字的繁体写法,在明代官方文书中,右半部分常写作‘尨’,但在民间抄本中多写作‘竜’。系统现在把‘竜’都识别为‘竜’本身,没有关联到‘龙’字。需要增加异体字映射关系。”
屏幕那头的叶昀手指在键盘上飞舞:“收到。已记录,今晚更新映射表。另外,你昨天标注的那批破损字,我分析了破损模式,增加了抗干扰模块,准确率提升了8%。”
“好,我明天校验效果。”
通话结束,整个过程十二分钟。顾璟站在门口,有些惊讶于这种高效。他想起团队其他成员的合作模式——夏飞的热闹、白辰的温和、肖逸的安静、蒋烁的直率、苏沐的细腻,每种都有温度。而叶昀和久久的合作,是纯粹的理性与专业的结合,像两台精密仪器在对接数据,却同样动人。
一天晚上,项目组突然遇到了一个棘手的问题。模型在对一批敦煌遗书残卷进行识别时,准确率骤降到60%以下。这批遗书年代久远,纸张脆化严重,墨迹褪色,还有很多西域文字的混入,难度极大。
李教授紧急召集线上会议:“这批敦煌材料很珍贵,数字化整理迫在眉睫。但现在的识别效果不理想,人工校对工作量太大。叶老师、林老师,有没有什么思路?”
视频窗口中,叶昀和久久同时陷入思考。几秒后,叶昀先开口:“我需要分析具体的错误类型。久久,你看过这批材料吗?”
久久点头:“修复中心三年前修复过一批敦煌遗书,我参与过。这类文献有几个特点:第一,纸张是麻纸或皮纸,纹理粗糙,扫描图像噪点多;第二,墨色淡,笔画边缘模糊;第三,有大量俗字、异体字,还有汉字与吐蕃文、回鹘文混写的情况。”
她的描述专业而清晰。叶昀一边记录一边问:“混写文字的比例大概多少?混写模式有规律吗?”
“大概三成左右有混写,”久久回忆,“混写模式……通常是专有名词、地名、人名用音译文字,正文用汉字。但也不绝对,有些部分是整段混写。”
“那我们需要一个多文字识别模块,”叶昀迅速构思,“先分割文字区域,判断文字类型,再分别调用对应的识别模型。汉字部分用我们现有的模型,吐蕃文和回鹘文需要另建模型,但这需要相关语种的专家支持。”
李教授皱眉:“吐蕃文和回鹘文的专家不好找,而且时间紧迫……”
这时久久轻声说:“也许……不需要完全识别那些文字。”
所有人都看向她。
“敦煌遗书的研究,重点是内容的价值,”久久解释,“那些混写的西域文字,很多是音译,对应的是特定的汉字词汇。如果我们的目标是整理文献内容,而不是做文字学研究,也许可以换一种思路——把这些混写文字当作‘特殊符号’处理,标记出它们的位置和类型,留给专家后期处理。重点是确保汉字部分的识别准确率。”