在巴基斯坦的一座山顶,一位背包客举起相机,对准几面历经风霜的土墙,轻轻按下了快门。他知道,这里是联合国教科文组织认定的世界文化遗产——萨尔伊巴赫洛古城,但除了那块简单写着“建于公元前”的英文解说牌,没有人告诉他更多——它与丝绸之路的联系、它曾见证的文明交融、它在佛教传播中的角色,都淹没在历史的尘埃里。
在巴基斯坦,这样的遗憾并非个例。巴基斯坦拥有6处世界遗产,包括融合了波斯、阿富汗和印度建筑风格的贾姆陵墓,以及佛教遗址密布的塔克西拉。这些世界遗产,如摩亨佐达罗考古遗址和塔克西拉古城,是丝路上的文化珍珠,见证了南亚次大陆与亚洲其他区域的深厚历史与文化联系。然而,由于缺乏系统化的解说,这些珍贵的文化遗产常常被游客匆匆路过。
2025年,中巴两国官员在北京举行的一次会议上,同意启动旨在恢复、保护以及用数字化技术记录两国历史遗迹的联合项目。人工智能的繁荣更是让历史遗迹的“再生”有了新的可能文化与技术的结合即将让这些沉默的遗迹重新开口说话。
01
三道“文化密码”
被难倒的传统导览
这些世界遗产所存在的文化断层,恰是“丝路文化多模态智慧导览”(Smart Silk Road Vision)亟待攻克的技术痛点:
第一道:浅表化信息。
多数景区的解说牌,仅仅停留在对其年代与用途的介绍层面,缺失跨文明文化等背景的深度解读。例如,鲜有游客知晓,塔克西拉不仅是佛教中心,更是丝路佛教东传的关键枢纽。
第二道:识别率瓶颈。
常规图像识别技术在摩亨佐达罗、拉合尔堡等知名遗迹中应用成效显著,然而在萨尔伊巴赫洛、贾姆陵墓等小众景点,其识别率却大幅下降,特别是当拍摄角度、光照条件发生变化时,误识率更是居高不下。
第三道:语言与知识缺口。
现有的导览大多局限于英文或乌尔都语,不具备三语同步输出的能力,并且缺乏针对巴基斯坦独有的建筑纹理、历史细节等信息所搭建的知识库。
02
“拍照—识别—解说”三部曲
AI 让历史古迹开口说话
基于文心大模型(ERNIE-4.5-VL),并结合本地化知识增强技术,来自巴基斯坦的开发者 Mutlaq 联合百度 AI 技术生态共同打造了“丝路文化多模态智慧导览”系统,让遗迹从“无声之墙”变身“会讲故事的 AI 伙伴”。
第一步:看得准
系统采用“两阶段识别引擎”:
一级识别采用 ERNIE-4.5-VL通用模型,该模型能够覆盖80%的主流遗迹。二级识别则预置了巴基斯坦6处遗产的关键视觉特征向量,例如塔克西拉希腊式立柱的纹理、罗赫达斯要塞波斯拱门的角度等,通过相似度匹配来识别小众遗迹,如萨尔伊巴赫洛未发掘区域的陶片图案,从而实现精准识别。
游客只需拿起手机,对着遗迹轻轻一拍,系统便会自动分析画面内容,并根据影像特征匹配最优识别路径,随后返回置信度结果。当置信度高于85%时,系统会直接推送对应的多语言解说;若低于阈值,则会提示游客调整拍摄角度或光线后重试,以此确保所呈现的信息既准确又完整。
第二步:说得全
识别成功后,系统会基于视觉特征触发三层内容构建,并一次性生成中文、英文和乌尔都语三种语言的解说。
第三步:讲得巧
通过引入文化典故来增强 Prompt,将遗迹的视觉特征与丝路历史事件(如玄奘到访塔克西拉)相结合,生成既包含建筑数据又蕴含文明交流故事的双重视角解说,使游客在聆听故事的同时,能够获取相关的学术信息。例如输入“塔克西拉希腊立柱+玄奘”可触发双重信息视角——既说明立柱承重结构,又关联玄奘《大唐西域记》中“僧院讲经声不绝”的记载。
03
双引擎识别
技术解码丝路叙事
当游客在萨尔伊巴赫洛古城试用这套系统时,他们惊讶地发现,一块看似普通的陶片图案,竟能被识别为公元前古城的日常器具,并自动讲述它与丝绸之路物资流通的联系。这种即时呈现方式让文化遗产更易于理解,也让参观过程宛如一场“互动寻宝”——只需拍照,便能解锁文物背后的故事。
基于 ERNIE-4.5-VL 多模态大模型及其本地化知识增强技术,“丝路文化多模态智慧导览”为巴基斯坦打造了一套高精度识别与深度解说的遗迹数字化方案。这一方案的成功应用体现了 ERNIE-4.5系列在多模态处理方面的技术革新和卓越性能。小众遗迹获得了与知名景点同等的“被看见”机会,游客仅需拍一张照片就能收获跨语言、跨文化的导览,积累的识别与解说数据也将直接充实巴基斯坦文化遗产数字档案库。
项目开发者 Mutlaq 表示,“ERNIE 多模态大模型,作为我们‘丝路文化多模态智慧导览’应用的核心,不仅对视觉元素和文化背景有着深入的理解,还在多模态处理方面展现出了显著的优势。ERNIE 的多模态能力不仅极大缩短了整个开发周期,而且在小众遗迹识别和跨语言解说方面表现突出。例如,ERNIE-VL 模型在多模态语义理解领域的突破,首次将场景图知识融入多模态预训练,刷新了世界最好效果。结合本地向量匹配与文化知识库,我们迅速实现了系统的可用化落地。未来我们还会持续扩展遗迹数据集,引入更多的互动体验功能,进一步提升游客的使用体验以及文化感知。”
04
生态共融
搭建中巴“数字丝路”桥梁
“此次合作意义非凡,这不仅是技术应用,更是跨文化对话。”Mutlaq 强调,“我们正搭建文化桥梁——百度 ERNIE 大模型与联合国教科文组织批准的世界遗产深度结合,能让中国游客及文化爱好者通过智能技术探索、欣赏巴基斯坦历史瑰宝,基于中巴经济走廊(CPEC)倡议,助力‘一带一路’所倡议的文化交流连接不同文明愿景的实现。”
这场从遗迹识别到文化解说的技术跃升,是百度 AI 与人类文明深度融合的缩影。这一成果不仅印证了 ERNIE 视觉理解与多语言生成的技术优势,也为中巴两国在文化遗产保护、智慧文旅领域的合作提供了可复制的实践样本,未来还将探索推广至巴基斯坦其他区域以及全球的遗产分布地。
从“看得见”到“听得懂”,再到“问得深”,AI 技术正在让丝路文化的故事被更精准地传递,也为“一带一路”沿线国家的智慧文旅合作勾勒出更清晰的未来蓝图。