古文不知道什么字识别古文

曾记得有一次聊天有个朋友描述他对人工智能的印象,总结成三个词:西方的、商业的、未来的

我当即表示你说的很好,唯一的问题是一条都没说对

按下我们俩怎麼展开斗殴暂且不提,这里希望破除的是大家对人工智能的某种固有印象事实上,人工智能作为一种很早就发展起来的通用技术绝不昰西方的专利,也绝不仅仅是够创造商业价值

甚至在某些机缘巧合下,人工智能能够成为我们用认识历史、认识自身民族、认识祖先与過去的利器

梁启超说“学术乃天下之公器”,不仅是说学术天下人共有同时也是说学术天下共致。作为一种基础工具的人工智能往往能够在意想不到地方发生效用。比如说今天为大家介绍的借助人工智能技术自动识别古文西夏文——一个纯粹中国的人文社科领域。

雖然这项技术大多数人永远不会涉足但这个案例的价值在于可以打破我们对AI的某些偏见。AI不只是集中在那几个领域也不是欧美寡头的玩具,它甚至可能无处不在

为什么要识别古文西夏文?其中隐含着哪些困难

我们知道,西夏是与北宋、辽、金先后对峙的党项族国家曾经统治河西地区超过二百年。与大众认知中不同西夏不是个茹毛饮血的野蛮文明。他们曾经创立过惊人的文化、艺术与宗教文明泹随着1227年蒙古灭西夏,蒙元不为西夏立史关于这个政权的记录快速消亡,李元昊立国时创立的西夏文也随之湮灭

西夏文又名河西字、番文、唐古特文,曾在西夏王朝统辖的今宁夏、甘肃、陕西北部、内蒙古南部地区盛行了约两个世纪但在西夏灭国后,这种参考汉字创竝的奇特文字逐渐失传最终成为了一种死文字。

直到1804年武威大云寺发现了著名的《重修凉州护国寺感通塔碑》,西夏文才在埋藏了数百年后重现人世从此识读西夏文开始成为了学界的重要工作。

二百年以来出土的西夏文文献不断增多,其中大部分都被英、俄探险家帶到了境外但各国学者努力下,西夏文的基础文字识别古文已经完成现阶段的工作重点是依据文字列表,去识读大量西夏文文献的具體内容揭开西夏以及当时中原、西域各国的历史迷雾。

但在这个过程里研究人员认读西夏文必须通过手工翻阅查找,耗费时间异常辛苦不说由于西夏文是一种相似度极高的文字,人工识别古文还可能存在很大的错误率

所以就有学者提出,利用计算机来自动识别古文覀夏文这种设想很好,但在具体操作中还是有巨大问题比如西夏文结构复杂、组成字符各部分要素高度相似,并且平均笔画达到25画計算机识别古文难以入手。

此外西夏时期虽然已有印刷术,但出土文献还是以手抄本和刻版文字为主同一个字的在不同文献上的位置鈈固定、整体布局会发生偏移,都给机器识别古文带来巨大困难

于是有意思的事出现了,宁夏大学相关研究机构为代表的学术力量选擇了以人工智能技术解决西夏文的自动识别古文。

并且这个工作很早就已经开始不断有成果涌现。从时间上看绝不是赶这波AI热潮的产粅。

人工智能完成西夏文自动识别古文

早在1996年日本国立亚非语言文化研究所就制作了西夏文字库和排版系统。1997 年中国学者李范文和日本學者中岛干起利用该排版系统合作出版了《电脑处理西夏文〈杂字〉研究》俄罗斯应该也都有西夏文数据化和计算机处理的项目与研究荿果。

而使用弹性网络、神经网络、AI算法以及深度学习来识别古文西夏文则是中国领先完成的一个创举。

用AI识别古文西夏文主要依托嘚是计算机字符识别古文( optical character recognition,OCR) 技术这种技术上世纪60年代就成为了人工智能研究的主要领域之一。它的核心技术主张是基于人工智能运算来識别古文文字符号的数字影像并将其转换为对应的数字文本,达到可识别古文、可编辑、可转化的目的

OCR技术目前在很多领域已经相当荿熟,比如我们经常用到的印刷文件文字提取在OCR识别古文领域,更多的应用是手写体内容的精准识别古文而利用OCR识别古文考古文献中嘚非广泛使用文字却基本处于空白。

这里可以结合论文简单介绍两种AI识别古文西夏文的案例

比如在《基于弹性网络的西夏文识别古文》當中,研究人员利用弹性网络技术将西夏文中的笔画特征进行网格化提取。再统计像素点在每个网格内的概率分布形成一种可读取的特征模型。最后使用文档主题模型方法对提取的特征降维处理结合数据库对文献进行识别古文。

根据论文这种方法平均识别古文率可達87.99 %。

再比如《基于Mean Shift算法的西夏文字笔形识别古文》Mean Shift算法,即偏移均值向量是机器学习领域的一种基本算法。其基础理论是利用信息密喥来完成聚类、图像分割、跟踪任务可应对相似但界限模糊的图像处理应用。利用这种算法研究人员将原始资料生成概率统计直方图,通过相似度来判断归类具体的西夏文笔形

这里仅仅是两个具体应用案例,利用深度学习等前沿人工智能技术识别古文西夏文的应用还茬不断发展

文献与考古领域的人工智能应用

可能识别古文西夏文距离我们的日常生活还相对较远,但推广至当整个人文社科领域AI的应鼡可能就会从另一个角度无限贴近我们的生活。

从近期来说AI推动学术效率,可能会影响我们的学科配置、学术训练甚至高等教育体系從长远来看,AI推动的进一步识别古文历史与文献的能力是我们窥探自身过去,了解“中国”为何是“中国”的全新工具

在我们沉浸于未来带来的快感时,人工智能却可能在历史领域快速发挥它的价值通过西夏文识别古文的例子,不难发现在文献与考古这些社科领域当Φ人工智能至少可以发挥以下几种功效:

1、考古图像的识别古文与归档,比如基于算法的文物识别古文、文物数据化、考古现场数据化

2、文献文本的识别古文与转码,比如原始文献的文字识别古文读取、文献聚类、文献数据化

3、文献数据库的知识图谱化与机器学习应鼡。比如学科文献图谱化、时代文献图谱化、科研项目数据图谱化以及基于知识图谱训练的人文社科领域智能体。这一点尤其重要想潒力也最为充沛。就像金融、翻译等领域很可能被AI替代一样文献学与历史研究领域大部分依赖考证、校勘、资料爬梳的工作,也存在被AI取代的可能性

类似的人文领域与AI跨界还有很多,有些甚至涉及哲学与伦理层面的技术与人文互搏以后我们会陆续介绍。

  • 无锡至少有两所正规大学: 1、江喃大学 2、南京农业大学无锡渔业学院由于它不直接在无锡召本科生,所...

  • 1、以身作则如果连自己都做不好,还怎么当班长 2、人缘好,峩就是由于人缘不好才改当副班长的。 ...

  • 光设置自发光是不能看到这种效果的,正确操作步骤如下: 1:在材质编辑器中选择一个新的材质示例球,將其...

  • 你好!那要看那种车型,A6有很多型号的,

  • iphone只能查询你手机的历史位置信息无法查找你的历史操作记录。历史位置信息查询方式如下:进入掱...

  • 1、首先打开Linux直接输入一个history即可 2、然后如果想执行历史中的某个命令,直接感叹...

  • 原料/工具:电脑 1、点击电脑左下方红色箭头指向处的【开始】按钮。 2、出现如下界面点击红色箭头...

  • 宁远县,隶属于湖南省永州市位于湖南省南部,萌渚岭北麓南有九疑山,北倚阳明山东连新田、嘉禾、蓝山...

  • 在excel文件属性里边进行删除,但是不能进行更改: 1.选择excel文件右键单击,选择“属性”...

我要回帖

更多关于 识别古文 的文章

 

随机推荐