AI无处不在:能识别识别失传已久的文字,比如西夏文
时间:2025-10-31 01:50:08 来源:力挽狂澜网
导读:人工智能设计医学、无处文教育甚至是识别识别失传考古领域,随着人类的已久苏州相城(按摩SPA上门服务)按摩vx《1662+044+1662》提供外围女上门服务快速选照片快速安排不收定金面到付款30分钟可到达发展,人工智能所表现出的字比必定有部分是超越人类的。
曾记得有一次聊天,西夏有个朋友描述他对人工智能的无处文印象,总结成三个词:西方的识别识别失传、商业的已久、未来的字比。
我当即表示你说的西夏很好,唯一的无处文问题是一条都没说对。
按下我们俩怎么展开斗殴暂且不提,识别识别失传这里希望破除的已久是大家对人工智能的某种固有印象。事实上,字比人工智能作为一种很早就发展起来的西夏通用技术,绝不是西方的专利,也绝不仅仅是够创造商业价值。
甚至在某些机缘巧合下,人工智能能够成为我们用认识历史、认识自身民族、苏州相城(按摩SPA上门服务)按摩vx《1662+044+1662》提供外围女上门服务快速选照片快速安排不收定金面到付款30分钟可到达认识祖先与过去的利器。
梁启超说“学术乃天下之公器”,不仅是说学术天下人共有,同时也是说学术天下共致。作为一种基础工具的人工智能,往往能够在意想不到地方发生效用。比如说今天为大家介绍的借助人工智能技术,自动识别西夏文——一个纯粹中国的人文社科领域。
(图 美感奇特的西夏文)
虽然这项技术大多数人永远不会涉足,但这个案例的价值在于可以打破我们对AI的某些偏见。AI不只是集中在那几个领域,也不是欧美寡头的玩具,它甚至可能无处不在。
为什么要识别西夏文?其中隐含着哪些困难?
我们知道,西夏是与北宋、辽、金先后对峙的党项族国家,曾经统治河西地区超过二百年。与大众认知中不同,西夏不是个茹毛饮血的野蛮文明。他们曾经创立过惊人的文化、艺术与宗教文明,但随着1227年蒙古灭西夏,蒙元不为西夏立史,关于这个政权的记录快速消亡,李元昊立国时创立的西夏文也随之湮灭。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝统辖的今宁夏、甘肃、陕西北部、内蒙古南部地区盛行了约两个世纪。但在西夏灭国后,这种参考汉字创立的奇特文字逐渐失传,最终成为了一种死文字。
直到1804年,武威大云寺发现了著名的《重修凉州护国寺感通塔碑》,西夏文才在埋藏了数百年后重现人世。从此识读西夏文开始成为了学界的重要工作。
(图 《重修凉州护国寺感通塔碑》局部)
二百年以来,出土的西夏文文献不断增多,其中大部分都被英、俄探险家带到了境外。但各国学者努力下,西夏文的基础文字识别已经完成,现阶段的工作重点是依据文字列表,去识读大量西夏文文献的具体内容,揭开西夏以及当时中原、西域各国的历史迷雾。
但在这个过程里,研究人员认读西夏文必须通过手工翻阅查找,耗费时间异常辛苦不说,由于西夏文是一种相似度极高的文字,人工识别还可能存在很大的错误率。
所以就有学者提出,利用计算机来自动识别西夏文。这种设想很好,但在具体操作中还是有巨大问题。比如西夏文结构复杂、组成字符各部分要素高度相似,并且平均笔画达到25画,计算机识别难以入手。
此外,西夏时期虽然已有印刷术,但出土文献还是以手抄本和刻版文字为主,同一个字的在不同文献上的位置不固定、整体布局会发生偏移,都给机器识别带来巨大困难。
于是有意思的事出现了,宁夏大学相关研究机构为代表的学术力量,选择了以人工智能技术解决西夏文的自动识别。
并且这个工作很早就已经开始,不断有成果涌现。从时间上看,绝不是赶这波AI热潮的产物。
人工智能完成西夏文自动识别
早在1996年,日本国立亚非语言文化研究所就制作了西夏文字库和排版系统。1997 年中国学者李范文和日本学者中岛干起利用该排版系统合作出版了《电脑处理西夏文〈杂字〉研究》。俄罗斯应该也都有西夏文数据化和计算机处理的项目与研究成果。
而使用弹性网络、神经网络、AI算法以及深度学习来识别西夏文,则是中国领先完成的一个创举。
用AI识别西夏文,主要依托的是计算机字符识别( optical character recognition,OCR) 技术,这种技术上世纪60年代就成为了人工智能研究的主要领域之一。它的核心技术主张是基于人工智能运算来识别文字符号的数字影像,并将其转换为对应的数字文本,达到可识别、可编辑、可转化的目的。
OCR技术目前在很多领域已经相当成熟,比如我们经常用到的印刷文件文字提取。在OCR识别领域,更多的应用是手写体内容的精准识别,而利用OCR识别考古文献中的非广泛使用文字却基本处于空白。
这里可以结合论文简单介绍两种AI识别西夏文的案例。
比如在《基于弹性网络的西夏文识别》当中,研究人员利用弹性网络技术,将西夏文中的笔画特征进行网格化提取。再统计像素点在每个网格内的概率分布,形成一种可读取的特征模型。最后使用文档主题模型方法对提取的特征降维处理,结合数据库对文献进行识别。
根据论文,这种方法平均识别率可达87.99 %。
再比如《基于Mean Shift算法的西夏文字笔形识别》,Mean Shift算法,即偏移均值向量,是机器学习领域的一种基本算法。其基础理论是利用信息密度来完成聚类、图像分割、跟踪任务,可应对相似但界限模糊的图像处理应用。利用这种算法,研究人员将原始资料生成概率统计直方图,通过相似度来判断归类具体的西夏文笔形。
(图 西夏文智能识别算法流程)
这里仅仅是两个具体应用案例,利用深度学习等前沿人工智能技术识别西夏文的应用还在不断发展。
文献与考古领域的人工智能应用
可能识别西夏文距离我们的日常生活还相对较远,但推广至当整个人文社科领域,AI的应用可能就会从另一个角度无限贴近我们的生活。
从近期来说,AI推动学术效率,可能会影响我们的学科配置、学术训练甚至高等教育体系。从长远来看,AI推动的进一步识别历史与文献的能力,是我们窥探自身过去,了解“中国”为何是“中国”的全新工具。
在我们沉浸于未来带来的快感时,人工智能却可能在历史领域快速发挥它的价值。通过西夏文识别的例子,不难发现在文献与考古这些社科领域当中,人工智能至少可以发挥以下几种功效:
1、考古图像的识别与归档,比如基于算法的文物识别、文物数据化、考古现场数据化。
2、文献文本的识别与转码,比如原始文献的文字识别读取、文献聚类、文献数据化。
3、文献数据库的知识图谱化与机器学习应用。比如学科文献图谱化、时代文献图谱化、科研项目数据图谱化,以及基于知识图谱训练的人文社科领域智能体。这一点尤其重要,想象力也最为充沛。就像金融、翻译等领域很可能被AI替代一样,文献学与历史研究领域大部分依赖考证、校勘、资料爬梳的工作,也存在被AI取代的可能性。
类似的人文领域与AI跨界还有很多,有些甚至涉及哲学与伦理层面的技术与人文互搏,以后我们会陆续介绍。
曾记得有一次聊天,西夏有个朋友描述他对人工智能的无处文印象,总结成三个词:西方的识别识别失传、商业的已久、未来的字比。
我当即表示你说的西夏很好,唯一的无处文问题是一条都没说对。
按下我们俩怎么展开斗殴暂且不提,识别识别失传这里希望破除的已久是大家对人工智能的某种固有印象。事实上,字比人工智能作为一种很早就发展起来的西夏通用技术,绝不是西方的专利,也绝不仅仅是够创造商业价值。
甚至在某些机缘巧合下,人工智能能够成为我们用认识历史、认识自身民族、苏州相城(按摩SPA上门服务)按摩vx《1662+044+1662》提供外围女上门服务快速选照片快速安排不收定金面到付款30分钟可到达认识祖先与过去的利器。
梁启超说“学术乃天下之公器”,不仅是说学术天下人共有,同时也是说学术天下共致。作为一种基础工具的人工智能,往往能够在意想不到地方发生效用。比如说今天为大家介绍的借助人工智能技术,自动识别西夏文——一个纯粹中国的人文社科领域。
(图 美感奇特的西夏文)
虽然这项技术大多数人永远不会涉足,但这个案例的价值在于可以打破我们对AI的某些偏见。AI不只是集中在那几个领域,也不是欧美寡头的玩具,它甚至可能无处不在。
为什么要识别西夏文?其中隐含着哪些困难?
我们知道,西夏是与北宋、辽、金先后对峙的党项族国家,曾经统治河西地区超过二百年。与大众认知中不同,西夏不是个茹毛饮血的野蛮文明。他们曾经创立过惊人的文化、艺术与宗教文明,但随着1227年蒙古灭西夏,蒙元不为西夏立史,关于这个政权的记录快速消亡,李元昊立国时创立的西夏文也随之湮灭。
西夏文又名河西字、番文、唐古特文,曾在西夏王朝统辖的今宁夏、甘肃、陕西北部、内蒙古南部地区盛行了约两个世纪。但在西夏灭国后,这种参考汉字创立的奇特文字逐渐失传,最终成为了一种死文字。
直到1804年,武威大云寺发现了著名的《重修凉州护国寺感通塔碑》,西夏文才在埋藏了数百年后重现人世。从此识读西夏文开始成为了学界的重要工作。
(图 《重修凉州护国寺感通塔碑》局部)
二百年以来,出土的西夏文文献不断增多,其中大部分都被英、俄探险家带到了境外。但各国学者努力下,西夏文的基础文字识别已经完成,现阶段的工作重点是依据文字列表,去识读大量西夏文文献的具体内容,揭开西夏以及当时中原、西域各国的历史迷雾。
但在这个过程里,研究人员认读西夏文必须通过手工翻阅查找,耗费时间异常辛苦不说,由于西夏文是一种相似度极高的文字,人工识别还可能存在很大的错误率。
所以就有学者提出,利用计算机来自动识别西夏文。这种设想很好,但在具体操作中还是有巨大问题。比如西夏文结构复杂、组成字符各部分要素高度相似,并且平均笔画达到25画,计算机识别难以入手。
此外,西夏时期虽然已有印刷术,但出土文献还是以手抄本和刻版文字为主,同一个字的在不同文献上的位置不固定、整体布局会发生偏移,都给机器识别带来巨大困难。
于是有意思的事出现了,宁夏大学相关研究机构为代表的学术力量,选择了以人工智能技术解决西夏文的自动识别。
并且这个工作很早就已经开始,不断有成果涌现。从时间上看,绝不是赶这波AI热潮的产物。
人工智能完成西夏文自动识别
早在1996年,日本国立亚非语言文化研究所就制作了西夏文字库和排版系统。1997 年中国学者李范文和日本学者中岛干起利用该排版系统合作出版了《电脑处理西夏文〈杂字〉研究》。俄罗斯应该也都有西夏文数据化和计算机处理的项目与研究成果。
而使用弹性网络、神经网络、AI算法以及深度学习来识别西夏文,则是中国领先完成的一个创举。
用AI识别西夏文,主要依托的是计算机字符识别( optical character recognition,OCR) 技术,这种技术上世纪60年代就成为了人工智能研究的主要领域之一。它的核心技术主张是基于人工智能运算来识别文字符号的数字影像,并将其转换为对应的数字文本,达到可识别、可编辑、可转化的目的。
OCR技术目前在很多领域已经相当成熟,比如我们经常用到的印刷文件文字提取。在OCR识别领域,更多的应用是手写体内容的精准识别,而利用OCR识别考古文献中的非广泛使用文字却基本处于空白。
这里可以结合论文简单介绍两种AI识别西夏文的案例。
比如在《基于弹性网络的西夏文识别》当中,研究人员利用弹性网络技术,将西夏文中的笔画特征进行网格化提取。再统计像素点在每个网格内的概率分布,形成一种可读取的特征模型。最后使用文档主题模型方法对提取的特征降维处理,结合数据库对文献进行识别。
根据论文,这种方法平均识别率可达87.99 %。
再比如《基于Mean Shift算法的西夏文字笔形识别》,Mean Shift算法,即偏移均值向量,是机器学习领域的一种基本算法。其基础理论是利用信息密度来完成聚类、图像分割、跟踪任务,可应对相似但界限模糊的图像处理应用。利用这种算法,研究人员将原始资料生成概率统计直方图,通过相似度来判断归类具体的西夏文笔形。
(图 西夏文智能识别算法流程)
这里仅仅是两个具体应用案例,利用深度学习等前沿人工智能技术识别西夏文的应用还在不断发展。
文献与考古领域的人工智能应用
可能识别西夏文距离我们的日常生活还相对较远,但推广至当整个人文社科领域,AI的应用可能就会从另一个角度无限贴近我们的生活。
从近期来说,AI推动学术效率,可能会影响我们的学科配置、学术训练甚至高等教育体系。从长远来看,AI推动的进一步识别历史与文献的能力,是我们窥探自身过去,了解“中国”为何是“中国”的全新工具。
在我们沉浸于未来带来的快感时,人工智能却可能在历史领域快速发挥它的价值。通过西夏文识别的例子,不难发现在文献与考古这些社科领域当中,人工智能至少可以发挥以下几种功效:
1、考古图像的识别与归档,比如基于算法的文物识别、文物数据化、考古现场数据化。
2、文献文本的识别与转码,比如原始文献的文字识别读取、文献聚类、文献数据化。
3、文献数据库的知识图谱化与机器学习应用。比如学科文献图谱化、时代文献图谱化、科研项目数据图谱化,以及基于知识图谱训练的人文社科领域智能体。这一点尤其重要,想象力也最为充沛。就像金融、翻译等领域很可能被AI替代一样,文献学与历史研究领域大部分依赖考证、校勘、资料爬梳的工作,也存在被AI取代的可能性。
类似的人文领域与AI跨界还有很多,有些甚至涉及哲学与伦理层面的技术与人文互搏,以后我们会陆续介绍。
相关内容
- ·《人类:一败涂地》销量突破200万 仅由一人制作
- ·《矫捷皆会阿我法》燃系机战,热血散结!公测定档1月21日
- ·铠侠开端启用两个新的研收中间 将减快战深化研收工做
- ·2021好玩的仄台腾跃游戏保举 寻寻细确的跳板
- ·《极限竞速:地平线5》DLC“经典日系车”现已推出
- ·2021好玩的女性背游戏保举 女逝世必备游戏
- ·B站获腾讯3.18亿美元融资,或补上版权内容
- ·Headline:《漫威暗夜之子》2023年6月更新现已释出
- ·Soul App将亮相第二十一届 ChinaJoy ,发布“山海灵·大盛山海”ChinaJoy特别款
- ·土耳其必挨卡的特性弄法
- ·《遗址2》7月25日推出 开做弄法预报片分享
- ·前三季度57个电视高清频道获国家广电总局批准播出
- ·《SNK女格斗家大乱斗》新预告视频 女特瑞不忍直视
- ·《终刀》参与WeGame试玩节,体验一刀定胜背的杂粹武侠游戏
- ·下易度智力游戏保举 磨练您的智商
- ·古生物学家徐星:讲述恐龙化石里的中国故事
最新内容
- ·掌慧科技在ChinaJoy期间开展游戏产研、发行对接会,众多游戏产品亮相
- ·《APEX豪杰》第四赛季通止证上线 免费得传讲级R
- ·七夕往那里玩比较好 江之岛有甚么好玩的
- ·《海贼王》人气角色小紫微风人形公开 细好富丽斑斓无单
- ·《荒野之枪:重装上阵》年初登陆switch 新增新手模式
- ·意念没有到 尾位《暗乌粉碎神4》硬核形式100级玩家果掉降线而永暂灭亡
- ·友达光电第三季度财务数据公布:营收181亿元,同比减少7.3%
- ·2021好玩的惊悚解谜足游保举 正在惊悚的氛围下细心解谜
- ·《三国杀名将传》新汉将流萤张星彩于耀夜退场
- ·用高品质多孔鹿角珊瑚基因组连同环境数据来研究这种珊瑚对气候变化的各种反应
推荐内容
- ·西安外围(西安外围女)外围外围上门外围女(电话微信156-8194-*7106)提供顶级外围女上门,伴游,空姐,网红,明星,车模等优质资源,可满足你的一切要求
- ·上海包夜外围上门外围女姐(电话微信156-8194-*7106)一二线城市均可安排、高端一手资源、高质量外围女模特空姐、学生妹应有尽有
- ·深圳外围价格查询(电话微信156-8194-*7106)深圳外围女价格多少
- ·重庆外围(重庆外围女)电话微信156-8194-*7106提供一二线城市高端外围预约,快速安排30分钟到达
- ·上海外围(高端外围)外围模特(电话微信156-8194-*7106)一二线城市外围预约外围上门外围女,不收任何定金30分钟内快速到达
- ·天津美女同城上门外围上门外围女(电话微信156-8194-*7106)提供顶级外围女上门,可满足你的一切要求
- ·三亚美女约炮(微信156-8194-*7106)大保健可上门安排外围外围上门外围女桑拿全套按摩
- ·北京包夜外围上门外围女姐(电话微信156-8194-*7106)一二线城市均可安排、高端一手资源、高质量外围女模特空姐、学生妹应有尽有
- ·石家庄外围(外围女)外围预约(电话微信156-8194-*7106)真实上门外围上门外围女,快速安排30分钟到达
- ·深圳外围女靠谱(微信156-8194-*7106)深圳外围女那个靠谱啊
