欢迎大家来到IT世界,在知识的湖畔探索吧!
本期主编:橙子
之前几期讲了档案数字化的流程,今天单独讲其中一个环节中的关键技术,为什么单独要拿出来和大家讲这个技术呢?答案其实很简单,因为他真的真的非常重要,甚至说可以决定整个成果的成败。
往期文章也介绍了关于“档案管理系统”“档案数字化”的专业知识,感兴趣的朋友可以查看往期文章。
这里我给大家准备了礼物,关注我们并留言“档案数字化”可获得我们精心准备的相关资料哦,好了,让我们回到正题。
在开始之前,先大家回顾一下档案数字化的流程。数字化流程共分为:调取档案、档案整理、档案扫描、图像处理、数据挂接、成果质检、数据存储、档案归还这8个步骤。今天讲的技术是数据挂接中的双层PDF技术。
一、双层PDF是什么?
PDF大家都不陌生,那什么是双层PDF呢?我们先看一下单层的PDF,单层PDF主要是一种存储格式,但里面的文字无法像Word一样随意复制,
而双层PDF则是一层是图像另一层是文字,由于文字是单独一层的,所以我们可以直接对里面的文字进行复制,并不会受到影响。
这对于为我们办公效率提升不少,不必再讲PDF里面的文字再次打出,同时出现错误的几率也大大降低了。
二、双层PDF与全文索引
传统的文件检索是对文件信息描述的简单或复杂的逻辑检索方法。档案工作者的描述水平、对文档及相关链接的理解容易影响搜索的准确性和利用效率。
而全文检索无疑是利用实时采集的文件来实现采集文件价值的更好选择。要实现全文检索,就需要用到双层PDF技术,将文字一层的内容直接复制录入到系统中。
这样可以让全文搜索到目录所在的位置,便于使用者更快查询到需要的内容,既节省时间又能减少工作量。
三、双层PDF与OCR技术结合
PDF文档是文本和图像的多层结构PDF文档,文本层和图像层上下对应,即以原始图像的方式保存整个文档,又通过OCR(光学字符识别)识别技术提取文档内容,
以全文的方式保存文档信息。在双层PDF的文件系统管理中,可以通过程序交换文本层和图像层,利用文本信息进行全文搜索,从而快速实现文档的准确定位,并利用图像层进行查阅。
往期内容有专门介绍OCR的文章,感兴趣的朋友看翻阅之前的文章,这里就不过多介绍了!
四、双层PDF对档案数字化的重要性
双层PDF文件技术对电子文件和纸质文件信息进行数字化,建立符合文件有效性、系统性、安全性的档案数字化具有积极作用,通过结构化和非结构化信息同时管理,实现数字文件馆的全文检索,具有重要的意义。
读到这里你知道为什么说双层PDF为什么能决定档案数字化的成败了吧?因为没有这个技术,好多后续的操作都会受到影响。
如果你想了解更多关于“档案管理系统”“档案数字化”的一手资料,可以搜索“案多星”你想要的都有
这期就说到这里,觉得有用可以分享给身边的人,欢迎在评论区留下你的看法,我们下期再见!
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://itzsg.com/75786.html