邮编:100000
联系电话:13949083182
查档咨询:13949083182
服务业务:13949083182
欢迎来到档案界!2025年04月15日
智慧档案馆建设
今年4月11日,以色列的航天器“创世纪”号在一次失败的着陆尝试中坠毁月面,从而可能将成千上万条进行脱水处理的水熊虫洒到了月球上。
为什么要将水熊虫送上月球?这种微小动物只有0.05至1.2毫米长。他们躯体矮胖,有8条腿,每条腿的端部还长着非常非常小的手状物;但是水熊虫最负盛名的是它们几乎“死不了”,可以在任何极端条件下存活,真空与辐射也难奈它何。
“创世纪”号是一个月球登陆器。尽管这台登陆器没有运输宇航员,但却携带了人类DNA样本,以及前面提到的水熊虫,除此以外,还有3000万页关于人类社会和文化的微缩信息,即“月球档案馆”。
但是,现在并不清楚,这个数字档案馆以及水熊虫是否得以在“创世纪”号坠毁所产生的爆炸中幸存下来。
“创世纪”号于2月21日发射,水熊虫和人类DNA样本在发射前几周才刚被加进此次月球任务。这些DNA样本和水熊虫被封装入人造琥珀这种环氧树脂中,而水熊虫其实都被粘在用于固定数字档案的胶带上。
水熊虫的另一项超能力就是它们的身体可以脱水。它们收起脑袋和腿,将水从身体里排出,蜷成一个小球。科学家们还发现,水熊虫可以在10年甚至更长时间从这种脱水状态中复活过来。换句话说,能够在一次太空坠毁事故中存活下来的生物,估计只有水熊虫了。不过,“创世纪”号上的水熊虫数年之后到底能不能复活过来,恐怕只能拭目以待了。
郭慧锦 贾国锋 马飞飞 张茜
(全国地质资料馆)
摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。
关键词 双层PDF OCR识别率
当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全国已有20多个省级资料馆完成馆藏资料的数字化工作,全国地质资料馆的成果地质资料数字化工作也接近尾声,所形成的海量数据已成为地质资料信息社会化服务重要数据资源。此类数字化数据是静态的,有利于阅览使用,但无法进行全文检索,也不利于进一步分析处理。因此,在现有数据的基础上,开展OCR识别,使之转化成双PDF文件,实现静态向动态的转变,建立全文数据库,完成对地质资料的全文信息的检索,成为地质资料馆藏机构推进资料数字化工作。
1 关于双层 PDF与OCR技术
双层PDF是在扫描数据的基础上通过OCR识别生成的可检索的PDF文件,即上层是原始图像,下层是识别结果,且位置上下一一对应。双层PDF文件不仅可以100%保留原始版面效果,而且支持选择、复制、检索等功能,这样的PDF文件最后可以存储在光盘、硬盘或磁盘阵列中,并通过建立索引数据库进行科学的管理。
OCR(Optical Character Recognition),即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机网络飞速发展,信息电子化已经成为一个时代必然趋势。文字作为信息中最重要、最集中的载体,其电子化进程显得尤为重要。而OCR技术则是文字电子化过程中最重要的环节,它改变了传统的纸介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。
2 应用现状
PDF正在世界各国政府、金融财务、法律、工程技术、医疗等诸多部门获得广泛的应用,并已成为政府、学术部门等单位标准的现代化公文格式规范,所以PDF电子格式文档将是未来档案部门收藏的主体。而双层PDF的出现有效解决了识别成本和阅读利用的矛盾,是一种较有潜力的资源格式。国外的OCR技术应用相对成熟,包括IBM、Motorola、HP和Microsoft等世界性大公司都陆续展开了这方面的研究,在他们的产品中绑定了OCR技术。
如今,OCR技术在我国的应用也极为广泛。信息检索技术研究,即双层PDF检索技术研究,中国“863”计划在2008年以前已经开始对中文OCR、自动分词、自动摘要、自动搜索、自动定位进行了统一测试评测。在此基础上,国内逐步建立了以数字图书馆、数字档案馆、数字报刊、数字校园网等一系列数字化为基础的实施案例,例如新闻出版总署、外联部、共青团中央等机关文献全文数据库;《中国青年》75年、《新华文摘》20年等期刊全文数据库。国家图书馆早在1999年就成立了“国家图书馆文献数字化中心”,对各类馆藏文献进行数字化加工和OCR识别,在此基础上形成书目型书库、题录型数据库和全文型数据库三大类,逐渐成为我国网上信息资源的中心枢纽。
随着我国信息化建设全面普及,OCR技术的应用前景更加广阔,数字图书馆、数字档案馆、数字资料馆等概念的提出也使OCR在纸质档案数字化过程中越来越发挥其独特的作用,不仅节省了人力物力,更使档案信息资源的利用价值达到最大化,能够更好地服务于民。
3 数字化数据双层PDF转换的意义
3.1 是地质资料信息化建设的重要内容
随着社会信息化程度的提高,人们对信息资源的依赖程度也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切。数字化是信息化建设的重要内容,而信息化建设的核心是资源建设。资源建设包括三大任务:一是馆藏纸质资料的扫描数字化与目录数据库建设;二是电子文件的归档与管理;三是全文数据库和全文检索体系建设。根据各资料馆数字化工作进展,考虑到用户的利用需求,若要得到真正文本形态的电子信息,使资料数字化工作更加有效,更加彻底,最大限度拓宽用户利用面,就需要应用OCR技术进行扫描栅格文件的双层PDF转换,进而开展地质资料全文数据库建设和全文检索工作。
3.2 是地质资料实现全文检索与全文数据库建设的前提
实践证明,基于双层PDF文档的全文检索,有效地提高了查询利用效率。它通过对档案数据库的数据和双层PDF文档的Text层建立索引,查询时可以不访问数据库,有效减轻数据库和系统的压力。至少可以支持1000万级的数据,毫秒级的查询时间,每秒上千人的并发访问,从而实现大容量、高速度的目标,并且可以适应Linux和Windows平台,支持多种数据库接口。它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
3.3 是现代化数据中心标准化建设的前提
建设现代化的数据中心首先要实现电子文件存储结构标准化,即建立一个通用性强、应用广泛的电子文件信息存储和交换格式。基于PDF格式已经作为电子文件管理中电子文件长期保存格式的最新标准在国际上全面实施,且具有兼容性、原始记录性强,安全控制策略完善等优点,是电子文件长期保存的最佳选择。所以进行馆藏数字化数据PDF转换势在必行。
4 双层PDF转换方法
4.1 目前常见的双层PDF转换方法
目前国内双层PDF的转换技术已经相对成熟,从现有技术条件下来看,大体可分为以下3种:
4.1.1 软件转换
由目前市场上较流行的 Adobe Acrobat、ABBYY FineReader12(中英文识别)、Readiris Corporate 12(英文识别率高)、Foxit Phantom 5(可以单独显示文本层)、清华文通TH-OCR XP8(识别率较高)、汉王文本王5800(版面识别较好,纯中文识别率高)、尚书七号OCR等转换程序,可以经OCR识别处理后直接生成双层PDF文件,速度快,效率高。但识别率和纸质资料原件(如印刷方式、清晰度、纸张质量等)及操作人员技术水平成正比。如果纸质原件质量好,识别率相对就高;质量差,识别率就相对较低。
4.1.2 流程加工
根据相关技术要求,对图像进行全新的OCR识别流程加工处理,重新生成PDF文件,具有文字正确率高、文字定位准确等特点。这种方式相当于全流程化制作双层PDF文件,工作量大,耗时长,费用高。
4.1.3 识别重构
重新生成PDF文件,实现版面字体、字号、颜色的恢复和重构。文字正确率高,页面清晰,但和原版图差异较大,主要在图书方面应用较多。
4.2 地质资料双层PDF转换
全国馆于2011年开始在扫描数字化基础上开展双层PDF的转换试验工作,主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。由于地质资料不同于普通的文书档案,纸张样式和印刷方式多样,手写和老旧资料多,地层、数学等特殊符号多等特点,给OCR自动识别带来了困难,单一的软件识别并不能满足全文检索90%以上识别率的要求。
在转换试验基础上我们得到以下结论:
1)地质资料本身多种多样,实际的识别率主要受印刷质量、形成年代等因素影响,老旧资料、纸质质量差的资料识别率普遍较低;受执笔人书写习惯及书写清晰度的影响,手写文档的识别准确率一般在30%以下;油印文档识别准确率一般在50%以下;打印、铅印和胶印文档识别率较高,一般能达90%以上。无论在哪种类型的文档中,标点的识别率都很低,地层和数学符号及其他特殊符号的识别率几乎为零。
2)目前识别技术无法达到100%识别,必须根据实际需求对照纸质档案对初次识别结果进行人工校对才能满足全文检索需求。
3)地质资料扫描文件数量多、容量大,转换速度受计算机反应速度影响,大批量转换和识别需选择高配置计算机,且批量转换和人工识别耗时长,耗人工多,需专项经费支持开展工作。
4.3 OCR数字加工系统的引入与功能简介
经过对目前国内双层PDF转换方法的对比,结合地质资料情况复杂的特点,以及数据测试结果研究,建议地质资料的双层PDF转换主要采用软件识别和流程加工相结合的方法,即采用OCR数字加工系统,可以保证高效率、高质量地完成双层PDF转换。该系统主要包含以下几个主要流程:
图1 OCR数字加工系统示意图
1)图像处理。为提高识别率,对图像进行“消蓝去污”的处理,去掉图像上影响识别率的噪音,如麻点、下划线等,由图像质量控制程序自动监测图像处理质量。
2)版面分析。自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
3)识别。把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、中英文混排文字、表格,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
4)纵向校对。具有很强的查错纠错能力,是将一个或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
5)横向校对。是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不离的文字。
6)版面还原。将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。
7)数据入库。版面还原数字文档的保存。
4.4 提立OCR识别率的方法
利用OCR数字加工系统生成的双层PDF,文本层差错率最低可到万分之一,可呈现原版底纹和色彩风貌,可进行全文检索和复制引用,且检索信息可准确定位到字符,便于快速查找目标信息。为了减轻横向校对即人工校对工作量,提高工作效率,就要从根本上提高识别率。经过试验,以下几个方法可以提高栅格文件OCR识别率。
1)图像色彩设定。虽然灰度或彩色模式可以最大限度还原纸质资料原貌,是我们扫描数字化的首选,但是这两种色彩模式会增大影响识别率的背景噪音。若仅做文字识别及一般黑白插图选取,建议可将扫描程序的图像色彩设定设置为黑白,增大识别率。不过最终图像色彩的设定还要按照各类具体工作的规范要求来设置。
2)分辨率设置。我们都知道扫描分辨率设置越低,扫描速度越快,但同时也导致图像质量差,其文字识别准确率低。反之分辨率高,扫描速度慢,但文字识别准确率高。但这又不是绝对的,因为分辨率设置得太高后,纸张上的微小瑕疵也可能被认作标点符号或汉字等,文字识别准确率反而会有所降低。经反复测试,分辨率设为300dpi,是扫描速度及文字识别准确率的最佳平衡点。
3)图像处理。这里图像处理是指扫描输出图像前的倾斜校正和去污等。倾斜校正是为了调整文字方向使之正向,这样才能对OCR识别有所帮助。
双层PDF转换完成以后,在此基础上可以实现资料管理系统与PDF文件的挂接,对资料数据内容及其元数据等相关信息建立联系并形成数据包;然后通过调用全文数据库原数据创建索引文件,最后实现全文检索。通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅度提高地质资料的利用价值,促进地质资料编研工作,为地质资料信息聚合的研究和深层次服务奠定了基础。
参考文献
[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011(1).
[2]徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).
[3]张旋.OCR技术研究进展及前瞻[J].科学技术,2010(4).
[4]郭金光.双层PDF技术及在档案数字化中的应用[J].新观察,2013(1).
[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2).
李晓丽 王杨 王仁祥
(中国石油化工股份有限公司东北油气分公司)
摘要 数字档案馆的建设是数字化油田建设的重要组成部分,如何完整、准确、规范地进行档案信息资源建设,利用网络,进行信息共享,提供方便、快捷、安全的信息资源服务,是数字档案馆建设成果的重要体现方式之一。本文从东北油气分公司档案信息化现状着手,通过分析现阶段档案信息化建设成果及其应用效果、开展档案资料数字化的建设思路,简述了档案馆信息资源建设在数字化油田建设中的作用。
关键词 数字馆藏 档案信息 资源建设
1 数字地质档案馆建设的意义
数字档案馆随着计算机技术和网络信息技术的发展而诞生,使档案馆功能在信息时代得以延伸。数字档案馆作为既具有传统档案馆的基本性质和功能,又可利用信息技术手段,通过建立数字档案数据库,以网络通道实现电子档案信息的收集、存储、管理、利用。建立数字档案馆的最终目的,是最大限度地发挥档案信息管理和利用的作用。
数字档案馆具有馆藏容量大、服务范围大、信息资源共享、信息检索便捷等特点。随着数字档案馆的建设,地质档案馆传统的工作模式也逐渐发生了改变,从过去接收纯纸质资料转变为接收纸质和电子文档的双轨制管理,从过去的单一人工借阅转变为通过互联网实现的网上借阅,从过去的著录查询转变为全文数据的精确检索。
作为具有海量数据的地质档案馆藏,建设成数字地质档案馆尤为重要。近年来,国土资源部以及中石油、中石化等相继出台了地质资料电子文件管理办法,几乎所有的地质档案资料都实现了电子化,为数字地质档案资料管理奠定了坚实的基础。
2 东北油气分公司地质档案馆现状
东北油气分公司20多年的勘探开发实践中,产生了大量地质资料,这些资料是油田重要的财富。由于历史原因,分公司综合档案馆保存的大部分地质资料属于未电子化的纸介质资料。2008年以来,随着东北油气分公司勘探开发业务的发展,地质资料的利用越来越频繁,应用范围也逐渐扩大。综合档案馆在馆藏资料的数字化工作方面虽然取得了一定成绩,但目前还主要是提供简单的目录检索和纸质资料的浏览、借阅,基于资料数字化基础上的网上查询浏览则还刚起步。对于即将面临的数字化油田建设的全面开展,数字馆藏的建设就显得尤为迫切。
2010年以来,通过开展地质资料信息化建设工作,档案馆也陆续建立了《地质资料管理系统》、《录井图成图系统》、《岩心图文综合信息系统》等5个系统,并逐渐将东北油气分公司的地质资料在数字化的基础上,进行科学的分类管理,通过安全、有效的手段发布共享,使之成为科研人员共享资料。为科研人员提供技术、成果互动交流的平台,充分发挥馆藏资料的作用,用数字馆藏的建设为数字化油田建设打好基础。
3 东北油气分公司档案信息化建设取得的主要成果
3.1 档案数字化建设的规划和标准
近年来,中国石化加强了勘探开发领域信息化工作,各油田深刻地认识到信息化在油气勘探开发中的重要作用。东北油气分公司档案信息化建设的目标是:以建设数字化档案馆为目标,本着档案信息化建设和数字化油田建设同步,技术与管理并重的原则,加强档案数字化基础设施建设,大力推广中国石化地质资料管理系统,全面实行电子文件归档和电子档案的规范化管理。推动馆藏档案数字化,进一步完善以档案信息资源建设为核心内容的档案数据库建设,满足分公司生产科研和管理对档案资源的需求,推进档案数字化标准体系、安全保障体系和人才队伍建设。
数字化建设离不开规范和标准,要统筹规划数字档案管理系统。借鉴兄弟单位的经验和成果,我们对电子文件的形成、归档和数字档案资源的标识、描述、存储、查询、交换、网上传输和安全管理等方面,制定了相应的标准、规范和制度,并严格执行。
3.2 地质档案数字化建设成果
3.2.1 完成全部馆藏资料目录数字化
2009年开始地质资料管理系统目录数据的著录,按照中石化新的地质资料分类标准,对馆藏单井资料重新定义档号规则、分类标准,用两年时间,完成所有馆藏单井、科研、物化探等资料目录的著录,每一份资料都打印粘贴上标签,实现计算机检索,并在局域网上发布。完成了地质资料的编目,极大地方便了广大生产科研人员的查询、借阅和使用,为开展数字化馆藏建设工作打下第一部的基础。
3.2.2 完成部分资料数字化并建立录井图成图系统数据库
东北油气分公司很多历史资料无数字化电子版,特别是完井地质报告和综合录井图,这些是开展地质综合研究的重要资料。为此,从2009年到2012年间,申请成立专业项目组,开展地质资料数字化建设工作,先后完成了1500口井完井报告及录井图的数字化工作,建立了一套完整的录井图数据库(图1),通过录井图数据库,建立了高效的多种技术交流方式集成的平台,方便了录井图数据综合分析和利用,为数字化馆藏建设工作打下良好的基础。
图1 录井图数字成图系统
综合录井图是录井过程中采集到的各项原始地质、工程数据的综合展示,是录井的地质成果总结的重要组成部分,是后期开展地质综合研究的重要基础资料,如层位对比与划分、资源量预测、构造分析、生储盖组合划分、油气层评价等,是数字化油田的基石。这些资料通过应用,已经见到了很好的效果。
1)解决了以纸质形式保存到现在的综合录井资料无法有效利用计算机技术进行地质综合研究的问题。
2)通过对录井图的数字化和建立录井图数据库,建立了高效科学的录井图图形查询和显示平台,提高了录井图数据分析和利用水平。
3)根据入库的录井图数据、测井曲线数据等文件,采用配套的软件,通过浏览器方式,用户按照通用模版或自定义模板,回放显示气测综合图、录井综合图、岩心综合图、油层综合图等图形。
4)通过数据接口为勘探数据库综合系统、开发数据库综合系统提供数据支撑,开展科研应用分析。
3.2.3 完成实物资料清理、扫描并建立岩心图文综合信息系统
2010年开展了实物地质资料清理工作,对所有库存岩心、岩屑等进行清点核实,建立实物资料台账及存放信息数据,并结合各井的基本信息,最终形成实物地质资料目录数据库(图2)。
图2 实物地质资料清理数据系统
岩心扫描工作完成全部库存岩心的扫描和纸质的岩心描述报告录入工作,建立了东北油气分公司岩心图文综合信息系统(图3)。
图3 网络数字化岩心图文综合信息系统
建立岩心网络图文综合信息系统是实现岩心保护和利用完美统一的有效方法。岩心成像技术的应用实现了岩心宏观、显微图像的高分辨率采集,运用图像处理技术、计算机技术和数学地质方法,建立网络岩心库,实现了岩心图文资料及相关地质资料的永久性保存、综合管理及处理等功能,并实现注册终端用户对岩心图文资料的网络浏览、编辑和下载综合利用(图4)。
图4 岩心综合图
4 数字化馆藏资料在数字化油田建设中的作用
数字化油田是以信息技术、通信技术、自动化技术等为手段,以安全稳定的信息数据为支撑,全面实现油田科研生产、经营管理全方位、全过程自动化智能化。数字化油田的建设大致可分为5个阶段,即数字化阶段、网络化阶段、可视化阶段、自动化阶段、决策智能化阶段。其中第一个阶段就是数字化阶段,是建立数据标准和数据模型,通过建立大量的专业数据库和应用系统,将油田企业积累的历史数据和现有的生产、经营管理数据按照一定的标准整理到数据库中。这些数据包括各种资料、档案、文字、图像、语音等信息,可以满足用户的简单查询和分析。因此,建设数字馆藏,是建设数字化油田的基础。无论是勘探数据库、开发数据库,都离不开数字地质资料的支撑,可以说数据是数字化油田的生命。例如,石油勘探一般由野外数据采集、地震资料处理、资料解释3个流程组成,依托高性能计算平台,对大量的数据进行处理、分析,完成找储油构造、定井位的重要任务,而支撑这些平台的就是背后海量的地质数据资料。
近几年,我们通过开展对馆藏完井地质报告及附图的数字化工作,既保证了原始资料的安全,又方便对馆藏地质资料的管理和利用,并能为后续的信息化建设以及科研应用提供内容丰富、质量可靠的信息源。借助对录井综合图、岩心综合图、油层综合图、气测录井图的数据分析,完成相关工作,在实际生产中也已开始应用,极大地方便了科研人员工作。
在2013年对十屋油田的老井复查工作中,科研人员借助录井图成图系统,利用这些已数字化的录井图,进行老油田矿区的单井岩性分析,测井图合成对比等技术,完成了相关储层的技术评价,为储层标定等工作提供了一种新的技术手段。在项目的岩性对比工作中,科研人员在办公室直接登录岩心图文综合信息系统,调取相关岩心资料,完成相关科研工作。
在解决腰英台油田的高含水、低渗透、递减快的课题中,科研人员在系统中集中提取了腰英台油田所有井的化验分析资料,结合系统的岩性分析等相关功能,完成了课题研究,极大地提高了工作效率。
录井图成图系统和岩心图文系统的成功应用,表明地质资料的数字化工作在油田的勘探开发工作中、在数字化油田的建设中必将发挥越来越重要的作用。
5 小结
数字档案馆建设的重要组成部分是档案数字化资源建设,它涵盖档案资源信息输入、管理、输出三部分的数字化建设工作,因此要抓好纸质资料及数字资料的归档管理(含接收、整理、审核等)、档案馆内各项职能管理(如保管、保护、储存、统计等)、档案资料的综合利用(包括传递、发布、检索、利用等)。在这方面,东北油气分公司数字档案馆建设已经迈出了坚实的一步,特别是在资料的数字化和输出两个方面有了明显进步,下一步要完善软件功能,强化管理部分。
在开展数字地质馆藏建设的同时,要时刻不忘其为数字油田建设支撑的根本,要积极扩展其数据格式应用范围,让数字地质馆藏保障数字化油田的建设。从目前的地质应用分析,其前景是广阔的。
数字地质馆藏建设既要突出油田主营业务的特点,也要突出地质资料数字化的特点,数字馆藏要符合勘探开发、科研生产对地质资料的总体要求,也要符合信息技术的需要,比如数据格式的标准化。数字地质馆藏要与传统档案管理紧密结合,档案馆要与科研生产单位紧密配合,以保证数据资源的完整性、规范性、正确性。要加强软件平台的开发,保持系统的实用性、灵活性、开放性和稳定性,从而达到建设、发展数字地质馆藏,加快数字化油田的建设。
参考文献
[1]于丽娟.国外数字档案馆建设概况[J].中国档案,2003(3).
数字档案室的建设
数字档案馆系统综合应用物联网、云计算、移动互联网等新技术,开发了对档案实体、档案内容、档案服务和档案管理等信息的感知、处置等功能,实现了对档案信息资源和档案业务信息资源的智慧收集、智慧管理、智慧服务、智慧保护和智慧监督,为档案馆物与物、人与物、人与人的全面互联、互通、互动提供了基础条件。
基于OCR技术生成档案数字化成果文本数据资源库,结合应用原生电子档案内容信息,实现了档案信息资源的数据化管理,可以进行全文检索,并采用数据挖掘技术构建虚拟资源库,突破了传统的档案数字化理念,对实现档案资源的深度控制和挖掘创造了条件。
基于数据智能采集技术,采用多样化、组合式信息资源收集方式,实现了智慧城市建设中重要的信息资源之一 —— 专业档案数据库的高效接收和有序管理。采用大数据技术的智慧档案馆,通过云计算技术虚拟合并各档案馆之间的数据,做到实时互通,跨馆出证。
采用模型控制技术,实现了机关归档电子文件质量监管、进馆电子档案质量检查、开放档案划控辅助管理、档案馆业务目标督查等工作的辅助管理,有效地推进了档案馆业务工作的信息化。
应用RFID 技术,实现了智慧档案馆智能感知管理平台对实体档案、在馆人员及相关业务信息的综合感知和智能处置,拓展了RFID技术在档案馆工作中的应用领域。如文档服务中心发出调卷指令后,在规定时间内库区RFID 标签信息阅读器未感知到相关档案出库信息,将自动发送短信提示库房保管人员办理调卷业务。
基于编研人员的档案利用,通过对档案信息资源的深入挖掘,实现对档案信息资源的智能检索,提高了档案检索的查全率和查准率;同时基于数据挖掘技术,支持对检索结果的知识图谱展示以及档案信息的自动聚类,为利用者提供了便捷、高效的档案利用服务。根据业务需要,智能形成编研材料。
感知档案,通过标签可以知道档案的状态,可以对档案实体进行识别、定位、跟踪、监控和管理,帮助档案管理人员实时掌握每一份档案的状态,实现管理者与档案实体的沟通。这样可以避免传统档案管理中出现的一些问题。
数字档案馆具有馆藏资源数字化、信息组织与传输网络化、服务范围扩大化、信息资源共享化、信息检索便捷化等诸多特点。“数字档案馆”的含义有广义和狭义之分。广义的数字档案馆是指存储和利用档案信息资源的信息空间,是一个由众多档案资源库群、档案信息资源处理中心、档案用户群构成的数字档案馆群体。数字档案馆是一个内容管理系统、集成系统和数字信息长期保存系统的集合。作为以电子文件、档案以及其他信息资源等非结构化数据为主要管理对象的数字档案馆,它不仅仅起到一个数据中心的作用,也不仅仅起到发布利用的作用,而是具有有序处理和集成管理的功能。它的有序处理和管理过程包括收集、创建、确认、转换、存档、管理、发布利用等涵盖文件生命周期管理实践的全过程。集成(integration)含综合、融合、整合成为整体和一体化的意思。就数字档案馆而言,就是将集成管理理论应用于涵盖文件档案信息资源生命周期管理实践的全过程,即在管理思想上以集成理论为指导,在管理行为上以集成机制为核心,在管理视野上突破管理业务流程机构部门间的限制,并从全程管理和最优化管理的层面来对待各种档案信息资源要素,提高各种管理要素的交融度,以利于优化和增强档案信息资源的真实性、完整性、有效性和有序性,最终提供以用户需求为导向的档案信息集成服务。
数字档案馆建设环境下不仅要加强馆藏实体档案的数字化,更要注重提升档案信息服务的深度,本文介绍了基于知识管理的数字档案馆信息服务的特点,分析了其服务类型与模式,最后提出了基于知识管理的数字档案馆服务体系建设策略。
一、基于知识管理的数字档案馆信息服务特点
(1)“以人为本”,以服务用户为中心知识服务是满足用户知识需求的信息活动,要以用户为中心,以满足用户的知识需求为追求是知识服务的根本原则。数字档案馆的一切服务要以用户为中心,以满足用户的知识需求为出发点,根据用户实际需求搜集选择各种档案信息,为用户的档案信息需求提供索引指南。因此,数字档案馆知识服务一切都要以用户为核心,制定相关的制度和服务策略。
(2)注重发现“档案隐性知识”,提升档案潜在价值数字环境下用户所需信息中所隐含的潜在知识内容对档案知识服务来说是非常重要的,通过分析用户提出的问题,再根据集成现有或历史数据发现并找出有价值的档案信息,对这类信息进行分类、组织与加工,分析各类信息内容结构间隐含的知识链,最终找到与用户需求相吻合的档案信息,并对外提供利用。
(3)以“服务创新”为根本目标知识创新是数字档案馆服务的潜在动力,因此数字档案馆知识服务的本质特征就是创新。这一方面需要根据用户需求,不断收集提供相关档案信息,在解决问题的过程中,不断发现新知识;另一方面,档案工作人员对知识进行加工整理、分类与重组,使得这些档案信息变得更加有条理性、针对性,进而使用新方法新方式将这些档案信息对外提供利用。
(4)强调“服务内容个性化”传统的档案服务模式太过单一,无法解决利用者的实际要求或深层次的档案信息需求,而基于知识的服务则以用户角度出发,根据用户的实际需求为其提供一对一的实际问题的解决途径。
(5)基于档案资源的“综合集成”数字档案馆背景下的知识服务是要将各类资源(硬件资源、人力资源、信息资源和技术资源)有机结合起来,发挥数字档案馆在人力和智力、信息与技术等资源方面的整合优势。“综合集成”的档案资源将基于开放式的对外服务模式,并提供多元化的知识服务。
二、基于知识管理的数字档案馆服务类型与模式
数字档案馆资源利用服务方式是多元化的,主要包括基于门户网站的档案服务利用方式,基于档案信息发布利用平台的自助式方式,基于现代通讯手段的档案信息咨询服务方式,基于电子阅览室和传统查阅室的本地服务方式等等。
1、高校基于知识管理的.档案信息资源服务方式可以归纳为以下几类:
(1)条件性、自助式服务高校存在的最普通的档案查询服务。用户可以依据自己的不同权限查询本单位历年归档的档案,还能查询开放的数字化档案信息全文。实现广大教师员工足不出户就可以查阅到开放档案目录及数字化扫描全文。同时还提供在线预约、电话、电子邮件等条件性的档案服务。
(2)及时性、浏览式服务针对广大一般不了解馆藏,但又有利用需要的普通用户。根据用户需求,按档案专题分类,进行自动化组织,形成专题汇编等深层次的档案信息产品。通过网站等多样化形式的展示,比如很多高校在档案网站上设有毕业照、专题汇编、干部任免、教学奖、管理奖、科研奖等专题栏目。
(3)科研性、推送式服务对档案查询有一定要求的学校科研人员。档案工作人员通过编研陈展平台,组织用户感兴趣的档案信息,按照专题深层次研究为基础,挖掘馆藏相关信息,提供深层次的档案信息,例如档案网站推出的专题汇编服务。
(4)涉民档案服务主要针对广大学生群体。历届毕业生可通过档案网站提交学位学历认证的申请,上传相关的证件,并经审核通过后予以办理,大大方便了用户。
(5)陈展性档案服务陈展性服务是以档案数字化成果为基础,围绕大学文化建设等学校中心工作,利用丰富的档案信息资源,以专题展览形式,举办主题明确的网上展览,开展宣传教育工作。
2、基于知识管理的数字档案馆服务模式
(1)档案信息整合服务模式随着数字档案馆信息共享程度的不断提高,各类档案信息资源汇集起来数量惊人,不同形式的数字档案资源库也应运而生。档案利用者获取档案信息的方式增多,导致信息过量无法正常选择,这就要求数字档案馆必须向广大用户提供集成化的档案信息资源,按来源将这些信息进行分类并有序整合,将不同类型的档案信息归纳为一个有机整体,再向广大利用者提供一站式服务。
(2)档案信息增值服务模式数字档案馆环境下形成了巨大的信息体系,为了使得档案用户体验到无差别的信息服务,档案工作人员需对海量的信息进行筛选,生成有一定价值的全新档案信息资源,使得档案用户获得具有一定知识含量的信息产品,从而实现对档案信息的增值。
(3)自助式服务模式这是一种以用户为主体的服务,用户根据自身的需要,通过点击档案馆的网站来寻找自己所需相关档案信息。这种模式需要用户具有一定的档案基本常识及自我服务的能力。
(4)个性化服务模式又称为定制服务,是一种以用户为中心,根据用户需求量身定做的服务模式,它以用户满意为根本出发点,提供主动服务,通过研究用户的行为和习惯,与用户进行双向交流,从而设计出用户期望的个性化服务模型,主动提供满足用户的特色服务,最终实现用户全方位的信息需求。
三、基于知识管理的数字档案馆服务体系建设策略
1、建立“主动交互式”服务模式
知识服务最重要原则的就是根据不同的用户,提供不同的服务,高校档案馆要按照层次划分用户类型,再根据不同的用户提供不同的服务。例如:(1)普通档案用户,是档案信息服务中的一般用户,档案知识层次不高,所进行的档案信息利用基本是查阅纸质的、直观性的档案信息。(2)科研型档案用户,一般指高校的科研人员或承担科研的教学人员。他们的利用目的是为了科研或教学,目标性很强,一般是围绕某个科研主题或教学内容查询档案信息。(3)业务型档案用户,一般指归档的各个部门,他们主要是为了复印档案原件来满足日常工作上的需求。(4)社会档案用户,往往是高校历届毕业生,他们的利用目的是为了工作需求而开具毕业证明,成绩翻译等。
2、构建并丰富档案信息资源库
档案信息的知识管理要注重档案信息资源的收集,内容丰富的的信息资源库是知识服务的源泉。数字档案馆要为社会提供深层次的档案信息服务,就必须构建内容丰富的档案信息资源库。例如各类档案目录级信息库、多媒体档案资源库、名人档案信息库、论文系统信息库等。
3、健全档案信息服务法律法规
档案信息环境安全的几个关键点包括:档案信息录入安全、档案信息存储安全、档案信息传递环境安全,因此要针对不同的环节制定不同的安全制度。例如,针对档案数字化扫描和档案信息网站等制定的一系列制度:①《数字档案馆电子文件元数据实施要则》;②《档案馆馆藏纸质档案数字化技术规范》;③《数字档案馆档案信息著录与标引规则》;④《档案馆计算机网络安全及病毒防治手册》;⑤《档案馆门户网站管理暂行办法》等。
4、加大档案人力资源开发力度
人才是知识服务体系的重要因素,知识服务的创新能力取决于人才的创新意识,做好档案专业人才的引进、培养工作是提高档案信息服务的关键。档案人员要有计划地参加各类信息技术及网络技术培训,使得档案工作人员既懂得档案管理知识,又掌握计算机技术、网络技术等知识。可以根据实际情况有步骤、有计划的引进既懂档案管理知识又懂计算机技术的复合型人才,从而为提高档案信息服务能力添砖加瓦。
5、建立档案知识共享平台
知识管理的最终目标是实现知识共享和创新,档案信息只有在利用与共享过程中才体现其社会价值。档案信息服务的意义就是为广大利用者的信息需求创造有利条件,实现档案信息资源的共享。因此,要加强对档案隐性知识的开发、管理和利用,创造能够使隐性知识与显性知识产生互动的机制和平台,构建数字档案馆内部共享的知识库和信息交流平台,将隐性知识显性化,并转换为服务产品。
6、建立档案信息服务评价体系
为保证档案信息服务工作的高效开展,数字档案馆需要经常对整个服务体系进行综合评价。为此,需构建档案信息服务反馈平台,通过此平台档案用户可以在结束服务前对本次服务进行打分或留言(类似银行办理业务的评价服务),并定期对档案用户进行问卷调查以获得更为详细的反馈信息。档案管理人员在分析反馈信息的同时找出工作中的缺陷及问题,用以改进信息服务方式。
一、数字档案馆与传统档案馆的区别
(一)档案人员素质方面
结合档案人员的知识结构来说,由于每一个档案人员的文化程度不同,其自身具备的综合素质能力也有着明显的差异。在以往传统的档案管理工作中,档案人员更多的掌握与档案学相关的理论知识,虽然在计算机操作方面也提出了一定的要求,但实际的操作能力较差。而相反的,数字档案馆的档案人员不仅要具备专业的档案学知识,还要对计算机能够熟练的使用,并对系统中的管理软件有着全面的掌握。其次,随着时代的发展与进步,需要涉及的边缘学科越来越多,这就要求档案人员要通过不断的学习来加强自我建设,以此来不但提高自己的管理能力。站在档案人员的角度来看,传统的档案人员给予人们的印象类似于保管员。而数字档案馆中的档案人员则是向人员展示了一种全新的精神面貌,也让人们对数字化技术有了更深入的认识。
(二)档案服务方面
在传统的档案馆管理工作中,一切都是以档案馆为中心,用户们获取档案信息资源的主要方式是通过到档案馆中进行查找,直接有现场的档案人员为其提供服务。而这种物理差距也恰恰成为了影响用户利用档案的关键性因素。然而,在现代数字档案馆中,所有的服务活动都是围绕着用户而开展的,一切都是将用户作为中心点出发,在大量的档案信息资源中,数字档案馆能够及时为用户们寻找到所需的信息资源,解决用户的实际需求。因此,数字档案馆是以用户需求为主要建设目标,以此来吸引更多的用户,逐步提高档案信息资源的利用率,使其能够充分发挥自身的重要价值。
(三)档案的安全保护方面
传统档案馆在安全管理方面,主要是对档案实体进行保护,具体是对档案存放环境的温度、湿度等方面进行了严格的控制。而数字档案馆中的档案信息是一种电子载体的形式,其是与档案内容相互分离的,数字档案馆重点是对档案载体进行保护的同时,也对档案信息能容进行了加密,以此来防止网络病毒和黑客的恶意攻击破坏。并且,数字档案馆建立了完善的安全防护系统,充分保障了档案信息资源的安全、完整性。同时通过技术信息技术、网络技术等大量科学技术的优势,大大提高了档案管理工作效率,也为我国档案事业开辟了崭的发展格局。
(四)馆藏方面
21世纪的数字档案馆的馆藏可以看作由实物馆藏(传统的纸张、磁介质档案)和虚拟馆藏(存在于本馆及互联网上有权访问的多媒体档案信息数据库)两部分组成。实物馆藏经过数字化后,被全文存贮在本馆,转化成为能进行全文检索的虚拟馆藏。数字档案馆的馆藏不仅包括固有的纸质、录音、录像、照片等非数字化文献,还将这些数字化的信息存贮在本地的海量多媒体数据库中,而且对网络中有权访问的信息进行标记和索引,丰富了自己的馆藏,以便于利用者的网上检索。
二、数字档案馆与传统档案馆的联系
(一)数字档案馆是传统档案馆为解决新的问题而发展起来
传统档案馆在自身发展过程中,面对新生事物、新兴科技的挑战,出现了许多难以解决的问题。主要有几个方面:(1)档案实体的增多及新型载体档案的增加,如电子文件的管理、检索、利用;(2)非纸质载体档案(如录像、录音等档案)的管理、检索、利用;(3)人们对信息的传播、接收方式的改变及需求的增加等等。传统档案馆不能再用以前的方法、技术来完全解决这些问题,它不得不依赖于先进的管理思想、科学技术来发展自己,从最初的馆藏资源数字化利用服务,到网络化查询检索,到最终实现数字档案馆。
(二)二者始终是信息传递的中间角色
可以说,无论是信息技术多么迅速的发展,还是网路结构如此复杂化,档案馆从始至终都在担任着信息传递者的角色,主要是围绕着信息、档案馆、用户这三者之间进行循环开展的。其中,档案馆并不是信息的生产地,其主要的功能是对信息进行保管。而传统的档案馆能够很好的保护档案信息,并提供给用户们使用。数字档案馆亦是如此,它采集了海量的档案信息资源,以此来为用户提供更优质的服务,所有的工作流程基本与传统档案馆保持一致,都需要进行档案信息的采集、归纳、整理、保管和利用。但是,数字档案馆最大的优点是可以对这种传递结构进行更深入的优化与完善,确保档案效益得到充分的发挥。
(三)数字档案馆不会脱离传统档案馆的实体而单独存在
存在于虚拟的网络空间,脱离具体的档案馆实体的数字档案馆是理想化的。传统档案馆的馆藏经验做法都为数字档案馆所应用,不会在数字档案馆时代被彻底抛弃。以前的纸质档案随着年代的逝去而愈发珍贵,它是数字档案馆的镇馆之宝,即使以数字化方式存在,它的实体也会得到妥善保管。
三、结束语
无论是传统档案馆,还是数字档案馆,都有着自己的优点和缺点。这两者之间是相互影响、相互制约的联系。因此,我们要正确看待数字档案馆和传统档案馆,从而促使它们和谐统一的发展,继续为我国档案事业的长远发展做出巨大的贡献。
数字档案馆与数字图书馆的区别主要在于两个方面:一
是数字档案馆对于数字档案的真实性和原始性的维护是至关重要的,而几乎不存在版权问题;而数字图书馆则相反;二
是数字档案馆的信息提供利用受时效与密级的限制,如档案馆一些内容是不能公开的,数字档案馆将必须分内部网和外部网两个部分,如正在建设中的深圳数字化档案馆就是如此,单位和个人可以根据授权限度免费查阅网页所提供的档案信息;而相比之下,数字图书馆则没有时效
与密级的限制,开放利用比较自由。
档案是企业开展业务活动的重要工具和凭证性信息记录,是企业的核心信息资源与重要资产。集团企业具有机构庞大、下属单位较多且层次复杂,各下属单位分散等特点。对于集团企业,实现集中部署应用、分级管理,构建立体式企业数字档案馆,是集团企业数字档案管理最佳解决之道。利用当前最先进的标准规范、信息技术,推出面向集团企业的数字档案馆解决方案。 应用系统由基础应用平台、业务应用平台、信息服务平台、系统管理与维护、接口等五个部分组成: 基础应用平台为系统功能提供基础性的应用服务,如工作流引擎、OCR服务、文档格式服务、全文检索服务、报表引擎等等。 业务应用平台为档案管理机构提供档案管理的平台,包括档案工作管理、档案收集整编、档案管理、档案保管、开发利用等业务。 信息服务平台为档案利用者提供信息服务的平台,包括档案网站、多种档案查询模式、图书资料信息的查询、电子文件浏览等。 系统设置与维护实现系统设置、业务建模两大主要功能。系统设置主要用于配置系统运行环境的参数,包括服务器集群、存储系统(支持分布式和集中式)、基础应用层各应用参数的配置等。业务建模系统主要包括全宗群、档案门类、管理目录树、分类表、元数据、报表、表单等各基础数据结构的定义。 接口接口包括了两个部分,一部分是本系统与其它系统集成的接口,一般包括了与OA系统等系统的集成接口;另一个接口是指系统提供二次开发的接口,系统可提供基础应用、档案业务管理、档案信息服务等不同层面的SDK开发包。
一、数字档案馆与传统档案馆的区别(一)档案人员素质方面结合档案人员的知识结构来说,由于每一个档案人员的文化程度不同,其自身具备的综合素质能力也有着明显的差异。
在以往传统的档案管理工作中,档案人员更多的掌握与档案学相关的理论知识,虽然在计算机操作方面也提出了一定的要求,但实际的操作能力较差。
而相反的,数字档案馆的档案人员不仅要具备专业的档案学知识,还要对计算机能够熟练的使用,并对系统中的管理软件有着全面的掌握。
其次,随着时代的发展与进步,需要涉及的边缘学科越来越多,这就要求档案人员要通过不断的学习来加强自建设,以此来不但提高自己的管理能力。
站在档案人员的角度来看,传统的档案人员给予人们的印象类似于保管员。
而数字档案馆中的档案人员则是向人员展示了一种全新的精神面貌,也让人们对数字化技术有了更深入的认识。
(二)档案服务方面在传统的档案馆管理工作中,一切都是以档案馆为中心,用户们获取档案信息资源的主要方式是通过到档案馆中进行查找,直接有现场的档案人员为其提供服务。
而这种物理差距也恰恰成为了影响用户利用档案的关键性因素。
然而,在现代数字档案馆中,所有的服务活动都是围绕着用户而开展的,一切都是将用户作为中心点出发,在大量的档案信息资源中,数字档案馆能够及时为用户们寻找到所需的信息资源,解决用户的实际需求。
因此,数字档案馆是以用户需求为主要建设目标,以此来吸引更多的用户,逐步提高档案信息资源的利用率,使其能够充分发挥自身的重要价值。
(三)档案的安全保护方面传统档案馆在安全管理方面,主要是对档案实体进行保护,具体是对档案存放环境的温度、湿度等方面进行了严格的控制。
而数字档案馆中的档案信息是一种电子载体的形式,其是与档案内容相互分离的,数字档案馆重点是对档案载体进行保护的同时,也对档案信息能容进行了加密,以此来防止网络病毒和黑客的恶意攻击破坏。
并且,数字档案馆建立了完善的安全防护系统,充分保障了档案信息资源的安全、完整性。
同时通过技术信息技术、网络技术等大量科学技术的优势,大大提高了档案管理工作效率,也为国档案事业开辟了崭的发展格局。
(四)馆藏方面21世纪的数字档案馆的馆藏可以看作由实物馆藏(传统的纸张、磁介质档案)和虚拟馆藏(存在于本馆及互联网上有权访问的多媒体档案信息数据库)两部分组成。
实物馆藏经过数字化后,被全文存贮在本馆,转化成为能进行全文检索的虚拟馆藏。
数字档案馆的馆藏不仅包括固有的纸质、录音、录像、照片等非数字化文献,还将这些数字化的信息存贮在本地的海量多媒体数据库中,而且对网络中有权访问的信息进行标记和索引,丰富了自己的馆藏,以便于利用者的网上检索。
二、数字档案馆与传统档案馆的联系(一)数字档案馆是传统档案馆为解决新的问题而发展起来传统档案馆在自身发展过程中,面对新生事物、新兴科技的挑战,出现了许多难以解决的问题。
主要有几个方面:(1)档案实体的增多及新型载体档案的增加,如电子文件的管理、检索、利用;
(2)非纸质载体档案(如录像、录音等档案)的管理、检索、利用;
(3)人们对信息的传播、接收方式的改变及需求的增加等等。
传统档案馆不能再用以前的方法、技术来完全解决这些问题,它不得不依赖于先进的管理思想、科学技术来发展自己,从最初的馆藏资源数字化利用服务,到网络化查询检索,到最终实现数字档案馆。
(二)二者始终是信息传递的中间角色可以说,无论是信息技术多么迅速的发展,还是网路结构如此复杂化,档案馆从始至终都在担任着信息传递者的角色,主要是围绕着信息、档案馆、用户这三者之间进行循环开展的。
其中,档案馆并不是信息的生产地,其主要的功能是对信息进行保管。
而传统的档案馆能够很好的保护档案信息,并提供给用户们使用。
数字档案馆亦是如此,它采集了海量的档案信息资源,以此来为用户提供更优质的服务,所有的工作流程基本与传统档案馆保持一致,都需要进行档案信息的采集、归纳、整理、保管和利用。
但是,数字档案馆最大的优点是可以对这种传递结构进行更深入的优化与完善,确保档案效益得到充分的发挥。
(三)数字档案馆不会脱离传统档案馆的实体而单独存在存在于虚拟的网络空间,脱离具体的档案馆实体的数字档案馆是理想化的。
传统档案馆的馆藏经验做法都为数字档案馆所应用,不会在数字档案馆时代被彻底抛弃。
以前的纸质档案随着年代的逝去而愈发珍贵,它是数字档案馆的镇馆之宝,即使以数字化方式存在,它的实体也会得到妥善保管。
三、结束语无论是传统档案馆,还是数字档案馆,都有着自己的优点和缺点。
这两者之间是相互影响、相互制约的联系。
因此,要正确看待数字档案馆和传统档案馆,从而促使它们和谐统一的发展,继续为国档案事业的长远发展做出巨大的贡献。