邮编:100000
联系电话:13949083182
查档咨询:13949083182
服务业务:13949083182
欢迎来到档案界!2024年11月23日
档案数字化加工
数字档案馆差错率不得超过0.05%,否则将被视为不合格。
The error rate of the digital archives must not exceed 0.05%, otherwise it will be considered as unqualified.
文印工作管理规定
为了压缩公文数量,规范公文管理,同时使学校办公室文印工作进一步规范化、制度化、科学化,提高文印工作的效率和质量,本着勤俭节约的原则,特制定本规定。
一、校文印室的工作职责范围
(一)材料打印范围
.校党委、校行政颁发的文件;
.各单位(部门)以校党委、校行政名义颁发的文件;
.以学校名义上报的汇报材料和对外交流材料;
.全校性工作会议的主题报告及会务材料(不含会议上的交流材料);
.其它由学校办公室安排打印的材料。
各单位(部门)因工作需要确需打印的文字材料,经学校办公室审核后予以打印。凡配置计算机的单位(部门)材料打印由本单位、部门在其微机上自行输入,然后持电子文稿到文印室转换印制。
各单位(部门)的度计划、总结、会议通知、报告、各类表格、报表等材料不属于文印室打印范围,若确有需要在文印室打印的,经学校办公室批准后,按照有关规定适当收取费用。
(二)复印范围
.按照保密规定由有关校领导批准复印的材料;
.必须由学校档案馆存档留查的材料;
.其它由学校办公室安排复印的材料。
各种学术会、交流会、研讨会会务材料以及不在以上复印范围内的材料,各单位、部门及个人要求复印,按学校规定适当收费。
二、学校文印室文印工作规范
(一)材料打印规范
.凡需要打印的材料由单位(部门)负责人签字,学校办公室审核,公文还需主管校领导签发后,由学校办公室秘书交文印室打印,文印室不直接承接各单位、部门送来的打印材料。
.交文印室的打印件,文印室根据文稿先后及文件性质急缓程度安排打印顺序。各单位(部门)不得无故要求提前打印,若有特殊情况须与学校办公室秘书协商安排。
.须打印的文字材料,应做到书写工整,标点准确,文字精炼。
.校对工作由拟稿单位(部门)负责,未经签发同意,校对人离开原稿另加文字时,打字员不予修改。校对人应本着严肃认真的态度仔细校对,以免造成重印浪费。
.打印要做到准确、清晰、整洁、及时。一稿打印差错率不得超过%,定稿的差错率不得超过%。
.复印由学校办公室专人负责,其它人员未经许可不得私自复印。
(二)打印员要严格遵守保密制度、有密级或需保密的文件材料,经办该项工作的打字、校对、复印人员应注意做好保密工作。
张 茜 袁慧香
(全国地质资料馆)
摘 要 20 世纪 90 年代逐步兴起的射频识别 RFID 技术是一种新型的自动识别技术,它极大地推动了信息社会的发展,受到了社会各界的广泛重视与运用。近年来,档案部门也在积极探索、应用 RFID 技术来提高档案管理水平,并已取得了良好的效果和经验。本文将在系统介绍 RFID 技术及其在档案管理应用的基础上,提出 RFID 技术在馆藏地质资料管理信息化方面的促进作用。
关键词 RFID 技术 地质资料管理 信息化
地质资料既是地质工作的主要表现形式,又是地质工作服务社会的主要载体,它是国家重要的档案资料。地质资料安全与社会化服务是地质资料管理工作永恒的主题。特别是《国务院关于加强地质工作的决定》提出的“建立健全地质资料信息共享和社会化服务体系,加快利用现代信息技术,建设国家地质资料数据中心”,对地质资料管理工作提出了更高的要求。在地质资料数量、种类及其信息量迅速膨胀的背景下,如何有效利用现代信息技术,在确保国家地质资料安全的前提下,做好地质资料社会化服务,已经成为当前地质资料管理工作的重中之重。
RFID 技术的应用始于二战时期军方库房管理系统。20 世纪 90 年代以来,RFID 被广泛应用于工业自动化、商业自动化、交通运输控制管理、物流配送及仓储管理、文件档案追踪管理、图书馆管理等众多领域。近年来,RFID 技术也已成为国内外档案界的热门研究议题,在档案实体安全管理等方面应用也已取得较理想的效果。被人们看做可以逐步替代条形码的“电子标签”,将成为 21 世纪最具前途的应用技术之一。在此背景下,我们将对 RFID 技术及其应用做一下介绍,分析 RFID 技术在地质资料管理方面的应用优势。
1 RFID 技术概述
射频识别(Radio Frequency Identification RFID)是一种非接触式自动识别技术,利用射频信号及其空间耦合和传输特性实现对静止或移动物体的自动识别及数据交换[1]。RFID 系统最明显特征就是非接触识别,它识别的距离可从几十厘米到几米甚至更远。俗称电子标签、智能标签、射频标签、射频卡、应答器等。
通常,RFID 系统由 RFID 标签、RFID 读写器、天线、计算机管理系统组成。
电子标签(Tag,即射频卡):由耦合元件、芯片与内置天线组成,用于存储承载物品信息,可以与射频天线间进行通信。电子标签被附着在被识别的物体表面,电子标签内保存有唯一的约定格式的电子编码,标签芯片内存储的信息能够进行随时读取或改写。此外,它还具有防水、防磁、耐高温、体积小、寿命长、容量大,数据可加密存储、批量读取等优势。
读写器(Reader):又称作阅读器,它是一种负责读取或改写电子便签的设备。它利用射频信号对标签进行识别并与计算机数据管理系统共同完成对电子标签的识别、操作和控制。阅读器包括手持阅读器和固定阅读器两种。
天线(Antenna):可以释放无线电信号激发 RFID 标签,并对它进行读写操作,在标签与阅读器间传递射频信号。它可以内置在阅读器上,成为手持设备和大型固定设备;也可以通过同轴电缆与读写器天线接口相连。
管理系统(M anagement system):计算机管理系统与读写器相连,主要完成数据信息存储、管理和控制。
RFID 的工作原理:阅读器通过发射天线发送一定频率的射频查询信号,当电子标签进入发射天线工作区域时产生感应电流,标签获得能量被激活并自动生成编码信息,通过卡内置发送天线发送出去;系统接受天线接收到从射频卡发送来的载波信号,经过天线调节器传送到阅读器,阅读器对接收的信号进行调解和解码,然后通过电脑主机送到后台管理系统进行相应处理。
可见,RFID技术是集编码、载体、识别与通信等多种技术于一体的综合技术,是一种先进的识别技术。它具有条形码识别技术所无法比拟的优势,具有广阔的发展前景。
2 RFID 技术在档案管理中的应用背景
继绍兴市档案局在全国档案系统中率先成功应用 RFID 技术[2]后,RFID 技术先后被引入海洋、电影、房地产、高校、实物等档案管理中,在实体档案安全管理中取得了较好的应用效果,对海洋实物档案管理起到了很好的促进作用,具体表现在以下几个方面。
2.1 RFID 技术在实体档案安全管理中的应用
绍兴市档案馆是 RFID 技术成功运用于实体档案安全管理的具有代表性的档案馆。作为国家一级档案馆,绍兴市档案馆档案管理信息化、智能化程度已经达到了一定的水平。但在馆藏实体档案达到 42 万卷、特藏珍贵档案逐渐增加,档案实体管理安全的需求更为突出的背景下,绍兴馆积极探索并应用 RFID 技术对馆藏实体档案进行智能化安全管理,充分开发利用了 UHF RFID 技术在实时定位跟踪、EAS、数据安全、多标签读取等多个方面的功能;通过使用电子标签、智能检索和网络技术,为档案保管利用量身订制了一套集成 RFID 等多项先进技术为一体的安全智能化管理解决方案。整个智能化管理贯穿了档案入库、跟踪、查询、调档、清查、统计的全过程,实现了高效盘库、错位查找、自动门禁、档案实物定位跟踪、各类数据汇总统计等功能。该管理系统已成功应用于绍兴市档案馆特藏库特藏档案,取得了较好的实际应用效果[2]。
2.2 RFID 技术在海洋实物档案安全管理中的应用
在数字档案馆的建设中,档案管理软件可将档案目录与扫描技术处理后的文本文件进行关联,解决了档案的快速检索与异地查阅,但并没有改变档案的信息化管理,特别是海洋实物的档案管理。RFID 技术的应用极大地推进了海洋实物档案信息化建设。
(1)档案利用者只要手持阅读器,就可详细了解面前的实物档案信息(如实物档案海底火山石,可拷入打捞经纬度、打捞深度甚至图片等),根据需要进行利用。通过 RFID 标签的自行处理能力与档案应用系统的结合,档案利用者可以通过搜索引擎对档案的信息进行搜索,并且可以辅助编研,提高档案的利用率。
(2)通过 RFID 技术实现了对海洋档案的定位追踪,以最快的速度为用户提供档案实体。对档案出库、搬运、借阅、归仓、上架等环节的实时监控,不仅提高自动化程度,而且降低差错率,增加档案利用的安全性,实现档案精确盘点和统计。
(3)通过 RFID 技术对涉及国家机密的海洋档案采取了专门管理,即只有合法操作人员通过读写器来对提取的档案进行相应的查阅与利用,提高了档案保管与利用的保密度[3]。
3 RFID 技术在馆藏地质资料管理中的作用
基于 RFID 技术自身优良的技术特性及其在档案管理中的成功应用,RFID 技术对地质资料管理信息化具有极大的促进作用。RFID 技术在馆藏地质资料管理中的应用可实现以下这些功能。
3.1 馆藏地质资料实体信息统一管理
利用 RFID 标签可存储信息和容量大且唯一编码的特性,阅读器根据附着在档案盒的不同标签所发出的信息提示,自动将各档资料的案卷级信息(档号、题目、密级、形成时间、形成单位、盒数、件数)与文件级信息、破损情况等重要资料信息,按照统一的格式写入标签中。对于新入库的资料,内嵌的库位管理系统可根据库位的实际情况自动为其分配库位,并配合阅读器将此库位信息添加到档案盒(袋)的电子标签中。此外,配合阅读器 RFID 地质资料实体管理系统,就可以实现对馆藏地质资料实体信息查询、修改、汇总与打印等。
3.2 馆藏地质资料利用的安全管理
基于RFID技术库位管理系统可以实现对地质资料的定位检索,便于调档员准确找到所需资料的位置;可以对归错架的资料进行报警提示,避免归错架的现象发生。调档员基于 RFID 技术出入库管理系统,出库资料经过安装在库房大门的固定阅读器时,系统自动弹出出库菜单。再次核实出库资料信息,确认无误后出库,系统自动完成调档员调取资料的登记;当资料重新入库时,经过固定读写器时,系统会自动核实归还资料与调出资料信息是否相符,如果相符,系统则直接调出调档员资料,完成回库登记;此外,借助 RFID 技术对涉密资料、珍贵资料、破损严重、不便利用的资料进行特殊管理,经过授权后方可出入库,否则进行报警提示。通过 RFID 技术运用,可提高馆藏地质资料利用的安全度。
3.3 馆藏地质资料盘点管理
传统的盘点,需要将档案盒一件件地手工清点。RFID 读写器具备穿透性阅读功能,一次可以读取多个 RFID 标签。当我们点库时,只需手持读写器,对摆放的档案进行扫描阅读即可,可以大大提高点库的工作效率。
3.4 馆藏库房安全管理
馆藏库房管理是一项融档案馆藏实体管理、出入库管理、盘点管理、库房温湿度控制、库房“七防”等为一体的复杂性的工作。为了避免人工疏漏而带来安全隐患,基于 RFID 技术,库房管理系统可实现对档案的实时监控,快速盘点、检索定位、出入库监管、错架预警提示;可以在网络终端上实施查看档案库房当前环境状态,如温湿度情况、烟火预警情况,当发生异常时实时通过应急通知平台通知对应负责人,实现智能化监管。
4 结语
RFID 技术虽然有很多优点,但它也存在技术标准不统一、成本高等方面技术与应用上的问题,必将对它在档案管理中推广的进度产生一些影响,世界各国及科研机构正投入大量物力财力解决这些问题。但整体看来,射频设别 FRID 技术在未来的发展具有广阔的发展与应用前景。在强大的市场导向下,相信要克服 FRID 的种种隐忧,指日可待。RFID 技术的应用必将使档案管理趋于简单化、自动化、有序化和科学化,将促进整个档案管理信息化水平的提高。
参 考 文 献
[1]Grace Liang . 无线射频技术识别技术和物联网的发展与应用 [J]. 金卡工程,2004(10):40 ~ 47.
[2] 严青云 . RFID 技术:档案实体安全管理的探索与实践——绍兴市档案馆应用实例 [J]. 浙江档案,2011,11:40 ~ 41.
[3] 中国 RFID 发展趋势分析 [J]. China Academic Journal ElectronicPublishing House. 1994 - 2007:1 ~ 3.
[4] 孙浩,刘志芬 . RFID 技术在海洋档案中的应用 [J]. 中国档案,2009(2):54 ~ 56.
导语:档案是反映各个历史时期、历史面貌的真实记录。档案工作是学校教育事业重要的组成部分。一个学校的发展轨迹、文化积淀、管理水平、办学特色,常常可以从档案中反映出来。
一、深化档案管理意识
现阶段,我国许多高职学校对档案不够重视,认为档案管理可有可无。殊不知学校档案是高校人才培养工作水平评估的基础和依据,它是历史的记录、知识的载体。学校的档案管理是与学校各个部门、各个层面的各项工作分不开的,因此档案的管理工作有很强的的重要性和必要性,深化档案管理意识的具体工作如下。
1.学校要组织全员培训,定期或不定期学习学校档案相关知识,强化全体教职员工档案意识,理解档案对其作用,如此才能自觉配合档案管理人员做好档案的管理工作。如教学档案关乎学校教学实践、教学管理、教学研究、教学改革各项活动;基建档案贯穿于基建管理和基建工程项目等活动之中;
科研档案与科研活动有关(包括课题立项和研究、成果鉴定、项目推广等),另外,学生管理档案、声像载体档案更是关乎学生素质教育和毕业情况、高职学校校园建设等方方面面,这些对个人和学校的发展有着重要的价值,是高职学校持续发展的基础。
2.学校领导要站在科学发展观的思想高度,在档案管理中起带头作用,做到以身示范,做到对学校各个方面的档案材料进行信息化、网络化,真正把档案管理工作纳入学校工作的重要议事日程、学校总体规划以及管理制度之中,并且要经常在会议活动中广为宣传《档案法》,才能有助于形成人人重视和维护学校档案工作的良好风气。
二、培养高素质档案管理人才队伍
学校档案工作是一项基础性管理工作,虽是“配角工作”,却至关重要,档案管理人员素质高低关乎档案管理工作的质量。只有进一步提高学校专兼职档案人员的素质,才能为高职学校做好档案管理工作提供人才保障。
优秀的档案工作人员虽是“为他人作嫁衣”,但必须具备良好的政治素质、业务素质、知识素质,这三种素质缺一不可。
1.政治素质,即档案工作人员要用科学发展观指导自己的工作,做到爱岗敬业、忠于职守、实事求是。
2.业务素质,这是档案工作人员做好档案管理工作的关键。档案管理人员要精通计算机网络技术、多媒体技术以及具备信息处理和分析能力,才能更好地适应知识化、信息化迅速发展下档案信息繁多的新形势。
3.知识素质。档案工作实质上是专业性、服务性很强的工作,因此档案人员还要掌握相应的科学文化知识,以适应档案工作发展与需要。
为了培养高素质档案管理人才队伍,一方面,学校必须要强化档案管理人员的在职教育、继续教育,制定相应的培训计划。另一方面,学校要完善人才选拔、聘用工作,选用那些对档案专业知识熟悉和专业技能过硬的人员,做到专职专用,使“死档案”变成有生命力的“活档案”,最终促进学校档案工作不断向前发展。
三、构建档案管理制度和信息系统
在计算机现代化日益普及的今天,为了科学管理档案,还需要建立相关制度和信息系统,这是档案工作逐步实现规范化、科学化、智能化管理的有力措施和保证。
1.规范档案管理工作制度,建立健全档案工作管理体制
例如,有的学校制定了《档案人员工作职责》《档案保密制度》《档案室收集制度》《档案室安全消防制度》《全宗档案分类大纲》等一系列与档案工作相关的'各项制度,使学校的档案工作有章可循。再如,为了促使各科室人员重视档案工作,有的学校将档案工作做得优秀与否纳入年终评优选先的依据,通过这一制度,有效促使学校各科室人员认真研究、落实档案工作。
2.构建档案管理信息系统,这是快速开发教学档案信息资源的有效途径
现如今,学校档案的载体由纸质档案为主逐渐转变为磁盘、光盘、缩微等新型载体共存的局面,已经发生了巨大的变化。并且,随着高职学校的扩招,档案种类多、时间跨度大、形式多样,一定程度上为档案管理工作带来难度和新的挑战,因此,学校要尽快构建档案管理信息系统,使档案管理朝着信息化的方向发展,为档案管理规范化、科学化、现代化提供有力的技术保证,最终有助于学校档案管理水平的整体提升。
四、挖掘学校档案的服务潜能,保障资源利用
学校档案好比一座资源库,其管理的初衷和归宿就是更好地为学校服务。目前,许多高职学校档案工作者还存在“重管轻用”的观念,缺乏“服务第一”的意识,因此,只有挖掘学校档案的服务潜能,积极探索档案资源开发和利用的新思路、新方法,才能保障档案这种信息产品得到真正发挥作用。
为了充分发挥档案的服务作用,档案管理人员要对档案资源进行深层开发,更好地将档案信息传递校领导、各处室及教研室教师等,可通过完善检索工具、开通校园网站等多个途径和角度,方便教职工对所需档案资料的查寻,由此丰富了服务手段,真正体现档案工作的价值,更好地为教育、教学服务。
另外,档案管理人员要善于利用大量的本校独有的原始信息,并对这些信息进行有针对性的整理,使其形成实用性和权威性较强的教学档案信息,更好地提供给学校领导和有关部门,也为社会各界了解认识学校建立了“绿色窗口”。
综上所述,档案管理是学校管理工作和教育事业极其重要的组成部分,起着承前启后的作用。高职学校可以采取深化档案管理意识、培养高素质档案管理人才队伍、构建档案管理制度和信息系统以及挖掘学校档案的服务潜能等具体措施,做好档案管理这项系统工程。
郭慧锦 贾国锋 马飞飞 张茜
(全国地质资料馆)
摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。
关键词 双层PDF OCR识别率
当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全国已有20多个省级资料馆完成馆藏资料的数字化工作,全国地质资料馆的成果地质资料数字化工作也接近尾声,所形成的海量数据已成为地质资料信息社会化服务重要数据资源。此类数字化数据是静态的,有利于阅览使用,但无法进行全文检索,也不利于进一步分析处理。因此,在现有数据的基础上,开展OCR识别,使之转化成双PDF文件,实现静态向动态的转变,建立全文数据库,完成对地质资料的全文信息的检索,成为地质资料馆藏机构推进资料数字化工作。
1 关于双层 PDF与OCR技术
双层PDF是在扫描数据的基础上通过OCR识别生成的可检索的PDF文件,即上层是原始图像,下层是识别结果,且位置上下一一对应。双层PDF文件不仅可以100%保留原始版面效果,而且支持选择、复制、检索等功能,这样的PDF文件最后可以存储在光盘、硬盘或磁盘阵列中,并通过建立索引数据库进行科学的管理。
OCR(Optical Character Recognition),即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机网络飞速发展,信息电子化已经成为一个时代必然趋势。文字作为信息中最重要、最集中的载体,其电子化进程显得尤为重要。而OCR技术则是文字电子化过程中最重要的环节,它改变了传统的纸介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。
2 应用现状
PDF正在世界各国政府、金融财务、法律、工程技术、医疗等诸多部门获得广泛的应用,并已成为政府、学术部门等单位标准的现代化公文格式规范,所以PDF电子格式文档将是未来档案部门收藏的主体。而双层PDF的出现有效解决了识别成本和阅读利用的矛盾,是一种较有潜力的资源格式。国外的OCR技术应用相对成熟,包括IBM、Motorola、HP和Microsoft等世界性大都陆续展开了这方面的研究,在他们的产品中绑定了OCR技术。
如今,OCR技术在我国的应用也极为广泛。信息检索技术研究,即双层PDF检索技术研究,中国“863”计划在2008年以前已经开始对中文OCR、自动分词、自动摘要、自动搜索、自动定位进行了统一测试评测。在此基础上,国内逐步建立了以数字图书馆、数字档案馆、数字报刊、数字校园网等一系列数字化为基础的实施案例,例如新闻出版总署、外联部、共青团中央等机关文献全文数据库;《中国青年》75年、《新华文摘》20年等期刊全文数据库。国家图书馆早在1999年就成立了“国家图书馆文献数字化中心”,对各类馆藏文献进行数字化加工和OCR识别,在此基础上形成书目型书库、题录型数据库和全文型数据库三大类,逐渐成为我国网上信息资源的中心枢纽。
随着我国信息化建设全面普及,OCR技术的应用前景更加广阔,数字图书馆、数字档案馆、数字资料馆等概念的提出也使OCR在纸质档案数字化过程中越来越发挥其独特的作用,不仅节省了人力物力,更使档案信息资源的利用价值达到最大化,能够更好地服务于民。
3 数字化数据双层PDF转换的意义
3.1 是地质资料信息化建设的重要内容
随着社会信息化程度的提高,人们对信息资源的依赖程度也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切。数字化是信息化建设的重要内容,而信息化建设的核心是资源建设。资源建设包括三大任务:一是馆藏纸质资料的扫描数字化与目录数据库建设;二是电子文件的归档与管理;三是全文数据库和全文检索体系建设。根据各资料馆数字化工作进展,考虑到用户的利用需求,若要得到真正文本形态的电子信息,使资料数字化工作更加有效,更加彻底,最大限度拓宽用户利用面,就需要应用OCR技术进行扫描栅格文件的双层PDF转换,进而开展地质资料全文数据库建设和全文检索工作。
3.2 是地质资料实现全文检索与全文数据库建设的前提
实践证明,基于双层PDF文档的全文检索,有效地提高了查询利用效率。它通过对档案数据库的数据和双层PDF文档的Text层建立索引,查询时可以不访问数据库,有效减轻数据库和系统的压力。至少可以支持1000万级的数据,毫秒级的查询时间,每秒上千人的并发访问,从而实现大容量、高速度的目标,并且可以适应Linux和Windows平台,支持多种数据库接口。它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
3.3 是现代化数据中心标准化建设的前提
建设现代化的数据中心首先要实现电子文件存储结构标准化,即建立一个通用性强、应用广泛的电子文件信息存储和交换格式。基于PDF格式已经作为电子文件管理中电子文件长期保存格式的最新标准在国际上全面实施,且具有兼容性、原始记录性强,安全控制策略完善等优点,是电子文件长期保存的最佳选择。所以进行馆藏数字化数据PDF转换势在必行。
4 双层PDF转换方法
4.1 目前常见的双层PDF转换方法
目前国内双层PDF的转换技术已经相对成熟,从现有技术条件下来看,大体可分为以下3种:
4.1.1 软件转换
由目前市场上较流行的 Adobe Acrobat、ABBYY FineReader12(中英文识别)、Readiris Corporate 12(英文识别率高)、Foxit Phantom 5(可以单独显示文本层)、清华文通TH-OCR XP8(识别率较高)、汉王文本王5800(版面识别较好,纯中文识别率高)、尚书七号OCR等转换程序,可以经OCR识别处理后直接生成双层PDF文件,速度快,效率高。但识别率和纸质资料原件(如印刷方式、清晰度、纸张质量等)及操作人员技术水平成正比。如果纸质原件质量好,识别率相对就高;质量差,识别率就相对较低。
4.1.2 流程加工
根据相关技术要求,对图像进行全新的OCR识别流程加工处理,重新生成PDF文件,具有文字正确率高、文字定位准确等特点。这种方式相当于全流程化制作双层PDF文件,工作量大,耗时长,费用高。
4.1.3 识别重构
重新生成PDF文件,实现版面字体、字号、颜色的恢复和重构。文字正确率高,页面清晰,但和原版图差异较大,主要在图书方面应用较多。
4.2 地质资料双层PDF转换
全国馆于2011年开始在扫描数字化基础上开展双层PDF的转换试验工作,主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。由于地质资料不同于普通的文书档案,纸张样式和印刷方式多样,手写和老旧资料多,地层、数学等特殊符号多等特点,给OCR自动识别带来了困难,单一的软件识别并不能满足全文检索90%以上识别率的要求。
在转换试验基础上我们得到以下结论:
1)地质资料本身多种多样,实际的识别率主要受印刷质量、形成年代等因素影响,老旧资料、纸质质量差的资料识别率普遍较低;受执笔人书写习惯及书写清晰度的影响,手写文档的识别准确率一般在30%以下;油印文档识别准确率一般在50%以下;打印、铅印和胶印文档识别率较高,一般能达90%以上。无论在哪种类型的文档中,标点的识别率都很低,地层和数学符号及其他特殊符号的识别率几乎为零。
2)目前识别技术无法达到100%识别,必须根据实际需求对照纸质档案对初次识别结果进行人工校对才能满足全文检索需求。
3)地质资料扫描文件数量多、容量大,转换速度受计算机反应速度影响,大批量转换和识别需选择高配置计算机,且批量转换和人工识别耗时长,耗人工多,需专项经费支持开展工作。
4.3 OCR数字加工系统的引入与功能简介
经过对目前国内双层PDF转换方法的对比,结合地质资料情况复杂的特点,以及数据测试结果研究,建议地质资料的双层PDF转换主要采用软件识别和流程加工相结合的方法,即采用OCR数字加工系统,可以保证高效率、高质量地完成双层PDF转换。该系统主要包含以下几个主要流程:
图1 OCR数字加工系统示意图
1)图像处理。为提高识别率,对图像进行“消蓝去污”的处理,去掉图像上影响识别率的噪音,如麻点、下划线等,由图像质量控制程序自动监测图像处理质量。
2)版面分析。自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
3)识别。把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、中英文混排文字、表格,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
4)纵向校对。具有很强的查错纠错能力,是将一个或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
5)横向校对。是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不离的文字。
6)版面还原。将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。
7)数据入库。版面还原数字文档的保存。
4.4 提立OCR识别率的方法
利用OCR数字加工系统生成的双层PDF,文本层差错率最低可到万分之一,可呈现原版底纹和色彩风貌,可进行全文检索和复制引用,且检索信息可准确定位到字符,便于快速查找目标信息。为了减轻横向校对即人工校对工作量,提高工作效率,就要从根本上提高识别率。经过试验,以下几个方法可以提高栅格文件OCR识别率。
1)图像色彩设定。虽然灰度或彩色模式可以最大限度还原纸质资料原貌,是我们扫描数字化的首选,但是这两种色彩模式会增大影响识别率的背景噪音。若仅做文字识别及一般黑白插图选取,建议可将扫描程序的图像色彩设定设置为黑白,增大识别率。不过最终图像色彩的设定还要按照各类具体工作的规范要求来设置。
2)分辨率设置。我们都知道扫描分辨率设置越低,扫描速度越快,但同时也导致图像质量差,其文字识别准确率低。反之分辨率高,扫描速度慢,但文字识别准确率高。但这又不是绝对的,因为分辨率设置得太高后,纸张上的微小瑕疵也可能被认作标点符号或汉字等,文字识别准确率反而会有所降低。经反复测试,分辨率设为300dpi,是扫描速度及文字识别准确率的最佳平衡点。
3)图像处理。这里图像处理是指扫描输出图像前的倾斜校正和去污等。倾斜校正是为了调整文字方向使之正向,这样才能对OCR识别有所帮助。
双层PDF转换完成以后,在此基础上可以实现资料管理系统与PDF文件的挂接,对资料数据内容及其元数据等相关信息建立联系并形成数据包;然后通过调用全文数据库原数据创建索引文件,最后实现全文检索。通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅度提高地质资料的利用价值,促进地质资料编研工作,为地质资料信息聚合的研究和深层次服务奠定了基础。
参考文献
[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011(1).
[2]徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).
[3]张旋.OCR技术研究进展及前瞻[J].科学技术,2010(4).
[4]郭金光.双层PDF技术及在档案数字化中的应用[J].新观察,2013(1).
[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2).
【编者按】:档案学就是探索档案、档案工作和档案事业的发展规律,研究档案信息资源的管理、开发的理论、原则与方法的学科。精品学习网档案学栏目为您提供档案学范文参考,以及档案学写作指导和格式排版要求,解决您在写作中的难题。
浅谈数据库在档案管理中的应用
[摘要]本文分析了数据库在档案管理中应用的现状与不足,讨论了利用数据库技术对档案进行管理的实现和应用,提出了有建设性的对策和建议,提出了自己的思考。
[关键词]数据库 档案管理 应用
信息化是当今世界发展的大趋势,是推动经济社会发展和变革的重要力量。随着我国各单位业务的急速发展,单纯的手工记录方式已无法及时有效地对档案材料进行收集、整理、立卷、归档和管理。而计算机技术在近十年来的迅猛发展,使得各单位利用计算机对档案进行辅助管理成为可能。档案信息化是在档案管理中全面应用现代信息技术,对档案信息资源进行开发、管理和提供利用等服务,主要包括档案资源数字化和网络化、档案信息管理和利用提供的一体化、档案信息的高度共享等。
《全国档案信息化建设实施纲要》规定了我国近期档案工作发展目标,《国家信息化发展战略(2006年—2020年)》的审议通过,为档案信息化提供了有力保障。计算机的介入打破了传统的管理模式,使得原本松散、庞杂的档案管理迈入了集中统一、信息自动化的新领域。虽然,利用计算机辅助管理档案能大量减轻管理工作的强度、提高管理工作的效率,并能减少管理工作的失误,但是由于计算机技术,尤其是数据库的发展是一个逐步开发、完善的过程,同时使用该技术的工作人员也有逐步学习、应用的阶段,因此计算机辅助管理各单位档案中也存在着不少需要解决的问题。
一、数据库在档案管理中应用的现状与不足
随着各单位业务的不断扩大,传统的手工管理档案的方法,已经不能适应成倍膨胀的档案数量,也无法满足社会对档案的巨大利用需求,利用档案管理软件进行计算机管理是提高各单位档案服务水平的必由之路。将手工管理的纸质档案转换为数字信息进入网络,即从档案的实态转换到虚拟态,档案信息与载体分离,在这个意义上说网络传递的仅是档案信息,用户得到的仅是复制品,而非档案原件。使用数据库计算机辅助管理档案不同于以往对纸质文档进行收集、整理、立卷、归档、管理等工作,管理人员除了需要具备档案管理业务素质外,还需要对计算机及数据库应用具备一定的认识。有相当多的档案管理工作人员知识结构老化,缺乏计算机技术知识,不能准确、规范地录入基本信息,导致基本信息错误、缺失甚至张冠李戴。与此同时,由于一些档案管理软件在建立时仅考虑当时的数据量和用户需求,数据库结构中只有比较有限的几个数据字段,数据库容量较小,不能导出通用格式的数据。当数据量成倍增加,数据库运行的速度就相应减慢,使工作效率被迫降低。
二、数据库在档案管理中的应用建议
要全面提升档案数据库系统的安全水平是个艰难的过程,涉及方面很多,需要管理部门投入人量的人力物力。有些方面,例如,设备的可靠性,火灾预防等方面,主要涉及投入力度的问题:防止人为的有意识破坏方面,如泄密监取密码口令、计算机病毒、黑客等,主要依靠管理制度和计算机安全专项技术。但在数据库的一致性、完整性问题上,档案管理部门自身起着决定性作用。主要应关注以下几点:
1.采用科学的数据库开发方式
早期使用结构化方法开发的档案管理软件,其稳定性、可修改性和可重用性都比较差,用户需求的变化往往造成系统结构的较大变化,并且需要花费很大代价才能实现这种变化。新的档案管理软件可采用面向对象的程序设计方法,商定一种或多种数据转换方式,以便数据能够在不同软件之间实现信息共享。考虑到信息网络化的需要,档案管理软件可具备通过网页进行数据查询、交换的功能。同时还应考虑数据量增加的速度和数据库技术发展的趋势,以便今后对数据库进行升级或更新换代。对于管理条例的各种文件可采用数码照相或者文本方式进行保存整理,通过公文类程序或网页进行交换及查询。
2.确保档案的保密性和安全性
单位档案的保密性和安全性是十分令人关注的问题。档案一旦进入计算机网络系统,网络的安全将直接关系到档案的保密性。对于计算机网络与电子文件所存在的技术上的弱点只能靠技术上的发展去解决。作为计算机网络的使用者,电子文件的形成者和保管者都有责任关注信息技术的最新发展,也有责任采用诸如防火墙、密码技术、网关、虚拟保险箱、电子印章、电子水印等最先进信息技术解决上述问题。同时通过建立符合科研档案技术发展规律的各种工作规范来保障电子文件的安全。只要工作规范,技术到位,这一科研档案工作的主要障碍是完全可以解决与克服的。
加强网络监控,及时备份数据。网络中存在的安全性问题是对档案管理系统安全性最大的威胁。目前有多种网络安全策略,各种安全策略必须相互配合才能真正起到保护作用,其中网络的访问控制可以说是保证网络安全最重要的核心策略,它的主要任务是保证网络资源不被非法使用和访问,它也是维护网络系统安全、保护网络资源的重要手段。另外,要注意建立计算机检索查询和提供档案信息的主要服务方式,为使用者提供网状信息组织结构,使用户可以根据自己的意志沿着信息之间的关系链进行浏览,而不是按照规定途径进行检索和查询档案信息。
3.关注计算机病毒的新变化
当档案信息系统扩展到局域网甚至互联网时,计算机病毒成为不可回避的危害,而且新型病毒具有许多网络时代的新特征,例如,病毒传播主要通过网络途径扩散,病毒与计算机入侵关系密切,Windows操作系统的网络功能是常见的攻击点,等等,档案工作者应当时刻注意新的技术变化,制定针对性策略,并从管理制度、技术监督、后备保护、应急措施等多方面综合防范。
4.加强法制建设
保障档案信息安全单纯依靠档案管理部门自身的努力是不够的,还需要有相关法律、规章制度的约束。因此,档案信息安全与其它社会问题一样,是一个复杂的综合性较强的问题,各个环节必须紧密衔接才能发挥作用。立法在保障档案信息安全性中的作用是不言而喻的,缺乏法律支持的信息安全保障是纸上谈兵。我国已将信息安全列入国家信息化发展战略,辽宁省早在1998年就通过了《辽宁省计算机信息系统安全管理条例)),这些都将在档案信息安全保障中发挥重要作用,但随着新问题的出现还需要更完善的、更专业的法律、法规出台。
参考文献:
[1]张姝,韩振英.计算机在学籍档案管理中的应用[J].洛阳工业高等专科学校学报,1998,(4).
[2]刘淑芬.计算机网络技术与学校档案管理[J].学校档案,1999,(1):23-25.
[3]徐志敏.计算机技术对档案工作的影响[J].办公室业务,2000,(3):32-33.
档案数据库建设中存在的问题及解决思路
钱毅
摘要:档案数据库是档案信息资源管理的核心工具,目前我国档案数据库的建设和利用状况还存在不少问题。作者首先解析了档案数据库的概念,指出应当从档案业务需求的角度去考察数据库的功能,并分析了档案实践的发展导致了档案数据库内容变化的几大因素。在档案建设过程中存在的问题包括缺乏有效统筹规划、数据库定位不准确、标准规范缺失、数据质量不高等。要解决这些问题,作者提出应当加强档案数据库规划管理、完善标准规范、建立健全质量控制体系、培养人才队伍等措施。
关键词:档案数据库 概念 问题 思路
数据库技术是20世纪60年代末发展起来的一门信息管理技术,是公认的信息资源开发、管理和服务的核心手段。目前数据库的建设规模、信息量大小和使用频率已经成为衡量一个国家信息化水平和综合国力的重要尺度。在我国国家和地方各级的档案信息化规划中,档案数据库作为档案信息资源管理的核心工具也都得到了广泛的重视。但档案界一直存在着如何盘活档案资源、提高利用效率等问题。应该说,拥有先进的数据组织技术和灵活可靠管理手段的数据库技术理论上可以从容面对这些挑战,为档案信息化搭建一个坚实的平台。事实上几乎所有的档案信息管理系统的中心都由档案数据库来担当,无论其形式是档案辅助管理系统还是所谓的数字档案馆。但档案数据库的建设和利用状况仍然不容乐观,还存在着数据结构封闭、数据质量不高,档案信息资源尚未完全走出信息孤岛的状态。笔者拟从对档案数据库的概念、档案数据库的应用现状及建设思路几个方面来分析这些问题。
一、档案数据库概念解析
档案数据库的建设在我国已经有20余年的历史,但其理论发展却并不充分。笔者通过期刊网()进行查阅,在1994~2005年间查询到篇名中包含“档案数据库”的文章仅有28篇①,内容多局限在实际工作总结的层次上,对档案数据库的概念描述和理论挖掘相对较少。
通过文献调研,笔者发现早在1987年孙淑扬就指出“档案数据库属于文献数据库,是档案自动化的重要内容,它是经过整理组织以机读形式出现的档案信息集合。②”洪漪编著的《档案信息组织与检索》中认为“机读档案数据库,简称档案数据库,是以一定的组织方式存储在一起的机读档案数据的集合。这些数据包括档案题名、责任者、来源、页码、分类号、主题词、摘要等,少数包含档案全文。③”杨公之主编的《档案信息化建设实务》一书认为“档案数据库,从广义的角度讲,就是以特定方式组织起来的档案数据集合。具体地讲,就是为了满足多个用户多种应用需要,按照一定的数据模型将本单位所保管的档案信息存贮在计算机中以备使用的数据形式。④”
笔者无意为档案数据库给出一个确切的定义,因为作为支撑点的“档案”与“数据库”在实际应用中本身就是发散性很强的概念,而且还在不断发展变化之中,上述定义都符合其各自特定的信息背景,以致档案数据库在不同阶段的发展中出现了许多称谓,如机读目录数据库、索引数据库,照片档案数据库、全文数据库、多媒体档案数据库等等。因此研究档案数据库,需要综合把握数据库和档案实践的发展,获得对档案数据库的相对完整的认识。
在研究数据库时,除了掌握其先进的管理手段和操作方法外,更重要的是要立足档案信息资源的特点,按照需求引导的原则关注数据库中可以“为我所用”的部分,而不能片面追求数据库功能而忽视基本的档案需求。比如为了描述日益丰富的档案数据类型,我们要求数据库具有完备的数据类型能够表达音频、视频、全文等信息类型;为了加强档案数据质量控制,需要重点关注数据库的完整性管理机制;为了保证档案数据的安全,需要灵活应用数据库的视图功能、权限管理以及加密机制等。此外,数据库提供的共享交换、格式转换、数据仓库等核心功能可以为档案数据库提升管理水平和管理层次都提供技术保障。
同时,我们还要关注档案实践活动的变化,关注这些变化可能对档案数据库带来的影响。笔者认为影响档案数据库内容的主要因素有如下三个方面。
1.档案实体管理。在近年的档案管理活动中出现了许多新情况,比如2000年出台的《归档文件整理规则》允许在文书档案实体管理活动中取消“卷”的概念,这直接影响到档案数据库是否还需要“卷”这一级逻辑层次,从而影响相关表的数据结构。信息记录技术的发展引进了许多新型载体,目前纸张、照片、胶片、缩微胶片、硬盘、软盘、磁带、各类光盘、图纸等共存一室并不鲜见,不同类型的载体需要有不同的数据表来进行管理,档案信息化规划中还要求将这些载体的信息通过各种方式数字化后进入计算机系统,这也极大地丰富了档案数据库的内容。此外,在档案信息利用环节,用户全文和多媒体信息检索需求也会促进档案数据库的数据类型的拓展。
2.档案数据库设计活动。在多数情况下,档案数据库系统并不只是纯粹档案数据的集合,还包括档案管理活动中的其他信息,这些信息可以在数据库设计过程中被纳入管理。比如,在使用数据流图等工具进行数据库需求分析的时候,可以将许多业务流程方面的管理信息纳入数据字典;数据库的概念设计阶段经常使用的ER模型(Entity-Relation Model)要求仔细分析档案管理域中各实体及其之间的联系,并据此建立档案数据库模式,通过这种设计方法得到的数据库通常还包括一些管理实体,比如包括各类人员库、标准库、组织机构表、保管期限表、人员权限表、库房信息等,甚至包括档案借阅者信息,而其中相当一部分不属于档案本体数据所包含的范围。
3.应用环境。不同的机构具有不同的应用环境,像档案馆与一般业务部门的应用环境就有很大差别,它们对于档案数据具有不同的管理要求。比如在信息集中管理应用环境中,为了管理方便,往往将档案与资料、期刊、报纸、图书等大量的非档案成分进行集中管理;文档一体化环境则将文件与档案数据共存一库,彼此依存,或者干脆就是合而为一;电子文件管理应用环境则根据前端控制原则,要求电子档案数据库的建设不能采用事后建库的方式,而必须深入到文件形成阶段,收集电子文件生命周期的完整信息。因此可以看出,不同应用环境下建立的档案数据库的内容范围存在较大的差异。
通过简要分析档案数据库概念的内涵及其变化,笔者认为对于档案数据库的理解不能一刀切,而应该立足档案数据库建设单位的实际环境和系统需求,将包括档案实体信息、管理信息、应用环境信息在内的各种类型数据按照特定数据模型进行组织的数据集合,并以此为据来考察目前我国档案数据库存在的一些问题。
二、档案数据库建设中存在的问题
在档案信息系统的建设过程中,软硬件设施可以通过购买、引进而获得,但一个行业或者部门的信息资源是买不来的,只能依靠自己建设。档案数据库作为档案信息资源采集、处理、存储和传输中心,在档案信息资源中占有举足轻重的作用。因而从宏观上讲,如何规划设计档案数据库的建设,是关系档案信息化进程是否能够顺利进行的关键因素。应该说,我们在这方面取得了很大的进步,数据库建设数量、分布的范围、发展的势头都是可喜的,初步消除了档案部门会沦为“信息孤岛”的疑虑。但同时,许多档案数据库建设中的问题也浮上台面,能否解决好这些问题是关系档案数据库未来发展的关键。
1.档案数据库建设缺乏有效的统筹规划
档案数据库建设是档案信息资源开发的核心工作,但目前我国档案数据库建设缺乏有效的统筹规划。在国家档案数据库建设层面上,除了明清、民国、革命历史档案资料三个目录中心的建设已经启动外,尚未有国家级档案数据库的规划安排,各地档案部门在实际建立档案数据库时基本上是各自为政,在档案数据标准体系尚不完善的情况下,这种局面将会导致数据共享困难。虽然我国就档案数据库的建设也提出过总体指导意见,比如《全国档案信息化纲要》一文中多次提到档案数据库的建设问题,提出“加强档案目录数据库建设”、“进一步加强档案目录中心建设”、“积极推进档案全文数据库和多媒体数据库建设”等,但这些意见缺乏可操作性。此外,如何将电子文件以及数字化档案的信息纳入档案数据库中进行管理,也需要在宏观层面上进行有效的统筹规划。
2.把握好数据库定位
也就是要回答好“建设什么样的档案数据库”的问题,回答这个问题需要充分了解档案数据库的内涵,明确建库的需求和目的,确定数据库定位,有的放矢。数据库定位将直接影响到数据库的建设成本、规模、效能等,是进行档案数据库以及信息系统建设的一个基本出发点。比如,是建立存储档案著录信息为主的目录数据库,还是建立存储档案全文的全文数据库;是根据馆藏的特点建立具有特色的数据库,还是基于馆藏图片、音像等资料建立综合
性多媒体数据库;是建立档案信息管理系统、文档一体化系统还是电子文档管理系统;是独立建库还是若干机构建立联合目录中心,或者是为未来的数字档案馆做数据准备。这些问题都需要提前论证,做好决策。而我们目前的档案数据库建设,在定位方面做的工作还不充分,许多数据库千篇一律,缺乏特色;或者数据库结构相似却不能联合,各自为战,造成资源分散,工作量重复。
3.数据库设计盲目性大,存在不科学的成分
数据库设计是一项非常严谨、科学性很强的一项工程,从可行性分析开始,逐次进行数据分析,绘制数据库的数据字典,然后运用各种工具进行概念模型设计、外模式设计和物理设计,最后才能装载数据库。其中的各个步骤都必须认真对待,偏废不得,前一阶段的设计是下一阶段工作的基础,不适合跨越设计阶段开展工作。
但在实际的档案数据库设计过程中,还存在着许多不科学的问题。特别在数据库可行性分析和数据分析阶段存在的随意现象比较突出。许多设计者对繁琐的数据分析不太重视,往往一上来就开始设计库表结构,这种脱离详细分析的设计方法虽然表面上速度较快,但其质量经不起推敲。对任何一个数据库系统而言,库表结构是其基石所在,基石不牢,大厦则有将倾之虞。
4.数据库逻辑结构缺乏规范
在进行数据库逻辑结构设计时,相关标准规范缺失是造成档案数据库的设计工作流于随意的主要原因,而档案数据库逻辑结构不规范的情况会引起数据库之间转换困难、难以共享等问题。目前正在许多单位开展的数字化工作所形成的图像文件、视音频文件如何建库管理,目前尚未有相关规范出台。电子文件管理元数据规范的滞后使得电子文件归档数据难以收集齐全,还有不少电子文件仍在进行人工著录登记,长此以往,前端控制原则难以在应用系统中得到应用。而在字段结构层面上,不规范的情况则更为突出。像在档案数据库中通常作为主键的“档号”字段的表示方法就五花八门,根据浙江省综合档案馆信息数据库建设调查报告的调查结果,在这浙江省通用的6种档案软件中,有的用4个字段来表示档号;有的定义成数字形式;有的定义为字符型,甚至同一个档案馆在不同时期录入的数据,表示形式也不统一。这将对日后数据库迁移、目录中心数据合并等工作带来极大的困难。
5.数据质量
档案数据库的建设必须保证良好的数据质量,“问水哪得清如许,为有源头活水来”这句古诗启示我们,准确的数据库信息、良好的数据管理是营造档案数据库“一池清水”的先决条件。作为重要的社会信息资源单位,档案部门必须高度重视档案数据质量,在追求数据库数量增长的同时,还要加强“污染防治”工作,防止脏数据的产生。而根据浙江数据库现状调查报告,随机检查结果表明档案数据库质量较好的数据误差也在12%左右,总平均差错率达29%,造成这种状况的原因主要在录入阶段,同时数据库的质量检查制度不完善也是重要原因。
三、档案数据库发展中存在问题的解决思路
1.加强数据库建设规划管理
数据库建设是一项投入非常巨大、周期很长、事关信息化成败的基础工程,应当由档案事业管理部门提供宏观的指导方针,统筹规划,合理布局,提供本地区或本行业数据库建设的蓝图,并会同有关部门对数据库规划的可行性进行论证,提出档案数据建设的具体意见。地方档案部门则根据宏观规划的要求进行详细设计,以实现全局共享为基础,突出特色数据。基于这样的总体思路,可以建立大范围内协调一致的数据结构,数据库框架设计、数据内容都能得到很高的共享度,将会改善目前档案数据库建设自行一套、质量参差不齐的总体状况。
2.加强标准规范的建设
档案信息资源描述标准体系是建设档案数据库的重要保障,相关标准规范的确立和逐步完善有助于各级各类档案数据库需要保持必要的协调,共同为社会提供高效、优质的档案信息服务。档案标准规范的制定要本着“确保数字档案资源格式统一、数据规范、长期可读、便于共享”的原则进行。在实施过程中,应当积极采用国际标准和国外先进标准;一般性的信息处理标准优先采用国家标准,如《文献保密等级代码》、《全国行政区划代码》等标准应当直接采用国家标准,不必另行一套;对档案领域内特有的资源制定行业标准,如《寿险业务档案管理标准》。此外为了保证国家文献系统标准之间的一致性,档案工作标准应尽量与图书、情报的国际、国内标准相一致。
3.建立标准的元数据库
目前数据库的逻辑结构设计比较混乱,虽然从各数据库个体角度观察,并没有太大的差错,但结构的不一致、不兼容会对数据库的共享和相互转换带来很大的困难,甚至难以进行。笔者认为,这个问题的最终解决,依赖于以著录标准化为依托的元数据库的建设。
目前档案数据库的主要记录对象是档案文件的二次文献信息,即文件的著录信息。许多档案数据库结构的确定其实就是将著录卡上的项目转换为数据表上的字段信息。从原理上讲,这个过程应该很容易,但由于我国的《档案著录规则》,虽然规范了著录项目,但并没有规定相应的量化指标,离数据库系统所要求的结构化数据的要求还有相当距离。由于著录标准并不是确定数据结构的强制标准,各档案数据库在建设时都可以根据自己的理解灵活应用,著录项目可以自行增删,字段类型、字段长度可以自由选择,这样的数据库进行互联互通的难度就可想而知了。因此笔者建议以著录标准为基础,建立一定范围内的元数据标准,此处的元数据就是关于数据库中各数据字段的信息,并以此为基础构成元数据字典。该字典提供数据项目的结构化信息,包括数据字段的名称、数据类型、长度、默认格式等规范,并说明字段之间的联系。需要指出的是,这样一个具有内在联系的有机的元数据字典,实质上是为档案数据库提供通信格式,并不要求完全遵循,如果有特殊要求,只需要在此基础上提供转换功能即可。随着档案信息化的深入,元数据字典的建设还应当包括全文和电子文件的元数据项目,为电子文件管理系统的设计提供相应的元数据,实现电子文档的前端控制,从而在根本上解决电子文档接口规范问题。
4.建立健全数据库质量控制体系
针对档案数据库数据质量的问题,笔者认为应当将档案数据库视作档案部门的信息产品,并依照生产产品的管理方式,通过质量控制体系进行监管。该体系以可操作的方式提供对档案数据库的全面质量管理,包括数据库设计、建设、管理活动中主要环节的控制,并制定数据库质量考核指标体系。该体系要求将数据库设计过程作为单独的项目进行管理,通过项目文档能够审查数据库设计过程是否科学、合理;能够对数据库建设过程中的人、财、物进行审计;对数据收集、录入、备份等各环节提供质检措施,保证数据准确、完整;通过质量指标体系对数据库容量、响应时间、查全率、查准率、错误率等进行核查。依照质量控制体系进行管理,能够优化数据库管理活动,加强数据库建设人员的责任感。
5.加强档案数据库队伍建设
随着档案事业的不断推进,对档案信息管理人员的要求越来越高。档案数据库作为档案信息化建设的中枢工程,其规划、设计、实施、管理、维护、标准建设等都需要相关人员具有较高的综合素质,不仅要熟悉馆藏,了解基本档案理论、业务流程、未来发展,还要掌握数据库管理的基本技能,对于档案数据库管理员,还需要具备一定的规划能力和标准化知识,而目前这方面的人才是比较缺乏的,需要档案部门和教育机构通力合作,培养通晓档案数据库建设的全面人才,全面推进档案信息资源的开发进程。
注释:
①查询时间:2005年9月16日,检索形式为“篇名”,检索模式为“精确检索”,数据库来源为“电子技术及信息科学辑目录”,特此说明。
②孙淑扬编著:《档案管理与计算机》,第176页,档案出版社1987年3月。
③洪漪编著《档案信息组织与检索》,第146页,武汉大学出版社,1998年1月。
④杨公之主编:《档案信息化建设实务》,中国档案出版社,2003年,第103页。
(原文载于《档案学通讯》2006年第4期)