邮编:100000
联系电话:13949083182
查档咨询:13949083182
服务业务:13949083182
欢迎来到档案界!2024年11月22日
档案数字化加工
数字档案馆是指以数字化形式保存、管理、展示历史文化、科学技术等方面的文化遗产和资料的机构。下面是几个数字档案馆案例:
1. 国家数字文化资源共享平台:该平台由国家文化部和国家图书馆共同建设,旨在数字化保存和传播中国的文化遗产和文化资源,包括古籍、历史文献、图片、音频、视频等。
2. 美国国会图书馆数字档案馆:该数字档案馆收藏了美国历史上的重要文件和资料,包括美国独立宣言、美国宪法、亨利·福特总统的讲话、肯尼迪总统的演讲等。该数字档案馆还提供搜索引擎和在线阅读功能。
3. 欧洲数字图书馆:该数字档案馆由欧洲图书馆、档案馆和博物馆联盟共同建设,收藏了欧洲各国的历史文献、艺术品和文化遗产。该数字档案馆也提供搜索引擎和在线阅读功能。
4. 北京市档案馆数字档案馆:该数字档案馆收藏了北京市历史上的重要档案和资料,包括北京市的行政文书、地图、图片、音频、视频等。该数字档案馆提供在线搜索和在线申请档案复印等服务。
5. 阿拉伯数字图书馆:该数字档案馆由阿拉伯国家图书馆和文化机构共同建设,收藏了阿拉伯世界的历史文献、艺术品和文化遗产。该数字档案馆也提供搜索引擎和在线阅读功能。
数字档案室的建设
数字档案馆系统综合应用物联网、云计算、移动互联网等新技术,开发了对档案实体、档案内容、档案服务和档案管理等信息的感知、处置等功能,实现了对档案信息资源和档案业务信息资源的智慧收集、智慧管理、智慧服务、智慧保护和智慧监督,为档案馆物与物、人与物、人与人的全面互联、互通、互动提供了基础条件。
基于OCR技术生成档案数字化成果文本数据资源库,结合应用原生电子档案内容信息,实现了档案信息资源的数据化管理,可以进行全文检索,并采用数据挖掘技术构建虚拟资源库,突破了传统的档案数字化理念,对实现档案资源的深度控制和挖掘创造了条件。
基于数据智能采集技术,采用多样化、组合式信息资源收集方式,实现了智慧城市建设中重要的信息资源之一 —— 专业档案数据库的高效接收和有序管理。采用大数据技术的智慧档案馆,通过云计算技术虚拟合并各档案馆之间的数据,做到实时互通,跨馆出证。
采用模型控制技术,实现了机关归档电子文件质量监管、进馆电子档案质量检查、开放档案划控辅助管理、档案馆业务目标督查等工作的辅助管理,有效地推进了档案馆业务工作的信息化。
应用RFID 技术,实现了智慧档案馆智能感知管理平台对实体档案、在馆人员及相关业务信息的综合感知和智能处置,拓展了RFID技术在档案馆工作中的应用领域。如文档服务中心发出调卷指令后,在规定时间内库区RFID 标签信息阅读器未感知到相关档案出库信息,将自动发送短信提示库房保管人员办理调卷业务。
基于编研人员的档案利用,通过对档案信息资源的深入挖掘,实现对档案信息资源的智能检索,提高了档案检索的查全率和查准率;同时基于数据挖掘技术,支持对检索结果的知识图谱展示以及档案信息的自动聚类,为利用者提供了便捷、高效的档案利用服务。根据业务需要,智能形成编研材料。
感知档案,通过标签可以知道档案的状态,可以对档案实体进行识别、定位、跟踪、监控和管理,帮助档案管理人员实时掌握每一份档案的状态,实现管理者与档案实体的沟通。这样可以避免传统档案管理中出现的一些问题。
档案是企业开展业务活动的重要工具和凭证性信息记录,是企业的核心信息资源与重要资产。集团企业具有机构庞大、下属单位较多且层次复杂,各下属单位分散等特点。对于集团企业,实现集中部署应用、分级管理,构建立体式企业数字档案馆,是集团企业数字档案管理最佳解决之道。利用当前最先进的标准规范、信息技术,推出面向集团企业的数字档案馆解决方案。 应用系统由基础应用平台、业务应用平台、信息服务平台、系统管理与维护、接口等五个部分组成: 基础应用平台为系统功能提供基础性的应用服务,如工作流引擎、OCR服务、文档格式服务、全文检索服务、报表引擎等等。 业务应用平台为档案管理机构提供档案管理的平台,包括档案工作管理、档案收集整编、档案管理、档案保管、开发利用等业务。 信息服务平台为档案利用者提供信息服务的平台,包括档案网站、多种档案查询模式、图书资料信息的查询、电子文件浏览等。 系统设置与维护实现系统设置、业务建模两大主要功能。系统设置主要用于配置系统运行环境的参数,包括服务器集群、存储系统(支持分布式和集中式)、基础应用层各应用参数的配置等。业务建模系统主要包括全宗群、档案门类、管理目录树、分类表、元数据、报表、表单等各基础数据结构的定义。 接口接口包括了两个部分,一部分是本系统与其它系统集成的接口,一般包括了与OA系统等系统的集成接口;另一个接口是指系统提供二次开发的接口,系统可提供基础应用、档案业务管理、档案信息服务等不同层面的SDK开发包。
郭慧锦 贾国锋 马飞飞 张茜
(全国地质资料馆)
摘要 本文在描述双层PDF及OCR技术特点及应用前景基础上,探讨了地质资料数字化图文数据双层PDF转换的意义;提出了转换方法的选择,并详细介绍了OCR数字加工系统,以及提高识别率的方法;最后提出了双层PDF在地质资料馆建设中的意义。
关键词 双层PDF OCR识别率
当前,地质资料馆藏机构都在加紧开展数字化工作。截至2013年底,全国已有20多个省级资料馆完成馆藏资料的数字化工作,全国地质资料馆的成果地质资料数字化工作也接近尾声,所形成的海量数据已成为地质资料信息社会化服务重要数据资源。此类数字化数据是静态的,有利于阅览使用,但无法进行全文检索,也不利于进一步分析处理。因此,在现有数据的基础上,开展OCR识别,使之转化成双PDF文件,实现静态向动态的转变,建立全文数据库,完成对地质资料的全文信息的检索,成为地质资料馆藏机构推进资料数字化工作。
1 关于双层 PDF与OCR技术
双层PDF是在扫描数据的基础上通过OCR识别生成的可检索的PDF文件,即上层是原始图像,下层是识别结果,且位置上下一一对应。双层PDF文件不仅可以100%保留原始版面效果,而且支持选择、复制、检索等功能,这样的PDF文件最后可以存储在光盘、硬盘或磁盘阵列中,并通过建立索引数据库进行科学的管理。
OCR(Optical Character Recognition),即光学字符识别,是指电子设备(如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。即对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。随着计算机网络飞速发展,信息电子化已经成为一个时代必然趋势。文字作为信息中最重要、最集中的载体,其电子化进程显得尤为重要。而OCR技术则是文字电子化过程中最重要的环节,它改变了传统的纸介质资料输入的概念。通过OCR技术,用户可以将通过摄像机、扫描仪等光学输入方式得到的报刊、书籍、文稿、表格等印刷品的图像信息转化为可以供计算机识别和处理的文本信息。因此,与传统的手工录入方式相比,OCR技术大大提高了人们进行资料存储、检索、加工的效率。
2 应用现状
PDF正在世界各国政府、金融财务、法律、工程技术、医疗等诸多部门获得广泛的应用,并已成为政府、学术部门等单位标准的现代化公文格式规范,所以PDF电子格式文档将是未来档案部门收藏的主体。而双层PDF的出现有效解决了识别成本和阅读利用的矛盾,是一种较有潜力的资源格式。国外的OCR技术应用相对成熟,包括IBM、Motorola、HP和Microsoft等世界性大都陆续展开了这方面的研究,在他们的产品中绑定了OCR技术。
如今,OCR技术在我国的应用也极为广泛。信息检索技术研究,即双层PDF检索技术研究,中国“863”计划在2008年以前已经开始对中文OCR、自动分词、自动摘要、自动搜索、自动定位进行了统一测试评测。在此基础上,国内逐步建立了以数字图书馆、数字档案馆、数字报刊、数字校园网等一系列数字化为基础的实施案例,例如新闻出版总署、外联部、共青团中央等机关文献全文数据库;《中国青年》75年、《新华文摘》20年等期刊全文数据库。国家图书馆早在1999年就成立了“国家图书馆文献数字化中心”,对各类馆藏文献进行数字化加工和OCR识别,在此基础上形成书目型书库、题录型数据库和全文型数据库三大类,逐渐成为我国网上信息资源的中心枢纽。
随着我国信息化建设全面普及,OCR技术的应用前景更加广阔,数字图书馆、数字档案馆、数字资料馆等概念的提出也使OCR在纸质档案数字化过程中越来越发挥其独特的作用,不仅节省了人力物力,更使档案信息资源的利用价值达到最大化,能够更好地服务于民。
3 数字化数据双层PDF转换的意义
3.1 是地质资料信息化建设的重要内容
随着社会信息化程度的提高,人们对信息资源的依赖程度也越来越高,对高效率的档案资源管理、检索利用的需求也越来越迫切。数字化是信息化建设的重要内容,而信息化建设的核心是资源建设。资源建设包括三大任务:一是馆藏纸质资料的扫描数字化与目录数据库建设;二是电子文件的归档与管理;三是全文数据库和全文检索体系建设。根据各资料馆数字化工作进展,考虑到用户的利用需求,若要得到真正文本形态的电子信息,使资料数字化工作更加有效,更加彻底,最大限度拓宽用户利用面,就需要应用OCR技术进行扫描栅格文件的双层PDF转换,进而开展地质资料全文数据库建设和全文检索工作。
3.2 是地质资料实现全文检索与全文数据库建设的前提
实践证明,基于双层PDF文档的全文检索,有效地提高了查询利用效率。它通过对档案数据库的数据和双层PDF文档的Text层建立索引,查询时可以不访问数据库,有效减轻数据库和系统的压力。至少可以支持1000万级的数据,毫秒级的查询时间,每秒上千人的并发访问,从而实现大容量、高速度的目标,并且可以适应Linux和Windows平台,支持多种数据库接口。它具备通用搜索引擎的构架和功能,可以对用户的输入进行分词,可以进行多关键字搜索、关键词组合搜索,用户友好;同时能够根据客户的需求进行用户的数据挖掘,提高档案全文检索系统的价值。
3.3 是现代化数据中心标准化建设的前提
建设现代化的数据中心首先要实现电子文件存储结构标准化,即建立一个通用性强、应用广泛的电子文件信息存储和交换格式。基于PDF格式已经作为电子文件管理中电子文件长期保存格式的最新标准在国际上全面实施,且具有兼容性、原始记录性强,安全控制策略完善等优点,是电子文件长期保存的最佳选择。所以进行馆藏数字化数据PDF转换势在必行。
4 双层PDF转换方法
4.1 目前常见的双层PDF转换方法
目前国内双层PDF的转换技术已经相对成熟,从现有技术条件下来看,大体可分为以下3种:
4.1.1 软件转换
由目前市场上较流行的 Adobe Acrobat、ABBYY FineReader12(中英文识别)、Readiris Corporate 12(英文识别率高)、Foxit Phantom 5(可以单独显示文本层)、清华文通TH-OCR XP8(识别率较高)、汉王文本王5800(版面识别较好,纯中文识别率高)、尚书七号OCR等转换程序,可以经OCR识别处理后直接生成双层PDF文件,速度快,效率高。但识别率和纸质资料原件(如印刷方式、清晰度、纸张质量等)及操作人员技术水平成正比。如果纸质原件质量好,识别率相对就高;质量差,识别率就相对较低。
4.1.2 流程加工
根据相关技术要求,对图像进行全新的OCR识别流程加工处理,重新生成PDF文件,具有文字正确率高、文字定位准确等特点。这种方式相当于全流程化制作双层PDF文件,工作量大,耗时长,费用高。
4.1.3 识别重构
重新生成PDF文件,实现版面字体、字号、颜色的恢复和重构。文字正确率高,页面清晰,但和原版图差异较大,主要在图书方面应用较多。
4.2 地质资料双层PDF转换
全国馆于2011年开始在扫描数字化基础上开展双层PDF的转换试验工作,主要运用第一种方法进行软件转换,即经过软件自动OCR处理后直接形成双层PDF文件。由于地质资料不同于普通的文书档案,纸张样式和印刷方式多样,手写和老旧资料多,地层、数学等特殊符号多等特点,给OCR自动识别带来了困难,单一的软件识别并不能满足全文检索90%以上识别率的要求。
在转换试验基础上我们得到以下结论:
1)地质资料本身多种多样,实际的识别率主要受印刷质量、形成年代等因素影响,老旧资料、纸质质量差的资料识别率普遍较低;受执笔人书写习惯及书写清晰度的影响,手写文档的识别准确率一般在30%以下;油印文档识别准确率一般在50%以下;打印、铅印和胶印文档识别率较高,一般能达90%以上。无论在哪种类型的文档中,标点的识别率都很低,地层和数学符号及其他特殊符号的识别率几乎为零。
2)目前识别技术无法达到100%识别,必须根据实际需求对照纸质档案对初次识别结果进行人工校对才能满足全文检索需求。
3)地质资料扫描文件数量多、容量大,转换速度受计算机反应速度影响,大批量转换和识别需选择高配置计算机,且批量转换和人工识别耗时长,耗人工多,需专项经费支持开展工作。
4.3 OCR数字加工系统的引入与功能简介
经过对目前国内双层PDF转换方法的对比,结合地质资料情况复杂的特点,以及数据测试结果研究,建议地质资料的双层PDF转换主要采用软件识别和流程加工相结合的方法,即采用OCR数字加工系统,可以保证高效率、高质量地完成双层PDF转换。该系统主要包含以下几个主要流程:
图1 OCR数字加工系统示意图
1)图像处理。为提高识别率,对图像进行“消蓝去污”的处理,去掉图像上影响识别率的噪音,如麻点、下划线等,由图像质量控制程序自动监测图像处理质量。
2)版面分析。自动进行版面理解并定位,判别划框区域是横排文本区、竖排文本区、表格区还是图像区,并对不同属性的区域以不同颜色的线框标识出来。自动版面分析在后台运行,操作人员可在前台进行确认,必要时对自动版面分析结果加入手工干预。
3)识别。把文字图像转化为计算机文字内码,可以识别印刷体和手写体中文(包括简体字和繁体字)、中英文混排文字、表格,识别出来的文字内码可以是GB码、BIG5码、GBK码或者Unicode码。识别过程在后台运行。
4)纵向校对。具有很强的查错纠错能力,是将一个或若干个图像中识别成同一个字的文字图像列在一起显示,并以突出颜色标出可疑字,便于操作员发现错误和修改。
5)横向校对。是传统的人工校对方法,操作员直接对比识别结果文本和图像,以发现识别错误文字。系统自动调出文字对应的图像,进行比对。同时,以醒目的颜色标出识别可信度不离的文字。
6)版面还原。将识别并修改好的文本还原成跟扫描文稿版面的布局一样、可以供计算机阅读和查询检索的RTF、PDF、HTML、SGML/XML格式的数字文档。
7)数据入库。版面还原数字文档的保存。
4.4 提立OCR识别率的方法
利用OCR数字加工系统生成的双层PDF,文本层差错率最低可到万分之一,可呈现原版底纹和色彩风貌,可进行全文检索和复制引用,且检索信息可准确定位到字符,便于快速查找目标信息。为了减轻横向校对即人工校对工作量,提高工作效率,就要从根本上提高识别率。经过试验,以下几个方法可以提高栅格文件OCR识别率。
1)图像色彩设定。虽然灰度或彩色模式可以最大限度还原纸质资料原貌,是我们扫描数字化的首选,但是这两种色彩模式会增大影响识别率的背景噪音。若仅做文字识别及一般黑白插图选取,建议可将扫描程序的图像色彩设定设置为黑白,增大识别率。不过最终图像色彩的设定还要按照各类具体工作的规范要求来设置。
2)分辨率设置。我们都知道扫描分辨率设置越低,扫描速度越快,但同时也导致图像质量差,其文字识别准确率低。反之分辨率高,扫描速度慢,但文字识别准确率高。但这又不是绝对的,因为分辨率设置得太高后,纸张上的微小瑕疵也可能被认作标点符号或汉字等,文字识别准确率反而会有所降低。经反复测试,分辨率设为300dpi,是扫描速度及文字识别准确率的最佳平衡点。
3)图像处理。这里图像处理是指扫描输出图像前的倾斜校正和去污等。倾斜校正是为了调整文字方向使之正向,这样才能对OCR识别有所帮助。
双层PDF转换完成以后,在此基础上可以实现资料管理系统与PDF文件的挂接,对资料数据内容及其元数据等相关信息建立联系并形成数据包;然后通过调用全文数据库原数据创建索引文件,最后实现全文检索。通过全文数据库及全文检索的实现,得到高查全率和查准率,大幅度提高地质资料的利用价值,促进地质资料编研工作,为地质资料信息聚合的研究和深层次服务奠定了基础。
参考文献
[1]许呈辰.档案数字化过程中OCR技术的应用[J].档案管理,2011(1).
[2]徐永芳.OCR技术在档案数字化过程中的应用[J].艺术科技,2011(2).
[3]张旋.OCR技术研究进展及前瞻[J].科学技术,2010(4).
[4]郭金光.双层PDF技术及在档案数字化中的应用[J].新观察,2013(1).
[5]刘家真.文件保存格式与PDF文档[J].档案学研究,2002(2).
智慧档案馆是智慧城市中的一个子系统,“是适应大数据背景下的第四代档案馆,是继数字档案馆之后档案信息化发展的高级形态”。笔者认为,智慧档案馆的目标是实现跨时空的档案信息资源共享、跨平台的服务集成,使用户可以一站式获取所需要的档案信息资源。
功能上主要体现在对传统档案管理环节的“智慧化”上,包括档案收集、整理、存储、保护、利用等方面,实现了沟通感知、资源管理、建筑设施和服务创新四个方面的智慧化。
图扑软件 的智慧档案馆,利用了网络大数据以及人工智能等新技术,建立从档案的收集、整理、归档、利用、统计等于一体的整体化智慧档案管理体系,实现了档案资源的管理与利用,具有智能化、物联化、网络化等特点。
以资源共享平台为基础,应用云计算、大数据、物联网、移动应用、人工智能等现代信息技术与相关工具,重点打造高效、智能、统一的管理服务平台和信息服务平台,进一步实现档案数据资源开发利用的最大化,实现便捷增值服务的新型档案馆模式。档案馆运行等各类信息进行感知、挖掘,经综合分析和提炼萃取形成智慧信息,并将其应用于决策、管理和服务。
智慧档案馆可视化界面采用柱状图、折线图、雷达图、饼图的多样呈现方式使内容更加丰富多彩。不同的数据间的展示方式不同,保证直观的同时又多样化。档案馆建筑的灯光阴影效果让整体视觉效应也更为真实饱满。
越来越繁重的工程计算和某些特定的危险工作已经能由智能计算机来完成了,甚至可以超越人脑,做得更快、更准确。复杂工作的定义是随着时代的发展和技术的进步而变化的。
是的。市南区区数字档案馆始建于2004年,在运行过程中不断进行完善和改进。2005 年建成了文书档案全文数据库;2009年对原有数字档案馆系统功能进行了升级,开展了“电子文档和档案信息共享工程”,在数字档案资源共享利用方面取得突破,数字档案馆系统日臻完善;2013 年在青岛市档案馆的数字档案馆评估中获得了3A 的最高等级。目前,区档案馆形成了局域网、政务网、互联网三个档案信息管理服务平台,建成了75.5 万条的档案目录数据库、152.8 万幅数字化文件和6.7 万件电子文件的全文数据库、22.5 万张的照片档案数据库、1.1 万分钟的音视频档案数据库,实现了档案信息的馆际共享和社会共享,构建了以数字档案馆为核心的、覆盖从机关文件归档到档案信息服务及长久保存等全领域的档案信息化体系。
近年来,随着电子信息技术的广泛应用和数字档案馆建设的蓬勃开展,基层数字档案室建设这个问题便提上了档案行政管理部门和基层单位的议事日程。基层数字档案室建设就是指机关企事业单位和社会组织综合运用计算机、信息网络等技术,对室藏档案进行数字化加工、信息化管理和网络化运用的工作工程。基层档案是同级国家档案馆的“基石”,基层档案的数字化又是同级国家档案馆数字化的“基础”。通过基层数字档案室的建设实践证明 ,这项工作既能有效保护纸质档案原件,又能为利用者提供快速准确便捷的查档服务,实现档案资源利用的最大化。
一、基层数字档案室建设的硬件、软件要求
(一)硬件要求。主要包括:用于对室藏纸质档案进行数字化加工的专门办公场地;用于信息系统数据存储、管理和应用系统运行的服务器;用于各类用户访问的终端设备、身份证读取器、打印机、复印机等输入、输出设备;用于纸质、照片等传统载体档案数字化加工的扫描仪、数码相机、数码摄像机等;用于数据备份和归档移交的光盘刻录机、磁带机等,确保数字档案的大量储存、查询、利用。
(二)软件要求。选购或根据自身情况开发与硬件配套的安全性高、稳定性好的主流操作系统;选择与单位档案信息管理实际标准相符的数据库管理系统;选择配套的扫描软件、图像处理软件等,实现档案资料管理系统与办公自动化系统的无缝衔接。
(三)数字化标准要求。依据国家档案局DA/T 46 -2009《文书类电子文件元数据方案》、DA/T47 -2009 《版式电子文件长期保存格式需求》和DA/T48 -2009 《基于XML的电子文件封装规范》等相关标准进行科学化的整理加工和管理。
二、基层数字档案室建设过程中存在的问题
根据笔者所在部门的做法和对同级单位的了解,目前基层数字档案室建设,主要是采取业务外包的形式来进行的,还存在一些问题。
(一)认识不到位。基层单位建设数字档案室,毕竟不是一件小事情,它涉及到方方面面的问题,比如内部机构之间的协作、经费的保障、数字信息技术的采用、相关专业人才的配备、安全保密保管等具体问题。因而,基层单位在建设数字档案室这个问题上,多数单位尤其是领导认为建设数字档案室不重要,是多此一举,只要保管保护好纸质档案就行了,没有必要浪费大量的人力、物力、财力;同时相当多的基层档案工作人员,因为自身年龄较大、对现代信息技术不甚了解等原因,积极性不高,认为是多余的,满足于传统的做法。
(二)经费成为拦路虎。基层单位在建设数字档案室的过程中面临最大的问题是经费有限,更愿意把有限的财力资源投向更重要的方面,导致档案数字化建设硬件投入的资金不足,致使基层档案数字化工作起步艰难。
(三)相关人才缺乏。在基层档案部门, 面对相对有限的档案室藏、相对固定的服务对象,传统的管理模式仍然管用、好用,这种根深蒂固的思维定式使得很多基层的档案工作人员不愿主动放弃传统的工作模式去探索数字化的工作方式,知识结构的更新速度也远赶不上数字档案室的建设速度。已开展数字化的基层档案室的档案工作也还停留在摸索阶段,掌握使用的只是简单的查询、登记、统计等技能,档案数字化的作用还没有充分发挥出来。
(四)安全、质量有隐患。目前,基层数字档案室建设的普遍做法是业务委托外包,这种方式简便省事。在实际工作中,却存在着较大的安全和质量隐患,尤其是安全隐患应引起档案行政管理部门和基层单位的高度重视。以外包为例,基层单位通过政府购买或招标形式与数字化加工企业签订档案数字化加工合同,虽然在委托加工的过程中会签订严格的安全、保密、质量协议,但在具体实际操作过程中,隐患并未就此消失,主要表现在一是数字化加工企业从业人员素质高低不同、流动性大带来的隐忧;二是基层业主单位对数字化加工监管不到位的隐忧;三是数字化工作企业和从业人员首先考虑的是经济利益,存在着重数量,数字化质量不高的隐忧。
(五)软件配套不完善。目前,在数字化加工工作中,基层部门感到比较困惑的是没有一套统一的软件,存在着选择性的纠结,担心将来数字化成果无法和同级国家档案馆对接的问题。希望档案行政管理部门能及时提供统一可行的软件。
三、基层数字档案室建设的对策
(一)从管理体制入手,建立协同机制。一是档案行政管理部门加大档案信息化工作的宣传力度,提高基层单位对档案数字化建设工作重要性的认识。二是基层单位要建立档案机构、信息技术中心、业务部门之间的协作机制,以部门协作来弥补档案机构人才的不足。三是加大人才建设力度,对相应人员进行定期培训,鼓励他们更新知识结构,与新形势下的数字化档案工作相适应,或引进人才为数字档案室建设提供人才保障。
(二)明确职责,规范制度,加强外包过程的监督和控制。建立并完善档案出入库、档案交接、外包人员出入等数字化加工现场管理制度,建立档案出入库表单、工作量表单等,强化工作职责,优化工作环境。在与委托外包单位签订保密协议之外还应建立严格的监督制度,采取有效措施,如在数字化加工场所安装摄像头、不定期进行安全巡查等,排除可能的安全隐患。
(三)积极争取加大经费投入。档案工作人员要大力宣传档案对民生、经济社会发展的重要作用,争取领导的重视、政策的倾斜和经费的投入。同时优先开展利用率高、涉及人民群众切身利益的档案的数字化,从小规模到大规模,有计划有重点地推进数字化档案室建设。
(四)加强档案数字化加工安全和质量的监控。一是做好案卷质量的检查工作,如案卷题名的拟写是否规范,记录案卷详细信息的档号、起止日期、页码、卷内文件的件数是否准确,发现错误要及时修正,为后期的录入做好周密细致的准备工作。二是把好档案信息著录的质量关,一方面要保证标准化作业,避免录入的随意性,另一方面要落实专人对照原始文件对录入的档案目录数据进行检查和不定期抽查,保证录入数据与原始档案的一致性和准确性。(作者单位 朱妍霖:四川省武都水利集团有限责任 王琳:绵阳市档案局)