邮编:100000
联系电话:13949083182
查档咨询:13949083182
服务业务:13949083182
欢迎来到档案界!2025年05月11日
档案数字化加工
档案数字化的需求就是做该项工作的前阶段准备,应对拟数字化的档案进行涉密性、完整性、有序性及档案实体与目录的一致性进行检查。档案实体有破损、残缺的要进行登记,征求档案保管单位同意后,对破损、残缺的档案进行裱糊抢救,为后续工作提供便利。
档案数字化需求
档案数字化扫描要求
01、基本要求
档案扫描应根据纸质档案原件实际情况、数字化目的、数字化规模、计算机网络和存储条件等选择相应的扫描设备,和进行相关参数的设置和调整。参数的设置和调整应保证扫描后数字图像清晰、完整、不失真,图像效果最接近档案原貌。
02、扫描设备
扫描设备的选择应特别注意对档案实体的保护,尽量采用对档案实体破坏性小的扫描设备进行数字化。
超出所使用扫描仪扫描尺寸的档案,可采用更大幅面扫描仪进行扫描,也可以采用小幅面扫描仪分幅扫描后进行图像拼接的方式处理。分幅扫描时,相邻图像之间应留有足够的重叠,并且采用标注等方式明确说明分幅方法:若后期采用软件自动拼接的,重叠尺寸建议不小于单幅图像对应原件尺寸的1/3。
遵循相关设备的使用规律,对扫描设备进行定期维护、保养。
03、扫描色彩模式
为最大限度保留档案原件信息,便于多种方式利用,宜全部采用彩色模式进行扫描。
页面中有红头、印章或插有照片、彩色插图、多色彩文字等的档案,应采用彩色模式进行扫描。
页面为黑白两色,并且字迹清晰、不带插图的档案,也可采用黑白模式进行扫描。
页面为黑白两色,但字迹清晰度差或带有插图的档案,可采用灰度模式扫描。
04、扫描分辨率
扫描分辨率的选择,应保证扫描后图像清晰、完整,并综合考虑数字图像后期利用方式等因素。扫描分辨率应不小于200dpi。如文字字号偏小、密集、清晰度较差时,建议扫描分辨率不小于300dpi。如有COM输出、仿真复制、印刷出版等其他用途时,可根据需要调整扫描分辨率。需要进行COM输出的档案,扫描分辨率建议不小于300dpi;需要进行高精度仿真复制的档案,扫描分辨率建议不小于600 dpi;需要进行印刷出版的档案,可结合档案幅面、印刷出版幅面、印刷精度要求等选择合适的分辨率。
05、存储格式
纸质档案数字图像长期保存格式为TIFF、JPEG或JPEG2000等通用格式,图像压缩率的选择可根据实际应用的需求而定。
利用纸质档案数字图像时,也可从网络浏览速度、易操作性、存储空间占用等方面进行综合考虑,将图像转换为PDF等其他格式。同一批档案应采用相同的存储格式。
06、图像命名
应以档号为基础对数字图像命名。图像命名方式的选择应确保图像命名的唯一性。建议将数字图像存储为单页文件,并按档号与图像流水号的组合对图像命名。数字图像确需存储为多页文件时,可采用该档案的档号为图像命名。应科学建立纸质档案数字图像的存储路径,确保数据挂接的准确性。
档案数字化数据安全光存储技术需求探讨
摘要:随着档案工作信息化建设的推进,档案由纸质形式归档转换为电子归档,如何确保电子档案“存得下(容量足够大)、存得好(存储安全,防病毒、防篡改、抗电磁)、存得久(存储年限达到60年以上直至永久)”,确保不出现数据丢失、篡改和伪造,机密、核心的档案资源不被泄露,成为迫切需求。本文对电子档案数据存储的不同介质从存储安全、存储时间、存储能耗和成本等方面进行了比对分析,并结合工作实践给出了蓝光存储在档案数据安全存储技术应用的参考建议。
目前,全国各个城市都在实施城市更新行动,提升城市运营管理智慧建设,构建数字孪生城市,实现数字永生,积累电子信息数据将会呈现井喷式增长,电子信息数据存储安全与城市数字经济基础设施建设就成为了城市安全发展的战略问题,而降低全会长期保存数据的能耗和成本就成了大数据存储技术的关键。
1档案数字化存储安全概念的提出
《全国档案事业发展“十三五”规划纲要》明确提出:要把提升档案管理水平,加强电子档案长期保存技术研究与应用,强化档案安全保障,确保档案实体与信息安全作为主要任务和实现指标。《“十四五”全国档案事业发展规划》提出:必须坚持的基本原则就是坚持安全第一、牢守底线。把档案安全始终放在首要重要位置,做到实体安全与信息安全并重,牢牢坚守档案安全的底线[1]。由此可见,档案及档案电子信息数据安全愈来愈成为档案事业发展战略的重要安全要素。
随着档案资源体系的信息化、数字化、网络化工作的快速推进,以及各地优化营商环境、提高办公效率,建设项目审批流程系统化,电子档案信息数据将会呈现井喷式暴增,如何保障档案与电子档案数据信息的安全管理已成为档案管理机构面临的艰巨挑战。
当前,各地档案管理机构电子档案信息采集主要是通过因特网、政务网、局域网等,存储介质主要是移动硬盘、普通光盘及磁盘、磁带,以上存储介质均对应用环境有特殊要求,很难达到数据存储安全质量标准,要想实现高质量长效安全存储就必须定期进行数据迁移、复制转换,造成较大的管理成本浪费且不安全。因此,推动档案管理机构持续提升信息安全保护等级,确保电子档案达到真实、完整、可用和安全的“四维”标准,亟需建设符合安全管理要求的存储介质和网络系统以确保电子档案数据安全。
2电子档案数据存储介质分类
当前系统存储介质归纳起来主要有三种形式:
(1)电存储,采用电荷存储技术,如SSD硬盘、SD卡等。
(2)磁存储,通常的表现方式有磁盘和磁带。磁存储以磁致电阻磁头根据电阻随磁场变化而记录与读出数据。
(3)光存储,表现形式就是光盘,依据存储密度差异,可分为CD、DVD、HD-DVD以及BD。基本原理就是采用激光束照射在介质上,以被烧蚀和未烧蚀的两种状态记录二进制数据,识别存储单元不同组合,还原读出存储的数据。其中,蓝光存储是以大容量蓝光光盘作为存储介质,内置自动机械手、驱动器,通过机械装置自动装载光盘到光驱,以实现数据自动向光盘读写。蓝光存储主要适用于冷数据归档管理、容灾备份[2-3],成为电子档案实现长期存储的首选方案。
3电子档案存储介质性能对比
电存储和磁存储作为电磁介质存储设备的主要特点就是读写速度优势,但也具有高成本、高能耗等问题,所以在长效备份存储要求的数据中心存储介质选择中不具备优势。蓝光存储是最安全、最具性价比优势的冷数据存储介质和设备。蓝光光盘作为存储介质,集成了机械手、蓝光驱动器等[4],现在市场上蓝光光盘每张碟的最大容量可以到500GB,且正在突破单盘1TB以上超大容量存储能力。蓝光存储相对于磁、电等具有更多技术优势。
3.1寿命更长
经德国莱茵实验室抗老化等破坏性实验验证,基于Eyring模型的加速老化寿命试验,按照ISO/IEC16963-2011标准进行寿命估算,蓝光盘存储年限远超半导体闪存、硬盘、磁带等其他存储介质,寿命可达50~100年。
3.2风险更低
当前档案级超大容量蓝光光盘,采用无机合金记录材质以相变的晶态与非晶态记录数据,使得蓝光盘抗划伤、抗指纹污染的能力极强;非接触式读写,读取次数可达10万次以上;蓝光存储具有防黑客、抗电磁干扰、无辐射等功能特性,数据迁移到蓝光盘后,通过WORM技术防御数据恶意篡改,并通过RAID6+镜像存储策略,确保重要数据可靠性达到19N[5],蓝光光盘更适合档案数据安全长效存储。
3.3兼容性高
蓝光光盘迭代升级同时也持续向下兼容,含CD/DVD等光盘片,未来TB级大容量蓝光光盘的健壮性更强,现存的蓝光光盘在50年后亦能用光驱来读取,其通用性毋庸置疑。
3.4成本更低
蓝光存储至少50年内无需数据迁移,与磁盘存储相比总体成本(TCO)降低95%,大大降低海量档案数据存储和运维成本。
3.5能耗更低
磁带库的体积巨大且需恒温恒湿的外部环境,能耗较大;硬盘阵列不间断的供电在线属性决定了高能耗性质;蓝光光盘存储方式不需要实时加载电源,对外部环境无特殊要求,常温下即可工作,绿色节能。根据信通院中国泰尔实验室测试数据表明,同等存储容量下,蓝光存储能耗仅为磁存储能耗5%。
4蓝光光盘存储技术特点
4.1长效光盘库存储技术
蓝光光盘采用无机相变材料,可在常温常湿的条件下存储50~100年,无需数据迁移,且具有防黑客、抗电磁干扰、无辐射等功能特性,可实现数据长期、安全、可靠存储。该技术已多次被列为工信部发布的《绿色数据中心先进适用技术目录》。
4.2磁光电融合存储技术
磁光电融合存储运用蓝光存储技术保存冷数据,能够大大降低冷数据的存储总体成本。按照数据被访问的频度分析,数据在产生后的开始阶段,会被频繁的访问,称之为热数据;中期阶段,数据变得不总被访问,称之为温数据;到最后,数据基本不会被访问了,称之为冷数据(见图1)。但这些冷数据中仍然蕴含着巨大的价值,在一定的条件下有可能重新被利用,焕发新的活力,所以仍然需要长期保存。
以蓝光技术为核心的磁光电一体化存储平台,依据数据访问模式和用户策略,实现了对冷数据的光存储与温、热数据的磁电存储一体化访问存取智慧管理。根据数据的生命周期,采用AI技术实现自动分级存储,通过对冷热数据在不同介质间的智能分配,实现了数据的低成本、大容量、高安全、高性能、长寿命、低能耗存储。
4.3磁光电混合存储体系架构
磁光电混合存储架构(见图3)包含了算力集群、磁盘阵列集群和光存储阵列集群。磁盘阵列缓存系统能显著提高整个系统瞬时的数据吞吐能力,以光盘为介质的冷数据归档存储,可以大幅降低数据长期安全存储的成本,多种介质的融合,实现了数据的弹性、按需分级存储[6],成为了高性能、高安全、大容量、低成本、低功耗的最优档案数字化数据存储方案。
档案数字化数据安全光存储技术需求探讨
图3磁光电混合存储体系技术架构
分布式统一存储架构(即磁光电混合存储体系技术架构)存储底层利用固态盘、磁盘的高读写性能对热数据进行统一调度管理,利用磁带、蓝光的容量高、寿命长、低成本、低能耗优势存储冷数据。通过生命周期管理,使数据在不同介质中进行流动。同时提供存储管理模块,为普通用户提供数据存取的功能,为运维人员提供对集群的监控管理能力。
4.4光存储阵列
针对数据中心冷数据大规模归档存储研发的光存储阵列,可应对复杂电磁环境及应用需求,比传统基于磁存储方式能耗降低约95%,单机柜容量高达3.2PB(单盘500GB容量)。随着光存储科技水平的持续发展,单张蓝光光盘的容量将会大幅度提高。这种以光存储介质为主,以磁盘陈列和电存储为辅助的数据存储解决方案,将成为未来大数据数据安全存储的最优方案。信息技术的发展对光存储系统总体容量和数据传输速率要求越来越高。传统光存储采用缩短激光波长和减少磁道间距的方法来提高存储密度的空间有限。多阶光存储技术在不改变激光波长和数值孔径的情况下,利用先进的编码和信号处理技术,提高存储容量和数据传输率,目前已经成为国内外光存储研究的重要方向。传统的存储使用二元数据序列存储记录数据,记录符只有两种不同的物理状态,例如只读光盘以交替变化的坑岸形貌记录数据,通过读取和检测坑岸边沿从而恢复所记录的数据。改变二元记录符的形貌,使信号呈现多阶性,或者直接采用多阶记录,实现多阶光存储,而且数据传输率也得到相应的提高。多阶光存储技术与其它提高存储密度的方法并行使用,可以大幅提高存储容量。未来,超大容量光存储技术需要研究从打破光的衍射极限,研究多阶光存储、超分辨光存储、全息存储及基因存储等技术上实现突破,并不断优化和创新存储介质材料[7-10],从而满足档案数字化安全存储不断发展的需求。