邮编:100000
联系电话:13949083182
查档咨询:13949083182
服务业务:13949083182
欢迎来到档案界!2024年11月22日
档案数字化加工
档案数字化投标书《电子招标投标办法》规定电子招标投标交易平台应当依法设置电子招标投标工作人员的职责权限,如实记录相关过程及信息,并具备电子存档、归档功能,但对应当如何归档并未做出相关规定。
1、适用范围
为统一公司纸质、照片、音频、视频档案数字化的主要技术要求,推动档案现代化和数字档案馆的建设,特制定本规范。
本规范适用于各单位档案的数字化处理及数字化成果的管理。
档案数字化技术规范
2、总则
2.1基本原则
2.1.1同步检查档案实体质量,确保数字化成果的真实、完整。
2.1.2采用先进的数字技术,确保数字化成果的长期有效、数据兼容和安全迁移。
2.1.3采取有效的保护措施,确保档案实体及数字化成果的安全。
2.1.4确保档案实体与数字化成果间的有机联系。
2.2过程管理要求
2.2.1制定档案数字化的总体方案、技术路线与工作方法,确保档案数字化工作标准化、规范化和流程化。
2.2.2档案数字化的基本环节主要包括:档案整理、档案扫描(转换)、数据处理、数据存储、数据质检、数据挂接、数据验收、数据备份、成果管理等。
2.2.3建立档案数字化各环节的安全保密机制和工作制度,确保档案数字化工作的安全与高效。
2.2.4档案数字化的各个环节均应进行详细的登记,并及时整理、汇总,装订成册,在数字化工作完成的同时建立起完整、规范的记录。
2.3数据挂接
2.3.1档案数字化转换过程中形成的图像、音频、视频数据,经质量验收合格后,加载到档案数据库服务器。通过编制的程序或借助相应的软件,实现档案数据库条目与相关联的数字图像、音频、视频批量的快速挂接。
2.3.2认真填写档案数字化挂接检查情况登记表单,记录数据关联后的页(张、盘)数,核对每一份文件关联后的页(张、盘)数与档案整理、扫描(转换)时填写的页(张、盘)数是否一致,不一致时应注明具体原因和处理办法。
2.4数据验收
2.4.1图像、音频、视频数据验收
以一个全宗或多个目录为单位,随机抽查5%的档案条目数据对应的图像、音频、视频数据。图像、音频、视频应符合本规范中所规定的分辨率、采样频率、数码率、文件格式及色彩模式。图像、音频、视频文件的命名必须与条目数据题名相一致。图像、音频、视频的转换完整性要求达到100%,图像偏斜度、清晰度、整洁度,音频、视频的清晰度等技术指标,要求抽检合格率达到95%以上(含95%)。合格率=抽检合格文件数/抽检文件总数×100%。
2.4.2验收审核
验收“通过”的结论,必须经分管领导审核、签字后方有效。
2.4.3验收登记
认真填写数字化验收登记表单。
2.5数据备份
2.5.1备份范围
经验收合格的完整数据应及时进行备份。
2.5.2备份方式
为保证数据的安全,除将数据上传至集团公司档案管理系统服务器外,还应采用在线(磁盘)、离线(DVD刻录盘)相结合的方式实现多套备份,并注意异地保存。
2.5.3数据检验
检验内容包括备份数据能否打开、数据信息是否完整、文件数量是否准确等。
2.5.4备份标签
数据备份后应在相应的备份介质上做好标签,以便查找和管理。
2.5.5备份登记
填写纸质档案数字化备份管理登记表单。
2.6数字化成果管理
2.6.1应加强对数字化成果的管理,确保其安全、完整和长期可用。
2.6.2数字化成果提供网上检索利用时,应有制作单位的电子标识(水印),并根据具体情况决定是否采用微软DRM保护的文件格式。
3、纸质档案数字化操作规程
档案数字化技术规范
3.1术语解释
3.1.1数字化
用计算机技术将模拟信号转换为数字信号的处理过程。
3.1.2纸质档案数字化
采用扫描仪或数码相机等数码设备对纸质档案进行数字化加工,将其转化为存储在磁盘、光盘等载体上并能被计算机识别的数字图像或数字文本的处理过程。
3.1.3数字图像
表示实物图像的整数阵列。一个二维或更高维的采样并量化的函数,由相同维数的连续图像产生。
3.1.4黑白二值图像
只有黑白两级灰度的数字图像。它对应于黑白两种状态的文字稿、线条图等。
3.1.5连续色调静态图像
以多于两级灰度的不同浓淡层次或以不同颜色通道组合成的静态数字图像。
3.1.6分辨率
单位长度内图像包含的点数或像素数,一般用每英寸点数(DPI)表示。
3.1.7失真度
对档案进行数字化转换后,数字图像与档案原件在色彩、几何等方面的偏离程度。
3.1.8可懂度
数字图像向人或机器提供信息的能力。
3.1.9图像压缩
消除图像冗余或对图像近似的任一种过程,其目的是对图像以更紧凑的形式表示。纸质档案数字化过程中,较常见的有TIFF(G4)、TIFF(LZW)、JPEG等压缩格式。
3.1.10 DRM
DRM是Digital Rights Management的简称,即数字版权保护或数字版权管理。微软的DRM分为两类,一类是多媒体保护,加密电影、音乐、音视频、流媒体文件,如WMV,WMA,ASF,WMS等格式文件。另外一类是加密文档,如DOC、XLS、PPT、XPS、JPG、TIF、BMP等格式文件。其他格式文件,比如:RM、RMVB、AVI、WAV、MP3、MPG、PDF等均可以转换成微软DRM支持的格式后进行加密保护。
3.1.11 PDF
PDF是Portable Document Format的简称,它是Adobe公司开发的电子文件格式,其优点在于跨平台、能保留文件原有格式、开放标准。
3.1.12双层PDF
一种具有多层结构的PDF格式文件,其每一页都包含两层,下层是从纸质文件扫描出来的原始图像,上层是用OCR软件对扫描图像进行识别后产生的文字结果,但字体效果设置成透明。这样用户在阅读PDF文件时看到的是扫描图像,可以100%保留原始版面效果,在需要的时候,又可以通过透明的文字信息支持选择、复制、检索等功能。
3.1.13 XPS
XPS是XML Paper Specification的简称,它是微软公司开发的一种文档保存与查看的规范。使用者不需拥有制造该文件的软件就可以浏览或打印该文件。作为微软DRM支持的格式,可以提供版权保护。
3.2档案整理
3.2.1前期整理
合理确定档案数字化的范围,区分扫描件与非扫描件。对档案进行适当整理,并视需要做出标识。根据拟数字化档案的数量情况,估算数字化后所需要的存储空间。
3.2.2目录建库
已经建立档案数据库,并且使用条形码设备和软件的单位,可以在档案实体上粘贴条形码,使条形码能够正确反映档案数据条目与实体的对应关系,确保档案数字化、数据挂接时的质量和效率。
没有建立档案数据库的单位,可以按照集团公司档案管理著录规则的要求,确定档案著录项并进行著录。所选定的数据格式,应能直接或间接地通过DBF文件格式或XML文档,与集团公司档案管理系统进行数据交换。
3.2.3拆除装订物
去除影响扫描工作的装订物,保证扫描的顺序,确保数字化后正确归卷并不损坏档案。
3.2.4档案修复
破损严重、无法直接进行扫描的档案,应先进行技术修复。折皱不平影响扫描质量的原件应先进行相应处理(压平或熨平等)后再进行扫描。
3.2.5建立作业单
制作并填写数字化加工作业单,全程监控扫描过程,并记录整理数字化过程中各种相关情况。
3.2.6装订
图像质检完成后,拆除过装订物的档案应该按档案原貌及保管的要求重新装订,做到安全、准确、无遗漏。
3.3技术要求
3.3.1档案扫描
3.3.1.1扫描方式
根据档案幅面的大小(A4、A3、A0等)和纸张质量选择相应规格的扫描仪进行扫描。数量较少的大幅面档案,可采用小幅面扫描后的图像拼接方式处理;如果数量较多则使用宽幅工程扫描仪进行扫描。纸张状况较差,以及过薄、过软或超厚的档案,或者不宜拆装的档案,应采用平板扫描方式。纸张状况好并且可以拆装的档案,可采用高速扫描方式以提高工作效率。
3.3.1.2扫描色彩模式
扫描色彩模式一般有黑白二值、灰度、彩色等,通常采用黑白二值。页面为黑白两色,但字迹清晰度差或带有插图的档案,以及页面为多色文字的档案,可以采用灰度模式扫描。页面中插有黑白照片、彩色照片、彩色插图、印章等带色彩标志的档案,可视需要采用彩色模式进行扫描。底图可视需要采用灰度或彩色模式进行扫描。
如需要进行OCR识别的,应采用黑白二值扫描。
3.3.1.3扫描分辨率
采用黑白二值、灰度、彩色几种模式对档案进行扫描时,其分辨率应≥200DPI。特殊情况下,如文字偏小、密集、清晰度较差等,可适当提高分辨率。如需要进行OCR识别的,扫描分辨率应≥300DPI。
3.3.1.4扫描登记
认真填写档案扫描情况登记表单,登记扫描的页数,核对每份文件的实际扫描页数与档案整理时填写的文件页数是否一致,不一致时应注明具体原因和处理方法。
3.3.2图像处理
3.3.2.1对扫描图像偏斜度、清晰度、失真度、完整情况等进行检查,发现问题及时处理或重新扫描。
3.3.2.2发现文件漏扫、扫描图像排列顺序有误时,应及时补扫并正确插入图像,调整排列顺序。
3.3.2.3对出现偏斜的图像应进行纠偏处理,以达到视觉上基本不感觉偏斜为准。对方向不正确的图像应进行旋转还原,以符合阅读习惯。
3.3.2.4对扫描图像中影响图像质量的杂质(黑点、黑线)、多余边框等,进行去污和裁边处理。处理过程中应遵循在不影响可懂度的前提下展现档案原貌的原则。
3.3.2.5对大幅面档案分区扫描形成的多幅图像,进行拼接处理,合并为一个完整的图像。
3.3.2.6认真填写图像处理情况表单,记录质检结果和处理意见。
3.3.3图像存储
3.3.3.1长期保存格式
采用黑白二值模式扫描的图像文件,使用TIFF(G4)格式存储。采用灰度模式和彩色模式扫描的文件,使用JPEG格式存储。如需要进行OCR识别的,识别后可存储为双层PDF格式。
3.3.3.2网络利用格式
不需要进行DRM保护的扫描图像,可直接以TIFF、JPEG、PDF格式在网上提供利用。
需要进行DRM保护的扫描图像,可由集团公司档案管理系统批量转换为XPS格式后再行发布。
3.3.3.3存储方式和命名规则
按“档号”建立文件夹方式存储。
以档案数据库中每份文件的档号,命名该份文件的图像存储文件夹;以每份文件的题名,命名该图像存储文件夹下所保存的扫描图像文件。通过档号的一致性和唯一性,建立起档案数据库条目与图像存储文件夹一一对应的关联关系,从而确保扫描图像文件挂接的正确。
4、照片档案数字化技术规范
4.1照片整理
参照纸质档案数字化操作规程。
4.2照片扫描
4.2.1扫描要求
扫描照片、底片能够按原件1:1比例还原,并能忠实反映照片、底片原貌(清晰度、色彩、黑白对比度等)。
4.2.2扫描色彩模式
采用灰度和彩色两种模式扫描。黑白照片采用灰度模式扫描,彩色照片采用彩色模式扫描。
4.2.3扫描分辨率
对于所扫描的照片,以常见5英寸照片大小(3.5×5英寸)为参照,扫描分辨率≥300DPI;对于所扫描底片以还原5英寸照片为参照,扫描分辨率≥1500DPI;对于其他太大或太小的照片,扫描分辨率可作相应的调整,照片幅面≥10英寸时,可以适当降低分辨率但不能低于200DPI;对于一些涉及重要历史事件和人物的照片,其扫描分辨率可在此基础上适当增加。
档案数字化技术规范
4.3图像处理
4.3.1对扫描图像的偏斜度、清晰度、失真度、完整情况等进行检查,发现问题及时处理或重新扫描。
4.3.2发现照片漏扫时,应及时补扫。
4.3.3对扫描图像进行裁边处理,去除多余的边框。
4.3.4对大幅面照片分幅扫描形成的多幅图像,进行拼接处理,合并为一个完整的图像。
4.3.5认真填写图像处理情况表单,记录质检结果和处理意见。
4.4图像存储
4.4.1存储格式
照片扫描后以TIFF和JPEG格式存储。对于重要的照片和扫描质量要求较高的照片,以TIFF(LZW)格式优先存储。
4.4.2存储方式和命名规则
按照片档案的“档号”建立文件夹方式存储。
以档案数据库中每张照片的档号,命名该张照片的图像存储文件夹;以每张照片的题名,命名该图像存储文件夹下所保存的扫描图像文件。通过档号的一致性和唯一性,建立起档案数据库条目与图像存储文件夹一一对应的关联关系,从而确保扫描图像文件挂接的正确。
5、音频档案数字化技术规范
5.1术语解释
5.1.1 WAV格式
微软开发的一种声音文件格式,也叫波形声音文件,是最早的数字音频格式。
5.1.2 WMA格式
WMA的全称是Windows Media Audio,它是微软公司推出的与MP3格式齐名的一种新的音频格式。
5.1.3采样频率
即取样频率,指每秒钟取得模拟信号样本的次数,用Hz或kHz来表示。
5.2音频档案整理
参照纸质档案数字化操作规程。
5.3技术要求
5.3.1基本原则
音频档案的数字化要尽可能全面、真实和无损地保存信息,保证数据的可用性不会随着时间的推移和系统的变换而受到影响;满足不同网络和计算机应用条件下数字化数据能从存储介质中正确读取,并能还原成音、视频信号输出。
5.3.2硬件设备
5.3.2.1放音设备
放音设备必须能正确地将声音源输出。根据音频档案原始载体型号配备相应的放音设备。
5.3.2.2计算机配置
选用性能稳定配置较高的计算机作为数字化设备。
5.3.2.3存储设备
应使用大容量硬盘、磁盘阵列、磁带机等。声音信号除存储在硬盘中随机使用外,应备份至磁带或光盘上脱机保存。
5.3.3参数设置
配置相应采集软件的相关参数,根据所要采集格式设定采样率。音频档案数字化选用44.1kHz作为声音采样标准。声音样本的大小可选用16位或更低的。根据原录音带选择声道。
5.3.4转换文件处理
5.3.4.1清除与档案无关的信息。
5.3.4.2根据需要合并相关音频信息,并生成最终文件。
5.3.5文件存储
5.3.5.1存储格式
推荐使用WAV、WMA、MP3格式文件。
需要进行DRM保护的音频档案,原先为WAV、MP3格式的可由集团公司档案管理系统批量转换为WMA格式后再行发布。
5.3.5.2存储方式与命名规则
按音频档案的“档号”建立文件夹方式存储。
以档案数据库中音频档案的档号,命名该音频档案的存储文件夹;以音频档案的题名,命名该存储文件夹下所保存的音频文件。通过档号的一致性和唯一性,建立起档案数据库条目与存储文件夹一一对应的关联关系,从而确保音频文件挂接的正确。
5.3.6技术指标与要求
5.3.6.1采样频率越高,采样位数越多,声道数越多,压缩率越低,得到的数字化声音质量越高,相应的信息量也越大。音频档案数字化选用采样频率为44.1kHz;量化级为16位;立体声双声道采样参数。对于DVD中的声音选用48kHz。
5.3.6.2声音档案数字化时必须远离强磁场等外部干扰。
5.3.6.3数字化过程中应检查声音档案载体质量,确保声音档案的真实性、完整性。
5.3.7音频档案数字化操作规程
5.3.7.1计算数字化录音带所需的磁盘空间;
5.3.7.2数字化录音带参数设置;
5.3.7.3开始进行数字化,打开放音设备,启动数字化采集程序;
5.3.7.4全程监听数字化采集情况,直至采集完成;
5.3.7.5重新命名采集的文件名
5.3.7.6采集完成后,检查形成的文件是否可以正常播放;
5.3.7.7处理采集的文件:数字化录音带会形成两个文件,分别对应录音带的A、B面,需要将两个文件进行合并形成一个文件;
5.3.7.8将数字化完成后的档案归档保存。
6、视频档案数字化技术规范
6.1术语解释
6.1.1 MPEG-2标准
ISO/IEC制定的视频压缩编码标准,是针对标准数字电视和高清晰度电视在各种应用下的压缩方案和系统层的详细规定。
6.1.2 WMV
WMV是微软推出的一种流媒体格式,在同等视频质量下,WMV格式的体积非常小,因此很适合在网上播放和传输。
6.1.3数码率
系统在单位时间内传送的数据量。在实时传输情况下,数码率等于取样频率与量化比特数的乘积。数码率的单位通常为Mbps,即兆比特/秒。
档案数字化技术规范
6.2视频档案整理
参照纸质档案数字化操作规程。
6.3技术要求
6.3.1硬件设备
6.3.1.1采集压缩设备
采用专业级或广播级的硬件采集压缩设备,应同时具备AV复合端子、S端子、分量等多种视频输入接口,支持MPEG-2硬件压缩。
6.3.1.2计算机设备
应用性能稳定、配置较高的计算机作为数字化设备。
6.3.1.3放像设备
放像设备必须能正确地将影像信息源输出。根据视频档案原始载体型号配备相应的放像设备。
6.3.1.4存储设备
使用硬盘、磁盘阵列和磁带机等,脱机保存可采用光盘存储。影像信号除存储在硬盘中随机使用外,应备份至磁带或光盘上脱机保存,如有必要,应异地保存。
6.3.2参数设置
配置相应采集软件的相关参数,根据磁带视频制式,设定所采集的视频制式(PAL、NTSC、SECAM)。采集卡的码流最高值至少应为10MB。
6.3.3视频转换
6.3.3.1视频压缩编码规格采用MPEG-1或MPEG-2标准。
6.3.3.2压缩数码率应大于4MB/S。
6.3.3.3视频压缩尺寸及帧率参照原影像档案标准。
6.3.4文件存储
6.3.4.1存储格式
采用AVI、MPEG-1、MPEG-2文件格式进行存储。根据视频质量选择参数,MPEG1格式比特率是固定的1.5MB/S,MPEG2格式可根据原视频质量选取比特率,一般平均比特率可选4Mb/S。
6.3.4.2存储方式和命名规则
单一视频文件大小不应超过1GB,超过1GB的应进行切割存储。对于物理性必须分割的视频,要求必须有1分钟的重叠区域,便于检索和衔接。
按视频档案的“档号”建立文件夹方式存储。
以档案数据库中视频档案的档号,命名该视频档案的存储文件夹;以视频档案的题名,命名该存储文件夹下所保存的视频文件。通过档号的一致性和唯一性,建立起档案数据库条目与存储文件夹一一对应的关联关系,从而确保视频文件挂接的正确。
6.3.5技术指标与要求
6.3.5.1对模拟视频信号进行数字化处理的参数:
主观质量描述采样方式帧数(帧/秒)视频速率(kbps)音频设定音频采样
保留原有质量1920*1152 30-60 40000 384k立体声、48KHZ
相当于Dvd质量720*576 25-30 1500 384k立体声、48KHZ
相当于Vcd质量352*288 15-25 500 224k立体声、48KHZ
6.3.5.2视频档案数字化时必须远离强磁场等外部干扰。
6.3.5.3数字化过程中应检查载体质量,确保视频档案的真实性、完整性。
6.3.6视频档案数字化操作规程
6.3.6.1计算出数字化录像带所需的磁盘空间,使存储文件的磁盘满足采集的要求;
6.3.6.2数字化录像带参数设置;
6.3.6.3开始进行数字化,打开录像设备,启动数字化采集程序;
6.3.6.4全程监控数字化采集情况,直至采集完成;
6.3.6.5采集完成后,检查形成的文件是否可以正常播放;
6.3.6.6将数字化完成后的档案归档保存。