《信息技术 OFD档案应用指南》(征求意见稿)
《信息技术 OFD档案应用指南》(征求意见稿)
1 范围
本文件规定了 OFD 用于归档和长期保存时在文件技术特性和阅读软件等方面的应用要求。
本文件适用于各类信息处理系统中生成的、用于长期保存的 OFD 版式文件,也适用于产生该类文件的文档格式转换、文件加工及检测软件或其模块。
2 规范性引用文件
下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件, 仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。
GB 18030 信息技术 中文编码字符集
GB/T 18894 电子文件归档与管理规范
GB/T 33190 电子文件存储与交换格式版式文档
DA/T 1 档案工作基本术语
DA/T 18 档案著录规则
DA/T 46 文书类电子文件元数据方案
DA/T 47 版式电子文件长期保存格式需求
DA/T 54 照片类电子档案元数据方案
3 术语和定义
下列术语和定义适用于于本文件。
3.1 版式 fixed layout
将文字、图形、图像等多种数字内容对象按照一定规则进行版面固化呈现。[来源:GB/T 33190,3.1,有修改]
3.2 开放版式文档 open fixed layout document
GB/T 33190 定义的一种独立于软件、硬件、操作系统、输出(呈现/打印)设备的文档格式。[来源:GB/T 33190,3.2]
3.3 文书类电子文件 administrative electronic records
反映党务、政务、生产经营管理等各项管理活动的电子文件。 [来源:DA/T 46,3.2]
3.4 字形 glyph
一个可识别的抽象图形符号。[来源:GB/T 16964.1,3.6]
3.5 字型 font
具有同一基本设计的字形图像或图形的集合。 [来源:GB/T 33190,3.6]
3.6 子集化字型 subset font
只包括指定的部分字符的字形轮廓数据的字型文件,该文件仍符合字型文件格式规范(如TrueType、OpenType)的所有要求。
3.7 长期 long-term
足够长的时间段,信息在该时间段内可能会发生一系列技术变迁,包括存储介质的变革、用户群体 的变更,且这个时间段可能会延伸到无限未来。[来源:GB/T 23286.1,3.13]
3.8 长期保存 long-term preservation
用一种可靠的、科学合理的方式长期维护电子文件真实、完整、有效的行为。[来源:DA/T 47,3.3]
3.9 合规阅读软件 conforming reader
可以恰当地读取和处理 OFD 文件,并且满足本文件关于阅读软件要求的软件应用程序。
3.10 合规生成软件 conforming writer
能够写出满足本文件要求的 OFD 文件的软件应用程序,它既可以是单独的软件,也可以是具有导出OFD 文件的任何信息处理系统。
3.11 去技术化 de-technicalizaion
移除特定的技术表达内容,使用已知或已公开标准的方法模拟呈现或表示其内容的过程。
4 缩略语
下列缩略语适用于本文件。
CMYK一种颜色空间,采用四个分量(Cyan 青,Magenta 品红,Yellow 黄,blacK 黑)表示颜色GRAY一种颜色空间,采用灰度值表示颜色
OFD 开放版式文档(Open Fixed layout Document)
RGB一种颜色空间,采用三个分量(Red 红,Green 绿,Blue 蓝)表示颜色XML 可扩展置标语言(Extensible Markup Language)
5 总体说明
为了便于电子档案的统一管理和利用,文书类电子文件、部分照片类电子档案和统计数据应转换或加工为版式文档长期保存。用于长期保存的版式电子文件应满足格式开放、不绑定软硬件、信息自包含、 格式自描述、显示一致性、持续可解释、稳健、可转换、利于存储、支持技术认证机制、易于利用等要求,见 DA/T 47。文书类电子文件最小单位是单个文件,见 GB/T 18894。
版式文档应采用 GB/T 33190 规定的文件格式。GB/T 33190 规定了一种适合交换和存储的通用型版式文档格式,其目标是针对多种业务场景的,就电子文件长期保存目标而言,该标准中的部分内容与电子文件长期保存的要求并不全部一致,因此有必要对其具体技术条款进行进一步限定,禁止在需要长期保存的版式文档中使用与 DA/T 47 要求相抵触的技术特性(如外部图文资源、加密等),以便使电子文件可完全满足 DA/T 47 提出的各项要求。
本文件是基于 GB/T 33190 的,包括其术语和技术特性,对于任何有效的 OFD 特性,只要本文件中没有明确禁止,就可以被应用到用于长期保存的版式电子文件中。
6 长期保存要求
6.1 文件结构
一个组织良好的 OFD 文件其包内结构如图-1 所示。
图 1 典型 OFD 文件的包内组织结构
用于长期保存的 OFD 文件应确保文档呈现、交互使用到的所有内容和关联资源均包含在文件包内, 这些要求主要体现在资源定义文件(PublicRes.xml,DocumentRes.xml 和 Page_N/PageRes.xml)、资源文件夹(Res,Page_N/Res)和注释文件夹(Annots)等处。
用于长期保存的 OFD 文件还应在上述基本组织之上附加描述该文档背景信息的元数据、根据实际需要附加标准数字签名或签章、反映源文件结构或内容语义的标引和附件信息等,这些要求主要体现在主入口文件(OFD.xml)中的文档信息(DocInfo)部分或其引出文件、签名文件夹(Signs)、标引文件夹(Tags)和附件文件夹(Attaches)等处。
6.2 基本结构
6.2.1 主入口
对主入口文件的调整要求如下:
a) 主入口(OFD.xml)文件中根节点的 DocType 属性应固定为“OFD-A”;
b) 文档的元数据应以自定义元数据(CustomDatas)方式存储于主入口文件(OFD.xml)中的文档信息(DocInfo)节点内,元数据名称应符合 DA/T 46、DA/T 54 等标准的相关要求;当所应用的文档格式版本允许以引出文件的方式记录元数据时,宜使用该方式;此种条件下,当涉及对同一元数据项设置或调整取值时,应使用引出文件方式;
c) 归档使用的 OFD 文件不应使用多文档机制(即包内包含多个 Doc_N 文档夹),原文件使用该机制的,应通过合格生成软件在归档前按文档顺序拆解为多个单文档 OFD 文件,或者将多个文档内容合并到一个文档中;
d) OFD 文件中包含多版本(Versions)修订痕迹信息的,应根据应用需求保留该信息或仅保留最后版本;
e) OFD 文件包内应去除任何与主入口引出及递归延伸引出无关的其他文件。
6.2.2 文档根节点
对文档根节点文件的调整要求如下:
a)OFD 文档中包含有权限声明(Permissions)的,应去除;
b)OFD 文档中带有视图首选项(VPreferences)设置的,应去除;
c)OFD 文档中定义了动作(Actions)且该动作类型不是文档内跳转(Goto)的,应去除;
d)OFD 文档中的注释(Annotations)关联了数字签名(Signature)其该签名的数据结构不符合GB/T 35275 要求的,应去除该关联;
e) OFD 文档中不予保留的附件(Attachments)应转换为页面内容或以页面内容描述的外部附件概要信息;
f) OFD 文档中带有扩展信息(Extensions)的,应去除;如果去除的扩展信息对文件输出效果有影响的,应在归档前通过其原生成软件对应的合格阅读软件将其影响固化到页面内容中。
6.2.3 页树
对页面描述文件的调整要求如下:
a)宜将文件内使用次数最多的页面设置(PageArea)确定为该文档的默认页面设置,在文档公共数据(CommonData)中描述;
b)文档内页面使用的设置与文档默认设置相同的,宜在页面描述中省略页面设置(PageArea)属性;
c)页面定义了动作(Actions)且该动作类型不是文档内跳转(Goto)的,应去除;d)页面内容中不应出现名称相同的图层(Layer);
e)页面内容中应限制使用页面块(PageBlock)嵌套。
6.2.4 页对象
对页面中内容的调整要求如下:
a) 页面描述(Content.xml)中定义的图层应在文档生成时确定,原文的主要内容应安排在正文层(Body)和背景层(Background);
b) 通过扫描加工的文档,其扫描图像宜安排在背景层,识别后的文字内容宜安排在正文层;
c)页面内容流(Content.xml 中的内容顺序)应按照语义内容顺序组织。
6.2.5 大纲
对大纲(Outline)的调整要求如下:
a)文档大纲的节点(OutlineEle)对应有动作(Action),且动作类型不为文档内跳转(Goto)的,应去除该动作;
b)原文大纲节点中包含文档内跳转动作,且该工作跳转至的书签名在书签(Bookmark)列表中不存在、或者跳转的目标页面不存在的,合格生成软件应在转换时去除该动作。
6.2.6 资源
对文档资源(DocumentRes)的调整要求如下:
a)颜色空间(ColorSpace)、字型(Font)等应定义在公共资源(PublicRes)中,栅格图像、音频、视频等多媒体(MultiMedia)、绘制参数(DrawParam)、矢量图像(VectorG)应定义在文档资源中;
b)除 GB/T 33190 规定需阅读软件自带的字型以外,OFD 文档中页面图元使用的字型应嵌入对应的子集化字型数据。以下情况应确定字型已被使用:
1)被填充或勾边的文字对象(TextObject)引用;
2)被裁剪区中的文字对象(Text)引用;
c)嵌入文档中的子集化字型数据应符合 OpenType 规范,具体要求包括:
1)保留原字型中的 cmap、loca 和 glyf 等字形轮廓相关的表数据;
2)保留 cvt、fpgm、head、hhea、hmtx、maxp、name、OS/2 和 post 等表数据;
3)按版式文档字形绘制的实际需求保留其他表数据;
d)字型数据中的字符应支持 GB 18030 字符集和 Unicode 编码;
e)OFD 文档中使用的栅格图像格式应限于 BMP、JPEG、PNG、JBIG2、JPEG2000 和 TIF 六种,其他格式的栅格图像,应在整理归档前或转换过程中转换此六种格式之一;
f)OFD 文档中使用的栅格图像资源,不应利用其扩展机制加入自定义数据;
g)OFD 文档中应去除音频、视频,宜在去除上述信息时以外部附件、注释备注(Remark)等方式保留原文中存留有音视频的概要信息。
6.3 页面描述
6.3.1 颜色
对颜色的调整要求如下:
a)OFD 文档中应定义默认颜色空间;
b)OFD 文档中使用的颜色空间类型应为 GRAY、RGB 或 CMYK,位深度宜为 8;
c)OFD 文档中使用的颜色空间宜带有对应的颜色配置文件(Color Profile)。
6.3.2 裁剪区
对裁剪区的调整要求如下:
a) 裁剪区的实际生效区域包含图元的外接矩形(Boundary)的,应去除;
b) 裁剪区的实际生效区域面积小于 0 时,应去除裁剪设置并将所在对象的可见性(Visible)设置为否。
6.3.3 页面对象
对页面对象的调整要求如下:
a)除特殊情况,文字、图形、图像和复合对象等图元的外接矩形(Boundary)应以能完整包含文字对象的可见部分的最小矩形为基础,各方向外扩最大值不超过最小矩形宽度或高度的 1/2;
b)页面图元对象不宜定义动作序列(Actions);
c)文本对象、图形对象的线宽(LineWidth)、线端样式(Cap)、连接样式(Join)、连接点截断值(MiterLimit)、虚线样式(DashPattern、DashOffset)应配合勾边(Stroke)属性使用,当 Stroke 取值为 false 时,上述属性不应设置;
d)复合对象的是否勾边(Stroke)、是否填充(Fill)、线宽(LineWidth)、线端样式(Cap)、连接样式(Join)、连接点截断值(MiterLimit)、虚线样式(DashPattern、DashOffset)属性以及勾边颜色、填充颜色不应设置;
d)图像对象、视频对象的填充(Fill)属性以及填充颜色(FillColor)不应设置。
6.4 图形
对图形对象(PathObject)的调整要求如下:
a)勾边颜色、填充颜色在多个图形对象之间重复的,宜在绘制参数(DrawParam)中统一声明,在 图形对象或所在图层中引用;
a)线宽(LineWidth)、连接方式(Join)、虚线样式(DashPattern)、端点样式(Cap)、连接点截断值(MiterLimit)等绘制属性在 3 个图形对象之间重复的,宜在利于精简内容流描述的前提上,将共用的绘制属性中声明为绘制参数(DrawParam),由图形对象或所在图层中引用该参数。
6.5 文字
对文字对象(TextObject)的调整要求如下:
a)页面内容中一个文字对象(TextObject)宜描述在一行内且字体属性一致的字符绘制效果;
b)文字的高度大小宜使用字号(Size)标识;
c)文字对象仅使用横向缩放变换时,宜使用水平缩放比(HScale)标识;
d)文字的勾边(Stroke)或填充(Fill)颜色在 3 个以上文字对象之间重复的,宜在绘制参数(DrawParam)中统一声明,由文字对象或所在图层引用该参数。
6.6 图像
对图像对象(ImageObject)的调整要求如下:
a)在多个页面中共同使用的栅格图像宜在文档资源中统一声明,否则宜在页面资源中统一声明;
b)若栅格图像对象中使用了插值绘制(Interpolate)属性,应禁止使用该选项。
6.7 视频
视频部分无调整要求。
6.8 复合对象
对复合对象(CompositeObject)的调整要求如下:
在多个页面中共同使用的矢量图像资源宜在文档资源中统一声明,否则宜在页面资源中统一声明。
6.9 动作
对动作(Action)的调整要求:
a)图元对象、大纲节点、页面和文档均不应保留类型为“文档内跳转”以外的动作。
b)去除图元对象、大纲节点、页面和文档中的动作时,宜使用所附着对象或元素的自定义参数机制保留其关键原始信息;若所附着对象或元素未定义自定义参数机制,则不保留。
6.10 注释
6.10.1 归档前的注释
归档前已存在的注释信息在归档处理过程中应保留,但具体可使用以下两种方式之一:
a)继续作为注释对象存在,但其自定义参数应满足下列条件:
1) 对注释外观显示有影响的参数应去除,宜由原生成软件将其影响固化到注释外观;
2) 注释的外观使用页面块(PageBlock)嵌套的,宜去除嵌套;
3) 注释对象的 ReadOnly 属性应设置为 true,NoZoom、NoRotate 应设置为 false;
b)将该注释对象的可见内容与所在页内容合并。
6.10.2 归档后的注释
OFD 文档归档后,管理部门在内部管理中需要添加存档章、检验章、页码等内容时,应使用注释方式附加到文档中,并与该文档的原有注释对象分文件存储。
6.11 自定义标引
存档过程中 OFD 文档中的自定义标引(CustomTag)宜保留,标引描述或引用的全部内容应包含在当前文件包内,不应使用外部内容或资源。
6.12 扩展信息
对扩展信息(Extensions)的调整要求:
a)OFD 文档中带有扩展信息(Extensions)的,应去除;
b)扩展信息的对象是图元、图层、页面,且扩展信息对文件显现效果有影响的,应在归档前通过其原生成软件对应的合格阅读软件将其影响固化到页面内容中。
6.13 数字签名
6.13.1 签名数据要求
OFD 文档中数字签名至少包括签名(Type=Sign)和签章(Type=Seal)两种类型,其满足以下条件时可不“去技术化”:
a)签名的数据结构满足 GB/T 35275 的要求,且该结构中的公钥证书由合格的 CA 机构所颁发;
b) 签章的数据结构满足 GB/T 38540 的要求,且该结构中的电子印章由已备案的制章单位所签发, 该结构中的签章者公钥证书由合格的 CA 机构所颁发;
c) CA 机构的证书状态查询服务或吊销证书列表服务的可持续性得到档案科研部门认可。
归档后,OFD 文档在档案管理部门内部进行整理、加工和移交等操作时,可添加满足上述要求的电子签章或数字签名。
6.13.2 签名的去技术化
OFD 文档内不满足签名数据要求的数字签名应进行去技术化处理。签名(Type=Sign)的去技术化应满足如下要求:
a)被注释对象引用且保留注释对象时,应按照如下顺序处理:
1)在注释对象的自定义参数中增加签名人、签名时间和签名时摘要值等信息;
2)去除注释对象中对此数字签名的关联引用(SignRef)。
b)被注释对象引用且不保留注释对象时,应将注释对象的外观转换为页面内容;
c)从数字签名列表(Signatures.xml)中去除对应记录,并移除对应的文件夹。
6.13.3 签章的去技术化
签章(Type=Seal)的去技术化时应将电子签章的外观转换为注释对象,或转换为页面内容等设置图像混合模式(BlendMode)为 Darken;
6.14 版本
OFD 文档内包含多版本信息的,一般应保留。
6.15 附件
6.15.1 附件保留
用于长期保存的 OFD 文档中的下列附件应予保留:
a)使用 TXT、XML 等可通过文本查看软件查阅其完整内容的;
b)所描述的内容有公开发布的标准或技术文档说明其组成,且该标准或技术文档已经归档的;
c)该文本格式中包含电子签名且该签名的数据格式符合公开发布的技术标准的。
6.15.2 附件去除
OFD 文档中有附件且不予保留的,应按照附件的具体类型分别处理后再去除:
a)附件适合转换为版式文档的(参见附录 A),应将其转换为 OFD 并依次插入到主文档后;
b)附件因以下原因不适合转换的,应将其转换为电子档案管理系统可接收的格式,并在 OFD 文档中添加附件信息页保留对这些转换后附件的关键摘要信息:
1) 附件是音频或视频的;
2) 数据类电子表格文件;
3) 含有较多动画、三维效果且该效果不宜丢失的。
6.16 加密和解密
用于长期存档的 OFD 文件中不应使用任何加密选项,归档前应从 OFD 文件包内去除与加解密相关的数据内容。
原文被加密的,应在接收归档前进行脱密(将密文解密为明文)操作。
6.17 对软件的要求
6.17.1 对生成软件的要求
生成软件应能将各种数据和文件转成或生成符合本文件要求的 OFD 文档,当原文内容中存在与本文件要求不符的内容时,合格生成软件应能在转换时予以纠正。
6.17.2 对阅读软件的要求
合格阅读软件应能完整呈现符合本文件要求的 OFD 文档,包括其页面效果、人机交互和文档属性等方面。
合格阅读软件在打开符合本文件要求的 OFD 文档时,应自动禁止插入页面、调整页面等文档编辑功能。
合格阅读软件应包含 OFD 文档检查功能,可依配置自动检查文档全部或可见部分内容,对其中不符合项以对话框、日志等方式加以提示。