恒科

您当前所在的位置:主页 > 常见问题 > 使用说明书 > 使用说明书

PDF档案格式中文嵌入现况与问题探讨(上)-印刷检

时间:2013-10-22 19:19  来源:www.hk-yq.com  作者:印刷检测仪器  点击:
        摘要
  印刷检测仪器在目前的状况来说,英文PDF档案格式在网路上、与文件交换的应用上已经可以说非常成熟了,但是中文方面的应用还比其他亚洲国家存在着更多的问题,以致於其应用的范围无法普及。本文的主旨在於探讨PDF档案格式的组成、制作以及制作後的档案特性,是以一种测试及探讨的方式来制作的。
  一、前言 
  由Adobe公司所开发的PDF档案格式,打着"跨文字、跨语言、跨平台、跨媒体、跨软体、跨世纪的电子文件交换格式",以及"这就是未来"的口号出现在我们眼前,这样的一种文件,它到底有何特别之处,有什麽能耐呢?
  二、何谓PDF档案 
  所谓「PDF可携式文件格式」是一种开放式电子文件格式(符合美国Adobe公司Acrobat之PDF标准),不论使用何种电脑平台或应用软体编辑的文件,几乎都可转换成「PDF」格式互通使用。除了在萤幕上浏览与印刷效果(文字、图型、影像)完全相同的式样外,更提供多种注记工具让使用者更有效率地阅读文件。通常我们会把Acrobat及PDF看作是同一件事,PDF是「PortableDocumentFormat」的缩写,它主要目的就是要在各种不同的电脑平台上创造出一个共通的文件格式。换句话说,就是希望不管在那一种电脑上制作的文件,只要能转成PDF格式,拿到另一种电脑上就能毫无困难地打开阅读,更能维持制作当时的格式与版面,看起来跟原来的格式一模一样。这个问题是在不同电脑平台之间长期以来所存在的,常常在PC上制作的文件拿到MAC上,如果没有对等的软体或版本,即使有同样的软体,版本不同或中、英文版不同可能都没办法互相打开对方的档案,因而造成相当大的不便。如PDF格式的出现,就能使一个文件在不同平台上畅行无阻,而且看到的样子都一样,在也不用再花力气把档案格式转来转去。
 
 三、PDF档案格式介绍 
  PortableDocumentFormat可携带文件格式是将难以处理的PostScript码精化成一个页面与物件的资料库。它包含字型、影像及经压缩的向量物件,它是高度精简的文件格式。正如其名-可携带文件格式-它为统一可预测的高品质输出及可转用於多媒体用途作最佳化处理。PDF具有设备及媒介独立的特性,它支援CMYK、特殊色及合并的色域定义。PDF是一个支援补漏白、拼大版及可转换之页面取向的档案,一般人可以利用免费的AcrobatReader软体在麦金塔电脑、视窗环境、Unix及网际网路浏览器浏览。
  制作PDF的程序有许多种,可以制作出许多不同性质及不同用途的PDF档。例如其中一种方法叫做"蒸馏",利用AdobeAcrobatDistiller软体,可以将PostScript档案转换成PDF档案;另外也可以利用一种可选择周边设备的工具叫AdobePDFWriter,利用它可自动将文件储在成PostScript档案,再自动转换成PDF档案,或者利用程序巨集或其他自动功能也可以将单独或多个PostScript档案转换成PDF档案。在以往的印前工作流程里客户若需作最後一刻修改,则需回原编辑应用程式修改,再重新列印一次,而在PDF工作流程中,只需使用Acrobat直接修改PDF档,无需再重回原编辑应用程式修改列印。
  (一)、PDF档案组成
  1.第一层包含文件的文字与图像。
  2.第二层包含增效部份,例如书签,超文字连结、导览等。  3.第叁层包含档案的基本资讯,例如字形资讯和交换参考表。
  (二)、PDF档案格式的特点
  PDF为PostScript纯化过後的档案,它已经去除了PostScript在解译时所可能发生的不确定性,所以成功的转换成PDF档後,也就确保在後续的工作流程中能顺利的进行。您可以将任何应用软体产生的页面转换成PDF档案,完整的将原文件之文字、图形、影像、声音及链结嵌入PDF档案之中,让你可以在最後一刻做编辑修改而无须重回应用程式修改列印。在转换时可以选择将文字包入PDF文件之中,即使一个中文PDF档案亦可在无安装中文字型的纯英文系统中正确的开启列印,真正的达到档案交换网路无国界。PDF亦可转换成内含字型的EPS档案,而转换成的EPS档案可以再组版或其他软体汇入再使用。
  (1)高压缩
  PDF档案使用多种方法来达到缩减原PostScript文件的目的,在图片压缩的部分亦可支援述种格式压缩,一般档案通常可以压缩至原来的数十到数百分之一。尤其当使用者要在网路上发行电子文件时,为了速度的考虑,高压缩比就显得特别重要。
  1.JPEG:JointPhotographicExpertGroup专业摄影联合组织,所推广的是一种减损性的静态影像压缩演算,为一种破坏性的压缩方法来压缩影像品质,其应用范围对於彩色的连续调图片较为适合。
  2.Zip是用Jean-loupGaillyMarkAdler的Zlib套装软体的延伸开发而成,压缩方式是适台有花纹、底纹或大片重复影像图档。Acrobat1.0分别提供了4bit及8bit的不同压缩比的演算,具取样方法是以重复的资料为主。
  3.CCITTGroup1.CCITTGroup4是国际电话电信组织(InternationalCoordinatingCommitteeforTelephony&Telegraphy)所订定的压缩标准,用来压缩黑白影像绘图软体所绘制的图档,或单色扫描图档以及线条稿。Acrobat1.0提供这两种压缩方式适合单色调线条稿,如传真品质的档案。
  4.Runlength是针对单色线条稿的压缩,尤具有大区域的单色色块图档。
  5.Compresstext&LineArt文字及线条都可以加以压缩。
  (2)设备独立
  一般PostScript档案中包含了多种可能的合法程式码,在某些条件下可能无法运行。例如那些依赖某些特殊字体结构、或输出设备的程式码。相反的,PDF格式不含任何程式结构,因而使得它更加安全,也更适合以电子资料形式储存或传输。PDF是为整合多种输出选项的网路所设计的,它是标准化及设备独立最佳化输出格式。中文PDF文档之要求,不采用中文系统时,仍可独立显示中文;采用中文系统时,则可搜寻中文词汇。    
  (3)各页独立
  PostScript文件的各页间是相互关联的。这意味着你在跳到某页之前必须把它前面所有的页都处理过。而PDF格式并没有这个限制。你可以直接阅读PDF档案的任何一页,无须考虑其他页。
  (4)注记
  PDF档案可以包含各种各样的注记--例如书签,缩影,链接,备注,文串,标识和媒体盒。你可以用这些“注记”以提高档案的质量及可读性。这些“注记”更可以有效的协助档案管理工作--例如制作、发送、签注、修正、完稿、以及出版发行。
  (5)档案保护
  PDF档案可容许设定密码和其他多种保护方式,以防止非法使用。例如必须使用密码才允许阅读、允许或不允许列印、复制、签注、或修改。
四、中文PDF档案制作流程
   (一)、网页格式转存PDF档案格式:
  PDF档案在英文字型的产生方面,已可轻而易举的制作,但在中文部分入前尚无法轻易地将网页直接转为PDF档,而必须间接的靠一些转换才能将网页转为PDF档。在目前的情况来说呢,在Acrobat1.0中以开启网页的功能只能用在英文网页上,只需使用WebCapture输入URL即可将英文网页转成PDF档,且可保留其超连结部分的格式。但在中文网页部分,中文字体则会变成乱码,所以必须藉助Acrobatwriter以及Distiller来列印PDF档案,虽然无法保留其超连结的格式,但可设定列印超连结表。
   (二)、排版软体转存PDF档案格式:
  目前常见的排版软体对於PDF档案格式直接的支援程度并不高,大部分的排版软体无法直接转存PDF档,而必须靠列印的方式来产生。对於支援直接转存PDF档案的软体来说,MicrosoftOffice系列算是最完整的了,基本上只需要将Acrobat1.0在Office之後安装,即可在工具列产生一个Icon,使用者只需直接点选即可启动一名为PDFMaker的程式,轻易的将文件转为PDF档。其他如PageMaker、QuarkXpress或Illustrator则必须加装外挂程式才可以直接转存PDF档。基本上各种软体所产生含中文字体的PDF档案,大致上可分为以"AcrobatWriter″、"AcrobatDistiller″以及"曲线″叁种产生方式,其中档案容量最大的是转为曲线的方式,其次为Distiller产生,最小的是以AcrobatWriter产生。当以相同的格式产生,使用的软体不同时,其档案大小会因为内含资讯的不同而有些少许的出入,但其档案的特性却是相同的。
  其大致上的制作流程如下:
  (三)、PDF档案格式在於输出时的作业流程:
  PDF档案在专业输出时需搭配PostScript3之RIP方能发挥最大生产效能,因为PostScript3直接支援PDF档案格式,当档案列印至PostScript3RIP时,RIP只需进行处理过网,所以处理速度相对提升,且列印品质较佳(如渐层)。
  而若您原有的RIP只支援PostScriptLevel2,则在列印PDF档案时会需要多一个转换成PostScriptLevel2的流程。
  前端在Mac平台上的排版软体使用CIDATM字型显示及编辑,产生PDF档案;後端再使用Postscript字型或相容输出机输出。
五、亚洲字型嵌入现况 
  一、字型编码说明: 
  亚洲字型要嵌入PDF档案,比英文字型的嵌入需要更多的软体,以及更复杂的技术。在此之前我们必须说明亚洲字型以及英文型的差异点,以及其在不同平台上的差异点。在亚太地区,虽然都有使用汉字,但每个国家或地区所使用的内码都不相同,兹就各地区的编码介绍如下 jLD中国设计在线 中国创意设计门户网
  (一)台湾地区
  1.Big5:俗称大五码   2.Big5plus:Big5扩编码  3.CNS11643:中文标准交换码
  (二)中国大陆
  1.GB2312-80:通称国标码
  2.GBK:汉字内码扩展规范
  (三)日本
  1.ShiftJIS
  2.EUC-JIS
  (四)韩国
  1.KSC5601
  (五)其他:
  二、编码原则: 
  1.文字之选择及字体悉依"国字标准字体表"为基准   2.以2个位元组(byte)为中文码编码单位,并以16进位制之文数字表示之  3.符合CNS5205及CNS7654之通信定则   4.依字之使用频率而编排於各不同的字面  5.每字面按先笔划後部首的排列顺序来编订字码
三、CID字型与TrueType字型,PostScript字型的关系: 
  CID是取自於CharacterID的缩写,此字元辨识码的功用在於帮助检索及取用字元,大量改进了其使用效能,此种方法最适合用於庞大的字体集如东方双位元文字-中文、日文、韩文等。Acrobat并非一定需要使用CID字型,亦可以使用TrueType字型,但在使用TrueType字型时若在印表机驱动程式字型选项中若选择将字型传送为Type1时,则嵌入於PDF中的中文字无法再做增字的动作,而选择将字型传送为Type42时,则嵌入於PDF中的中文字可修改增减(修改时系统中需有相同的字型)。中文PostScript字型目前尚无法适用於PDF档案格式。
  内嵌字型的最大优点便在解决文件产生者与输出者之间字型不同或对应错误的问题,现在PS流程是用字码对应,且必须是同一家字型公司的同一系列版本才可对应,字型内嵌可将此问题一劳永逸的解决。
  四、AcrobatReader能显示包含CJK文字的PDF档案的方式: 
  要显示CJK文字,有两种方式。
  一是在建立PDF档案时,作者可以嵌入所有文件中使用到的字体,包含CJK字体,只要字体可以被嵌入就行。任何语言版本的AcrobatReader都可以用嵌入的CJK字体来显示PDF档案。但是因为嵌入字体的PDF档案可能会占太多空间,所以作者可能在建立档案时选择不嵌入文件中使用的所有字体,这是第二种方式;如果在这种情况下,Acrobat或AcrobatReader的使用者若要查看该PDF档案,就必须使用正确的亚洲文字字体集。
  五、目前亚洲字体集中所包含的字体:
  目前有四个亚洲字体集(繁体中文、简体中文、日文与韩文)中,每个都包括有serif与sans-serif字体。而PDF档案中嵌入的亚洲字体的类型,在Windows平台上可嵌入TrueType字体,而在Macintosh与Windows平台上可以嵌入CID格式的AdobePostScript字体。较旧的OCF格式的PostScript字体不能嵌入,此外,文件中的字体必须容许嵌入。
  <注意>
  嵌入字体使PDF档案大小改变的因素取决於文件所包含的字体数量及字元多少。大体而言,一般文件中每嵌入一个C、J或K字体,PDF档案的大小就会增加2MB到3MB。Macintosh版Acrobat1.0中的「MakeCID」可将TrueType字体与较旧的OCF格式的PostScript字体转换成「Width-Only」(仅具宽度资讯)的CID字体。这些CID字体仅包含TrueType或OCF字体中使用的罗马字元的宽度资讯,Distiller在建立参考原始TrueType或OCF字体的PDF档案时,需要用到这种字形。如需更多资讯,请参阅「MakeCID」公用程式资料夹中的文件。如需在罗马语言的作业系统中建立包含CJK文字的PDF档案,仅具宽度资讯的CID字体就可派上用场。
  对于在罗马语言的系统上建立包含CJK文字的PDF来说,Acrobat中的PDFWriter是不能在罗马语言的作业系统上建立包含CJK文字的PDF档案的。然而,如果Distiller可以使用它所要制作的PostScript档案中所参考的字体,那麽Distiller就能建立含有CJK文字的PDF档案。如果PostScript档案含有嵌入的TrueType字体,您就可以在任何平台上制作此PostScript档。此外,针对目前AdobeTypeLibrary中的所有CJK字体,以及Macintosh或Windows系统中常见的TrueType字体,Distiller都附有「Width-Only」的CID字体。有了这些字体资讯,Distiller将可以在任何平台上均可成功制作PostScript档案。此外,如果制作的PostScript档案中有其他的字体需要转换,还可以用「MakeCID」公用程式建立仅具宽度资讯的CID字体。
 六、中文繁体字嵌入现况以及其所面临的问题
  目前来说,支援中文PDF档案字型内嵌的字集在Mac上只有文鼎的CIDATM字型;在PC上有文鼎的CIDPostScript字型,以目前面临的问题来说,第一就是档案大小,第二就是目前在网路上使用的USER并未普遍在个人PC上安装相关的浏览软体。特别是亚洲字型,除了浏览软体外,还必须加装亚洲文字字集方可开启嵌入亚洲字型的PDF档案。
  此外在印刷业上尚未能使用PDF档输出的做法。
  七、未来解决方案 
  PDF档案是一种非常具有发展潜力的档案格式,举凡各种格式的图文档案,皆可转成PDF档,未来无论是Microsoft系列的软体、Corel系列、Adobe系列,都将支援PDF档案格式的产生、修改、编辑以及输出。但就目前来说,除了AdobeAcrobat系列有完整的功能以外,其他软体的功能都还尚未健全,而且其他相关应用软体的种类太过繁杂,有待相关的软体开发公司开发出更具整合性的应用软体。而档案大小的问题,只有两个方法,治标的方法为将PDF以更高的比例压缩,以利传输;而治本的方法还是必须一方面开发更宽频的网路;一方面使之更普及,以利大量的资料在网路上传输。
  八、结论 
  PDF档案格式并非Acrobat特有的档案格式,例如华康的DynaDoc档案格式亦为可携式文件的一种,其大致上的特性与Acrobat的PDF档案格式相近,只是功能上有些许的出入。但基本上的目的、用途、产生方式以及浏览方式是非常相近的。
  PDF档案尚有相当大的研发以及应用空间,例如在电子报方面,就是一个非常好的PDF档案应用实例,因为一般的电子报大多只有大量的文字,缺少图片以及活泼的版面,使得阅读者在浏览电子资讯时,会觉得面对满版僵硬的文字,而降低阅读的意愿;如果能将电子报编排成一般报纸的版面,以PDF档的格式表现在读者面前,如此有了活泼的版面以及图片,一定会增加使用者阅读的意愿;另外,PDF档第二层的超连结功能亦可让使用者从头条标题上直接连结,将页面导引到报纸的内文中,而省去了逐页浏览的时间。当然了,这部分的构想还得等使用者习惯於以AcrobatReader阅读档案,以及各种问题解决後,才能进入实验及应用阶段,这将是另一个网路出版的新出路。