空格和縮進(jìn)都不存儲(chǔ)字符,直接存下一個(gè)字的位置。
這個(gè)我手工探查過。PDF支持語義標(biāo)記,可以把一堆文本標(biāo)記成段落,而從Word用Acrobat的虛擬打印機(jī)生成的PDF就可以利用這樣的標(biāo)記,所以這樣的PDF轉(zhuǎn)Word原則上應(yīng)該能恢復(fù)語義(做不到就是軟件太差勁了)。絕大多數(shù)生成PDF的軟件只保證看起來一樣,不會(huì)生成語義標(biāo)記,那么只能把一個(gè)段落排版成若干行,每一行又是若干個(gè)字符(行內(nèi)的信息本來不需要額外的語義標(biāo)記,PDF鼓勵(lì)保留同一行的信息包括單詞之間的空格,但卻是有些生成PDF的軟件連這個(gè)信息也扔了),從這樣的PDF轉(zhuǎn)Word就只能得到一堆文本,多亂都有可能,因?yàn)橐呀?jīng)沒有語義信息了,而用來欺騙眼睛的坐標(biāo)信息也被扔掉