[軟體] (轉錄) 實體書電子化大作戰-OCR軟體之外的選擇

(感謝影子雪學翻譯同意轉載!)

開始接觸翻譯之後,拿到的原稿種類五發八門,其中最讓人頭痛的,應該就是非文字檔的原稿,要用不能直接編輯修改的原稿工作,實在是很痛苦的一件事。很久很久以前,我曾經用過譯者朋友推薦的免費OCR軟體,不過因為原稿掃描的品質通常不太好,導致辨識度不佳,直接看原稿翻譯的速度還比經過辨識再修改快,加上原稿頁數也不多,所以後來就漸漸不使用辨識軟體。

去年接了第一本翻譯書,很幸運的是編輯給的原書稿就是PDF檔,所以查詢譯文跟原文的對照非常方便,深深覺得可以用電子檔翻譯真是很幸福的一件事。沒想到好運並沒有持續太久,第二本書就遇到只有實體書的窘境,於是一收到書之後,我就開始展開把實體書轉成電子檔的一連串步驟。

第一步是要把實體書轉成可以在電腦上閱讀的電子檔,PTT譯者板有板友分享過書籍專用的掃瞄器,可是實在超出我的預算,於是我便轉而尋找影印店求助。一般影印店通常都有提供掃描建檔服務,如果有需要還可以一併影印,不過礙於版權問題,要做全書的掃描或影印可能就要多問幾家,必要的時候可以表明自己是譯者。我是在大學附近找到影印加掃描一頁0.9的影印店(註:此為台南地區大學附近影印店的價格,請以各地區報價自行比價),以我這種接書量還不算多的譯者來說,算是比買掃瞄器划算很多的選擇。

電子檔有了之後,下一步就是要把裡面的文字抓出來。在網路上努力搜尋的時候,我學到一件很重要的事。原來一般可以搜尋內文的PDF檔得來不易,必須經過繁複的程序分別輸入文字和圖片,最後再轉成PDF檔之後,使用者才可以便利的搜尋內文。而如果是掃描後製成的PDF檔,原本的文字會變成影像檔,也就失去把文字複製出來編輯修改的功能。

其實以直接用原書掃描的檔案來說,OCR軟體的辨識度已經算很高。不過因為我個人比較龜毛,希望可以保留原書的格式,所以我希望可以找到能辨識文字又能保留原格式的軟體。原本以為這樣的要求可能很難達成,沒想到還真的讓我找到符合需求的軟體:ABBYY PDF Transformer

軟體的操作很簡單,打開要轉檔的PDF,調整軟體辨識到的文字區域,之後選擇想轉成的檔案格式,等候轉檔成功就可以了。試用版軟體有 15天限制,或是最多50次轉檔(一次最多可以轉兩頁,所以最多可以轉100頁),如果你有兩台以上的電腦,就可以轉更多頁。

簡單比較一下轉檔前後的差別:



(左邊是轉檔前,整頁文字是一個影像檔,反白只能複製影像。右邊是轉檔後,影像中的文字可以單獨反白複製。)

因為這個軟體目前主要支援 PDF跟office檔案之間的互轉,如果原稿是一般的影像格式,可能需要先用別的軟體把影像檔轉成PDF(這類軟體網路上很多,搜尋一下就有了),再搭配這個軟體轉成可以編輯的格式。雖然一開始的步驟比較繁複,但是可以省掉之後的許多麻煩。如果你是像我一樣習慣用電子檔,又不想花太多預算的人,非常推薦一試!

--

(小聲)如果覺得試用版好用的話,努力拜一下Google大神,會有意想不到的收穫喔^_<

留言

發表留言

只對管理員顯示

引用


引用此文章(FC2部落格用戶)