2010年6月1日 星期二

書籍掃描資料

想要瞭解怎麼掃描一本書的話,可以先看一下這一篇文章「How to Create an E-book」,算是對紙本書籍數位化有相當基礎而完整的介紹。而DIY Book Scanner則是一個很不錯的論壇,有許多討論工作流程、軟體以及檔案處理的討論串。或是也可以看這個wiki,有很多軟體的連結。

而書籍掃描會遇到一些問題,例如書籍中間都會有陰影,如果掃描的時候沒有把書拆開,而直接使用平台掃描器掃描,就很容易有陰影和彎曲的情況(其實大家如果自己影印過大本的書籍應該就可以理解)。因此掃描完之後有許多要使用軟體後製和處理的。首先,掃描檔案可能會有一些地方並不是需要的,這時候就需要進行裁切,而裁切最受歡迎的軟體是JPEGCrops,因為這個軟體很簡單也很方便,而且處理過程中原始的JPEG檔案並不會有任何的損失(lossless cropping)。

而轉換方向或是一次掃描兩頁,需要將兩頁的檔案分開並重新編號,這部份其實就有很多軟體可以處理了,ACDSee較新的版本也都支援lossless的轉換方向。而完整處理掃描檔案最專業的軟體是ClearImage Repair試用下載):

  • Automatic Deskew - detect the skew angle (+/- 45 deg) of the image contents and rotate the image. 45度以下歪斜自動轉正。
  • Automatic Rotation - Rotate the image so that it is pointing straight upwards. 自動旋轉。
  • Automatic Crop - identify the contents of the image and draw a new, tight border around it.自動裁切。 
  • Automatic Registration - align the image towards the top left corner.自動定位。
  • Automatic Border Extract - Remove excess border, deskew and crop the image.自動切邊。
  • Automatic Invert - reverse black and white.自動黑白轉換。
  • Smart Block Invert - reverse black header blocks with white text.轉換成黑方框白色文字。
  • Noise Cleanup - Remove noise artifacts and reduces output file size by over 2x.雜訊去除。
  • Remove Punch Holes - Remove black hole marks from the image.去除裝訂圓洞。
  • Remove Halftone - Remove the halftone pixels to make the area white.去除半色調讓區域變白。
  • Smooth Characters - Remove pixel stubble from the character symbols.字型或符號邊緣平滑化。
  • Remove Blank Fax Lines - Remove white lines that run through the fax.移除傳真所造成的白線。
  • Remove Fax Header - Remove the top text header from the page.去除傳真的標頭文字。
  • Convert Fax Resolution from Standard to Fine - with image smoothing.將傳真的解析度優化。
  • Delete Lines and Repair Objects - Remove form lines and reconnect broken objects.去除線條和修補破損的物件。
  • Reconstruct Lines - straighten lines that are jagged due to scanning artifacts.將掃描所造成歪斜扭曲的線條拉直。
  • Image I/O - Accept and output images in many file formats, via memory transfers or from Windows Bitmap.支援各種格式的輸出。

而在DIY Book Scanner很受推薦的一個軟體Scan Tailor,免費但功能也很強大。但也有不少好用的軟體是指令檔控制的,還沒有視窗版,例如Unpaper

而掃描完如果要用OCR軟體辨識文字,最受歡迎的是ABBYY FineReader,而OmniPage OCR則排名第二。但如果要把掃描檔案的圖片和文字結合成PDF,則沒有那麼容易,可以參考這篇文章:「PDF Text Under Image Format」。

其實比較難校正的還是書籍中間的陰影部份(Shadow Elimination、Dark Area Repair)。而其次是梯形修正(Correcting for keystoning)以及歪斜修正(Dewarper)。

沒有留言:

張貼留言