OcrPageNo

OcrPageNo

裁断した本をScanSnapで取り込んだ後、すぐに処分して良いものなのか判断に迷うので、その基準として画像にページ抜けが無いかどうかをOCRで判断できないか試してみました。

ダウンロード

実行にはWin10にen-US言語のインストールが必要です。

c:\>OcrPageNo.exe -g 15 -t 0 c:\book\新しいフォルダー
1枚目画像はページ番号「-5」で下部・左側に印字されていると想定。
スキャン中................................................終了
★   1 20200130.jpg OCR№:16R 想定:-5L
★  10 20200130_009.jpg OCR№:187R 想定:4R
★  23 20200130_022.jpg OCR№:13R 想定:17L
★  63 20200130_062.jpg OCR№:9L 想定:57L
★  92 20200130_091.jpg OCR№:1011R 想定:86R
認識最大㌻№:209 画像総数:224 (認識P:45 無記載P:174 想定外P:5)

フォルダ内より中心の15の画像ファイルからノンブルの位置、ページ番号を探してフォルダ内1枚目のページ番号を推測します。カバー画像や表紙などページに含まれていない画像もスキャンしているとマイナスからスタートします。

推測したページ番号を想定して最初から1枚ずつOCRし、一致しなかったページ情報を表示します。

★ フォルダ内の位置、ファイル名、OCRで読み取った番号、想定していた番号

OCR精度の問題もあるので大雑把に合っているかどうかのチェックにしかなりませんが、想定外のページをチェックして問題なければスキャン漏れはないと判断して良さそうかなと思いました。

コミックスはページ番号の印刷が少ないので小説向けになりそうですが、分厚い小説を分割してスキャンしたときに、同じ部分を2回スキャンしていたミスを検出できました。

そろそろ簡単なCUIじゃなくて難しそうなGUIで作るべきか…。