PDFファイルの文字の読み取り/OCR化

スキャンしたPDFファイルなどに記述された文字をテキスト化したいときがありますが、
その場合OCR(光学文字認識/Optical Character Recognition)化する方法について。

ドキュメントなどをスキャンしてPDFファイル化した場合、テキストデータとして抽出する必要などがあります。テキストデータにするメリットは、コピーペーストなどが可能になるので、文章などを用意に転用しやすくなることです。

Adobe Acrobat Pro XI利用してPDFファイルの画像データとなった文章部分を、OCR化することでテキスト形式に変換する方法をまとめました。

1.まずPDFファイルを開く

2.[表示]→[ツール]→[テキスト認識]と選択します。

3.表示設定にもよりますが、画面の右側にテキスト認識のパネルメニューが表示されます。

4.OCR化したいファイルを検索対象から選択します。複数ページの場合はすべてのページを対象にします。

5.ダイアログが表示されるので、OKボタンを押すとクリップボードにOCR化情報が保存され、完了すると画像からテキストとして選択可能になります。

ただしOCR化はあくまで精度が高いわけではないので、細かい組数の文字などは類似する文字にご変換されることが多いので、結局は目 で文字校正する必要があります。

掲載情報につきましては、当サイトが独自に調査、検証および収集した情報です。

情報の妥当性や確実性を一切保証するものでなく、情報や内容が訂正や修正、変更されている場合があります。 よって、当サイトの利用により生じたいかなる損害等についても運営側にて一切の責任を負いません。

掲載情報の修正・変更等をご希望の場合はお知らせください。

コメントを残す