PDFのテキスト抽出とHTML変換

PDFの一般的なテキスト抽出、HTML変換の方法、ツールについてちょっと調べてみました。

というのも、検索エンジンで「PDF AND テキスト抽出」や「PDF AND HTML変換」で検索した方が、毎週のように「PDFとアクセシビリティ」のページに来られるからです。「PDFとアクセシビリティ」で取り上げているのは、主に視覚障害者がPDF中のテキストを読み取るための方法で、一般的な用途のものではありません。

しかし、せっかくKeiYu HelpLabに来られた方が、必要な情報を得られずそのままお帰りになるというのも申し訳ないので、別項目として「PDFのテキスト抽出とHTML変換」をまとめました。(ついでに「PDFとアクセシビリティ」のページにもお立ち寄りいただけると、嬉しいのですが。)

PDFのテキスト抽出

Adobe Reader 6の[テキスト選択ツール]、Adobe Reader 7の[選択ツール]で選択した範囲のテキストをコピーして他のアプリケーションにペーストできます。全ページのテキストを選択したい場合は、[編集]→[すべてを選択]を選択します。これ以外に、テキスト形式などで保存する方法は色々あります。

テキスト保存する(Adobe Reader 6/7)

Adobe Reader 6/7では、[ファイル]→[テキストとして保存]でPDFをテキストファイルに保存できます。「テキスト(アクセシビリティ可能)」とあるように、PDF中に代替テキストが設定されていると、それもテキストとして保存されます。

テキスト保存する(Acrobat 6/7)

[ファイル]→[名前を付けて保存]を選択し、ファイルの種類を[Text(Plain)]にすると、PDFをテキストファイルに保存できます。

RTF保存する(Acrobat 5/6/7)

Acrobat 5からはRTF保存機能が追加されました。[ファイル]→[名前を付けて保存]を選択し、ファイルの種類を[リッチテキストフォーマット(*.rtf)]にすると、PDFをRTFファイルに保存できます。PDF文書のテキストが、書式の一部も含めて保存されます。保存したRTFファイルは、RTFファイルは、Microsoft WordやWindowsのワードパッドで開くことができます。

  • Acrobat 7のRFT保存では画像はデフォルトではJPEG形式で保存されます。表も変換される場合もあるようですが、100%変換されるわけではないようです。
  • Acrobat 5/6のRTF保存では、表や画像は保存されません。また、各行の最後に改行が入ります。ただしOffice 2000/XPなどで作成したタグ付きPDFをRTF保存した場合は、表もそのままのかたちで保存されます。また、行の最後にも改行が入りません。

フリーウェアを利用する

サードパーティのプラグイン/ツールを利用する

以下のような製品があります。詳しくは、それぞれの開発元にお問い合わせください。

PDFのHTML変換

HTML形式で保存する(Acrobat 7)

Acrobat 7では、[ファイル]→[名前を付けて保存]で、PDFをHTML 3.2、HTML 4.01-CSS1準拠形式のHTMLファイルに保存できます。

サードパーティのプラグインを利用する

  • BCL Magellan(BCL Technologies)
    体験版をダウンロードできます。
    文字色、文字サイズ、表、段組、画像、リンク、ページ番号までCSSを使って、元のレイアウトを再現します。