PDFのテキスト抽出とHTML変換 |
| PDFの一般的なテキスト抽出、HTML変換の方法、ツールについてちょっと調べてみました。 というのも、検索エンジンで「PDF AND テキスト抽出」や「PDF AND HTML変換」で検索した方が、毎週のように「PDFとアクセシビリティ」のページに来られるからです。「PDFとアクセシビリティ」で取り上げているのは、主に視覚障害者がPDF中のテキストを読み取るための方法で、一般的な用途のものではありません。 しかし、せっかくKeiYu HelpLabに来られた方が、必要な情報を得られずそのままお帰りになるというのも申し訳ないので、別項目として「PDFのテキスト抽出とHTML変換」をまとめました。(ついでに「PDFとアクセシビリティ」のページにもお立ち寄りいただけると、嬉しいのですが。) PDFのテキスト抽出Adobe Reader 6の[テキスト選択ツール]、Adobe Reader 7の[選択ツール]で選択した範囲のテキストをコピーして他のアプリケーションにペーストできます。全ページのテキストを選択したい場合は、[編集]→[すべてを選択]を選択します。これ以外に、テキスト形式などで保存する方法は色々あります。 テキスト保存する(Adobe Reader 6/7)Adobe Reader 6/7では、[ファイル]→[テキストとして保存]でPDFをテキストファイルに保存できます。「テキスト(アクセシビリティ可能)」とあるように、PDF中に代替テキストが設定されていると、それもテキストとして保存されます。 テキスト保存する(Acrobat 6/7)[ファイル]→[名前を付けて保存]を選択し、ファイルの種類を[Text(Plain)]にすると、PDFをテキストファイルに保存できます。 RTF保存する(Acrobat 5/6/7)Acrobat 5からはRTF保存機能が追加されました。[ファイル]→[名前を付けて保存]を選択し、ファイルの種類を[リッチテキストフォーマット(*.rtf)]にすると、PDFをRTFファイルに保存できます。PDF文書のテキストが、書式の一部も含めて保存されます。保存したRTFファイルは、RTFファイルは、Microsoft WordやWindowsのワードパッドで開くことができます。
フリーウェアを利用する
サードパーティのプラグイン/ツールを利用する以下のような製品があります。詳しくは、それぞれの開発元にお問い合わせください。
PDFのHTML変換HTML形式で保存する(Acrobat 7)Acrobat 7では、[ファイル]→[名前を付けて保存]で、PDFをHTML 3.2、HTML 4.01-CSS1準拠形式のHTMLファイルに保存できます。 サードパーティのプラグインを利用する
|