実例(1):pdftotext
pdftotextはPDF文書をテキストに変換するフリーソフトで、
xpdfパッケージに含まれます。
pdftotextを使うメリットは、KWIC Finder純正のPDFパーサーよりも、PDFの仕様への準拠度が高いことです。具体的には:
- KWIC Finder
では表示できないPDFが表示できる場合があります(/LZWDecodeのPDF文書など)
- 全般に、KWIC Finder
よりもレイアウトの再現性に優れています。
xpdfのサイト(
http://www.foolabs.com/xpdf/
)から、次の2つのファイルをダウンロードします(2002/11現在)。
xpdf-1.01-win32.zip |
- xpdfのWIN32版 |
xpdf-japanese.tar.gz |
- xpdfの日本語ローカライズ拡張 |
- xpdfのインストール
- xpdf-1.01-win32.zip を、C:\usr\local\share\xpdf\ に展開します。
- xpdf-japanese.tar.gz を、C:\usr\local\share\xpdf\japanese\ に展開します。
- C:\usr\local\share\xpdf\sample-xpdfrc を、xpdfrc という名前のファイルにコピーします。
- 3.でコピーした C:\usr\local\share\xpdf\xpdfrc をエディタで開き、
C:\usr\local\share\xpdf\japanese\add-to-xpdfrc のテキストを行末に追加します。
- 外部テキストフィルタの登録
- [設定(O)
]→[オプション(O)]→フィルタ
で、拡張子 "pdf" に対してpdftotextを登録します。
C:\usr\local\share\xpdf\pdftotext.exe -raw -enc Shift-JIS %f -
-raw |
コンテンツの登録順に出力する |
-enc |
出力エンコーディングを指定する |
- |
標準出力に出力する(※必須) |
|
- xpdfパッケージは、 /usr/local/share/xpdf/ 以外 ( 例:
C:/Program Files/Xpdf/ ) にインストールしてもかまいません。
ただし、sample-xpdfrcとadd-to-xpdfrcの記述に
/usr/local/share/xpdf/ が指定されているので、xpdfrc の該当箇所をエディタで修正する必要があります。
- KWIC Finderは拡張子が".pdf"のファイルはテキストをキャッシュに保存します。
外部テキストフィルタにpdftotext.exeを登録、または解除したときは、いったんキャッシュをクリアすることをお勧めします。KWIC Finderの標準機能でテキスト化したものと、
pdftotext.exeによるテキスト化の結果は同じではないため、キャッシュに以前の内容が残っていると予期せぬ検索結果になることがあります。
- C:\usr\local\share\xpdf\pdftotext.exe -raw -enc Shift-JIS %f -
の末尾の - (ハイフン)は必ず必要です。ハイフンを付け忘れると、検索対象となったPDF文書のあるディレクトリに、同名で拡張子が.txtのファイルが作成されます。
●半角英数字の出力
-enc Shift-JIS の標準の設定では、半角英数字が全角で出力されてしまいます。
半角のまま出力するためには、マッピングテーブル C:\usr\local\share\xpdf\Japanese\Shift-JIS.unicodeMap をエディタで修正する必要があります。
- Shift-JIS.unicodeMap をエディタで開く
- 4〜37行目の、半角英数のマッピング(20〜7e)を修正する
●修正箇所は赤色部分
(4〜37行目
)
000a 0a 000c 0c 000d 0d 0020 8140 0021 8149 〜 007d 8170 007e 8160
00a7 8198 00a8 814e
|
●次の1行に置き換える
000a 0a 000c 0c 000d 0d 0020 007e 20
00a7 8198 00a8 814e
|
意味:Unicodeの0020〜007eのコードを、20からの連番で置き換える
|