実例(1):pdftotext

pdftotextはPDF文書をテキストに変換するフリーソフトで、 xpdfパッケージに含まれます。 pdftotextを使うメリットは、KWIC Finder純正のPDFパーサーよりも、PDFの仕様への準拠度が高いことです。具体的には:

  1. では表示できないPDFが表示できる場合があります(/LZWDecodeのPDF文書など)
  2. 全般に、 よりもレイアウトの再現性に優れています。

xpdfのサイト( http://www.foolabs.com/xpdf/ )から、次の2つのファイルをダウンロードします(2002/11現在)。
xpdf-1.01-win32.zip - xpdfのWIN32版
xpdf-japanese.tar.gz - xpdfの日本語ローカライズ拡張

  1. xpdfのインストール
    1. xpdf-1.01-win32.zip を、C:\usr\local\share\xpdf\ に展開します。
    2. xpdf-japanese.tar.gz を、C:\usr\local\share\xpdf\japanese\ に展開します。
    3. C:\usr\local\share\xpdf\sample-xpdfrc を、xpdfrc という名前のファイルにコピーします。
    4. 3.でコピーした C:\usr\local\share\xpdf\xpdfrc をエディタで開き、 C:\usr\local\share\xpdf\japanese\add-to-xpdfrc のテキストを行末に追加します。
  2. 外部テキストフィルタの登録
    1. [設定(O) ]→[オプション(O)]→フィルタ で、拡張子 "pdf" に対してpdftotextを登録します。

      C:\usr\local\share\xpdf\pdftotext.exe -raw -enc Shift-JIS %f -

      -raw コンテンツの登録順に出力する
      -enc 出力エンコーディングを指定する
      - 標準出力に出力する(※必須)

●半角英数字の出力

-enc Shift-JIS の標準の設定では、半角英数字が全角で出力されてしまいます。 半角のまま出力するためには、マッピングテーブル C:\usr\local\share\xpdf\Japanese\Shift-JIS.unicodeMap をエディタで修正する必要があります。
  1. Shift-JIS.unicodeMap をエディタで開く
  2. 4〜37行目の、半角英数のマッピング(20〜7e)を修正する

    ●修正箇所は赤色部分 (4〜37行目 )

    000a 0a
    000c 0c
    000d 0d
    0020 8140
    0021 8149

    007d 8170
    007e 8160
    00a7 8198
    00a8 814e

    ●次の1行に置き換える

    000a 0a
    000c 0c
    000d 0d
    0020 007e 20
    00a7 8198
    00a8 814e

    意味:Unicodeの0020〜007eのコードを、20からの連番で置き換える