- PDF1.3の仕様を元に開発しています。1.4以降の文書でもテキストに関しては表示できると考えられます。
- 本文内のテキストのみ検索・表示の対象となります。注釈等には対応していません。
- 暗号化されたPDFに対応していません。なお、アクセス制限が付加されたPDFはパスワード無しでも暗号化されているため、検索・表示できません。
なお、別途暗号化モジュール cryptlib.dll を
http://ebstudio.info/home/KWIC.html
からダウンロードして解凍し、KWIC Finderのインストールディレクトリに入れると、パスワード無で暗号化されたPDFを検索・表示できるようになります(ライセンスの問題で個人・教育用途に限定)。
- フォント埋め込みでカスタムエンコーディングのPDFは、PDF文書中にエンコーディングのマップ情報(/ToUnicode)がないと検索・表示対象にできません(例:GhostscriptのType3フォント)。
もっとも、このようなファイルはAcrobat Readerのテキストツールでもテキストを
抽出できません。
- ページ内のテキスト要素の表示順は、ページ内のデータ格納順に行います(=PDF文書を作成したアプリケーションの描画順)。
このためAcrobat Readerでの表示順と異なることがあります。
- 現時点では縦書き対応は不完全であり、1字ずつ改行して表示されます。
- 対応しているエンコーディングの種類は以下の通りです。
/Identity-H(V)
/90ms-RKSJ-H(V)
/78ms-RKSJ-H(V)
/90pv-RKSJ-H(V)
/83pv-RKSJ-H(V)
/UniJIS-UCS2-H(V)
/MacRomanEncoding
/WinAnsiEncoding
/H
/V
- コンテンツストリームのデコードフィルター(/Filter)は、 /Ascii85Decode と /FlateDecode に対応しています。テキストの圧縮に使用されるフィルターには、他に /LZWDecode がありますが、Unisys社の特許に抵触するため対応していません。ただし実際にはほとんどのケースで /FlateDecode が使われているため、実用上の問題は小さいでしょう。
なお、 /FlateDecode の展開のため、zlib.dllを使用します。zlib.dllはKWICの配布パッケージに同梱されています。
- PDFの構造上、高速なテキスト抽出は困難であり、WORD等の他のワープロ文書に比較して検索速度で見劣りします。大量のPDF文書がある環境では、
全文検索エンジン
を併用することをお勧めします。
※Acrobat5.0にはクセロ社の検索プラグイン「サーチPDF Lite 1.0 for Acrobat 5」が添付されていますが、KWICのPDF文書の検索速度はこれと同程度です。
- PDFから抽出したテキストは、最大512個までキャッシュされます。最近検索・表示したPDFはキャッシュから読み込みを行うため、高速に表示されます。
キャッシュをクリアする場合は、変換
オプションで
[PDFキャッシュのクリア]のボタンを押してください。キャッシュは作業ディレクトリ
に保存されます。
- 次のアプリケーションで生成したPDFについて動作確認を行いました。
Acrobat PDFWriter 3.0/4.0/5.0
Acrobat PDFMaker 5.0
Acrobat Distiller 3.0/4.0/5.0/6.0
Acrobat Web Capture 5.0
Adobe PageMaker 6.0J/6.5J
Adobe Illustrator 5.5J/8.0
Adobe InDesign 2.0J
FrameMaker 6.0
pdfTeX
Ghostscript(英語のみ・日本語はだめ)
読んでココVer9(透明テキスト)
読取革命(透明テキスト)
eTypist(透明テキスト)
SkyPDF Driver 1.02
OpenOffice.Org.1.1
ActiveReports 2.0J
easyPDF 3.1
Jaws PDF Creator
Microsoft Office2007日本語β