タイトル | : 各文字列の先頭座標情報の取得 |
記事No | : 105 |
投稿日 | : 2008/04/30(Wed) 18:12:29 |
投稿者 | : 寝介 |
PDFからのテキスト抽出でxdoc2txt.exeを活用させて頂いております。 マイナーなニーズかも知れませんが、各文字列の先頭座標情報を取得する ことは出来ませんでしょうか。 定型様式に文字列を配置したPDF書類から文字列を抽出するプログラムを 作成していますが、入力が省略された項目があると行が詰められてしまう ため、何行目がどの項目に該当するのか分からなくなってしまいます。 文字列を配置するための座標情報が埋め込まれているはずなので、座標 情報を取得できれば、項目に該当する文字列を正しく認識できると踏ん でいますが、その方法が分かりません。 例えば、xdoc2txt.exeで下記のような感じで行毎の先頭座標を付加した テキスト抽出が出来るオプションがあるとありがたいのですが。 (X,Y)抽出文字列 他の解決方法でも構いませんので、フリーに配置された文字列に対して、 表示位置で文字列の使い道が決定されるようなPDF書類について、正しく 取り込むテクニックが御座いましたらご教授下さい。 宜しくお願い申し上げます。
|