[リストへもどる]
一括表示
タイトル各文字列の先頭座標情報の取得
記事No105
投稿日: 2008/04/30(Wed) 18:12:29
投稿者寝介
PDFからのテキスト抽出でxdoc2txt.exeを活用させて頂いております。
マイナーなニーズかも知れませんが、各文字列の先頭座標情報を取得する
ことは出来ませんでしょうか。
定型様式に文字列を配置したPDF書類から文字列を抽出するプログラムを
作成していますが、入力が省略された項目があると行が詰められてしまう
ため、何行目がどの項目に該当するのか分からなくなってしまいます。
文字列を配置するための座標情報が埋め込まれているはずなので、座標
情報を取得できれば、項目に該当する文字列を正しく認識できると踏ん
でいますが、その方法が分かりません。
例えば、xdoc2txt.exeで下記のような感じで行毎の先頭座標を付加した
テキスト抽出が出来るオプションがあるとありがたいのですが。
(X,Y)抽出文字列
他の解決方法でも構いませんので、フリーに配置された文字列に対して、
表示位置で文字列の使い道が決定されるようなPDF書類について、正しく
取り込むテクニックが御座いましたらご教授下さい。
宜しくお願い申し上げます。