xdoc2txt − PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出
概要| 動作環境| 著作権・利用条件について| コマンドオプション| 使用方法| ダウンロード| フィルタ活用事例| 履歴|

xdoc2txt

■ 概要

■ 動作環境

xdoc2txtは下記の環境で動作します。

ver動作環境
ver1.x (MBCS)Windows 95/98/ME/NT4.0/2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit)
ver2.x (Unicode)2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Windows 10(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit)

■ 著作権・利用条件について

■ コマンドオプション

xdoc2txt.exe [options..] <filename...>
	-h	ヘルプの表示
	-s	出力のエンコードはShiftJIS(デフォルト)
	-j	出力のエンコードはJIS
	-s	出力のエンコードはEUC
	-u	出力のエンコードはUTF-16(LE)	※ Ver2.0以降
	-8	出力のエンコードはUTF-8		※ Ver2.0以降
	-i	利用できる場合にはiFilterを優先する。	Ver2.0以降
	-f	変換結果をファイルに出力。デフォルトでは標準出力に出力
	-p	OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効)
	-r=	HTML文書のルビの変換
		-r=0	ルビ削除
		-r=1	()
		-r=2	《》青空文庫形式
	-o=	その他のオプション
		-o=0	PDFで -- ? -- の形式のページ番号を表示しない
		-o=1	PDFで改行を削除(縦書きで1字毎に改行される場合に使用)
	-g=#	PDFの字間調整オプション(省略値は95)
		# は0以上の百分率(60%の場合、-g=60と指定)
		字間が、文字高*(#/100) 以上開くと、空いているとみなして空白を出力
		-g=0	字間調整をしない
		-g=60	文字高の60%以上開くと、字間が空いているとみなす
	-v	バージョン番号表示
	-x	EXCEL2007で存在するセルのみ表示(xdoc2txt 1.33以降)
	-z=#	入力ファイルの最大サイズ(byte) 初期値は256MB
		-z=512000000	入力ファイルサイズの上限を512MBにする
		-z=0		無制限。ファイルサイズチェックを行わない。

	<filename>	変換元のファイル名。ワイルドカード文字(* ?)が使用可。
		※空白を含むファイル名の場合、""で囲ってください。


	※以下のオプションは、Ver2.0から廃止されました。
	-n	PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要)
	-c	PDFキャッシュ on(デフォルトはoff)


■ 使用方法

■マウス操作での利用について

デスクトップにショートカットを作成し、マウス操作でテキスト化することができます。

  1. エクスプローラで xdoc2txt.exe の上で右ボタンメニュー→[送る(N)]→[デスクトップ(ショートカットを作成)]
  2. デスクトップに作成されたアイコンの上で右ボタンメニュー→[プロパティ(R)]
  3. [リンク先(T)]の末尾に、 -f を追加。
    例) "C:\Program Files\kwic\xdoc2txt.exe" -f
  4. テキスト化したいファイルをアイコンにドラッグ&ドロップすると、同じディレクトリに拡張子が.txtのファイルが出来ます。

参考記事: http://www.forest.impress.co.jp/article/2003/11/19/xdoc2txt.html (【窓の杜NEWS】)

■iFilterについて

■ ダウンロード

Ver2.x(Unicode版)

Ver1.x(MBCS版)

■ フィルタ活用事例

名称 種別 ジャンル URL 同梱
GoogleXdoc
(GoogleDeskTopに xdoc2txt を組み込むPlugIn)
free 全文検索 http://softfarm.net/
ソフトファーム
Namazu for Win32 free 全文検索

xdoc2txtを利用した文書フィルターのサンプル(by a.hanai氏)
http://www.geocities.co.jp/SiliconValley-Oakland/8718/namazu/

全文検索システム Namazu for Win32
http://www.namazu.org/windows/

 
Hyper Estraier free 全文検索 http://hyperestraier.sourceforge.net/
Meadow2 free エディタ http://www.bookshelf.jp/pukiwiki/pukiwiki.php?Meadow%20memo%20Wiki
Meadow memo Wiki
MiGrep free 検索 http://homepage3.nifty.com/m-and-i/freetalk/upload/index.html
M&Iのページ
 
VxEditor free エディタ http://homepage3.nifty.com/x-labo/
X-Labo WebPage
smoopy free テキスト縦書きビューア http://www.vector.co.jp/soft/win95/util/se263229.html  
Transwise free 翻訳支援 http://www6.ocn.ne.jp/~vmel/software/Transwise/Transwise.htm
 
EBView free 辞書・テキスト検索 http://ebview.sourceforge.net/  
サーチクロス 製品 全文検索 http://www.villagecenter.co.jp/soft/searchx/
ビレッジセンター(株)
 
KOA Direct Server free(一部有料) コンテンツ共有システム http://koaproject.sakura.ne.jp/pages/koadirectserver.html
KOA Project
HNXgrep free Grep検索 http://www.vector.co.jp/soft/winnt/util/se494966.html  

※xdoc2txtをフィルタとして利用できるソフトウェアのうち、作者が把握しているもの。

■ 履歴

Ver2.x(Unicode版)

2.16.1 2016/06/28
  • manifestからVC90.CRTのdependencyを削除
2.16 2016/04/26
  • xlsxでコントロールを使用すると書式制御情報の一部が表示される問題を修正
2.15 2016/04/07
  • docxで本文に現れない制御文字が表示される問題を修正
2.14 2015/11/19
  • 一部のPDFで異常終了する問題を修正
2.13 2015/8/25
  • Scan Snapの透明テキストで文字が欠落する場合がある問題修正
  • 一部の128bit-AESで暗号化されたPDFが読めない問題を修正
2.12 2015/7/18
  • 英文の字間パラメータの調整
  • コンパイラをVisual C++ 2008からC++ 2010に変更
2.11 2015/5/29
  • EXCEL2007形式(.xlsx)からのテキスト抽出の性能改善
2.10 2015/4/15
  • com版 PDFで ExtractText()後にファイルが解放されていないbug 修正
  • com版とDll版に関数ExtractTextEx()を追加。コマンド行オプション使用可。  (-r -o -g -x のみ有効)
2.09 2015/4/09
  • PDFでリガチャ(合字)が表示できないケース修正
  • 一部の.mhtで異常終了する問題を修正
  • Dllを用いたサンプルプログラムFileFindを追加
2.08 2015/3/11
  • 拡張子が.pdfで内容がPDFでない場合スキップ
  • PDF抽出時のメモリリークを改善
  • Dllを呼び出すサンプルプログラムに cdecl を明示
2.07 2014/10/28
  • 特定のxlsxで異常終了する問題を修正
2.06 2014/10/09
  • xlsxでセル内の文字列の一部だけ文字色を変えると文字を抽出できないbug修正
2.05 2014/08/31
  • 破損したPDFでの異常終了を極力回避
2.04 2014/07/29
  • .eml で一部の日本語メールが文字化けする問題を修正
  • コマンド版は入力ファイルサイズ上限を256MB(-z=で設定可能)
2.03 2014/07/16
  • 一部.xlsxが異常終了する問題を修正
2.02 2014/06/14
  • Dll版をLoadLibraryおよびFreeLibraryで動的にロード・解放するサンプル追加【連続して使用する場合に推奨】
2.02 2014/05/04
  • 一部のPDFで異常終了する問題を修正
2.01 2014/02/16
  • EUCコードの半角カナ対応
2.00 2013/01/23
  • 正式版
2.00β4 2012/12/28
  • bug修正
2.00β3 2012/12/24
  • 標準出力の改行が\r\r\nになっていた問題を修正
  • 書込不可のディレクトリで -f オプションを使用すると異常終了する問題修正
  • Word文書の一部のルビが表示されない問題を修正
  • Word2007で出力したPDFの一部の文字が抽出できない問題を修正
2.00β2 2012/12/19
  • 一部の.odtで異常終了するbug修正
  • 長さ0のdocで異常終了するbug修正
2.00β1 2012/12/01
  • xdoc2txt.exe にバージョンリソースを追加(1.x 系列と区別するため)
2.00β0 2012/11/26
  • 一部のPDFでフリーズする問題を修正
2.00α3 2012/11/17
  • Office2007/2010文書で実体参照が解釈されていなかった問題を修正
2.00α2 2012/11/15
  • VC++サンプル追加、DLL版の引数順序をCOM版と同じにする。
2.00α1 2012/11/14
  • COMコンポーネント版を追加(xd2txcom.dll)
2.00α0 2012/11/13
  • 内部Unicode化を行う。コンパイラをVC++6.0からVC++2008に変更。
  • 出力オプションに-u(UTF16)、-8(UTF8)を追加
  • iFilterに対応(-i オプション)。  xdoc2txtがネイティブに対応していない拡張子でも、対応するiFilterがあればテキスト抽出が行える。
  • /LZWDecodeでエンコードされたPDFに対応(Unisys特許が切れたため)。
  • cryptlib.dll を統合し、パスワード無で暗号化されたPDFに標準で対応。
  • DLL版を提供(xd2txlib.dll)。C#とVB.Netから呼び出すサンプルを添付 

Ver1.x(MBCS版)

MBCS版(Ver1.x)の開発は終了しました。今後はVer2.x系をご使用ください。

1.52 2015/11/19
  • 一部のPDFで異常終了する問題を修正
1.51 2015/8/25
  • Scan Snapの透明テキストで文字が欠落する場合がある問題修正
  • 一部の128bit-AESで暗号化されたPDFが読めない問題を修正(要cryptlib.dll)
1.50 2014/10/28
  • 特定のxlsxで異常終了する問題を修正
1.49 2014/10/09
  • xlsxでセル内の文字列の一部だけ文字色を変えると文字を抽出できないbug修正
1.48 2014/05/04
  • 一部のPDFで異常終了する問題を修正
1.47 2013/11/30
  • Word文書で長いリンクが含まれていると異常終了するbug修正
1.46 2012/12/24
  • Word文書の一部のルビが表示されない問題を修正
  • Word2007で出力したPDFの一部の文字が抽出できない問題を修正
1.45 2012/11/26
  • 一部のPDFでフリーズする問題を修正
1.44 2012/11/17
  • docxで一部の文字の文字化けに対応
1.43 2012/10/17
  • "Office Open XML File Formats "に準拠していない.xlsxで異常終了する場合がある問題を修正
1.42 2012/05/17
  • 一部のPDFで異常終了する場合がある問題を修正
1.41 2011/07/31
  • EXCELのテキストボックスで最後の文字が欠けるbug修正(1.37で混入したbug)
1.40 2011/05/17
  • 一部のPDFでテキストの表示が欠落する場合がある問題を修正。
1.39 2011/04/28
  • 一部のPDFで余計な文字が表示される問題を修正(/Lang による言語指定が使われている文書)
1.38 2010/12/21
  • 一部のPDF(PDF1.5以降で/XRefが使用されている場合の一部の条件)で異常終了する問題修正
1.37 2010/05/16
  • 一部のPDF writer(Brava!Desktop)で出力したPDFが文字化けする問題に対処
  • EXCELのテキストボックスでごみが入るケースを修正
1.36 2010/01/09
  • EUCエンコードのPDFが文字化けする問題を修正
1.35 2009/08/28
  • 空のOffice2007文書に対応
1.34 2009/06/22
  • パスワード付のOffice2007文書は"encrypted file."と表示するようにする。
  • 本バージョンからzlib.dllは不要(静的リンクに変更)
1.33 2009/06/07
  • 破損したPDFで異常終了するケースを修正
  • パスワード付のOpenOffice文書で文字化けする問題を修正("encrypted file."と表示する)
  • シート数や行数が極端に多いExcel2007文書で異常終了するケースを修正。
  • -x オプション追加。EXCEL2007で存在するセルのみ表示
1.32 2008/12/01
  • 破損したPDFで無限ループになるケースがあるのを修正
  • Acrobat7.0以降の、128bit AESで暗号化されたPDFの読み取り対応(cryptlib.dllの導入が必要)
1.31 2008/11/05
  • 破損したOffice2007ファイルで文字化けする問題を修正。
  • Excel2007でシート数が100付近を超えると異常終了する問題を修正
1.30 R2 2008/08/18
  • AtiveX版 xdoc2txt.ocx を追加。配布条件はexe版と同じ。
1.30 2008/05/22
  • -p オプション:Office文書のプロパティ表示に「会社名」「分類」「管理者名」を追加
1.29 2008/05/18
  • Acrobat以外のPDF作成ソフトで作成されたPDFファイルで異常終了する場合がある問題を修正
  • サイズが0バイトのPDFで異常終了する問題を修正
1.28 2008/03/18
  • PDFMaker8.1で作成されたPDFに対応
1.27 2008/01/24
  • 入力ファイルのパス名が256バイトを超えると "error in ファイル名"と表示されて処理できない問題を修正
1.26a 2007/10/21
  • 改行が0x0D,0x0AでないHTMLでバッファオーバーランのケースがあるのを修正
1.26 2007/05/11
  • Microsoft Office Excel2007 で列の一部が表示されないbug修正
  • PDFに関するbug修正2件(表示漏れ、異常終了対策)
1.25 2007/02/28
  • Microsoft Wordで差込フィールド名の表示に対応
1.24 2007/02/18
  • Microsoft Office Word2007/Excel2007/PowerPoint2007,OpenOffice.org,Open Documentに対応
  • EXCELで1E+275 のように大きな桁数の数字を使用すると異常終了するbug修正。
1.23 2006/08/29
  • AntenaHouse PDF Driver2.0 で作成されたPDFからテキスト抽出できない問題に対応
    (PDF1.5以降のCross-Reference Streamsに対応)
  • PDFによって、ファイルの最後までテキスト抽出できない場合があった問題を修正
1.22 2006/05/28
  • PDFのエンコードによって‘’“”が文字化けするbug修正
- 2006/05/10
  • 商用利用の利用条件変更
1.21 2006/05/08
  • 一太郎Ver6のパスワード付文書を検索するとメモリ不足になるbug修正
1.20 2006/02/17
  • PDFでUnicodeマッピングのリガチャ(ff,fi等)に対応
1.19 2006/02/08
  • PDFでバッファオーバーランの予防的修正
1.18 2006/02/04
  • PowerPoint95対応
  • EXCELで行の内容がすべて表示されないことがあるbug修正
1.17 2005/09/19
  • PDFの字間調整パラメータ -g を追加
1.16 2005/05/02
  • PDFでサポートするCMAPの種類に /H /V を追加(JISエンコーディング)
  • PDFで巨大な図形が/FlateDecodeで圧縮されている場合、メモリ確保に失敗するbugを修正
  • PDFのオプション追加
    -o=0 PDFで -- ? -- の形式のページ番号を表示しない
    -o=1 PDFで改行を削除(縦書きで1字毎に改行される場合)
  • HTMLのルビの出力オプション
    -r=0 なし
    -r=1 ()
    -r=2 《》青空文庫形式
  • HTMLのテキスト化でタグ直後の空白が消えるbugを修正
1.15 2005/04/23
  • Acrobat4で作成したPDFで一部テキスト化できないケースを修正
  • Acrobatで一度でもスタンプを付けたPDFがテキスト化できないbugを修正
1.14 2005/01/31
  • Justsystem PDF Creator で作成したPDFで異常終了するbug修正
  • 画像のみでテキストのないPDFで異常終了するケースのあるbug修正
1.13 2004/05/30
  • PDFの字間の計算を調整
  • WK4(123)で異常終了するケースがあるbug修正
1.12 2004/05/05
  • PDF文書のアクセス権限の設定を無視するオプション(-n)
  • PDFで半角のCIDが表示されないbug修正
  • 標準出力に出力したとき、余分な改行が表示されるbug修正
1.11 2004/04/04
  • パスワード無しで暗号化されたPDF対応(128bit暗号まで)。 ただし別途 cryptlib.dll をダウンロードする必要有り
  • 「easyPDF 3.1」「Jaws PDF Creator」で作成したPDFに対応
  • 一太郎V7以降でタブ文字が削除される問題に対処
  • -p オプションを追加。Office文書のプロパティを表示
1.10 2004/03/13
  • OpenOffice.org.1.1で作成したPDFに対応
1.09 2004/02/25
  • ActiveReports 2.0J で出力したPDFに対応
  • 特定のPDFで異常終了するbug修正
1.08 2004/01/28
  • EXCELの計算式の結果文字列に全角"±×÷"が現れた場合、半角カナに文字化けするbug修正
  • 余分な改行の除去
1.07 2004/01/26
  • Word、EXCEL、PowerPointで全角の"±×÷"が半角カナに文字化けする場合があるbug修正
2004/01/18
  • 「著作権・利用条件について」を明文化する。
1.06 2003/11/09
  • ワードパッドで保存したRTFの1行目が表示されないbug修正
  • 拡張子が.docのOLE文書でWord文書が含まれない場合、異常終了するbug修正
1.05 2003/07/15
  • Acrobat6.0で作成したPDFの表示対応
1.04 2003/03/26
  • 日本語PDFの字間の計算の改良
1.03 2002/11/23
  • UnicodeエンコーディングのPDF対応
1.02 2002/10/18
  • mht/htmlに対応
1.01 2002/9/9
  • -cオプション追加
1.00 2002/7/8
  • KWIC Finderからテキスト抽出部分を分離し、フィルタとして公開。

©2002-2012 hishida
Go to Home