xdoc2txt − PDF,WORD,EXCEL,一太郎などの各種バイナリ文書からテキストを抽出 |
.rtf | リッチテキスト |
.docx | Microsoft WORD 2007/2010/2013(OOXML) |
.xlsx | Microsoft Excel 2007/2010/2013(OOXML) |
.pptx | Microsoft PowerPoint 2007/2010/2013(OOXML) |
.doc | Microsoft WORD ver5.0/95/97/2000/XP/2003 |
.xls | Microsoft Excel ver5.0/95/97/2000/XP/2003 |
.ppt | Microsoft PowerPoint 97/2000/XP/2003 |
.sxw/.sxc/.sxi/.sxd | OpenOffice.org |
.odt/.ods/.odp/.odg | Open Document |
.jaw/jtw | 一太郎 ver5 |
.jbw/juw | 一太郎 ver6 |
.jfw/jvw | 一太郎 ver7 |
.jtd/jtt | 一太郎 ver8/9/10/11/12 |
.oas/oa2/oa3 | OASYS/Win |
.bun | 新松/松5/松6 |
.wj2/wj3/wk3/wk4/123 | Lotus 123 |
.wri | Windows3.1 Write |
Adobe PDF | |
.mht/mhtml | Webアーカイブ |
.html | HTML |
.eml | OutlookExpressのエクスポート形式 |
xdoc2txtは下記の環境で動作します。
ver | 動作環境 |
---|---|
ver1.x (MBCS) | Windows 95/98/ME/NT4.0/2000/XP/Vista/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit) |
ver2.x (Unicode/32bit) | Vista SP2/Windows 7(32bit/64bit)/Windows 8(32bit/64bit)/ Windows 10(32bit/64bit)/ Windows 11(64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit) / Windows Server 2016(64bit) / Windows Server 2019(64bit) |
ver2.x (Unicode/64bit) | Vista SP2(64bit)/Windows 7(64bit)/Windows 8(64bit)/ Windows 10(64bit)/ Windows 11(64bit)/ Server 2003/Windows Server 2008 R2(64bit) / Windows Server 2012(64bit) / Windows Server 2012 R2(64bit) / Windows Server 2016(64bit) / Windows Server 2019(64bit) |
xdoc2txt 32bit(x86)版を、実行する場合(実行するWindows OSが 32bit/64bit共):
Visual Studio 2015、2017、および 2019 用 Microsoft Visual C++ 再頒布可能パッケージ (x86)
- 32bit版
xdoc2txt 64bit(x64)版を実行する場合:
Visual Studio 2015、2017、および 2019 用 Microsoft Visual C++ 再頒布可能パッケージ (x64)
- 64bit版
xdoc2txt.exe [options..] <filename...> -h ヘルプの表示 -s 出力のエンコードはShiftJIS(デフォルト) -j 出力のエンコードはJIS -s 出力のエンコードはEUC -u 出力のエンコードはUTF-16(LE) ※ Ver2.0以降 -8 出力のエンコードはUTF-8 ※ Ver2.0以降 -i 利用できる場合にはiFilterを優先する。 Ver2.0以降 -f 変換結果をファイルに出力。デフォルトでは標準出力に出力 -p OLE2複合文書の場合、文書プロパティを表示(Office、一太郎で有効) -r= HTML文書のルビの変換 -r=0 ルビ削除 -r=1 () -r=2 《》青空文庫形式 -o= その他のオプション -o=0 PDFで -- ? -- の形式のページ番号を表示しない -o=1 PDFで改行を削除(縦書きで1字毎に改行される場合に使用) -g=# PDFの字間調整オプション(省略値は95) # は0以上の百分率(60%の場合、-g=60と指定) 字間が、文字高*(#/100) 以上開くと、空いているとみなして空白を出力 -g=0 字間調整をしない -g=60 文字高の60%以上開くと、字間が空いているとみなす -v バージョン番号表示 -x EXCEL2007で存在するセルのみ表示(xdoc2txt 1.33以降) -z=# 入力ファイルの最大サイズ(byte) 初期値は256MB -z=512000000 入力ファイルサイズの上限を512MBにする -z=0 無制限。ファイルサイズチェックを行わない。 -d <ディレクトリ> 出力先ディレクトリの指定 <filename> 変換元のファイル名。ワイルドカード文字(* ?)が使用可。 ※空白を含むファイル名の場合、""で囲ってください。 ※以下のオプションは、Ver2.0から廃止されました。 -n PDF文書のアクセス権限の設定を無視(cryptlib.dllが必要) -c PDFキャッシュ on(デフォルトはoff) |
次のように出力先をリダイレクトすることで、ファイルに保存することもでき ます。
xdoc2txt sample.doc
-f オプションを付けると、出力先をファイルに変更できます。拡張子は自動的に.txt になります。
xdoc2txt sample.doc > sample.txt
ワイルドカード * ? が使用できるため、複数のファイルを一括してテキスト化するこ とが出来ます。
xdoc2txt -f sample.doc sample.xls
Office文書や一太郎文書(Ver8以降)の場合、-p オプションで文書プロパティを表示できます。プロパティは設定された項目のみ表示されます。
xdoc2txt -f *.xls
xdoc2txt -p マニュアル.doc 【実行結果】 <Title>KWIC Finderマニュアル</Title> <Author>hishida</Author> <Template>Normal.dot</Template> <LastAuthor>hishida</LastAuthor> <RevisionNumber>1</RevisionNumber> <AppName>Microsoft Word 9.0</AppName> <Lastprinted>2004/03/23 19:39:00</Lastprinted> <Created>2004/03/23 19:35:00</Created> <LastSaved>2004/03/23 19:44:00</LastSaved> <PageCount>1</PageCount> <WordCount>21</WordCount> <CharCount>121</CharCount>
デスクトップにショートカットを作成し、マウス操作でテキスト化することができます。
参考記事: http://www.forest.impress.co.jp/article/2003/11/19/xdoc2txt.html (【窓の杜NEWS】)
※xdoc2txtをフィルタとして利用できるソフトウェアのうち、作者が把握しているもの。
2.21 | 2023/11/24 |
|
2.20 | 2020/6/24 |
|
2.19.1 | 2019/6/28 |
|
2.19 | 2019/5/3 |
|
2.18 | 2019/4/8 |
|
2.17 | 2018/10/16 |
|
2.16.1 | 2017/07/06 |
|
2.16.1 | 2016/06/28 |
|
2.16 | 2016/04/26 |
|
2.15 | 2016/04/07 |
|
2.14 | 2015/11/19 |
|
2.13 | 2015/8/25 |
|
2.12 | 2015/7/18 |
|
2.11 | 2015/5/29 |
|
2.10 | 2015/4/15 |
|
2.09 | 2015/4/09 |
|
2.08 | 2015/3/11 |
|
2.07 | 2014/10/28 |
|
2.06 | 2014/10/09 |
|
2.05 | 2014/08/31 |
|
2.04 | 2014/07/29 |
|
2.03 | 2014/07/16 |
|
2.02 | 2014/06/14 |
|
2.02 | 2014/05/04 |
|
2.01 | 2014/02/16 |
|
2.00 | 2013/01/23 |
|
2.00β4 | 2012/12/28 |
|
2.00β3 | 2012/12/24 |
|
2.00β2 | 2012/12/19 |
|
2.00β1 | 2012/12/01 |
|
2.00β0 | 2012/11/26 |
|
2.00α3 | 2012/11/17 |
|
2.00α2 | 2012/11/15 |
|
2.00α1 | 2012/11/14 |
|
2.00α0 | 2012/11/13 |
|
MBCS版(Ver1.x)の開発は終了しました。今後はVer2.x系をご使用ください。
1.52 | 2015/11/19 |
|
1.51 | 2015/8/25 |
|
1.50 | 2014/10/28 |
|
1.49 | 2014/10/09 |
|
1.48 | 2014/05/04 |
|
1.47 | 2013/11/30 |
|
1.46 | 2012/12/24 |
|
1.45 | 2012/11/26 |
|
1.44 | 2012/11/17 |
|
1.43 | 2012/10/17 |
|
1.42 | 2012/05/17 |
|
1.41 | 2011/07/31 |
|
1.40 | 2011/05/17 |
|
1.39 | 2011/04/28 |
|
1.38 | 2010/12/21 |
|
1.37 | 2010/05/16 |
|
1.36 | 2010/01/09 |
|
1.35 | 2009/08/28 |
|
1.34 | 2009/06/22 |
|
1.33 | 2009/06/07 |
|
1.32 | 2008/12/01 |
|
1.31 | 2008/11/05 |
|
1.30 R2 | 2008/08/18 |
|
1.30 | 2008/05/22 |
|
1.29 | 2008/05/18 |
|
1.28 | 2008/03/18 |
|
1.27 | 2008/01/24 |
|
1.26a | 2007/10/21 |
|
1.26 | 2007/05/11 |
|
1.25 | 2007/02/28 |
|
1.24 | 2007/02/18 |
|
1.23 | 2006/08/29 |
|
1.22 | 2006/05/28 |
|
- | 2006/05/10 |
|
1.21 | 2006/05/08 |
|
1.20 | 2006/02/17 |
|
1.19 | 2006/02/08 |
|
1.18 | 2006/02/04 |
|
1.17 | 2005/09/19 |
|
1.16 | 2005/05/02 |
|
1.15 | 2005/04/23 |
|
1.14 | 2005/01/31 |
|
1.13 | 2004/05/30 |
|
1.12 | 2004/05/05 |
|
1.11 | 2004/04/04 |
|
1.10 | 2004/03/13 |
|
1.09 | 2004/02/25 |
|
1.08 | 2004/01/28 |
|
1.07 | 2004/01/26 |
|
− | 2004/01/18 |
|
1.06 | 2003/11/09 |
|
1.05 | 2003/07/15 |
|
1.04 | 2003/03/26 |
|
1.03 | 2002/11/23 |
|
1.02 | 2002/10/18 |
|
1.01 | 2002/9/9 |
|
1.00 | 2002/7/8 |
|