[リストへもどる]
一括表示
タイトルxdoc2txtでpptから抽出されない
記事No609
投稿日: 2010/09/30(Thu) 15:22:04
投稿者koma
現在、社内で全文検索を導入しようとしている中で、フィルターをいろいろ検証していたのですが、ある特定のPowerPoint文書からワードが抽出できないケースがあり、原因が掴めない状況で困っています。

<使用環境>
Windwos XP SP3
MS Office Pro 2003 (2007互換機能パックもインストール済)
※昔、Office2000を使っていてアンインストールした経緯あり
xdoc2txt 1.37 (2010/05/16版)


<実行形式>
xdoc2txt aaa.ppt > aaa.txt
でやった結果です。

<現象>
ケース1.全く読めないpptがある。
aaa.txtの中身が空っぽで出力される。(当然aaa.pptは中身が沢山詰まった文書です)

ケース2.一部のテキストボックスが読めないpptがある。
一部の読めるテキストボックスから抽出されたワードだけが、aaa.txtへ出力される。

ケース3.上記のケース1とケース2のテストを何度となくやっていると、ケース2の一部は読めていたテキストボックスも読めなくなり、ケース1と同じように出力が空っぽになる。

上記のテストに使用したppt文書は、壊れたファイルとかではありません。普通に読み書き可能な正常なPowerPoint文書です。
※もし調査の為に必要であれば、pptファイルを送付することは可能です。

以上、よろしくお願い致します。

タイトルRe: xdoc2txtでpptから抽出されない
記事No612
投稿日: 2010/10/04(Mon) 12:23:16
投稿者hishida
> 現在、社内で全文検索を導入しようとしている中で、フィルターをいろいろ検証していたのですが、ある特定のPowerPoint文書からワードが抽出できないケースがあり、原因が掴めない状況で困っています。

(略)
お返事遅れてすみません。
PowerPointの仕様には不明な部分があって、完全に対応できていないことは事実です。
特に、PowerPoint2007以降で、PowerPoint2003互換で書き出したpptファイルは、xdoc2txtでファイル抽出できないことがわかっています。理由は未知のエレメントが使われているためです。
Office文書の仕様は、Office97頃まではMSDNライブラリに記載がありましたが、office2000以降は記載がありません。Office2000以降に登場したエレメントは未知なので全てスキップしています。
逆にPowerPoint2007以降のpptxのほうは、公開ドキュメントがあるので、かなりちゃんとテキストが抽出できるはずです。
「Microsoftと契約を結べば完全なドキュメントが提供される」と聞いたことがありますが、個人のベンダなので、この辺が限界です。

タイトルRe^2: xdoc2txtでpptから抽出されない
記事No615
投稿日: 2010/10/04(Mon) 13:12:29
投稿者koma
お返事ありがとうございます。

> 特に、PowerPoint2007以降で、PowerPoint2003互換で書き出したpptファイルは、xdoc2txtでファイル抽出できないことがわかっています。理由は未知のエレメントが使われているためです。

どうやらこれが原因のようです。
この読めない文書は、確か一度2007で編集してます。


> Office文書の仕様は、Office97頃まではMSDNライブラリに記載がありましたが、office2000以降は記載がありません。Office2000以降に登場したエレメントは未知なので全てスキップしています。
> 逆にPowerPoint2007以降のpptxのほうは、公開ドキュメントがあるので、かなりちゃんとテキストが抽出できるはずです。
> 「Microsoftと契約を結べば完全なドキュメントが提供される」と聞いたことがありますが、個人のベンダなので、この辺が限界です。

了解いたしました。
マイクロソフト側が公開していないのでは仕方ありませんね。
運用で対応するようにしたいと思います。
ありがとうございました。