記事No | : 612 |
タイトル | : Re: xdoc2txtでpptから抽出されない |
投稿日 | : 2010/10/04(Mon) 12:23:16 |
投稿者 | : hishida |
> 現在、社内で全文検索を導入しようとしている中で、フィルターをいろいろ検証していたのですが、ある特定のPowerPoint文書からワードが抽出できないケースがあり、原因が掴めない状況で困っています。
(略)
お返事遅れてすみません。
PowerPointの仕様には不明な部分があって、完全に対応できていないことは事実です。
特に、PowerPoint2007以降で、PowerPoint2003互換で書き出したpptファイルは、xdoc2txtでファイル抽出できないことがわかっています。理由は未知のエレメントが使われているためです。
Office文書の仕様は、Office97頃まではMSDNライブラリに記載がありましたが、office2000以降は記載がありません。Office2000以降に登場したエレメントは未知なので全てスキップしています。
逆にPowerPoint2007以降のpptxのほうは、公開ドキュメントがあるので、かなりちゃんとテキストが抽出できるはずです。
「Microsoftと契約を結べば完全なドキュメントが提供される」と聞いたことがありますが、個人のベンダなので、この辺が限界です。