記事No | : 615 |
タイトル | : Re^2: xdoc2txtでpptから抽出されない |
投稿日 | : 2010/10/04(Mon) 13:12:29 |
投稿者 | : koma |
お返事ありがとうございます。
> 特に、PowerPoint2007以降で、PowerPoint2003互換で書き出したpptファイルは、xdoc2txtでファイル抽出できないことがわかっています。理由は未知のエレメントが使われているためです。
どうやらこれが原因のようです。
この読めない文書は、確か一度2007で編集してます。
> Office文書の仕様は、Office97頃まではMSDNライブラリに記載がありましたが、office2000以降は記載がありません。Office2000以降に登場したエレメントは未知なので全てスキップしています。
> 逆にPowerPoint2007以降のpptxのほうは、公開ドキュメントがあるので、かなりちゃんとテキストが抽出できるはずです。
> 「Microsoftと契約を結べば完全なドキュメントが提供される」と聞いたことがありますが、個人のベンダなので、この辺が限界です。
了解いたしました。
マイクロソフト側が公開していないのでは仕方ありませんね。
運用で対応するようにしたいと思います。
ありがとうございました。