Apache Tika vs Apache poi
"vs"というほど深堀しているわけではなく、あくまで概観です。
何ができるの?
まずはそれぞれ何ができるか見てみると、Apache TikaとPOI(ポイまたはピーオーアイ)で共通の機能として、データをドキュメントから抽出できる。それに加えて、POIでは書き込みもできる。
Apache Tika
- Apache Tika - Getting Started with Apache Tika
- ドキュメントからデータを抽出
Apache POI
- Apache POI - Component Overview
- ドキュメントからデータを抽出
- ドキュメントにデータを書き込み
結局どっちが良いの?
データの抽出といっても一概にまったく同じ機能ではなく、どのようなフォーマットに対応しているかで用途が変わってくる。
等々といろいろ使えますと。 一方、Apache POIは、MS Office(Open Office)に特化したライブラリで、それらの製品なら読み書きが可能である。従って、まとめると以下のような用途かと。
ちなみにApach TikaのOfficeの部分は、Apache POIを利用しているためApache Tikaのみ持って来れば、Mavenだと依存性の紐づけによってApache POIも利用できる。 なので、Apache Tikaを利用すれば良いかと。