GIG

赴くままに技術を。

Apache Tika vs Apache poi

"vs"というほど深堀しているわけではなく、あくまで概観です。

何ができるの?

まずはそれぞれ何ができるか見てみると、Apache TikaとPOI(ポイまたはピーオーアイ)で共通の機能として、データをドキュメントから抽出できる。それに加えて、POIでは書き込みもできる。

Apache Tika

Apache POI

結局どっちが良いの?

データの抽出といっても一概にまったく同じ機能ではなく、どのようなフォーマットに対応しているかで用途が変わってくる。

等々といろいろ使えますと。 一方、Apache POIは、MS Office(Open Office)に特化したライブラリで、それらの製品なら読み書きが可能である。従って、まとめると以下のような用途かと。

  • 様々なフォーマットからデータを読み込ませたい => Apache Tika
  • Office製のドキュメントを操作する機能を作りたい => Apache POI

ちなみにApach TikaのOfficeの部分は、Apache POIを利用しているためApache Tikaのみ持って来れば、Mavenだと依存性の紐づけによってApache POIも利用できる。 なので、Apache Tikaを利用すれば良いかと。