ClubDB2 第120回「あなたも惚れる!Netezza」に参加してきました。

Welcome to Wikis
今週のCLUB DB2はデータウェアハウスアプライアンスのNetezzaについて熱く語っていただきます(2/25 渋谷) | Unofficial DB2 BLOG

毎度毎度のClubDB2参加記録。
今回のテーマは、2010年にIBMが買収したDWHアプライアンス Netezzaでした。

DWHは(DWHも?)まったくの畑違いなのですが、何事も勉強、と思い参加してきました。

Netezzaとは

Netezzaのコンセプト

難しいといわれるDWHを簡単/工パフォーマンスに/安く使えるようにする。

とにかくキーワードとして何回も出てきたのが、「アプライアンス = 白物家電 = 簡単に」。そのために不要と判断した機能は徹底的に取り除いています。
会場が一番どよめいたのが、「CREATE INDEXはエラーになる」「INDEXは悪だ!」というセリフでした。
 

どのくらい早いのか

会場でデモを行ったのですが、以下のとおり、すさまじい速度でした。これでつるしのDBMSで、索引も何も作っていない、というのだから、簡単で早いというのは納得でした。
  

  • CREATE DB 〜〜
  • CREATE TABLE 〜〜〜〜

指定するパラメータは列名とデータタイプ、データのハッシュ方法(後述)のみ

  • データロード

1GB/1500万行のデータロードに9.77秒(200MB x 5並列)

  • データのSELECT

SELECT COUNT(*)〜〜は5秒
SELECT SUM(xx) GROUP BY 〜〜 ORDER BY 〜〜も10秒未満(だったはず)

感じたこと

とにかく感じたのが、「すっげ〜〜〜〜」ということ。つるしでもってきてこんなにスピードが出ちゃって、(後日書くつもりだけど)仕組み的にすごく考えていて、まさにNetezzaに惚れてしまいました。

あと、我々技術者は、ついついHOW(どうやって早くするか)ということに着目してしまうけど、顧客にとって重要なのは、当たり前ですがWHAT(そのデータで何ができるのか)。それを突き詰めた製品がNetezzaであると。
価格は標準モデル(?)でx億円。
これを高いと見るか、安いと見るか、BI/DWHの相場観について不勉強な私には直感的にはわからなかったのですが、国内で5年で数十台売れていることから、少なからず大規模ユーザーには価値がある、ということだと思います。
ただ、この製品をSIer(インフラ屋)としてどう担ぐのが良いか。クラウド同様、インフラ屋にとっては既存のビジネスモデルのなかでは単純に売上が下がってしまう、何かを変えないといけないな、と(答えにはたどり着いていませんが)考えさせられました。
 

その他Tips

  • デモ機の貸し出し制度あり。1〜2週間、無償で貸し出していただける。Netezzaとしても、POC(Proof Of Concept)として、ユーザーに使ってもらってから購入してもらうことをポリシーとしている。
  • 導入後1〜2日で利用開始可能。ラックタイプなので、免震床であれば、搬入して電源をつないで、LANケーブルをつないだらその場で利用開始できそうな勢い。
  • 運用上はいくつかの注意点がある。
    • 制約を作れないので、データ重複はユーザー側で回避する必要がある。→一度データをテンポラリ表にLOADして、そこからNotExit条件で、INTO xxx FROM SELECT 〜〜 で対応するのが良い。
    • (PostgresSQLベースなので)夜間バッチの最後にVacumm処理が必要(自動Vacummは止めてある)
    • 追加発注でUpgradeが可能だが、データの再配置のためにダウンタイムが発生する。

その他面白かった話

  • OracleがExaDataを発表する際に、Larry Ellisonが「これでNetezzaに勝てる」と連呼。これでNetezzaが一躍有名になった!
  • (この機械は、基本的に全てHotSwapになっていて、ユーザーでも故障箇所の交換ができるので)、米国ではオンサイトスペア保守(客先にスペアパーツを常備。交換はユーザーが行い、故障部品はメーカーに返送してもらう)を採用している。日本国内は通常の駆けつけ保守。

技術的な特徴はまた明日まとめようと。