ClubDB2参加記録 第130回 IBMのテクノロジートレンド に行ってきました。

久しぶりにClubDB2に参加してきました。
最近は、参加したくても夜勤と日程が重なったり、私用で日程が調整できなかったり、残念な思いをすることが多かったのですが、久しぶりに楽しい時間を過ごしてきました。
テーマはIBMのテクノロジートレンド。毎度ながらDB2にこだわらないのがClubDB2らしいし、ClubDB2の参加しやすいところですね。
最近は、業務の主担当はDB2を離れているので、幅広い知識を得る意味でも、楽しく参加させていただいています。


さて、今回の講師はIBM クラウドエバンジェリストの米持(@pandrbox)さん。
第119回(ClubDB2 第119回「RESTの基礎と、XQfulによるXML-DB活用」に参加してきました - k_masuの日記)に続く登壇です。
前回も非常に楽しかったのですが、今回も、本線の話に加えて、所々で逸れていく横道のお話が非常に楽しかったです。

米持さん、最近はIBMの全Softwareブランドを担当されているそうです。あれだけあるブランドを全部担当するって・・・エバンジェリストの肩書きは伊達ではない、ってことですね。
さらに、小学生時代に無量大数まで数字の桁を覚えたってすごい。しかもそれをIBMのCM1979 日本IBM 数字桁篇 - YouTubeで覚えたって・・・

IBMのテクノロジートレンド = IBMの考えるIT

背景
  • データの爆発的増加
    • 2007年から2011年の4年間で全世界のデータは10倍に
    • Twitterを流れるデータは、1日1千万件。一昔なら、DWHが扱うデータ量が1日で!
  • データの非構造化
    • テキストデータや、マルチメディアデータの増加
IBMのSolution

このような状態に対するIBMのSolution(キーワード)がSmaterComputing。
Cloud、BigData、OptimizedSystemsの組み合わせ(Virtuous Cycle:効循環、相乗効果)

Cloud

Cloudのメリット
  • デリバリースピード

デリバリースピードが格段に上がってきている。
ここは@bizuayeuさんがつぶやいたとおり。このスピード感はすごい。見習わないといけない。

  • デリバリーコスト

ここはそのままデメリットにもなるんだけど、初期投資ゼロ円ってのはやっぱりすごい。

Cloudのデメリット
  • パフォーマンス

やっぱりパフォーマンスを突き詰めようとするとCloudは不利。VM経由じゃ最後の最後はチューニングできない、というのは会場みんな一致した感想だったんじゃないかと。この答えが、HybridITにつながっていく。

  • コスト

「え?コスト?クラウドってコストが安いんじゃないの?」って声が聞こえてきそうですよね。でも、ここもちゃんと話してくれるのでありがたい。そうだよな、と頷きながら聞いてました。

キーワードは『クラウドは安くない。ちゃんと返しましょう』。勝手にキーワード作りました(^^;

IBMの10円クラウドを例にすると、
1コア、2Gメモリの仮想マシンが 10円/h
1年使うと 10円 x 24h x 365日 = 87,600円

でも、最近のサーバって4コアですよね。
しかも、1コアあたり2スレッド(?)

で、これを計算すると
87,600円 x 8 = 約70万円

ま、分かっていることですが、常時利用するならオンプレミスのほうが安いですよね。
もちろん、前出したデリバリースピードとか、デリバリーコストがバカに出来ないから、これだけで「常時利用システム = オンプレミス」とは判断できないわけですが。

Cloudのトレンド ー> Hybrid IT

Public Cloud、Private Cloud、Traditional ITの組み合わせによるシステム。
パフォーマンスが必要ならTraditional IT
テンポラリなシステム(デモ、開発、検証)や、スモールスタート、ピーク性が読みにくいシステム 等々にはPublic Cloud。
大企業なら、社内システムの集約にPrivate Cloud。

事例がこちら。えっと、bizuayeuさんのツイートに頼りっぱなしですね。

まぁ書いてみればそのまんまですし、米持さんもおっしゃっていたとおりですが、Traditional ITってのはなくならないですよね。ダウンサイジングの波があっても、結局メインフレームがなくならなかったように。
でも、その市場は確実に小さくなっていくわけで、今まの技術と経験だけであと25年食っていけるのか。見極めが必要だと感じる今日この頃です。

BigData

BigDataをどのように分類するのか。IBMレイテンシー(リアルタイム性?)とスループット(大量計算)の軸で考えている。

レイテンシーを狙う分野では「いかにCPUをぶん回すか」。
スループットを狙う分野では「いかにI/O BUSをフルに使うか」。
後者がまさにHadoopな訳ですね。

Stream Computing

レイテンシー(リアルタイム)を目指しているのがStreamingの分野。
以前、ClubDB2でお聞きしたInfoSphere Streamがこの分野の製品。前回の講義では、株のトレーディングシステムなどを実例としてあげていらっしゃいましたが、今回の例はイタリア 電力会社のスマートメータ。各家庭(30万件?)の電力使用量を15分間隔で計測。現状、過去のトレンドをもとに電力料金を随時変更している。各家庭には電力単価と利用量、要は利用料金が表示されるので、

電力使用量増加 ー> 単価を上げる ー> 各家庭に値上げが通知される ー> みんなが節電 ー> ピークが抑えられる

という狙いらしい。

Distributed Data Processing : MapReduce
  • 統計学者はみんな分かっている。全量検査が一番正しい。でも、処理しきれないからサンプル検査している。
  • 市場構造が変化して、LongTailを狙いたい ー> 全量検査しないとみつけられない(見つけにくい)

IBM製品(BigInsight)の特徴はこちら(笑)

デモとサンプルコードを見ただけでいかにJaqlが便利かわかりました。
でも、このへんって、ASAKUSA FWとかとどういう関係になるんでしょう。
Hadoop周りは全然勉強出来ていないので、もう少し整理の必要ありです。

あと、BigInsightについてくるBigSheetsはやっぱりいい製品(おまけ?)ですよね。
でも、2次会でも話したんですが、HDFS上(要はサーバー上)にあるデータを扱えるようにして欲しいですね。毎回データをアップロードしないといけないのは敷居が高いと思うんです。

2次会!

今回は2次会まで参加してきました。
2次会の様子は@muka_さんのtweetにて。。。(^^;

いやぁ、辛かったですね。私の口では甘口が限界でした。
激辛(?)を美味しそうに食べていた米持さんと@muka_さんってすごい・・・

でも、辛くないチヂミは美味しかった。

あ、そういえば、PureScaleのはいっているキャリーバックの写真を撮り忘れました。世界最小(?)のPureScaleも、きっとClubDB2で紹介されるのかなぁ。楽しみにしてます。

電車の都合で少し早めにお暇させていただきましたが楽しい時間をありがとうございました!

毎度ながら運営の皆さん、講演していただく講師の方々、参加者の皆さんには感謝感謝です。ありがとうございます。