Club DB2 第111回 プロジェクト目線のETL活用ガイド 〜DataStage編〜に参加してきた

3回目のブログ記事。既にさぼり気味ではあるが,せっかく参加した勉強会なので記録を整理しておく。

Agenda

  • ETLツールとは
  • DataStageとは
  • DataStageを利用するメリット
  • DataStageを適用したプロジェクト事例
  • 成功する為に考慮すべきこと

ETLツールとは

  • てっきり基幹システムからデータを抜いてBIにデータを突っ込むツールかと思いきや、データハブやデータ移行のツールとしても使われているらしい。
  • ただし、パーフェクトではないので,便利な部分をつまみ食いするのが今の時点では良い。
    • ファイル転送部分やデータスクリーニングはまだまだらしい。←データスクリーニングが弱いとデータ移行に使うには厳しいと思う。

DataStageとは

  • 4,5年前に買収したツール。(最近のIBMさんお得意パターンですね^^ )

DataStageを利用するメリット(ここでデモ)

  • 実際にGUIでの処理作成をデモして頂く。
    • ここでLOAD先のDBがOracle。すかさず野間さんからの突っ込み。会場は大盛り上がりでしたね。これは布目さんの狙った行動だったのでしょうか ^^;
  • デモの感想としては,確かにハードルが低くて,比較的初心者でも使いこなせる印象。
  • ただし、CUIのI/Fがない(?)ので、システム規模が大きくなってくると生産性が伸びにくい印象あり。
  • ある試算では、生産工程(コーディング〜UTかな?)の工数が7割削減。
    • 当然,DataStageに会わせた外部設計書を作成する前提。 ← ここにかなりのノウハウがありそう
  • 作りの量が少ないので,デバック工数や、C/O後のメンテナンスコストも抑えられる。

DataStageを適用したプロジェクト事例

  • 簡単に作れる反面、規約を整備しておかないと適当なシステムが出来上がってしまう。
  • 気をつける面はパフォーマンス(同じ処理でも、どの部品を使うのか)やJOB運行を意識した構築。通常のシステム開発と同じ。GUIでさくさく作れるからって,開発標準作りを怠るな,ってことですね。
  • DBサーバーでデータを加工してデータを受け取るのか,とりあえず全量UNLAODデータを受け取って,ETL側で加工するのか。(システムが基幹なら、当然後者になるよね。)

その他

  • MQ経由でオンラインからデータを受け取って,MQ経由でオンラインにデータを返す,という使い方ができる。単純にバッチ処理を作る訳ではない。
  • 次のバージョンから,バージョン管理ツールが入る。
  • モジュールの管理方式は二つ。一つ一つの処理をそれぞれ実行ファイルとして作成する / 一つのプロジェクトを一つの処理にする。後者にするとリリース処理が大変。だが、管理は楽かな?

全体を通して

  • 発表者の方の生々しい意見が聞けて非常に良かったです。

二次会

せっかくなので二次会にも参加。
いろいろな人と話ができて楽しかったです。
@muka_ さんからはモデリング手法の話を教えて頂いたり,@Bizuayeu さんからは正規系の話や名刺香の話やら。あとは料理の話でもすこし盛り上がりました。
そうそう、GDOの方とも話をさせて頂きましたので,(ゴルフはしないのですが ^^; )早速サイトをチェックしてみました。やっぱりゴルフ場って高いですね〜 ^^;