いつもお世話になっている翔泳社さんから、11/8発売の『ビッグデータビジネスの時代』(鈴木良介 著)を献本していただきました。多謝。せっかく発売前にいただいたので、皆様に先駆けてかるくレビューしてみたいと思います。
"ビッグデータ"という言葉がバズワードとして急に浮上してきたのはここ数カ月のことです。なので、IT業界にかかわる人でも「ビッグデータ? それは大きなデータセンターのコト?」(←かなり大きい某IT企業のトップの発言です)という程度の認識しかもっていない人も少なくありません。ただ、「サステナビリティ」とか「ユビキタス」とか「ユニファイドコミュニケーション」などなど、決して流行ることのなかったIT用語とは異なり、「ビッグデータ≒大きなデータ、膨大な情報」というイメージが喚起しやすいこともあって、これからは徐々に一般のビジネスパーソンが耳にする機会も増えてくるのではないかと思います。また、ビッグデータという言葉が流行りだしたのは最近でも、その概念や技術はずいぶん前から存在するものであり、昨日今日になって突然現れたものではありません。技術の成熟とビジネスや社会の動きがちょうど重なったタイミングに生まれた言葉 - そういった面では"クラウド"と似ている部分は多く、クラウドと同様に、一般に深く浸透する可能性を秘めています。
いままさに新しいトレンドが生まれ、大きく成長しようとしているそのタイミングに、ビッグデータというキーワードを取り巻くビジネスや技術を体系的に解説した書籍が"一般へのナビゲーター"としていちはやく市場に登場することは、非常にすばらしいと思います。著者の鈴木氏と版元の翔泳社は、その点だけでも十分に評価に値するのではないでしょうか。
***
- 第1章 ビッグデータビジネスとは何か
- 第2章 ビッグデータビジネスの効用と活用事例
- 第3章 主要陣営の戦略とビッグデータ活用を支える技術
- 第4章 ビッグデータ活用に向けた3つの阻害要因
- 第5章 ビッグデータビジネスの将来予測
もし本書を手に取られたのであれば、読者の前提知識がどの程度であれ、まずは第1章から通して読むことをお勧めします。というか、ほかの章を読む余裕がなくても、とりあえず第1章だけはちゃんと目を通してほしい。それくらい、2011年11月初旬におけるビッグデータビジネスの現状を的確に捉えています(たぶん、校了ぎりぎりまで情報をあつめていたのでは…と推測します)。そもそもビッグデータとはどう定義されるものなのか、"スモールデータ"とどう違うのか、ビッグデータビジネスは利用企業にどんな効用をもたらすと期待されているのか、ビッグデータビジネスにおける主要ビジネスプレイヤーは誰なのか、なかでも4強といわれるAmazon、Google、Apple、Facebookは他の事業者とどう違うのか、ビッグデータビジネスの課題は何か……など、「これだけは押さえたい! ビッグデータの基礎知識」的な感じでまとめられています。本書のサマリ部分と呼べるでしょう。
第2章および第3章は、ある程度ITの現場に携わっている人、エンタープライズITの知識が多少なりともある人でないと、読み進めていくのが難しいかもしれません。とりあえず
- クラウドの普及とハードウェアの進化がビッグデータ活用への"ゆりかご"となった
- ビッグデータ活用のスタイルには、蓄積したデータから分析する"ストック型"と、リアルタイムなストリームから分析する"フロー型"がある。ストック型の代表がDWH、フロー型の代表がCEP(Complex Event Processing)
- ビッグデータビジネスのプレイヤーは、ユーザ企業の利用サイド事業者とITベンダやSIerの支援サイド事業者に分かれる(4強はまた別)。うち、支援サイド事業者はIBMやOracle、EMCなどの大手ITベンダによる集約が進みつつある
- ビッグデータを支える技術のトレンドは、分散並列処理システムのHadoop、HadoopのプログラミングモデルとなっているMapReduce、SQLをもたないデータベースNoSQL、並列分析処理のパフォーマンスを向上するスケールアウト型のシェアードナッシング
といった程度の前提知識を頭の片隅に置いておくと、より理解しやすくなると思います。もっとも、これらの技術や製品が実際の企業(コマツ、ヤマト運輸、ドコモ、etc.)においてどのように活用されているかという事例紹介もところどころ挟まれているので、技術用語に翻弄されて意味不明…ということにはならないかと。
第3章までの現状把握をもとに、第4章では現在のビッグデータビジネスにおける課題を「人材不足」「セキュリティ/プライバシーの保護」「データの精度/正確性」の3つに分けて解説しています。とくに深刻なのは人材不足で、実際、Hadoopに精通した技術者や統計学者の不足は、最近のIT業界ではよく指摘されていることです。本書では問題点を単に羅列するだけでなく、具体的で実現の道が見えそうな解決策の提案もきちんとなされており、好感がもてます。個人的には、セキュリティのところで触れられていた「消費者のストリッパー化」という言葉ははじめて聞いたので、非常に興味深かったです(事例として紹介されていた"ビッグシスター"の話は文字通り"消費者のストリッパー化"だったのがワラタw)。
第5章は最後の章らしく、ビッグデータビジネスの将来予測です。正直、こんな動きの激しい時代にITの将来予測をするのってちょっと無謀なようにも思えるのですが、ここでは利用サイド事業者と支援サイド事業者、それぞれの将来予測について解説しています。将来予測、というよりは現在の延長で技術が発達していった場合、こんな問題が起こるんじゃないか、それを解決するにはこういう方法が考えられるのではないか、といった仮説の提示ですが、オフラインとオンライン空間の連携/融合、"Data as a Service"の到来、モバイルデバイスの浸透によるセキュリティへの懸念増大、ビッグデータ時代におけるSIerの勝機、通信事業者の立ち位置の変化など、示唆に富む話題が続きます。将来を当てるというよりも、現時点で起こりうる可能性の高い課題として見たほうがよいのかもしれません。
***
◯文章がちょっとカタい
まあ、ネタがネタなのであまり柔らかすぎるのもいかがかとは思いますが、なんとなく論文調なカタさがちょっと気になりました。言葉を丁寧に選んで書かれているので、読みにくいということはありません。ただ、IT関係者以外のビジネスパーソンも読者対象にしているなら、もうすこし柔らかめの語り口でもいいかな、と思います。
◯"非構造化データ"がなぜ出てこない?
ビッグデータの定義となるとほとんど必ずといっていいほど出てくる言葉が「構造化データと非構造化データ」です。一般的にビッグデータのほとんどが非構造化データ、つまり従来のRDBMSに格納しにくい多構造化データといわれています。ところが本書ではあえて、この「非構造化データ」という言葉を使わないようにしているのか、その言葉はまったく見当たりませんでした(正確には1カ所だけあった)。ビジネス本では扱わないほうがよいと判断されたのかもしれませんが、非構造化データという言葉は現状のビッグデータを語るには欠かせない用語だけに、個人的にはきちんと説明してほしいと感じました。
◯Hadoop、NoSQL、MapReduce、RDBMSの関係が示されていない
非構造化データと同じく、できるだけ一般読者向けにわかりやすく、専門用語を極力避ける方針だったのかもしれませんが、正直、重要な技術用語の説明不足は否めない印象です。ここが本書でいちばん残念なところでした。一般読者向けに作っているのだからこそ、丁寧に解説してほしかったですね。p.161から説明されているHadoopの解説部分、ここを読んですっと理解できるのはビッグデータという言葉にすでになじんでいる一部のIT関係者だけのような気がします。
◯用語集がほしい
一般読者にはなじみのない用語も多く出てくるので、リファレンス的に使えるよう、巻末に簡単な用語集が付いていれば便利だったのにと思います。とはいっても、用語解説って執筆にけっこう時間と手間がかかるので、それならせめて索引をつけてほしかったですね。正直、引用/参考文献の一覧よりも、索引があったほうがよほど役に立ったのでは。
***
こういった新しいITトレンド(最近で言えばTwitter、Facebook、iPhone、クラウド…)を紹介した書籍の中には、とりあえず時流に乗っただけ、勝ち組の尻馬に乗っかっただけの中身のない薄っぺらい本が多いのですが(とくに新書に多いですねー)、少なくとも『ビッグデータビジネスの時代』はそういう類のモノとはかけ離れたところにあります。ITのまわりに生きる人間であれば、ぜひとも本書を手にとって、膨大なデータがいまも刻々と生成されていること、そのデータを使ってどんなビジネスが始まろうとしているのか、世の中がどんなふうに変わろうとしているのかに思いを馳せてみてほしいと思います。
……つか、かるくレビューするはずだったのに、なんでこんなに長くなるんだ>自分