ビックデータ解析の基礎と解析ツールを紹介



ビックデータ解析の基礎と解析ツールを紹介

インターネットの進歩とともに年々、データの生成・流通・蓄積量が増加し続けており、IoTの発展によってこれから更にビッグデータを「ビジネス資源」として活用する企業が増えていきます。

この記事では「ビジネス資源」としてのビックデータをビジネスに活かすための解析手法をご紹介します。 具体的な活用事例は別記事:今更聞けないビッグデータの基礎と業界別の活用事例15選でもご紹介しているので、あわせてご覧ください。

image

目次
  1. ビックデータとは
  2. ビックデータの代表的な解析法
  3. クロス集計
  4. ロジスティック回帰分析
  5. 決定木分析(けっていぎぶんせき)
  6. アソシエーション分析
  7. クラスター分析
  8. ビックデータの解析をするためのオススメツール
  9. データを「ビジネス資源」として活かす

ビックデータとは

総務省の「情報通信白書 平成24年版」によれば”どの程度のデータ規模かという量的側面"だけでなく"どのようなデータから構成されるか、あるいはそのデータがどのように利用されるかという質的側面”において"従来のシステムとは大きな違いがある”とされています。

具体的には、量的側面では数十テラバイトから数ペタバイト(a few dozen terabytes to multiple petabytes)までと非常に巨大なデータとされ

質的側面からは
- 「高解像(事象を構成する個々の要素に分解し、把握・対応することを可能とするデータ)
- 「高頻度(リアルタイムデータ等、取得・生成頻度の時間的な解像度が高いデータ)
- 「多様性(各種センサーからのデータ等、非構造なものも含む多種多様なデータ)」

といった特徴があるものが”ビッグデータ”と定義されているようです。

ビックデータの代表的な解析法

クロス集計

クロス集計とは、いくつかの質問項目を掛け合わせ(クロス)して集計や分析を行う手法です。アンケート調査やデータ分析にはよく用いられています。

例えば”あなたが好きな映画のジャンル”というアンケートがあった場合、縦軸に「年齢」をおき、横軸には「恋愛」「アクション」という項目を設定します。

アンケートの結果をそれぞれ当てはめることで年齢ごとの好みの傾向を把握することができます。このようにクロス集計はいろいろな場面で使われている、とても基礎的な分析手法です。

ロジスティック回帰分析

ロジスティック回帰分析とは、求めている結果になるかどうか(0か1)を導き出す分析手法です。特に医療関係での利用が知られています。

例えば、タバコを吸う人が肺がんになる率と吸わない人が肺がんになる率の違いといったものに使われます。

この例では、肺がんになるかどうかという0か1かであるため、ロジスティック回帰分析が使えます。マーケティングでは「メールマガジンへどの程度反応を示すかどうか」というような分析に使われています。

決定木分析(けっていぎぶんせき)

決定木分析とは、一本の木が幹から枝、葉と分かれていくようにグループ分けをしていく分析手法です。

グループ分けはYes/Noでそれぞれ2つに分けていくことが多いです。統計で使われるR言語にはタイタニックの搭乗者データがセットされていますが、男性かどうか→Yes/No→等級は、というようにそれぞれのグループ毎に分類をしていき、最終的にどのグループの生存率が高かったのかを分析することができます。
(この場合、女性や子供の生存率が高かったことがデータで示されています。)

決定木分析は、分析結果を木のようなビジュアルで表現できるため、結果を伝えやすい分析手法です。

アソシエーション分析

アソシエーション分析(別名:マーケットバスケット分析)は、よく売り上げの向上施策に使われます。

「ビールとおむつ」の法則のように、一緒に買われる可能性が高いものの組み合わせや割合、統計的に関連があると思われる法則を抽出する分析手法です。

ECサイトであれば「商品Aを購入した人は商品Bや商品Cを購入する確率が高い」という法則を元に、商品Aの検索をしたユーザーに対して商品Bや商品Cをお勧めするといった使い方をします。

クラスター分析

クラスター分析は、データを共通点ごとに分類し、またその共通点が与える影響度を元に関連の深いグループを作っていく分析方法です。

Twitterなどで「○○クラスタ」と表現されているのを見たことはないでしょうか。この場合は、○○が好きな人間同士のグループ、ということになります。この分析手法では散布図を使って相関関係を表します。

影響が強ければ強いほど重なりが増え、濃くなっていきます。ビッグデータでAIを使ってクラスター分析をすることで各クラスタの意外な繋がりが見えてくる分析手法です。

ビックデータの解析をするためのオススメツール

これまで説明したように分析にはいろいろな手法がありますが、DataRobotというWebサービスを使うと自分たちで複雑な計算やプログラミングをすることなく高度な予測モデルを抽出してくれます。

このWebサービスは、Kaggleという数十万人のデータサイエンティストが集まるコンペの中でも優秀なエンジニアが集まったスタートアップが提供しています。このツールを使うことで多種多少なモデルを使った解析がとても簡単に短時間で行うことができるのでぜひ使って見てください!(ただし、お値段はちょっと高めです)

他によく使われるものとしては、BigQueryが挙げられます。これはGoogleが提供しているビッグデータ解析用のプラットフォームで独自の言語を使ってクラウドで分析を行うことができます。

BigQueryは計算したデータ量に応じて費用がかかるシステムですが、データが列ごとに分解されているため費用を抑えて計算ができるという特徴を持っています。

データを「ビジネス資源」として活かす

最後に、「ビッグデータ解析」は目的ではなく手段です。自社のビジネスの機会の発見、課題解決のためにどのデータをどのように解析し、意思決定に活かしていくのか。 データを使いこなすためには、ビジネスとデータ解析両面への深い理解が求められます。

image

関連記事

CodeCampus編集部
この記事を書いた人
CodeCampus編集部
\ 無料体験開催中!/自分のペースで確実に習得!
オンライン・プログラミングレッスンNo.1のCodeCamp