統計的な情報分析
情報分析に関し、具体的な方法に入っていきたい。ここでは主に統計的な情報分析について見てみたい。
■目的をもって仮説を立てる
前のエントリー「情報の二面性、事実と解釈」で、情報を分析するに際して、前提となっている文脈を意識することが重要であることを書いた。ここがまず出発点である。目的は何なのか。つまり、何をするために、どのような意思決定をしなければならず、そのためにどのような情報が必要なのか、そうした目的―手段連鎖を明確に捉えておく必要がある。
たとえば、新商品販売において、販売数量が目標を大きく下回っているとする。回復のためにはまずはその原因がわからなければならない。かくて原因を明らかにする情報が必要となる、というわけである。
で、はじめにすべきことは仮説を立てることである。仮説なしでは情報を抽出することもできない。過去の知識や経験の蓄積などからある種直感的に導き出される仮説は、単に恣意的な思いつきというわけではない。いまだ論理的(根拠付けられている状態)ではないが、いわば暗黙知に支えられている限りにおいて、一定の方向性を示していると見なすべきである。ただ、その論理性が顕在化されていないのであり、だから情報分析で検証することが必要なのである。
たとえば上の例で言えば、「販売数が伸びない原因は商品自体にあるのではなく、顧客ニーズの取り違えにある。都市部の20代をターゲットに大都市圏を重点に展開したが、実は地方にこそニーズがあるのではないか」。そういう仮説を立てたとする。
それを検証するために必要な情報は何か。それを考える。顧客関係のテーブルに蓄積されたデータのうち、何を使えば検証できるのか。顧客の住所と年齢および購買品目だ、としよう。そこでそれらの項目を抽出する。(たぶん、BIツールで直接データを取り出すか、情報システム部に言って、データを出してもらうか、といったところだろう)。
■個体と集団の区別、クラス値と特性値の区別
そこで情報分析ということになるのだが、はじめに次のことを区別しなければならない。それは個体と集団の区別である。個体を分析するとは、たとえば一人の顧客を取り上げて、その人のさまざまな側面を明らかにすることである。それに対し、集団を分析するとは、顧客全体の集団としてのさまざまな特性を明らかにすることである。後者は通常、統計分析と呼ばれる。
たとえば、競合分析をする場合、特定の競合企業を分析するのが個体分析、競合全体(競争環境全体)の特性を分析するのが集団分析である。前者であれば、一つひとつの情報の収集や整理や考察がポイントとなる。後者であれば、統計手法を使って集団としての特性を浮き彫りにすることがポイントとなる。ここでは、個体分析はおいておいて、集団分析、つまり統計分析を取り上げたい。
とは言っても、わたしは統計の専門家ではないので、基本的な考え方だけ見ておきたい。以前のエントリー「情報分析とは何か? まずデータとは?」で見たように、データ設計においてデータは、エンティティ(実体)を特定するためのプライマリキーと、そのエンティティに属する属性(アトリビュート)に分けられるのであった。たとえば、「顧客コード:0001」がプライマリキー(これで特定の顧客が名指しされる)で、その顧客の住所、年齢、購買品目等が属性である。
次に、この属性がさらに、クラス(階級)値と特性値に分けられる。中学生のときに数学で度数分布表というのを習ったことがあると思うが、そのときよく出てきた例に身長別の人数分布というのがあった。150cmから155cmまでは何人、155cmから160cmまでは何人・・・、というやつである。この場合、身長がクラス値で人数が特性値である。
何がクラス値で何が特性値かはあらかじめ決められているわけではない。分析の目的によって、そのつどクラス値になったり、特性値になったりする。先の例で言えば、新商品の購買数が問題で、それを住所や年齢といった属性ごとに見たいのであった。であれば、住所と年齢がクラス値となり、購買品目(購買数)が特性値となる。一般に、ある集合単位で特定の数値を見たいというとき、集合単位がクラス値となり、特定の数値が特性値となる。いまの場合、住所や年齢単位に購買数を見たいのである。住所や年齢がクラス値になり、購買数が特性値になるのはそのためである。
■いかにして原因を明らかにするか
というわけで、これによってとりあえず住所・年齢別の購買数という統計数値が得られることになる。が、こうした分析が単発で終わることはあまりない。さらにいろいろな角度から分析を繰り返すのがふつうであろう。なぜか? 意思決定と行動に結びつくような分析が必要とされるからである。
確かにこうした分析は「事実」を明らかにする。しかし、「事実」は通常、原因―結果連鎖という構造を持っている。販売数が目標を大きく下回っている場合、原因は何か? ということになるが、それはつまり、何らかの原因があって、その結果として販売数が伸びないからである。それゆえ、この原因と結果の総体が、「事実」ということになる。結果だけ捉えて、原因が捉えられていないような「事実」は不完全である。原因と結果の連鎖全体が捉えられて初めて「事実」なのである。
分析が繰り返される理由は、まさにここにある。結果は比較的容易に明らかになるが、なかなかわからないのは原因である。そして、原因がわからなければ手の打ちようがなく、意思決定も行動もできない。というわけで、原因の究明を目指してさまざまに分析が繰り返されることになるのである。
では、原因はいかにして究明していけばいいのか? ごく簡単に触れておこう。クラス値と特性値とで方法が異なる。まず、クラス値については、クラス値のくくり(セグメント)を細分化していくことによって原因を明らかにしようとする。そのためにわたしがよく使う方法は3つある。ひとつは、単純に特定のクラス値を細分化することである。都道府県単位をいくつかのブロックに分け、さらに市部と郡部で分けていくことによって、他とは違う傾向を示す地域(そこに何か要因となるものがある)を見つける、といった方法である。これは、一般にはドリルダウンと言う。
二つ目は、いわゆるクロス集計である。たとえば、地域と年齢を縦軸と横軸にとり、地域、年齢、それぞれだけではわからない特性を組み合わせによって洗い出すのである。三つ目は、いわゆるダイス&スライス(多次元分析)である。これはクロス集計の拡張版と言っていい。クロス集計は2つの属性で行なうが、ダイス&スライスはさらに属性を付け加え、組み合わせをさまざまに変える。たとえば、地域と年齢に年収という属性を加えたとしよう。すると、地域と年齢だけでなく、地域と年収、年齢と年収という組み合わせでもクロス集計を試みることができる。こうして組み合わせを変えていくことによって、よりいっそう背景を浮かび上がらせることができるのである。
次に、特性値について。ひとつは、もともと因果関係が明らかであるような特性値を取り上げるという方法がある。たとえば、住宅を購入する人は家具も購入する可能性が高い。住宅を買ったから家具も新しくするというわけだ。とすれば、家具の販売予測をするために、住宅の販売推移を見るといったことが可能になる。2つ目は、必ずしも因果関係が明らかでない場合である。この場合には、仮説を立て、相関分析をすることになる。たとえば、商品Aは年齢層が高いほどリピート率が高くなるという仮説を立てた場合、縦軸に年齢、横軸にリピート数をとって、対象顧客すべてをプロットすることにより、相関を見る。(この場合、年齢もリピート数も特性値と見なす)。相関係数が一定以上であれば、相関があることになる。つまり、両者には因果関係がある。そこで、上の年齢層をターゲットに商品Aの販売戦略を練り直すといったアクションに繋がるのである。
とりあえず、これぐらいにしておこう。以上で主に集団としての分析(つまり統計分析)を見てきた。しかし、これとは別に個体としての分析もある。また、もうひとつ重要な区別がある。ここまで属性(クラス値と特性)を中心に見てきたが、それに対し、遇有性を中心とした分析もあるのである。あわせて言えば、個体にかかわる遇有性の分析、それがさらに重要な領域と言える。それについては、また別のエントリーで取り上げたい。


最近のコメント