「よく分かる多変量解析の基本と仕組み」 山口和範, 高橋淳一, 竹内光悦 著

図解入門よくわかる多変量解析の基本と仕組み (How‐nual Visual Guide Book)
うーん、難しくてよく分からなかった。でも概念的には少しは分かってきたかな。分からないなりに頭の中に全体地図をつくる役にはたったような気がする。数式部分はもう少し時間をかけて実際に計算してみないと理解できないな。
以下頭の整理のためのまとめ。


第1章 統計的なものの見方−データを見る心得−
データには行列形式のデータと時系列データがある。時系列データでは順番が重要である。
データには質的データと量的データがある。質的データというのは性別、学歴などの分類データであり、量的データというのは数量データ。
データには名義尺度、順序尺度、間隔尺度、比尺度の4つの尺度がある。なるほどねえ。名義尺度は違いが分かるのみ。順序尺度は大きさの比較が可。間隔尺度は足し算や引き算が可。比尺度は掛け算や割り算が可。あんまりこういう違いは意識したことなかったな。


第2章 基本統計量
代表値には通常平均値や中央値を使う。ばらつきを見るには偏差や分散を使う。その他に自由度、F値、変動係数、ジニ係数エントロピーなどがある。
これらの値を使って、注目したグループ分けで違いがあるかないか、どの程度影響があるかを計算する。計算手段はここにあるようにある程度確立しているので、重要なのは何に注目してどうグループ分けするかなのだろう。
複数の変数が含まれるデータを同時に分析するのが多変量解析であり、回帰分析や因子分析などがある。


第3章 回帰分析と判別分析
回帰分析とはすでに持っているデータからある変数を予測する分析方法。予測する変数を目的変数と呼ぶ。
判別分析も回帰分析と同様に目的変数を持つが、数値データではなく質的データ。どのグループに所属するかを予測する。
質的データに操作を行い数値データに変換する方法に数量化I類、II類などがある。


第4章 主成分分析と因子分析
データの構造を探る方法に主成分分析、因子分析などがある。これらは目的変数を持たない。どんな変数が影響を与えているかを探る。
主成分分析は分散が最大になるように新しい変数を作る。全体に影響を与えている変数を探すって事かな?
因子分析は、よく理解できてないけど、データ1つ1つを説明する式を作るということか?


第5章 クラスター分析と潜在クラス分析
データを似たデータのまとまりに分類する手法をクラスター分析という。
クラスター分析ではまずデータ間の距離を定義する。
データ個体の距離にはユークリッド距離、市街地距離、チェビシェフの距離、べき乗距離などがある。
クラスター間距離の計算方法には、最近隣法、最遠隣法、群平均法、重心法、ウォード法などがある。
潜在クラス分析は、個体間の距離で分類するのではなく、影響を受けている変数で分類する。


第6章 アソシエーションルール
アソシエーションルールは一般化すると変数と変数の関連を見つける手法?
アプリオリアルゴリズムは、ある程度関連が薄いと判断されたものをどんどん省いて計算量を減らす方法。
逐次ルールは時系列データにアソシエーションルールを適用したもの?


第7章 決定木・回帰木
データの集まりをあるカテゴリで順番に分岐させて木構造をつくり、末端のデータの偏りを見る。目的変数が質的データであれば決定木、数値データであれば回帰木と呼ばれる。
分岐ルールにはC5.0、CART、CHAIDなどがある。


第8章 ニューラルネットワークモデル
単純なモデルでは、一つのパーセプトロンに複数のパーセプトロンからの入力と1つ出力がある。入力はそれぞれ重み付け(結合強度)が加味され、それらから計算した結果が出力となる。
結合強度は学習ルールによって計算される。代表的な学習ルールにデルタルールがある。最終的な出力と教師信号を比較し、その差が最小になるように結合強度を変更していく。
入力と出力の間にいくつかの層を持つモデルを多層パーセプトロンと呼ぶ。


第9章 自己組織化マップ
あるベクトル値をもった出力ユニットが並んでおり、入力されたベクトルとの距離を計算する。その計算結果で勝者ユニットが決定され、勝者ユニットと周囲のユニットのベクトルが変更される。学習を繰り返すと、出力ユニットの状態は入力の分類として機能する。


第10章 記憶ベース推論
なんかよく分かんなかったな。ある目的のデータの説明変数と近い学習用データを抜き出して、その学習用データが持つ目的変数値から目的のデータの目的変数を計算する。という言い方であってるかな? 説明変数とか目的変数とかの言葉の意味がまだよく分かってないことがよく分かった。


第11章 サポートベクターマシン
データが非線形でうまく分類できないときに、次元を増やして分けられるようにする手法。説明変数の関数の関数を計算する。


第12章 クロスバリデーションとモデルの評価
考えたモデルが良いモデルかどうかを判断するために、決定係数や尤度が使われる。データを推定用、モデル選択用、最終評価用に分ける方法が有効である。あるいはクロスバリデーションと呼ばれる方法も有効である。クロスバリデーションでは1つのデータセットをいくつかのグループにわけ、それぞれを入れ替えながら推定と評価を行う。