相関分析
『やりたいこと・目的』
「2つのデータがどの程度似ているか、また似ていないか調べたい」
本当は 「一方がもう一方の変動要因であることを調べたい」のだが・・これは位相差が出る気がするので、じっくり取り組むとして、とりあえず似ているかどうか
をやる。
『相関分析とは』
データ列Xi = {x1,x2,x3,・・・,xn}
とYi={y1,y2,y3,・・・,yn}の相関関係の度合い(どのくらい類似しているか)を調べる場合
「相関係数」なる指標を求め、評価する
相関係数は1〜-1 の間の数値で、XiとYiの相関性は一般的に次のように評価される
相関係数=1 XiとYiは完全に一致
0.9<相関係数<1.0 XiとYiはきわめて強烈に似ている。
0.7<相関係数<0.9 XiとYiは強く似ている似ている。
0.4<相関係数<0.7 XiとYiは似ている。
0.2<相関係数<0.4 XiとYiはやや似ている。
0.0<相関係数<0.2 XiとYiはほとんど似ていない。
相関係数=0 XiとYiは相関関係は全くない。
-0.0<相関係数<-0.2 XiとYiはほとんど似ていない。
-0.2<相関係数<-0.4 XiとYiは逆方向にやや似ている
-0.4<相関係数<-0.7 XiとYiは逆方向に似ている
-0.7<相関係数<-0.9 XiとYiは逆方向に強く似ている似ている
-0.9<相関係数<-1.0 XiとYiは逆方向に極めて強烈に似ている
相関係数=-1 XiとYiは真逆の数量を取る。
『ピアソン積率相関係数』
相関係数はいろいろな種類があるが、一般に「相関係数」といえば「ピアソン積率相関係数」を指す。
「XとYが
それぞれ正規分布となっていること」が前提条件となっている。またXYの関係が直線の関係である
ことが前提。
計算式は次のとおり

ピアソン積率相関係数は、外れ値に弱いので、外れ値があると、
相関が強いのに弱い相関になったり、相関が弱いのに強い相関になったりする。
その場合は順位相関係数を用いることを検討する、(外れ値を刈り取る野も考えてもいいかも)
『スピアマン順位相関係数』
順位相関係数といえばこの「スピアマン順位相関係数」をさす。
「スピアマン順位相関係数」はピアソン相関係数の特殊系 つまり 順位についてのピアソン相関係数を求めたもの。
外れ値があったり、XYの関係が直線でなくてもよいが、単調増加、単調減少が前提である。そうでなければ制度が悪い。
(手順1)
データ列XとYのそれぞれのデータに順位をつける
(手順2)
次の式で順位相関係数を計算する

『ケンドール順位相関係数』
ネットだとホームページによって算法が異なる(2種ある)が、おそらく同値なんでしょうw。(使えりゃいいんでw)
Wikipediaのやつを採択。
(手順1)
データ列XとYのそれぞれのデータに順位をつける
(手順2)
データ列XとYのそれぞれのデータに順位をつける

「PはXとYの2つの項目の順位の組を考えたときに大小関係が一致する組の数」と説明されているが
わかりにくいので 言い換えると
そのまま読むと
「{xj, yj}と{xk, yk} の組を比較して 「xj<xk のとき yj<yk 」 もしくは「xj >xk nのとき yj
> yk」ならば1ポイントとカウントして Pに1を加える。」
となるが
なんか
「{xj, yj}と{xk, yk} の組を比較して 「xj<xk のとき yj<yk
」 ならば1ポイントとカウントして Pに1を加える。」
のような気がするw また本屋さんで確認してみますw
一般的な算法としては 先にXの順位でソートしてからやるみたいです。
例で説明すると、 Xで昇順で並び替えたのが下リスト
X |
1位
|
2位
|
3位
|
4位
|
5位
|
6位
|
Y
|
3位
|
5位
|
6位
|
2位
|
1位
|
4位
|
Pポイント
|
3
|
1
|
0
|
1
|
1
|
0
|
P=3+1+1+1=6
と言うことになるようです。
ちなみに同順のものは平均順位をとる。(少数になる)
『検定』
XやYのサンプルデータ(標本)の数が少ないと事実とは逆の係数値が出る可能性があるので、標本量が十分で係数値に信頼性があることを確
認する作業。
『t検定』
2013/2/20 記