相関分析

『やりたいこと・目的』

「2つのデータがどの程度似ているか、また似ていないか調べたい」
本当は　「一方がもう一方の変動要因であることを調べたい」のだが・・これは位相差が出る気がするので、じっくり取り組むとして、とりあえず似ているかどうかをやる。

『相関分析とは』

データ列Xi = {x1,x2,x3,・・・,xn} とYi={y1,y2,y3,・・・,yn}の相関関係の度合い（どのくらい類似しているか）を調べる場合
「相関係数」なる指標を求め、評価する

相関係数は1～-1 の間の数値で、XiとYiの相関性は一般的に次のように評価される
　相関係数=1 　　　　　 XiとYiは完全に一致
　0.9<相関係数<1.0 　　 XiとYiはきわめて強烈に似ている。
　0.7<相関係数<0.9 　　 XiとYiは強く似ている似ている。
　0.4<相関係数<0.7 　　 XiとYiは似ている。
　0.2<相関係数<0.4 　　 XiとYiはやや似ている。
　0.0<相関係数<0.2 　　 XiとYiはほとんど似ていない。
　相関係数=0 　　　　　　XiとYiは相関関係は全くない。
　-0.0<相関係数<-0.2 　 XiとYiはほとんど似ていない。
　-0.2<相関係数<-0.4 　 XiとYiは逆方向にやや似ている
　-0.4<相関係数<-0.7 　 XiとYiは逆方向に似ている
　-0.7<相関係数<-0.9 　 XiとYiは逆方向に強く似ている似ている
　-0.9<相関係数<-1.0 　 XiとYiは逆方向に極めて強烈に似ている　
相関係数=-1　　　　　　XiとYiは真逆の数量を取る。

『ピアソン積率相関係数』

相関係数はいろいろな種類があるが、一般に「相関係数」といえば「ピアソン積率相関係数」を指す。
「XとYがそれぞれ正規分布となっていること」が前提条件となっている。またXYの関係が直線の関係であることが前提。
計算式は次のとおり

ピアソン積率相関係数は、外れ値に弱いので、外れ値があると、
相関が強いのに弱い相関になったり、相関が弱いのに強い相関になったりする。
その場合は順位相関係数を用いることを検討する、(外れ値を刈り取る野も考えてもいいかも）

『スピアマン順位相関係数』

順位相関係数といえばこの「スピアマン順位相関係数」をさす。
「スピアマン順位相関係数」はピアソン相関係数の特殊系　つまり　順位についてのピアソン相関係数を求めたもの。
外れ値があったり、XYの関係が直線でなくてもよいが、単調増加、単調減少が前提である。そうでなければ制度が悪い。

（手順１）
データ列XとYのそれぞれのデータに順位をつける

（手順２）
次の式で順位相関係数を計算する

『ケンドール順位相関係数』

ネットだとホームページによって算法が異なる（2種ある）が、おそらく同値なんでしょうw。（使えりゃいいんでw）
Wikipediaのやつを採択。

（手順１）
データ列XとYのそれぞれのデータに順位をつける

（手順２）
データ列XとYのそれぞれのデータに順位をつける

「PはXとYの2つの項目の順位の組を考えたときに大小関係が一致する組の数」と説明されているが
わかりにくいので　言い換えると
そのまま読むと　
「{xj, yj}と{xk, yk} の組を比較して「xj<xk　のとき yj<yk 」　もしくは「xj >xk nのとき yj > yk」ならば1ポイントとカウントして　Pに1を加える。」
となるが
なんか
「{xj, yj}と{xk, yk} の組を比較して「xj<xk　のとき yj<yk 」　ならば1ポイントとカウントして　Pに1を加える。」
のような気がするw また本屋さんで確認してみますw

一般的な算法としては　先にXの順位でソートしてからやるみたいです。
例で説明すると、　Xで昇順で並び替えたのが下リスト

X 1位
2位
3位
4位
5位
6位

Y
3位
5位
6位
2位
1位
4位

Pポイント
3
1
0
1
1
0

P=3+1+1+1=6
と言うことになるようです。

ちなみに同順のものは平均順位をとる。（少数になる）

『検定』

XやYのサンプルデータ（標本）の数が少ないと事実とは逆の係数値が出る可能性があるので、標本量が十分で係数値に信頼性があることを確認する作業。

『t検定』

2013/2/20 記

X	1位	2位	3位	4位	5位	6位
Y	3位	5位	6位	2位	1位	4位
Pポイント	3	1	0	1	1	0