(重)回帰分析

『重回帰・目的』
目的は2つあるみたい・・
○目的1
  パラメータを変更した場合の特性・状態を予測したいときに使う
  パラメータを時間とした場合は未来予測ができる
○目的2
  それぞれのパラメータがそれぞれどの程度 そのものが持つ特性・状態に影響しているか調べる
  
『気になること』
選定したパラメータが目的とする性質にとって十分重要か、抜けがないか?
『重回帰分析とは』
パラメータ1



データ列Xi = {x1,x2,x3,・・・,xn} とYi={y1,y2,y3,・・・,yn}の相関関係の度合い(どのくらい類似しているか)を調べる場合
「相関係数」なる指標を求め、評価する

相関係数は1〜-1 の間の数値で、XiとYiの相関性は一般的に次のように評価される
 相関係数=1         XiとYiは完全に一致
 0.9<相関係数<1.0    XiとYiはきわめて強烈に似ている。
 0.7<相関係数<0.9    XiとYiは強く似ている似ている。
 0.4<相関係数<0.7    XiとYiは似ている。
 0.2<相関係数<0.4    XiとYiはやや似ている。
 0.0<相関係数<0.2    XiとYiはほとんど似ていない。
 相関係数=0       XiとYiは相関関係は全くない。
 -0.0<相関係数<-0.2   XiとYiはほとんど似ていない。
 -0.2<相関係数<-0.4   XiとYiは逆方向にやや似ている
 -0.4<相関係数<-0.7   XiとYiは逆方向に似ている
 -0.7<相関係数<-0.9   XiとYiは逆方向に強く似ている似ている
 -0.9<相関係数<-1.0   XiとYiは逆方向に極めて強烈に似ている 
  相関係数=-1      XiとYiは真逆の数量を取る。

『ピアソン積率相関係数』
相関係数はいろいろな種類があるが、一般に「相関係数」といえば「ピアソン積率相関係数」を指す。
「XとYが それぞれ正規分布となっていること」が前提条件となっている。またXYの関係が直線の関係である ことが前提。
計算式は次のとおり

ピアソン積率相関係数は、外れ値に弱いので、外れ値があると、
相関が強いのに弱い相関になったり、相関が弱いのに強い相関になったりする。
その場合は順位相関係数を用いることを検討する、(外れ値を刈り取る野も考えてもいいかも)

『スピアマン順位相関係数』
順位相関係数といえばこの「スピアマン順位相関係数」をさす。
「スピアマン順位相関係数」はピアソン相関係数の特殊系 つまり 順位についてのピアソン相関係数を求めたもの。
外れ値があったり、XYの関係が直線でなくてもよいが、単調増加、単調減少が前提である。そうでなければ制度が悪い。

(手順1)
データ列XとYのそれぞれのデータに順位をつける
(手順2)
次の式で順位相関係数を計算する



『ケンドール順位相関係数』
ネットだとホームページによって算法が異なる(2種ある)が、おそらく同値なんでしょうw。(使えりゃいいんでw)
Wikipediaのやつを採択。

(手順1)
データ列XとYのそれぞれのデータに順位をつける

(手順2)
データ列XとYのそれぞれのデータに順位をつける


「PはXとYの2つの項目の順位の組を考えたときに大小関係が一致する組の数」と説明されているが
わかりにくいので 言い換えると
そのまま読むと 
「{xj, yj}と{xk, yk} の組を比較して 「xj<xk のとき yj<yk 」 もしくは「xj >xk nのとき yj > yk」ならば1ポイントとカウントして Pに1を加える。」
となるが
なんか
「{xj, yj}と{xk, yk} の組を比較して 「xj<xk のとき yj<yk 」 ならば1ポイントとカウントして Pに1を加える。」
のような気がするw また本屋さんで確認してみますw

一般的な算法としては 先にXの順位でソートしてからやるみたいです。
例で説明すると、 Xで昇順で並び替えたのが下リスト
X 1位
2位
3位
4位
5位
6位
Y
3位
5位
6位
2位
1位
4位
Pポイント
3
1
0
1
1
0

P=3+1+1+1=6
と言うことになるようです。

ちなみに同順のものは平均順位をとる。(少数になる)

『検定』
XやYのサンプルデータ(標本)の数が少ないと事実とは逆の係数値が出る可能性があるので、標本量が十分で係数値に信頼性があることを確 認する作業。

『t検定』


2013/2/20 記