Rで行う回帰分析

Rで行う回帰分析

顔妻です。

今回はRで回帰分析を実施してみたいと思います。特に全体像を把握するために実際の利用方法を一通りこなしておき、結果の読み取りは最低限にしたいと思います。

利用データ

利用するデータはRに組み込まれている「cars」というデータです。車のスピードとそのスピードで急停止したときの停止にかかるまでの距離を格納したものになります。

speed dist
4 2
4 10
7 4
7 22
8 16
9 1

変数の関係性確認

上記でデータを確認しましたが、ここですぐに回帰分析を適用せずに利用するデータがそもそも回帰分析を行うのに適しているか確認しましょう。

 

上記のグラフをみるとスピードと距離に相関関係がみてとれそうです。それでは実際に相関係数も出してみましょう。

speed dist
speed 1.00 0.81
dist 0.81 1.00

相関係数もバッチりでてますね。回帰分析は実行前に最低限ここの辺りまでは確認してから適用しましょう。

回帰分析の適用

それでは回帰分析の適用です。今回はスピードがどれだけ停止距離に影響があるかを知りたいので目的変数を「dist」、説明変数を「speed」で分析します。※今回はコードの出力結果をわかりやすくするため色分けしてます。

出力結果をみるとPr(>|t|)の部分で「*」のマークがでてるため有意差がしっかりあるようです。また、Multiple R-squared: 0.6511, Adjusted R-squared: 0.6438と0.7辺りのためそれなりに精度がでていそうです。

 

予測結果の可視化

モデルの作成ができ、予測精度もそこそこでているようですが実際にどのような線が引けるのか確認したいと思います。

 

次に、回帰分析には誤差があるのですが、これも可視化してみましょう。

赤い線は先ほどと同じで予測値のplotになります。青い線はといいますと予測値の誤差になります。意味あいとしてはこの青い線の間に95%位で予測できるといった具合です。

【参考】精度の確認方法

今回は説明を割愛しますが、以下のようにより厳密に回帰モデルの精度を確認する方法もあります。

まとめ

いかがでしょうか、今回は回帰分析を実施するプロセスを全体像として把握することを目的として若干流れ作業気味に説明をしました。統計的な観点での仕組みの理解や厳密性はかなり犠牲にしましたが、こんな感じで回帰分析をやるんだなーというのは掴んで頂けたと思います。というわけで結構適当にやっても実施自体はできるわけですが、今後この統計的な観点での理解や厳密性について記事を書いていきますのでそこでしっかりと理解を深めてください。

Rカテゴリの最新記事