Rを使ったクロス集計表の作り方・使い方

AI人材になるための6ヶ月長期コース【ikus.ai】

顔妻です。
今回はアンケート調査で特によく使われるクロス集計についてです。Excelではピボットテーブルの機能を使って作成する方もも多いと思いますが今回はこの手法のRでの作り方、使い方について説明しよう思います。

ちなみに、以下の記事も作成したみました。良かったら参考にしてみてください。

Rを使ったクロス集計表の作り方・使い方2

利用シーン

性別、年代別といったデモグラフィック情報や、好き・嫌いといったカテゴリーを使って層別の傾向を知りたいときによく使うと思います。また、統計的な言い方で連続値のデータであっても階級で区切ることでカテゴリー化し、この上でクロス集計を行うこともよくあります。

利用例・作り方

■性別(SQ1)

男性 女性
28 22

■おにぎりの好み(Q1)

好き 嫌い
19 31

それでは今度はクロス集計表を使って「性別×おにぎりの好み」で集計を行ってみましょう。

  男性 女性
好き 12 7
嫌い 16 15

また、この実数表を簡易なやり方で構成比にしてだすことも可能です。

■おにぎりの好み×性別(横%)

  男性 女性
好き 0.6315789 0.3684211
嫌い 0.5714286 0.6818182

■おにぎりの好み×性別(縦%)

  男性 女性
好き 0.4285714 0.3181818
嫌い 0.5714286 0.6818182

注意点ですが、アンケートで取得したデータを市場全体の傾向を知るために利用するときはサンプルサイズに十分注意をしてください。ここでは詳しく扱いませんが、サンプルサイズが少ないと誤差が大きくなってしまい実際の市場状況を見誤る可能性があります。
※一般的にクロス集計の軸で利用している変数のn数は30件は必要といわれています。また、2000件以上あればほとんど誤差がない状態です。

まとめ

クロス集計は分析を行う場面では必ず使うといっても過言ではありませんし、実際に使うことの非常に多い手法の一つではないでしょうか。ただし、母集団の傾向を知るために集計した場合には結果を見誤る可能性もありますので、調査設計やサンプルサイズには十分注意をしてください。また、下記に今回利用した「RawData_FavoriteFlavorOfOnigiri」の架空の調査票を記載しています。クロス集計に慣れていない人や慣れていない人は下記の調査を基に様々なクロス集計を作ってみてどんな結果が言えそうかを考えてみてください。

AI人材になるための6ヶ月長期コース【ikus.ai】

調査票

=============================
アンケートは男女20代~60代を対象に実施 ※架空の調査かつ架空のデータです。

<予備調査>
SQ1 あなたの性別を教えて下さい。
1. 男性
2. 女性

SQ2 あなたの年代を教えて下さい。
1. 20代
2. 30代
3. 40代
4. 50代
5. 60代

<本調査>
Q1 あなたはおにぎりが好きですか?
1. はい
2. いいえ

Q2 以下の中で、あなたが好きなおにぎりの具材をいくつでもお選びください。
1. サケ
2. こんぶ
3. うめ
4. シーチキン
5. 高菜

=============================

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA