顔妻です。
本日は以前に紹介したクロス集計の記事に続いて、連続量にカテゴリーのフラグを立てて集計する方法をご紹介したいと思います。これができるようになるとほとんどのデータをクロス集計として表現できるようになると思いますので活用してもらえたらと思います。
前段
それでは、①の記事でも利用したこのShopDataを利用しましょう。
前回の記事では分布の形が違うのため、平均値では見誤ることがある可能性があるため可視化をすることの大事さをお伝えしましたが、今回はこれを数値で定量化したいと思います。
連続量のカテゴリー化とクロス集計①
それでは一つ目の方法です。ここでは「cut()」関数を利用して客単価を3分割にしてみたいと思います。
上記のような表がでたと思います。この出力結果の意味は左のセルから「客単価443円~814円」「客単価814円~1180円」「客単価1180円~1560円」となり、これの件数をtable()関数でカウントしています。
それではこの作成したflgを基に店舗別のクロス集計も作成してみましょう。
箱ひげ図のy軸とは逆向きですが無事に分布を定量化して表現できましたね。
連続量のカテゴリー化とクロス集計②
cut関数を使うが個人的には非常にお手軽でよく使うのですが、カテゴリー化する前の区切りを指定の値に調整したり、カテゴリー名を名付けたいこともあると思います。そのときにはifelse関数を使うのがExcel感覚でできると思うのでおススメです。
まとめ
今回ご紹介したのは一例ですが、連続量をカテゴリー化してクロス集計を行いと思ったときにしたいことで最低限のことは説明できたのではないかと思います。実際、箱ひげ図やヒストグラムは非常に強力な可視化方法ですが、やはり定量化して再確認するという作業を必ず実施したほうがいいと思います。