データ処理

R

tidyrを使った縦横変換

顔妻です。 今回はtidyrを使ったデータテーブルの縦と横の持ち方変換についてです。SQLやdplyrを使って集計したはいいものの、この結果をそのまま見せるとどうしてもみにくかったりします。どうしても一般的なクロス集計表の見方と異なるのは不便ですので、これを見やすい形に変えてみましょう。また、あまり使わない人も多いと思いますので是非手を動かしながら試してみてください。

R

dplyrのfilter関数を使った行の絞り込み方

顔妻です。 今回はdplyrのfilter関数を使ったデータテーブルの絞り込み方法についてです。SQLのwhere句のように簡単に絞り込みをしたいシーンがあると思います。また、値の比較だけではなく、部分一致で絞り込みたいときもあると思います。正規表現を使う方法もありますが今回はExcel感覚で部分一致ができる方法を紹介します。

R

Rのdplyrを使った集計(簡易版)

顔妻です。 非常に遅ればせながらdplyrについて書いていきたいと思います。実は巷の好印象とは違ってあまりよい印象を持っていませんでした。というのも、なんだかんだでDBからデータ抽出をするときはSQLだし、またいろんな方法を覚えて実施するなんて非常に面倒だと思っていました。ただ、この見解が本当に誤りだと気づいた反省も含め記載していきます。 利用するデータ year month ShopName S […]

pythonのpandasパッケージを利用したデータフレームの扱い

顔妻です。 今回はpythonのpandasパッケージを利用してデータフレームの作成や操作をします。pythonでデータ分析をするに当たって表の操作がうまくできないと何もできません。なので、データ分析の文脈で可視化やモデル作成ができる程度を目指します。 pythonやパッケージのインストールの方法はこちらを参考にしてください。また、numpyを使った配列処理はこちらをご覧ください。

Rを使ったCSVデータのインポート、エクスポート方法

顔妻です。 今回はRへのCSVデータのインポート・エクスポート方法をご紹介します。いざRを使ってデータを統計解析を行おうとしてもデータをインポートできないことには実務で利用したり、統計の経験を積み上げるのは難しいのではないかと思います。また、今回はRに標準で組み込まれている関数だけではなく大規模データ(100万行以上)であっても素早くデータのインポート、エクスポートができるライブラリもご紹介します […]