ロジカルシンキングのオススメ本

顔妻です。 業種がまったく関係のない人から分析的な考え方を身につけるにはどうしたらよいか?と聞かれることがたまにあります。個人的にはロジカルシンキングを身に付けるのが早道と思っているので、そんなときの初めの一歩として最近おすすめしている本のご紹介です。

Rのround関数、trunc関数を使って年代ラベル作成

顔妻です。 今回はRでデータ処理を行なうときのユーザーの年齢データを年代ラベルに変換する方法をご紹介します。Excelではround関数一択で年代ラベルを作成できますがRでround関数を使うと切り捨てがうまくいきませんので別の関数を使う必要があります。また、今回は10歳刻みだけではなく5歳刻みに変更する方法もご紹介します。

R

ggplotで作成したグラフにデータラベルをつける

顔妻です。 今回はExcelで言うところのデータラベルの付け方についてです。グラフを作成して傾向を確認できたはいいものの値やテキストのラベルがないとわかりにくいことが多々あります。そんなときに是非使ってみてください。また、今回はテキストを利用しますのでmac版、windows版のそれぞれコードを記載しています。

R

tidyrを使った縦横変換

顔妻です。 今回はtidyrを使ったデータテーブルの縦と横の持ち方変換についてです。SQLやdplyrを使って集計したはいいものの、この結果をそのまま見せるとどうしてもみにくかったりします。どうしても一般的なクロス集計表の見方と異なるのは不便ですので、これを見やすい形に変えてみましょう。また、あまり使わない人も多いと思いますので是非手を動かしながら試してみてください。

R

dplyrのfilter関数を使った行の絞り込み方[文字列の部分一致]

顔妻です。 今回はdplyrのfilter関数を使ったデータテーブルの絞り込み方法についてです。SQLのwhere句のように簡単に絞り込みをしたいシーンがあると思います。また、値の比較だけではなく、部分一致で絞り込みたいときもあると思います。正規表現を使う方法もありますが今回はExcel感覚で部分一致ができる方法を紹介します。

R

dplyrのlead関数、lag関数の使い方

顔妻です。 今回はdplyrを使ったlead関数、lag関数の使い方です。 データテーブルの行列入れ替えを行うと大変な作業になるけども、行の前後の値を使って比較評価を行いたときがあると思います。sqlにあるOLAP関数のlag関数、lead関数と同じような使い方できますので行の前後の値を使ったり、並び替えを行ってうまく別の使い方をしたりしてみてください。

肥満度の推移[ 国民健康・栄養調査2016版]

顔妻です。 厚生労働省が提供している白書のデータを使う機会がありましたので集計の過程も含めて共有です。今回のデータをみると、どうやら日本国民の体重にトレンドがあることがわかりました。データを可視化する方法も記載していますので仕事でも使えると思いますのでよかったら参考にしてみてください。 利用した調査データ 今回利用した調査データは日本政府が実施している 国民健康・栄養調査 で実施された2016年度 […]

【mac】matplotlibの日本語文字化け防止方法

顔妻です。 今回はpythonでmatplotlibを利用するときの文字化け防止方法をメモしたいと思います。こちらはmacでしか試してませんのでご了承ください。 文字化け防止方法 まずは防止策を使っていないグラフの可視化から。 [crayon-5cc12ec9d3b0f621348344/] 見事に豆腐になっていますね。では、今度は「」を追加して可視化をします。 [crayon-5cc12ec9d […]

R

Rのdplyrを使った集計(簡易版)

顔妻です。 非常に遅ればせながらdplyrについて書いていきたいと思います。実は巷の好印象とは違ってあまりよい印象を持っていませんでした。というのも、なんだかんだでDBからデータ抽出をするときはSQLだし、またいろんな方法を覚えて実施するなんて非常に面倒だと思っていました。ただ、この見解が本当に誤りだと気づいた反省も含め記載していきます。 利用するデータ year month ShopName S […]

1 5

Overall Ranking