読者です 読者をやめる 読者になる 読者になる

ともにゃん的データ分析ブログ

勉強したことの備忘録とかね

【R】データフレームにcharacterやfactorの列が含まれているときに、その列をすべてダミー変数化する関数

タイトル通りの関数を作りましたのでここに置いておきます。 データフレームに文字列が入ってて分析を回せない、、、その列だけ取り出してダミー化してまた結合してって面倒くせえ、、、ってときにお使いください。{dummies}パッケージを使用していますので…

【R】ランダムフォレストを実行できるパッケージ{ranger}用の、変数の重要度を可視化する関数

タイトル通りの関数を作ったのでここに置いておきます。 可視化には{ggplot2}を使用しています。 # ranger_fitにrangerで構築したモデルを、topに表示したい変数の個数を指定します。 # topに値を指定しない場合は全変数の重要度を表示します。変数の数が多…

【R】データフレームを渡すと欠損値のある列を抜いてくれる関数

タイトル通りの関数を作ったのでここに置いておきます。 # データフレーム df から欠損値のある列を除去する関数 removeNaCol <- function(df){ is_na <- apply(df, 2, function(x) sum(is.na(x))) > 0 return(df[,which(!is_na)]) }

kaggleのtitanicで0.81340を出した話

はじめに みんな大好き(?)kaggleのtitanicコンペTitanic: Machine Learning from Disaster | Kaggleで0.81340のスコアを出したので色々まとめてみましたという記事です。このコンペはtitanic号が沈没したときのデータを使用して、乗客が生存したか死亡し…

ハミルトニアン・モンテカルロ(HMC)法のざっくりとした解説とPythonによる実装

ベイズモデリングが流行っている中で多くのRユーザーはStanを使って解析をしているんではないかと思います。そして、Stanはハミルトニアン・モンテカルロ(HMC)法と呼ばれる方法で事後分布からのサンプルを得ています。色々と解説記事はありますが、超ざっく…

【python】beautifulsoupでYahoo! ファイナンスから日経平均のデータをスクレイピング

ずっっっっっと前にbeautifulsoupでスクレイピングしたことがあったけど、使い方を完全に忘れてたので再び入門的なことをやってみた。とりあえずYahoo! Financeから日経225に関するデータを引っ張ってこようかと思います。 from bs4 import BeautifulSoup im…

【R】ダミー変数を一度に生成する関数

探せばあるんだろうけど、データフレームを引数に複数列を一度にダミー変数化する関数を作りました。 よければ使ってください。 使い方:(0) {dummies} パッケージをインストールする(1) 引数 data にダミー変数化したいデータフレームを入れる(2) 回帰等で…

ベイジアン仮説検定

前に学内の勉強会でベイジアン仮説検定について発表したので、その時のスライドをアップロードします。ベイズを使って頻度主義の区間推定的なものだけでなく、点推定値の検定を行う方法も紹介しています。 ベイジアン仮説検定 from Tomonyan

vec 演算子とトレース

行列を以下の様に定義する。 ここで は縦ベクトルとする。このとき また基本的な操作として がある。

{rpart}{partykit}のプロットで日本語を使用する方法

自分用メモ。実行例は後日載せるかも。 fit.dt <- rpart(y ~., data) plot(as.party(fit.dt), gp = gpar(fontfamily = "Osaka"))

pythonによる粒子フィルタの実装

2階差分トレンド+季節(週)トレンドを考慮した以下の状態空間モデル(線形ガウス状態空間モデル)について、粒子フィルターをpythonで実装しました。 ここではそれぞれ時刻における観測値、トレンド(平均)、季節トレンドです。 状態空間モデルの詳しい説明につ…