【R】ランダムフォレストを実行できるパッケージ{ranger}用の、変数の重要度を可視化する関数
タイトル通りの関数を作ったのでここに置いておきます。
可視化には{ggplot2}を使用しています。
# ranger_fitにrangerで構築したモデルを、topに表示したい変数の個数を指定します。 # topに値を指定しない場合は全変数の重要度を表示します。変数の数が多い時にご指定ください。 plotVarImp <- function(ranger_fit, top=NULL){ library(ggplot2) pd <- data.frame(Variable = names(ranger_fit$variable.importance), Importance = as.numeric(ranger_fit$variable.importance)) %>% arrange(desc(Importance)) if(is.null(top)){ pd <- arrange(pd, Importance) } else { pd <- arrange(pd[1:top,], Importance) } p <- ggplot(pd, aes(x=factor(Variable, levels=unique(Variable)), y=Importance)) + geom_bar(stat="identity") + xlab("Variables") + coord_flip() plot(p) }
【R】データフレームを渡すと欠損値のある列を抜いてくれる関数
タイトル通りの関数を作ったのでここに置いておきます。
# データフレーム df から欠損値のある列を除去する関数 removeNaCol <- function(df){ is_na <- apply(df, 2, function(x) sum(is.na(x))) > 0 return(df[,which(!is_na)]) }
kaggleのtitanicで0.81340を出した話
はじめに
みんな大好き(?)kaggleのtitanicコンペ
Titanic: Machine Learning from Disaster | Kaggle
で0.81340のスコアを出したので色々まとめてみましたという記事です。
このコンペはtitanic号が沈没したときのデータを使用して、乗客が生存したか死亡したかを予測するモデル構築し、そのモデルの予測精度を競うコンペです。
一般に80%の精度を超えると良いとされているコンペのようですので、この記事がそこを目指している方々への参考となればよいかと思います。
【python】beautifulsoupでYahoo! ファイナンスから日経平均のデータをスクレイピング
ずっっっっっと前にbeautifulsoupでスクレイピングしたことがあったけど、使い方を完全に忘れてたので再び入門的なことをやってみた。
とりあえずYahoo! Financeから日経225に関するデータを引っ張ってこようかと思います。
from bs4 import BeautifulSoup import urllib.request import time # 今回は30ページ分のデータを取得してみる。 page_num = 30 stock_temp = [] for i in range(page_num): # Yahoo Financeのページ。url末尾の数字を変更すると日経225の過去のデータが取得できる。 url = "http://info.finance.yahoo.co.jp/history/?code=998407.O&sy=2010&sm=12&sd=4&ey=2017&em=3&ed=4&tm=d&p=" + str(i+2) html = urllib.request.urlopen(url) soup = BeautifulSoup(html, "lxml") # 上記urlのソースをみると<td>~~~</td>にほしい数値が入っているっぽいから、soup.find_all("td")でその部分を抽出する。 # soup.find_all("td")では<td>~~~</td>といったタグと一緒にリスト型で結果を抽出してくるので、 # リストのそれぞれの要素に対してget_textメソッドを使って数値だけにする。 stock_extract = [value.get_text() for value in soup.find_all("td")[3:103]] stock_temp.extend(stock_extract) time.sleep(0.5) stock_temp = np.array(stock_temp) stock = stock_temp.reshape(int(len(stock_temp)/5), 5) stock = pd.DataFrame(stock[:,1:5], columns=["start", "high", "low", "end"], index=stock[:,0]) # 株価のカラムが文字列になっていて、かつカンマが入っているのでカンマを除去してfloat型にする。 for i in range(4): stock.ix[:,i] = stock.ix[:,i].str.replace(",", "").astype(float)
結果として
stock
こんな感じ。いいんじゃないですかね?