2011-02-01から1ヶ月間の記事一覧
住所データをもらって地図上にプロットする仕事がたまにあるので、RgoogleMapsで対応しようと思っていたらAPIの仕様が変更になったせいで、そのままではマーカーがプロットできない。 仕方がないのでとりあえず動く関数を作った。 「とりあえず」なのでスク…
Rではデータサイズを抑えるためにデフォルトで文字列を因子に変換されることがある。 よく遭遇するのは以下2つのケースなので対応策をメモ read.csv()でcsvを読み込むとき as.is=TRUEとする read.csv("hoge.csv", as.is=TRUE) data.frame()で行列等をデータ…
reshape関数の挙動にはいつも悩まされるのでメモ。 wide形式に変換した時にtimevarに指定した変数の並び順がそのまま反映されるので、事前に並び替えておくことが必要。 > index <- seq(1,10) > time <- rep(c(4,2,5,3,1), 2) > value <- seq(11,20) > > tes…
その1の続き。とはいえコンテストはずいぶん前に終わってしまったのでこれは備忘録。 ユーザーとパッケージの相互関係 昨日はユーザーとパッケージのそれぞれの視点からのインストール割合をみた。まとめると以下のようになる。 ユーザーは一人を除くとせい…
下のような形で抽出するというのをいつも忘れる。 data[data$V1%in%list$V2,]
ggplot2のテーマ練習がてら。画像がつぶれてもうた上になんか全然違うけどまあよい。もう少しよくする。 コードは以下の通り。 library(ReadImages) library(ggplot2) data <- read.jpeg("maririn.jpg") #画像ファイルを指定 data #imagematrixに変換されて…
MacのSnow Leopardで画像処理ができるRのパッケージって意外と少ない。rimageもbiOpsもEBImageも使えない。なんかないかと探してたらReadImagesなるものを発見したので使ってみる。 library(ReadImages) library(ggplot2) data <- read.jpeg("14.jpg") #画…
TEDっていういろんな人が思い思いにプレゼンする集まりがある。 その中でもHans Roslingって統計学者がやったプレゼンは結構有名。 で、彼が使ったツールはGap minderという名称で公開されており、その後Googleにも買収されてGoogleドキュメントのSpreadshee…
makeClusterでクラスターを立ち上げる際に、typeとしてSOCK以外にもMPIやPVMを選べる。 今回はMPIを使って速度を比較してみる。 ちなみにMPIについてはこちらを参照。 http://www.cs.hiroshima-u.ac.jp/~yasuaki/dokuwiki/doku.php?id=mpi:mpiMPIで試してみ…
前回のRリコメンに引き続き、kaggleから別のコンテスト。 http://www.kaggle.com/unimelb あと1週間とまた締め切り間近。 今回はグラント(研究費)が当たるかどうか、与えられたデータ(メルボルン大学のグラント応募データ)をもとに予測するというもの。 …
色々試したけどここのサイトのやり方で最終的にうまくいった。 http://d.hatena.ne.jp/Yamagutsu/20091115/ただ、build_all.shのgccに関しての変更は書き直さない方がうまくいった。 なぜかはわからない。なにはともあれ動いて本当によかった。
ランダムフォレストは結構計算に時間がかかる。なので並列化して計算時間短縮を図りたい。 具体的には1000本、決定木をつくる際に2コアのマシンであれば1コア500本ずつに分けて計算するようなイメージ。 下記は2コアマシンのコード例。(Using The foreach P…
id:teramonagiのこの記事とR-statistics Blogのこの記事を読んで、doSNOWとかdoSMPとか色々あるけどどれが速いんだろうという気になったのでコピペで比較してみる。 とりあえずは速度比較だけ。考察はまた今度。(2月9日に追記) > library(foreach) > > N <…
ここのコンテストの一つにRのパッケージとユーザー名(番号)だけ与えられて、インストールするかどうかを予測せよってものがある。訓練データの方には同一ユーザーが他のパッケージがインストールしたかどうかの情報と、各パッケージの情報(依存パッケー…
レーダーチャート描けないかみたいな話があったので、それggplot2でgeom_lineとcoord_polar使えば楽勝じゃね?みたいな風に思って描こうとしたがうまくいかなかった。 なので代替手段としてplotrixパッケージを使った例を示しておく。 library(plotrix) valu…