2015-01-01から1年間の記事一覧

10分単位でgroup_byして集計したい

分を抽出して10分単位でfloorして、1時間単位でfloorしたデータと足し合わせる。 たまにしかやらないので忘れてしまう。 というか以下の記事でも言及しているようにxtsパッケージとか使えばもっとスマートに書けるんじゃないのか。 http://notchained.hatena…

シリーズいろいろなものを測る:stri_duplicated

R

stringiパッケージのstri_duplicated関数は重複している文字列を真偽値で返してくれる関数である。 同じようなことは組み込み関数のduplicated関数でもできる。 そしてヘルプにはstri_duplicatedは遅いと書いてある。 測ってみよう。 library("dplyr") libra…

fread関数を使いたい。だけどdata.tableとしては扱いたくない。

R

data.tableパッケージのfread関数は非常に読み込みが速いので重宝しています。 しかし個人的にdata.tableのその他の記法にはあまり馴染めないのでデータフレームとして扱いたい。 そんなdata.tableパッケージユーザの風上にもおけないような人に朗報です。 d…

RでランダムフォレストやるならRboristかrangerか

R

最近Rにおけるランダムフォレストの高速な実装としてrangerパッケージが発表された。 開発者が既存のランダムフォレスト実装パッケージと比較した論文をarxivに掲載している。 http://arxiv.org/pdf/1508.04409v1.pdf rangerは速い…のか? 既存のランダムフ…

data.tableの.I関連の話

R

irisデータにおいて、Species単位で最大のSepal.Lengthを返す行のデータを取得したい twitter上でdata.tableマイスター達に教えていただいたので復習しておく。@dichika 唐突ですがDT[DT[, .I[Sepal.Length==max(Sepal.Length)], by = Species]$V1]が主流ら…

Rからslack上のお悩み相談室に投稿する

R

Rのお悩み相談室ができたのは記憶に新しいが、まだ人間の数がbotの数を上回っている。 私が望むのはbotが悩みを投稿しbotがそれに回答するそんな未来だ。 ということでその初歩の初歩としてRからbotとしてお悩み相談室に投稿する方法を紹介したい。 httrパッ…

シリアル通信用のパッケージ作りてえ

R

ゆたにさんのこちらの記事を読んでいて、ふとcurlパッケージの実装を読めばかつてあきらめたシリアル通信用のパッケージが作れるのではと思ったのでいろいろとメモしておく。curlパッケージ内のconnectionの実装。 https://github.com/jeroenooms/curl/blob/…

私の体重データが気軽に入手できるようになりました。

R

歩数データの公開からだいぶ時間があきましたが、私の体重データも公開しました。 歩数に比べると欠損が目立ちますが、適宜ご活用ください。 devtools::install_github("dichika/jaguchi") library("jaguchi") jaguchi("ore_weight") enjoy!!!

xgboostでランダムフォレストを実行する

R

xgboostでランダムフォレストを実行できる。 nrounds=1にして、subsampleとcolsampleをお好みの割合に設定した後、num_parallel_treeで木の数を指定すればよい。たとえばcaretからxgboostでclassificationを行う場合以下のような設定になる。 library("caret…

Rで動画から笑顔判定する

こんな動画がある。 http://www.ustream.tv/recorded/61679410 撮影場所も不明、映っている人物の動機も不明であり、どんな経緯でこの動画が作られたのかその詳細はわからない。 どういうつもりなのだろうか。 さて、この動画をみていると人物が時々微妙な表…

Rで写真に映っている人の年齢を取得する

R

マイクロソフトの顔認識+性年齢推定サービスが微妙に流行っている。 http://how-old.net/ まあワイワイやるだけならブラウザからで十分なのだが俺にはちょっとやってみたいことがある。 で、どうせweb APIとかあるんだろ???ちょっと叩かせてくれよゲヘヘ…

Rで心拍数からストレスを可視化する

R

経緯 以前俺のドキドキを可視化するという話をした。 俺のドキドキは大体心理的ストレスからくるのであり、日々の重圧にさらされながら俺の心臓はそれでも負けじと自律神経と手を取り合って俺の恒常性を保つべく頑張り続けている。 ということで心拍数からス…

RでiPhoneアプリのデータを抽出する

R

俺の睡眠を可視化したい。 で、Sleep CycleというiPhoneアプリを使った。 これは睡眠時の体動をiPhoneの加速度センサで測定するというもの。Sleep Cycle alarm clockNorthcube AB価格: 100円 posted with sticky on 2015.4.1 ただ残念な事にこれはあくまで…

Rでrunkeeperから心拍数を取得する

R

経緯 心拍計を買った。24時間俺のドキドキを可視化したい。 「心拍計」で検索した結果、amazonで一番上に出てきたのと3480円と非常に安かったのでこれにした。karadafitHeart(カラダフィットハート) 心拍センサー HRM-10 BluetoothSMART iPhone対応出版社/メ…

RMeCabからneologdを使ってみた(やはりMac)

R

開発者の@overlastさんからインストール時にユーザ辞書を生成する方法を教えていただいた。@dichika こんばんは。とても参考になる記事を書いて頂きありがとうございます!! 記事の内容を踏まえ、ユーザ辞書作成機能を付け、擬似コードを書き換えました。お…

エクセルでJSONデータを読み込む

ストレス解消にエクセルでJSONを読み込みたくなりました。 RでJSONを読むの放射線モニタリングのデータを読んでみます。 やり方は簡単、Power Query→その他のソースから→空のクエリで下記コマンドを入力するだけ。 = Table.FromValue(Json.Document(Web.Cont…

neologdをRMeCabの辞書に指定する(ただしMac)

R

追記 (3月28日追記)neologd側でインストール時にユーザ辞書を生成すれば対応できるので別途記事を書いた。そちらを参照のこと。 http://d.hatena.ne.jp/dichika/20150328/p1 経緯 MeCabの新しい辞書が公開された。 https://github.com/neologd/mecab-ip…

Azureでお手軽ディープラーニング

Microsoft Azure でもDeep learningできるということで試したのでメモ。 MNIST 103MBのデータで以下のConvolution and pooling deep netを回して25分くらいかかった。 http://gallery.azureml.net/Details/7d3f74981b5b42cd9687370671c86696 Azure Machine l…

靴を新調するためにランナーの靴の種類を調べる

R

某勉強会の懇親会で泥酔して気がついた時には靴が無くなっていました。 ジョギングする時に使っていた靴なので、無くなってからというものジョギングの習慣もなくなり恋人にも逃げられ今となっては見る影も無いくらいぶくぶくと太ってしまいました。 俺は俺…

ヘッダにべた書きされたjson形式のデータをRでスクレイピングする

R

ヘッダにべた書きされたjsonデータを取り出したいこと、あると思います。 そんな時はrvestとV8パッケージを使います。まずは下記URLをご覧ください。 地球上の誰かの生きた記録です。 http://runmeter.com/316fcda34d2b67ab/Run-20150307-1730 今回はこれを…

Windowsのプロセス一覧を取得する

R

Windowsで実行中のプロセスを取得したかったのだが、組み込みでそのような関数を見つけられなかったのでsystem関数で取得した。 res <- system("tasklist",show.output.on.console = FALSE,intern=TRUE)

声をランダムに再生する

R

yeahパッケージには声データをいくつか収載していますが、これをランダムに再生させる関数はありませんでした。 ということで声をランダムに再生するyrandom関数を追加しました。 # devtools::install_github("dichika/yeah") library("yeah") yrandom() 使…

chromeで保存したcookie情報をdplyrで読み込みたい

R

Google ChromeはcookieをSQLiteで保存している。 それをdplyrで読み込んだので作業メモ。 本当は読み込んだ後にその内容を使ってうんぬんしたかったのだが暗号化されてた涙。 なお、データベース内のテーブル名がわからなかったのでsrc_tblsを用いたが、src_…

我が家のあたたかみ、そして明るさについてのデータを公開しました

R

家が寒い。そしてなんだか暗い気がする。 ということでArduinoとセンサーを使って室温と照度を測定し始めた。 その結果を15分後ごとにRで読み込んでgithub上にアップしている。 これで歩数データに引き続いて、私の生活サイクルが世の中に大公開された。 jag…

下半身のデータをオープンにした

R

私の下半身、つまり歩数のデータを、2015年1月1日分から公開した。 github上に毎日日本時間で朝7時くらいにアップされるはず。 Rのjaguchiパッケージで以下のようにして取得できる。 内部でやってることは単にgithub上のcsvを読んでいるだけなのでもちろん直…

Rで承認欲求(仮)を満たす

R

自作パッケージを作る→たくさんの人にダウンロードされる→承認欲求が満たされる!!! というのはシリアルパッケージクリエーターならば誰しも夢見るところです。 しかしなかなかうまくいかないのが現実。 ということで、グローバルシリアルパッケージクリエ…

xgboostとgbmのパラメータ対応一覧をつくる

R

GBM(GBDT)は便利だ。randomforestに比べると速いし、性能も高い。 で、たまたまこちらの記事を読んでいたら、どうも自分が知っているgbmパッケージとパラメータ名が違う。 とりあえず移植にあたって調べたけど絶対に忘れるので、xgboostパッケージとgbmパッ…

RでNHKにログインして語学の進捗を取得する

R

英語を再び勉強し始めた。 毎日一定時間聴くようにしているのだがどうしても忘れてしまうことがある。 経験上2日あくとせっかく身に付いた習慣がリセットされるのでその前になんとかしたい。 つまり、進捗を把握して進捗が無くなったら自分に通知をとばす。…

SSH転送しながらRMySQLでAWS上のDBにつなぐ

R

社内データを取得する際に踏み台を介してAWS上のDB(MySQL)につなぐ必要が出てきた。 データ取得関数は社内用のパッケージに実装していたのだがこれを少し変える必要がある。 もっと良いやり方ないだろうか。 とりあえず以下メモ。 踏み台接続用のサーバを立…

Rで読書会の非参加者数の分だけYOをとばす

R

読書会の参加者数が低迷しているらしい。 読書会は笛吹いて太鼓鳴らす人間がどうしても必要だ。 そういう才能は生まれつきのものなので「向いている」人間にやらせるのが良い。 ということで、「向いている」人間に読書会の定員マイナス読書会の現在の参加人…