2010-01-01から1年間の記事一覧
以下宣伝。 実際TTRは質が高いのでお勧めではある。 しかも別習黒頭ってことは乱序で後が出るわけだな。あれはかっこよい。****************************************************** 伝統芸能「能楽…
師匠の出演している番組は弟子であれば誰でも見に行きたいものです。 けれどもいちいち番組をチラシだのなんだのでチェックするのはだるい! そんな時師匠の出演する番組の傾向がわかると楽ですね。 ということで、まずはとっかかりとして観世流に呼ばれやす…
Access2007でxlsファイルをインポートしようとしたら 定義xmlによるスキーマの確認が失敗しました。XML ドキュメントの行に|にエラーがあります という警告文が出てインポートできなくてまじファック。 どうやらファイル名にドットが入っていると出る警告文…
ggplot2の他に別のライブラリ(partyとか)を読みこむと The following object(s) are masked from 'package:plyr': empty こういう状況になって、グラフを描くとき 以下にエラー function (classes, fdef, mtable) : unable to find an inherited method fo…
街区境界の入手方法(平成17年国勢調査時点の境界データであることに注意) e-statでデータダウンロードを選ぶhttp://www.e-stat.go.jp/SG1/estat/toukeiChiri.do?method=init 平成17年国勢調査(小地域)を選び任意の統計表を選択 街区境界が欲しい地域を選…
scale_x_date(lim = c(as.Date("2005-1-1"), as.Date("2005-12-31")), format="%m") 大きな目盛、小さな目盛を区別して表示したい場合はmajorとかminorで指定。
棒グラフ(頻度は既に求めている場合)→geom_bar(stat="identity") 横に回転させる→coord_flip ラベルをつける→ggplot(data=data, aes(x=x, y=y, label=hoge))とlabelを指定しておいて、geom_text(hjust=, vjust=)。hjust/vjustで位置は調整する。
SEM(構造方程式モデリング)を取り上げるというので行ってきた。今回で第二回らしい。 会場には20人弱の参加者。これまで参加してきた勉強会とは異なり女性が多いのが印象的だった。 開始前に名刺交換タイムがあったけど、自分は人見知りモードを発動したので…
欠損データをとばして折れ線グラフでつなぐ場合 na.omitでデータ欠損を除いておいて、geom_pathでつなぐ。 点を表示させる時はgeom_pointを重ねる。
geom_barで幅を変えたい時はgeom_bar(width=)で指定
ggplot2でラベルを日本語にしてたりするとPDFで出力した時に文字化けする。 解決策としてはfamilyをJapan1に指定しておく。 こんな感じ。 pdf("hoge.pdf", family=Japan1) 当たり前のことすぎるのかググッても情報を見つけられなかったので忘れないうちにメ…
gapminderというものがあって、時系列データをグラフィカルに把握するのに非常に使える。 googleに確か買収されたので、motion chartという形でgoogle docsと連携が可能になっているがいかんせんweb上でしか使えないのでプレゼンの資料とかに貼り込みにくい…
今更だが、discussion blogに以下のような書き込みがあった。 どうやら都市の名前と国名が混在していたのは規模の話というよりもただの間違いだったらしい。 これでまたmortality rateとか変わってくるなあ。 MINI2-LOCATION NAMES (answer) Hi RC Thanks fo…
地域別の発生動向はこんな感じ。 なお、Aleppoの感染ピークは5月13日、死亡ピークは5月23日。 Aleppoの感染者が訴えた症状ランキングTOP20 鼻血がトップ。あとは吐きまくってますね。 症状を表すテキストデータが変な感じであることもみえてくる。これがコン…
集計はこんな感じ。 都市名と国名が混ざっている。都市名が出ているようなところはやばい。 area infection death population infection/population death/population death/infection Aleppo 2,242,648 78,672 2,900,000 77.3% 2.7% 3.5% Karachi 7,154,924…
mini challenge2は感染症の伝染状況をまとめるというもの。 Aleppo、Colombia、Iran、Karachi、Lebanon、Nairobi、Saudi Arabia、Thailand、Venezuela、Yemenといった南米・中東諸国の名前が並ぶ(タイもはいってるな)。 より大きな地図で disease map を表…
なんでもいいから書くようにしないとどんどん書くハードルが上がるな。ちなみに昨日はTsukuba.Rに行ってきた。 会場の若い雰囲気に気後れする自分がいて、我ながら驚きだった。 発表内容はどれも変態的なものばかりで実に楽しいものだった(詳しくはこちらこ…
一か月放置していたわけで。 はてな記法も忘れてしまった。 最近やっとRを毎日触るようになった。 しかしこの関数ではそのままデータ放りこめたのにこっちでは拒絶みたいなことが続いてぐったりしている。 少しずつこっちにもコードを載せられればと思うが今…
2.3ガウス分布 ガウス分布(正規分布)の諸性質について証明が並ぶ。 条件付きガウス分布 周辺ガウス分布 ガウス変数に対するベイズの定理 ガウス文王の最尤推定 逐次推定(Robbins-Monroアルゴリズム) ガウス分布に対するベイズ推論→平均・分散等が既知/未…
昨日は一日休んでいた。 月曜なのでまた再開
2.3ガウス分布 図2.8が描けず苦しむ。 3次元でごまかす。 あと、ディリクレ分布はあきらめた。
3章パラメトリック解析 3.1傾向スコアとは 共変数ベクトルのもと、介入群へ割り当てられる確率が傾向スコア。 例えば介入(たとえば保健指導)を行って、その人の属性が性別、年齢とあった時、その属性下で介入群に割り当てられる確率がAさんの傾向スコアに…
今日の予定は以下の2つ。 ディリクレ分布を描く 2.3ガウス分布を読む 線形代数と微積の計算問題も筋トレみたいな感じでやっていこうと思う。
面倒になってきたので傾向スコアのところにとぶことにする。 最初から順にやっていくと忘れようとしても思い出せないようなことになりそうで。 ということで今日は第3章。
2.2多値変数 ベルヌーイ分布を2種類以上の出力に拡張すると、多項分布となる。 多項分布の共役事前分布はディリクレ分布。 あとでRで分布は描いて貼りつける。ちなみに図1.29を描いてみた。 図2.2も描いた。 ディリクレ分布はMCMCpackに入ってるのをみつけた…
2.4欠測モデルからみた調査観察データと因果効果の定義 なんか抽象的過ぎてイメージが掴めないのでちょっと飛ばして具体論の節に入ってみる。 欠測と反実仮想モデル ある介入の効果を見たい時、介入群と対照群を用意して結果を比較するというのが一般的な方…
2.1二値変数 ベルヌーイ分布 尤度関数の最大化(logをとる) 最尤推定量(サンプル平均)を求める 事前分布の導入によるベイズ的扱い データ集合が小さい時、過学習する場合あり(裏が3回出たから未来永劫裏しかでない) 事後分布の形が変わらないように、尤…
「調査観察データの統計科学」は長いのでちょうかんにする。 2.2欠測のメカニズム 欠測メカニズムは3種類。 完全にランダムな欠測 ランダムな欠測 ランダムでない欠測 また、A.完全データのベクトル B.欠測するかしないかのインディケータ変数ベクトル C.1の…
「パターン認識と機械学習」「調査観察データの統計科学」の2冊を読んでいくことにする。パターン認識と機械学習 上 - ベイズ理論による統計的予測作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇出版社/メーカー: シュプリンガー・ジャ…