tweedie分布のメモ

tweedie分布を使ったモデリングについては以下のRevolutionsのブログや「Rで学ぶデータサイエンス10 一般化線形モデル」、twitterなどで見かけて気になっている。
http://blog.revolutionanalytics.com/2014/10/a-note-on-tweedie.html

tweedie分布とは

tweedie分布とは何かについて、以下の資料より引用する。数式は以下の資料を確認してほしい。
http://fsf.fra.affrc.go.jp/CPUE/Workshop_abstract.pdf

Tweedie 分布はゼロに mass point を持つ絶対連続な確率分布で、各イベント X が Gamma 分布に従い、イベントの起こる回数 N が Poisson 分布に従う確率過程 (複合 Poisson 過程)として表される。
(中略)
私が過去に CPUE データに基づいて cross validation を行ったところ、ゼロ・デ ータの割合が極端に高い場合(2/3 以上が目安)には Tweedie 回帰モデルや Delta 型 2 段階法が、ある程度高い場合(1/3 以上 2/3 未満が目安)には Catch を応答 とした計数回帰モデル(特に負の二項分布)の性能が高くなった(Shono, 2008)。

喫煙行動のモデリングにも使われていた。
医療費とか扱う際にも使えそう。
以下引用。

分析では、Tweedie 分布モデルによる推定を試みる6 。椿 (2006) が指摘するよ うに、Tweedie 分布が再評価されたことで、Tweedie 分布族の分散関数のべき指 数の数値ごとに、従来の指数型分布族やガンマ分布を分類することができるよ うになった。そのため、離散分布と連続分布が混在する複合ポアソン分布は Tweedie 分布族で分類されるようになった。タバコ支出額の場合、非喫煙者は 0 であり、喫煙者は正の整数値である。喫煙者・非喫煙者のタバコ支出額からな る分布は、複合ポアソン分布の形状と一致することが予想されるため、ここで は Tweedie 分布モデルによる推定を試みる。

http://www.apir.or.jp/ja/others/pdf/03.pdf

Rの対応パッケージ

tweedie分布を扱えるRパッケージは色々あるが、とりあえずh2oパッケージを使おうと思う。
glmとgbmでそれぞれ使えるみたいだし。
http://www.rdocumentation.org/packages/h2o/functions/h2o.gbm