See Click Predict Fix Competition2位の人のインタビュー

See Click Predict Fix Competitionというコンペで2位になったチームのインタビュー。
http://blog.kaggle.com/2014/01/07/qa-with-bryan-miroslaw-2nd-place-in-the-see-click-predict-fix-competition/
See Click Predict Fix CompetitionはSee Clickというサービスから抽出された311の投稿に対して、提供データセットから見られた数(views)、投票数(votes:いいね!みたいなものか)、コメント数(comments)を予測するというもの。
http://www.kaggle.com/c/see-click-predict-fix
See Clickのサービスは下記から。
http://ja.seeclickfix.com/location_search?at=tokyo&at_id=
で、今回のチームは構成員2名。
かたやMBA、かたや数学科卒ということで機械学習の教育は受けてないんすよ〜でもAndrew Ngの機械学習コースといったオンラインの教育は受けました、とのこと。
ツールはPythonのscikit-learn、pandas、numpyといったところ。
手法は各メンバーで工夫をこらしたモデルを作り、それをブレンドして最終モデルとしている。50対50でもずいぶん結果が良くなったとのことだが、最終的にはlinear modelで結合している。
気になる各メンバーのモデルは一方がデータを5つに分けた後それぞれのデータでGBMを回してその結果をアンサンブルするというモデルであるのに対し、もう一方はテキストデータから作った3-gramTF-IDFの特徴量を用いてL2回帰(Ridge回帰)を回している。
モデルをブレンドするってあたりは定石なので特徴量をいかに作ったかがポイントだと思うんだけど、その辺は自分でデータを見てみないとピンとこないのであとでトレースしてみる。