グラント当落予測コンテスト
前回のRリコメンに引き続き、kaggleから別のコンテスト。
http://www.kaggle.com/unimelb
あと1週間とまた締め切り間近。
今回はグラント(研究費)が当たるかどうか、与えられたデータ(メルボルン大学のグラント応募データ)をもとに予測するというもの。
与えられるデータは以下のような感じ(3件のみ示している)。
1 2 3 Grant.Application.ID "1" "2" "3" Grant.Status "1" "1" "1" Sponsor.Code "" "2B" "29A" Grant.Category.Code "" "10A" "10B" Contract.Value.Band...see.note.A "A " "B " "A " Start.date "8/11/05" "11/11/05" "14/11/05" RFCD.Code.1 "280199" "280103" "321004" RFCD.Percentage.1 "100" " 30" " 60" RFCD.Code.2 " 0" "280106" "321216" RFCD.Percentage.2 " 0" "30" "40" RFCD.Code.3 " 0" "280203" " 0" RFCD.Percentage.3 " 0" "40" " 0" RFCD.Code.4 "0" "0" "0" RFCD.Percentage.4 "0" "0" "0" RFCD.Code.5 "0" "0" "0" RFCD.Percentage.5 "0" "0" "0" SEO.Code.1 "700299" "700103" "730105" SEO.Percentage.1 "100" " 50" " 60" SEO.Code.2 " 0" "700102" "730207" SEO.Percentage.2 " 0" "50" "40" SEO.Code.3 "0" "0" "0" SEO.Percentage.3 "0" "0" "0" SEO.Code.4 "0" "0" "0" SEO.Percentage.4 "0" "0" "0" SEO.Code.5 "0" "0" "0" SEO.Percentage.5 "0" "0" "0" Person.ID.1 "40572" " 9067" " 5967" Role.1 "CHIEF_INVESTIGATOR" "CHIEF_INVESTIGATOR" "CHIEF_INVESTIGATOR" Year.of.Birth.1 "1965" "1960" "1955" Country.of.Birth.1 "Asia Pacific" "Australia" "Australia" Home.Language.1 "Other" "" "" Dept.No..1 "3073" "2538" "2923" Faculty.No..1 "31" "25" "25" With.PHD.1 "" "Yes " "Yes " No..of.Years.in.Uni.at.Time.of.Grant.1 "Less than 0" "more than 15" ">5 to 10" Number.of.Successful.Grant.1 "0" "0" "0" Number.of.Unsuccessful.Grant.1 "0" "0" "0" A..1 "4" "6" "0" A.1 " 2" "12" " 3" B.1 "0" "2" "5" C.1 "0" "2" "2" Person.ID.2 NA NA "27307" Role.2 "" "" "CHIEF_INVESTIGATOR" Year.of.Birth.2 NA NA "1950" Country.of.Birth.2 "" "" "Australia" Home.Language.2 "" "" "" Dept.No..2 NA NA "2923" Faculty.No..2 NA NA "25" With.PHD.2 "" "" "" No..of.Years.in.Uni.at.Time.of.Grant.2 "" "" "Less than 0" Number.of.Successful.Grant.2 NA NA " 0" Number.of.Unsuccessful.Grant.2 NA NA " 0" A..2 NA NA " 0" A.2 NA NA " 0" B.2 NA NA " 0" C.2 NA NA " 0"
与えられたデータの属性は以下のように大きく2つに分かれる。
- グラントの属性
- 応募した研究の属性
グラントの属性は、グラントIDとスポンサーの種類、グラントの種類と金額の4つ。
応募した研究の属性は、研究の分野(最大5つ)とのその配分、socio-economic-objective(SEO)分類(最大5つ)とその配分、あとは研究班の構成員についての情報(最大15人分の情報、各情報は構成員について研究班の中での役割、出生年、出身国、博士号の有無等)。
このような属性のデータが2005年から2008年の4年分8707件あり、2009年から2010年の2年分2176件のデータの当落を予測する。
さて、グラントに関して日本の場合だと誰が応募するかでほぼ決まっているわけだが外国はどうなんだろうか。公正な審査を行うのであれば研究内容を把握した上で、グラントの募集内容に沿っているか、あとは研究の有用性を判断してグラントが下りるんだろうけど。研究の有用性については今回のデータからはわからないので研究班の構成員の情報からみていく感じかな。
しかし予測をするだけなら欠損データをうまく処理してランダムフォレストに放り込んでしまうというのも手かもしれない。