グラント当落予測コンテスト

前回のRリコメンに引き続き、kaggleから別のコンテスト。
http://www.kaggle.com/unimelb
あと1週間とまた締め切り間近。
今回はグラント(研究費)が当たるかどうか、与えられたデータ(メルボルン大学のグラント応募データ)をもとに予測するというもの。
与えられるデータは以下のような感じ(3件のみ示している)。

                                        1                    2                    3                       
Grant.Application.ID                    "1"                  "2"                  "3"                     
Grant.Status                            "1"                  "1"                  "1"                     
Sponsor.Code                            ""                   "2B"                 "29A"                   
Grant.Category.Code                     ""                   "10A"                "10B"                   
Contract.Value.Band...see.note.A        "A "                 "B "                 "A "                    
Start.date                              "8/11/05"            "11/11/05"           "14/11/05"              
RFCD.Code.1                             "280199"             "280103"             "321004"                
RFCD.Percentage.1                       "100"                " 30"                " 60"                   
RFCD.Code.2                             "     0"             "280106"             "321216"                
RFCD.Percentage.2                       " 0"                 "30"                 "40"                    
RFCD.Code.3                             "     0"             "280203"             "     0"                
RFCD.Percentage.3                       " 0"                 "40"                 " 0"                    
RFCD.Code.4                             "0"                  "0"                  "0"                     
RFCD.Percentage.4                       "0"                  "0"                  "0"                     
RFCD.Code.5                             "0"                  "0"                  "0"                     
RFCD.Percentage.5                       "0"                  "0"                  "0"                     
SEO.Code.1                              "700299"             "700103"             "730105"                
SEO.Percentage.1                        "100"                " 50"                " 60"                   
SEO.Code.2                              "     0"             "700102"             "730207"                
SEO.Percentage.2                        " 0"                 "50"                 "40"                    
SEO.Code.3                              "0"                  "0"                  "0"                     
SEO.Percentage.3                        "0"                  "0"                  "0"                     
SEO.Code.4                              "0"                  "0"                  "0"                     
SEO.Percentage.4                        "0"                  "0"                  "0"                     
SEO.Code.5                              "0"                  "0"                  "0"                     
SEO.Percentage.5                        "0"                  "0"                  "0"                     
Person.ID.1                             "40572"              " 9067"              " 5967"                 
Role.1                                  "CHIEF_INVESTIGATOR" "CHIEF_INVESTIGATOR" "CHIEF_INVESTIGATOR"    
Year.of.Birth.1                         "1965"               "1960"               "1955"                  
Country.of.Birth.1                      "Asia Pacific"       "Australia"          "Australia"             
Home.Language.1                         "Other"              ""                   ""                      
Dept.No..1                              "3073"               "2538"               "2923"                  
Faculty.No..1                           "31"                 "25"                 "25"                    
With.PHD.1                              ""                   "Yes "               "Yes "                  
No..of.Years.in.Uni.at.Time.of.Grant.1  "Less than 0"        "more than 15"       ">5 to 10"              
Number.of.Successful.Grant.1            "0"                  "0"                  "0"                     
Number.of.Unsuccessful.Grant.1          "0"                  "0"                  "0"                     
A..1                                    "4"                  "6"                  "0"                     
A.1                                     " 2"                 "12"                 " 3"                    
B.1                                     "0"                  "2"                  "5"                     
C.1                                     "0"                  "2"                  "2"                     
Person.ID.2                             NA                   NA                   "27307"                 
Role.2                                  ""                   ""                   "CHIEF_INVESTIGATOR"    
Year.of.Birth.2                         NA                   NA                   "1950"                  
Country.of.Birth.2                      ""                   ""                   "Australia"             
Home.Language.2                         ""                   ""                   ""                      
Dept.No..2                              NA                   NA                   "2923"                  
Faculty.No..2                           NA                   NA                   "25"                    
With.PHD.2                              ""                   ""                   ""                      
No..of.Years.in.Uni.at.Time.of.Grant.2  ""                   ""                   "Less than 0"           
Number.of.Successful.Grant.2            NA                   NA                   " 0"                    
Number.of.Unsuccessful.Grant.2          NA                   NA                   " 0"                    
A..2                                    NA                   NA                   " 0"                    
A.2                                     NA                   NA                   " 0"                    
B.2                                     NA                   NA                   " 0"                    
C.2                                     NA                   NA                   " 0"                    

与えられたデータの属性は以下のように大きく2つに分かれる。

  1. グラントの属性
  2. 応募した研究の属性

グラントの属性は、グラントIDとスポンサーの種類、グラントの種類と金額の4つ。
応募した研究の属性は、研究の分野(最大5つ)とのその配分、socio-economic-objective(SEO)分類(最大5つ)とその配分、あとは研究班の構成員についての情報(最大15人分の情報、各情報は構成員について研究班の中での役割、出生年、出身国、博士号の有無等)。

このような属性のデータが2005年から2008年の4年分8707件あり、2009年から2010年の2年分2176件のデータの当落を予測する。

さて、グラントに関して日本の場合だと誰が応募するかでほぼ決まっているわけだが外国はどうなんだろうか。公正な審査を行うのであれば研究内容を把握した上で、グラントの募集内容に沿っているか、あとは研究の有用性を判断してグラントが下りるんだろうけど。研究の有用性については今回のデータからはわからないので研究班の構成員の情報からみていく感じかな。

しかし予測をするだけなら欠損データをうまく処理してランダムフォレストに放り込んでしまうというのも手かもしれない。