Google Cloud Vision APIを使ってAKBのデータを把握する
こんな話がある。
兼子毅(2015)『ゼロから始めるRー四則演算から多変量解析まで』日科技連は、サンプルデータの公開をしていないのかな?? AKB48の年齢と身長のデータとか、手で全部打つの辛い。。。一発で変換できなさそうな名前も多いし。。。 pic.twitter.com/5NApBIjd5p
— Yuichiro Kobayashi (@langstat) 2016年10月17日
こういうのを見たらGoogle Cloud VisionでとりあえずOCRである。
CROWD_VISION_KEY <- "YOUR KEY" library("httr") f <- "https://pbs.twimg.com/media/Cu9cVUlUkAAiHPL.jpg" tmp <- tempfile() download.file(f, tmp) img <- readBin(tmp, "raw", file.info(tmp)[1, "size"]) u <- paste0("https://vision.googleapis.com/v1/images:annotate?key=", CROWD_VISION_KEY) body <- list(requests = list(image=list(content=img), features=list(type="TEXT_DETECTION") ) ) res <- POST(url=u, encode="json", body=body, content_type_json() ) res <- content(res) cat(res$responses[[1]]$textAnnotations[[1]]$description[1])
結果はこうなる。
あとはなんやかんや加工すれば使えそう。
> cat(res$responses[[1]]$textAnnotations[[1]]$description[1]) 「Excel」を使ってデータを入力してみよう 6.2 「Excel」 表6.1 AKB48チームA チームAメンバーリスト(2015年7月現在) 氏45 lap-身長 小嶋陽菜 27 | 164 高橋みなみ | 24 | 148.5 大家志津香 1231164 宮崎美穂 22 | 159 横山由依 22 | 158 中村麻里子 | 21 | 161 島崎遥香 21 | 157 小笠原茉由 | 21 | 151 前田亜美 20 | 165 中西智代梨 | 20 | 160 小嶋菜月 20 | 154 佐々木優佳里| 19 | 158 入山杏奈 19 | 157 田北香世子 | 18 | 155 宮脇咲良 | 17 | 160 岩田華怜 17 | 159 白問美瑠 17 | 155 平田梨奈 17 | 149 谷口めぐ | 161150 16 | 159 山田菜々美 | 16 | 154 大和田南那 1151154 樋渡結依 15 | 151 西山怜那 14 | 151 用するデータは,みなこのような「表」の形をしています 統計 で利 EArte !「身長1 と かれ 書 ーT 197ーー160-194-198 1T 160 150 199 一長一 455555 ト4 6 6 5 551111111111 64655655 !齢! | 9 | | 8 | 7 | | 6 | 5 | ! 27-24 23 22 22-21-21-21-20 20 20-19 19 8777-76-655u 22 2) 2 2 2 2 2 1 1 1 1 | 1 | 111-111 4: 2-22-2-2 -- 1 1 1 1 1 1 1 | 1 1 |
いちいちhttr使うのもちょっとという人は、Rooglevisonというパッケージもあるので、使ってみるとよい。