声優のTwitterアカウントをrvestで収集
rvest使ってみようと思いつつも使う機会が無かったのでこちらのPythonコードをrvestを使って再現してみる。
filter内の条件等は不要データを削除しているだけなので、rvestを使っているのは3行程度。
なおdata_frame関数はdplyr0.3で実装された関数なのでご注意。
devtools::install_github("hadley/rvest") library(dplyr) library(pipeR) library(rvest) voicehtml <- html("http://vatwitter.damebito.com/", encoding="utf-8") data_frame( name = voicehtml %>>% html_nodes("a") %>>% html_text(), account = voicehtml %>>% html_nodes("a") %>>% html_attr("href") ) %>>% filter(grepl("twitter\\.com", account), !grepl("ツイート|管理人のTwitter", name), !duplicated(.), nchar(name)>0) %>>% write.csv("twitter_cv_list.csv", row.names=FALSE)
enjoy!