声優のTwitterアカウントをrvestで収集

rvest使ってみようと思いつつも使う機会が無かったのでこちらのPythonコードをrvestを使って再現してみる。
filter内の条件等は不要データを削除しているだけなので、rvestを使っているのは3行程度。
なおdata_frame関数はdplyr0.3で実装された関数なのでご注意。

devtools::install_github("hadley/rvest")
library(dplyr)
library(pipeR)
library(rvest)

voicehtml <- html("http://vatwitter.damebito.com/", encoding="utf-8")
data_frame(
  name = voicehtml %>>% html_nodes("a") %>>% html_text(),
  account = voicehtml %>>% html_nodes("a") %>>% html_attr("href")
) %>>% 
  filter(grepl("twitter\\.com", account), 
         !grepl("ツイート|管理人のTwitter", name),
         !duplicated(.),
         nchar(name)>0) %>>% 
  write.csv("twitter_cv_list.csv", row.names=FALSE)

enjoy!