Rでモダーンにテキストマイニングする本の話

Text Mining with R - A Tidy Approach という本が最近出ました。

Text Mining with R: A Tidy Approach

Text Mining with R: A Tidy Approach

著者のうち一人はStack Overflowに勤めるJulia Silge。
UseR! 2017でも彼女の発表は盛況だったようです。

そして実は本書、web上で公開されており、内容を確認できます。
http://tidytextmining.com/

目次は以下の通り。

1 The tidy text format
2 Sentiment analysis with tidy data
3 Analyzing word and document frequency: tf-idf
4 Relationships between words: n-grams and correlations
5 Converting to and from non-tidy formats
6 Topic modeling
7 Case study: comparing Twitter archives
8 Case study: mining NASA metadata
9 Case study: analyzing usenet text
10 References

内容をみるとタイトルにもあるようにtidyverseな形でテキストマイニングを学べる一冊となっています。
例えば7章「Case study: comparing Twitter archives」でTwitterのつぶやきデータを整形するコードは以下のような形で、stringrパッケージや%>%を使ってtidyフォーマットに落とし込んでいます。

library(tidytext)
library(stringr)

replace_reg <- "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&amp;|&lt;|&gt;|RT|https"
unnest_reg <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
tidy_tweets <- tweets %>% 
  filter(!str_detect(text, "^RT")) %>%
  mutate(text = str_replace_all(text, replace_reg, "")) %>%
  unnest_tokens(word, text, token = "regex", pattern = unnest_reg) %>%
  filter(!word %in% stop_words$word,
         str_detect(word, "[a-z]"))

http://tidytextmining.com/twitter.html#word-frequencies-1

とはいえ英語です。
和書で読みたいなーでもなー昨日原書が出たばかりだし翻訳はまだだろうなーとか思ってたら、ありました。
翻訳ではありませんが、和書でtidyverseなテキストマイニングの良書が。
それが「Rによるテキストマイニング第2版」です。
著者は徳島大学大学院社会産業理工学研究部教授の石田基広教授。
Rの著書多数、そしてRMeCabパッケージの開発者、メンテナとしても有名な方です。
目次は以下の通り。

第1章 テキストマイニングとは何か
第2章 テキストマイニングの準備
第3章 R/RStudio速習
第4章 文字処理と正規表現
第5章 RMeCabによるテキスト解析
第6章 口コミのテキストマイニング―ウェブスクレイピング
第7章 アンケート自由記述文の分析―対応分析
第8章 青空文庫データの解析―ワードクラウドとネットワークグラフ
第9章 テキストの分類―クラスター分析,トピックモデル
第10章 書き手の判別―漱石と鴎外の文体比較
第11章 Twitterタイムラインの分析―APIの利用

基本的な文字処理から、ワードクラウドやネットワークグラフを用いた可視化、トピックモデルによる分類まで必要技術が一通り押さえられており、10-11章ではリアルワールドデータの分析も触れられています。
書影はこちら。

Rによるテキストマイニング入門

Rによるテキストマイニング入門

私は初版も持っているのですが明らかに第2版の表紙の方がクールですね。

個人的には2014年に「声優の食事内容の検討-外食声優を求めて-」という文章を日本声優統計学会に投稿したのが最後で、最近はテキストマイニングから離れていたため、再学習する良いタイミングをいただきました。本を贈っていただいた石田先生にあらためて感謝申し上げたいと思います。

Enjoy!!!