tmパッケージのメモ

tmパッケージはあまり日本語の情報がない。
RMeCabの石田先生のサイト
http://rmecab.jp/wiki/index.php?R_fromOldHtml3_2#ead6f07a

仕方なくvignetteを読んだので抜粋してメモとして残しておく。

ファイル等の読み込み

ディレクトリで指定DirSource
ベクトルで指定VectorSource
データフレームを指定DataframeSource
読みこんだらコーパス化する
Corpus(DataframeSource(read.csv("hoge.csv")))
このコーパスを対象に以下の作業を行う

コーパス

inspectで中身をみる
tm_filterでフィルタをかけて特定の行を抽出
tm_mapでコーパス内の全テキストに関数を適用(関数の追加引数はコンマで区切って指定)

  • スペース除去 stripWhitespace
  • 小文字に変換 tolower
  • ストップワードを除去 removeWords, stopwords("english")

文書ターム行列

DocumentTermMatrixで文書ターム行列(dtm)を作成
この際、Dictionaryで作った辞書があればlist(dictionary=辞書)と指定することでタームを限定できる
findFreqTermsで閾値を設定してdtmから語を抽出
findAssocsで語と閾値を設定してdtmから共起語を抽出
removeSparseTermsで閾値を設定してdtmのサイズを縮小