文字コードを推測する関数はrvest::guess_encoding
文字コード問題つらい。
文字コードの推測法について、r-wakalangで質問したら色々と解決策を教えていただいた。
rvestパッケージを用いた方法をここでメモしておく。
ちなみにguess_encoding関数はstringiパッケージのstri_enc_detect関数のラッパーである。
library("rvest") res <- guess_encoding("\x95\x9f\x93\x87\x8c\xa7") lapply(res$encoding, function(x)iconv("\x95\x9f\x93\x87\x8c\xa7", x, "UTF-8")) [[1]] [1] "閟鎇貧" [[2]] [1] "龕螓\ua78c" [[3]] [1] "福島県" [[4]] [1] "暉搰導" [[5]] [1] NA