化合物データの前処理をやりたい
化合物データの前処理をやる必要が出てきた。
ということである程度用語とかツールのイメージを把握しておきたい。
知ってる限りでとりあえず列挙。知りたいことを整理する。
1.化合物データのフォーマット確認:まずはSDFとSMILESを覚えておけば良いか。
2.すぐ使えそうなデータの確認:Pubchemとか?
Rだとこの辺のパッケージを使ってデータを取ってくる。cdkrはCDKのラッパ。rJava依存なので怖い。
https://github.com/ropensci/webchem
3.RDKitを使って作れる特徴量の確認:フィンガープリントとか?
https://qiita.com/muuu4649/items/7ef341f57bbea3988517
あーこれを読みながら一通り手を動かすのが一番手っ取り早いな。