化合物データの前処理をやりたい

化合物データの前処理をやる必要が出てきた。

ということである程度用語とかツールのイメージを把握しておきたい。

知ってる限りでとりあえず列挙。知りたいことを整理する。

 

1.化合物データのフォーマット確認:まずはSDFSMILESを覚えておけば良いか。

2.すぐ使えそうなデータの確認:Pubchemとか?

Rだとこの辺のパッケージを使ってデータを取ってくる。cdkrはCDKのラッパ。rJava依存なので怖い。

https://github.com/ropensci/webchem

https://github.com/CDK-R/cdkr

3.RDKitを使って作れる特徴量の確認:フィンガープリントとか?

https://qiita.com/muuu4649/items/7ef341f57bbea3988517

 

あーこれを読みながら一通り手を動かすのが一番手っ取り早いな。

https://github.com/Mishima-syk/py4chemoinformatics