書籍
書籍検索
近日発売 送料無料

設計技術シリーズ

まるっと解説
Python×ケモインフォマティクス
データ収集から予測・生成まで

著: 江崎 剛史 (滋賀大学)
池田 和由 ・清水 祐吾 (理化学研究所)
定価: 4,950円(本体4,500円+税)
判型: A5
ページ数: 328 ページ
ISBN: 978-4-910558-49-3
発売日: 2025/12/12
管理No: 147

発売前の予約注文を承っております


【目次】

第1章 ケモインフォマティクスを始めるために

  1. 1.1 化学分野におけるインフォマティクス
    1. 1.1.1 従来の化学分野における研究と課題
    2. 1.1.2 ケモインフォマティクスの実際
    3. 1.1.3 ケモインフォマティクスを活用した物質開発の支援に向けて
  2. 1.2 Google Colabの使い方
    1. 1.2.1 環境構築
    2. 1.2.2 簡単な計算
    3. 1.2.3 変数の型
    4. 1.2.4 データ構造
    5. 1.2.5 プログラムの基本
    6. 1.2.6 データの可視化
    7. 1.2.7 RDKit
  3. 1.3 この章で使用したPythonコード

第2章 化合物の表記方法

  1. 2.1 化合物構造の表現方法
    1. 2.1.1 SMILES表記
    2. 2.1.2 InChI表記
    3. 2.1.3 MOL表記(SDF 表記)
    4. 2.1.4 複数化合物の表記方法
    5. 2.1.5 構造データの保存と読み込み
    6. 2.1.6 化合物の標記に関した応用研究
  2. 2.2 化合物の記述子情報
    1. 2.2.1 フィンガープリント
  3. 2.3 物理化学的な特性
  4. 2.4 この章で使用したPythonコード

第3章 化合物データベースを使う

  1. 3.1 代表的な化合物データベース
  2. 3.2 データベースへのアクセス
    1. 3.2.1 ウェブサイト経由でアクセスする方法
    2. 3.2.2 API を利用する方法
    3. 3.2.3 ローカルPC で利用する方法
  3. 3.3 応用編
    1. 3.3.1 PubChem APIを用いた化合物の類似性検索
    2. 3. 3. 2 化合物データベースを使う上で注意する点
  4. 3.4 この章で使用したPython コード

第4章 化合物の類似性探索

  1. 4.1 化合物の類似性の計算
    1. 4.1.1 類似度の計算
    2. 4.1.2 距離の計算
    3. 4.1.3 類似度と距離の比較
    4. 4.1.4 フィンガープリントの違いによる類似度の違い
  2. 4.2 ケミカルスペース
    1. 4.2.1 次元圧縮法
    2. 4.2.2 主成分分析 (PCA)
    3. 4.2.3 t-SNE
    4. 4.2.4 UMAP
  3. 4.3 クラスタリング
    1. 4.3.1 階層的クラスタリング
    2. 4.3.2 非階層的クラスタリング
  4. 4.4 この章で使用したPythonコード

第5章 記述子を使った特性予測

  1. 5.1 特性を予測すること
  2. 5.2 データの前処理
  3. 5.3 回帰モデル
    1. 5.3.1 回帰モデルの評価方法
    2. 5.3.2 重回帰モデル
    3. 5.3.3 正則化回帰モデル
    4. 5.3.4 ランダムフォレスト回帰モデル
  4. 5.4 判別モデル
    1. 5.4.1 判別モデルの評価方法
    2. 5.4.2 ロジスティック回帰モデル
    3. 5.4.3 ニューラルネットワークモデル
  5. 5.5 結果の解釈
    1. 5.5.1 線形モデルの係数
    2. 5.5.2 決定木の重要度
    3. 5.5.3 SHAP値
  6. 5.6 この章で使用したPythonコード

第6章 化合物の構造生成

  1. 6.1 逆解析
  2. 6.2 SMILESの生成
    1. 6.2.1 LSTMを使った構造生成
    2. 6.2.2 オートエンコーダーを使った構造生成
    3. 6.2.3 その他の構造生成
    4. 6.2.4 SELFIES:化合物の柔軟な表記方法
  3. 6.3 この章で使用したPythonコード

第7章 最適な実験条件の探索

  1. 7.1 逆解析による条件探索
  2. 7.2 応答曲面法
  3. 7.3 ガウス過程回帰を用いたベイズ最適化
    1. 7.3.1 ガウス過程回帰
    2. 7.3.2 ベイズ最適化
    3. 7.3.3 ハイパーパラメータの最適化
  4. 7.4 この章で使用したPythonコード

第8章 構造 (グラフ) を使った特性予測

  1. 8.1 グラフ畳み込みネットワーク (Graph convolutional network)
  2. 8.2 特性を予測する
  3. 8.3 ハイパーパラメータの調整
  4. 8.4 化合物の可視化、XAI
  5. 8.5 この章で使用したコマンド、設定ファイル
    1. 8.5.1 使用したkMoL のインストールコマンド
    2. 8.5.2 使用した主なkMoL コマンドと設定ファイル

第9章 今後の学習に向けて

  1. 9.1 データサイエンス一般
    1. 9.1.1 データ活用
  2. 9.2 統計学関連
    1. 9.2.1 統計一般
    2. 9.2.2 多変量解析
    3. 9.2.3 統計的モデル
  3. 9.3 プログラミング関連
    1. 9.3.1 Python
    2. 9.3.2 PyTorch
    3. 9.3.3 R を使ったケモインフォマティクス
  4. 9.4 機械学習・深層学習
    1. 9.4.1 機械学習
    2. 9.4.2 ベイズ最適化
    3. 9.4.3 深層学習
  5. 9.5 ケモインフォマティクス
    1. 9.5.1 ケモインフォマティクス一般
    2. 9.5.2 特性の予測
    3. 9.5.3 構造生成
    4. 9.5.4 実験計画法
    5. 9.5.5 学会関連

【参考文献】

  • 厚生労働省、医薬品産業ビジョン2021 資料編:https://www.mhlw.go.jp/content/10800000/000831974.pdf
  • Brown F. K., (1998) Chapter35 -Chemoinformatics: What is it and how does it impact drug discovery. Annual Reports in Medical Chemistry, 33, 375-384
  • Palmer D. S., O'Boyle N. M., Glen R. C., et al. (2006) Random forest models to predict aqueous solubility. J. Chem. Inform. Model. 47,150-158(2006)
  • PyTorch公式サイト:http://pytorch.org/
  • PyTorchチュートリアル:http://pytorch.org/tutorials/
  • PyTorchドキュメント:http://pytorch.org/docs/
  • 杜世橋、現場で使えるPyTorch 開発入門、翔泳社
  • RDKit: Open-Source Cheminformatics Software:https://www.rdkit.org/
  • RDKitドキュメンテーション日本語版(非公式):https://rdkit.org/docs_jp/index.html
  • Python でRDKit を始めよう:https://www.rdkit.org/docs_jp/Getting_Started_with_RDKit_in_Python_jp.html
  • Bongini P., Bianchini M., Scarselli F. (2021) Molecular graph generation with graph neural networks, Neurocomputing, 450, 242-252
  • Gómez-Bombar R., Wei J. N., Duvenaud D. et al (2018) Automatic chemical design using a data-driven continuous representation of molecules, ACS Cent. Sci. 4, 2, 268-276
  • Clevert D. A., Le T., Winter R. et al (2021) Img2Mol – accurate SMILES recognition from molecular graphical depictions, Chem. Sci. 12, 14174-14181
  • ChemIntelligence:https://chemintelligence.com/blog/machine-learning-descriptors-molecules
  • Huang G., Li J., Zhao C. (2018) Computational prediction and analysis of associations between small molecules and binding-associated S-nitrosylation sites, Molecules, 23, 954
  • RDKit:https://www.rdkit.org/docs/GettingStartedInPython.html#list-ofavailable-fingerprints
  • Muegge I., Mukherjee P. (2016) An overview of molecular fingerprint similarity search in virtual screening, Expert Opin. Drug Discov. 11, 137-148
  • Carhart R. E., Smith D. H., Venkataraghavan R. (1985) Atom pairs as molecular features in structure activity studies: definition and applications, J. Chem. Inf. Comput. Sci., 25, 64–73
  • Nilakantan R., Bauman N., Dixon J. S. et al (1987) Topological torsion: a new molecular descriptor for SAR applications. Comparison with other descriptors, J. Chem. Inf. Comput. Sci., 27, 82–85
  • MACCSkeysの構造情報一覧:https://github.com/rdkit/rdkit-orig/blob/master/rdkit/Chem/MACCSkeys.py
  • Asad's Blog:https://chembioinfo.wordpress.com/2011/10/30/revisiting-molecular-hashed-fingerprints/
  • Capecchi A., Probst D., Reymond J.-L. (2020) One molecular fingerprint to rule them all: drugs, biomolecules, and the metabolome, J. Cheminform., 12, 43
  • Mendez D., Gaulton A., Bento A. P. et al (2019) ChEMBL: towards direct deposition of bioassay data. Nucleic Acids Research, 47(D1), D930-D940
  • Kim S., Chen J., Cheng T., et al (2021) PubChem in 2021: new data content and improved web interfaces. Nucleic Acids Research, 49(D1), D1388-D1395
  • Wishart D. S., Feunang Y. D., Guo A. C., et al (2018) DrugBank 5.0: a major update to the DrugBank database for 2018. Nucleic Acids Research, 46(D1), D1074-D1082
  • Kanehisa M., Furumichi M., Tanabe M., et al (2017). KEGG: new perspectives on genomes, pathways, diseases and drugs. Nucleic Acids Research, 45(D1), D353-D361
  • Papadatos G., Brown N., Patel V., et al (2016). SureChEMBL: a large- scale, chemically annotated patent document database. Nucleic Acids Research, 44(D1), D1220-D1228
  • Irwin J. J., Tang K. G., Young J., et al (2020) ZINC20-A Free Ultralarge-Scale Chemical Database for Ligand Discovery. J. Chem. Inf. Model., 60, 6065-6073
  • ChEMBL API:https://www.ebi.ac.uk/chembl/api/data/docs.
  • PubChem API:https://pubchem.ncbi.nlm.nih.gov/docs/pug-rest#section=URL-based-API.
  • Bento A. P., Hersey A., Félix E., et al (2020). An open source chemical structure curation pipeline using RDKit. J. Cheminform. 12, 51
  • RDKit:https://rdkit.org/
  • LibreTexts:https://chem.libretexts.org/Courses/Intercollegiate_Courses/Cheminformatics
  • Martin Y. C., Kofron J. L., Traphagen L. M. (2020) Do structurally similar molecules have similar biological activity? J. Med. Chem. 45, 19, 4350–4358
  • Aggarwal C. C., Hinneburg A., Kein D. (2001) On the surprising behavior of distance metrics in high dimensional space, International Conference on Database Theory – ICDT 2001, 420-434
  • 永田靖、棟近雅彦、多変量解析法入門(ライブラリ新数学大系 E20)、サイエンス社
  • 小西貞則、多変量解析入門――線形から非線形へ、岩波書店
  • 松井秀俊、多変量解析(データサイエンス大系)、学術図書出版社
  • Towards data science, Understanding t-SNE by Implementation:https://towardsdatascience.com/understanding-t-sne-by-implementing-2baf3a987ab3/
    [8] Lundberg S. M., Lee S.-I. (2017) A unified approach to interpreting model predictions. NIPS'17: Proceedings of the 31st International Conference on Neural Information Processing Systems, 4768-4777
  • 比戸将平、馬場雪乃、里洋平、データサイエンティスト養成読本 機械学習入門編、技術評論社
  • 高橋将宜、渡辺美智子、欠測データ処理:R による単一代入法と多重代入法(統計学 OnePoint 5)、共立出版
  • Spiess A. N., Neumeyer N. (2010) An evaluation of R2 as an inadequate measure for nonlinear models in pharmacological and biochemical research: a monte carlo approach. BMC Pharmacol. 10, 6
  • 金子弘昌、化学のためのPython によるデータ解析・機械学習入門、オーム社
  • 川野秀一、松井秀俊、廣瀬慧、スパース推定法による統計モデリング(統計学 One Point 6)、共立出版
  • https://scikit-learn.org/stable/
  • 下川敏雄、杉本知之、後藤昌司、樹木構造接近法(Rで学ぶデータサイエンス)、共立出版
  • 森下光之助、機械学習を解釈する技術~予測力と説明力を両立する実践テクニック、技術評論社
  • 金子弘昌、化学・化学工学のための実践データサイエンス ―Python によるデータ解析・機械学習―、朝倉書店
  • 梶野洸、機械学習による分子最適化: 数理と実装、オーム社
  • 後藤俊、荒川正幹、船津公人 (2009) ポリマー設計のための物性推算法と逆解析手法の開発.Journal of Computer Aided Chemistry 10: 37
  • Gupta A., Müller A. T., Huisman B. J. H. et al (2018) Generative recurrent networks for de novo drug design. Mol. Inform. 37(1-2):1700111
  • Ishida S., Aasawat T., Sumita M. et al (2023) ChemTSv2: functional molecular design using de novo molecule generator. WIREs Comput. Mol. Sci. 13(6), e1680
  • Merk D., Friedrich L., Grisoni F. et al, (2018) De novo design of bioactive small molecules by artificial intelligence, Mol. Inform. 37:1700153
  • Brown N., Fiscato M., Segler M. H. S. et al, (2019) GuacaMol: benchmarking models for de novo molecular design, J. Chem Inf. Model. 59:1096-1108
  • Krenn M., Häse F., Nigam A. K. et al, (2020) Self-referencing embedded strings (SELFIES): a 100% robust molecular string representation. Mach. Learn.: Sci. Technol. 1, 045024
  • Kochanski G., Golovin D., Karro J. et al (2017) Baysean optimization for a better dessert. Proceedings of the 2017 NIPS Workshop on Bayesian Optimization
  • 永田靖、入門実験計画法、日科技連出版社
  • 金子弘昌、Pythonで学ぶ実験計画法入門、講談社
  • Kondo M., Sugizaki A., Khalid M. I. et al (2021) Energy-, time-, and labor-saving synthesis of α-ketiminophosphonates: machine-learning-assisted simultaneous multiparameter screening for electrochemical oxidation. Green Chem. 23(16): 5823
  • Saito Y., Oikawa M., Nakazawa H. et al (2018) Machine-learning-guided mutagenesis for directed evolution of fluorescent proteins. ACS Synth. Biol. 7:2014-2022
  • 今村秀明、松井孝太、ベイズ最適化 ―適応的実験計画の基礎と実践―、近代科学社
  • Kipf T. N., Welling M. (2017) Semi-supervised classification with graph convolutional networks. In 5th Int Conf Learn Represent
  • 佐藤竜馬、グラフニューラルネットワーク(機械学習プロフェッショナルシリーズ)、講談社
  • ヤオ マー(原著)、ジリアン タン(原著)、宮原太陽(翻訳)、中尾光孝(翻訳)、グラフ深層学習、プレアデス出版
  • 村田剛志、グラフニューラルネットワーク: PyTorch による実装、オーム社
  • Ramsundar B., Eastman P., Walters P. et al (2019) Deep learning for the life sciences. O'Reilly Media
  • Cozac R., Hasic H., Choong J. J. et al (2025) kMoL: an open-source machine and federated learning library for drug discovery. J. Cheminform. 17:22.
  • Kojima R., Ishida S., Ohta M. et al (2020) kGCN: a graph-based deep learning framework for chemical structures. J. Cheminform. 12:32
  • Boby M. L., Fearon D., Ferla M. et al (2023) Open science discovery of potent noncovalent SARS-CoV-2 main protease inhibitors. Science 382:eabo7201
  • Bento A. P., Hersey A., Félix E. et al (2020) An open source chemical structure curation pipeline using RDKit. J. Cheminform. 12:51.
  • kMoL, Federated Learning, Report v2.1.:https://github.com/elix-tech/kmol/blob/main/docs/documentation.pdf
  • torch_geometric.nn.:https://pytorch-geometric.readthedocs.io/en/latest/modules/nn.html
  • Ioffe S., Szegedy C. (2015) Batch normalization: Accelerating deep network training by reducing internal covariate shift. In 32nd Int. Conf. Mach. Learn. 448–456
  • Ulyanov D., Vedaldi A., Lempitsky V. (2016) Instance normalization: the missing ingredient for fast stylization. arXiv:1607.08022
  • Cai T., Luo S., Xu K. et al (2021) GraphNorm: a principled approach to accelerating graph neural network training. In Proc. 38th Mach. Learn. Res. 139:1204–1215
  • Srivastava N., Hinton G., Krizhevsky A. et al (2014) Dropout: A simple way to prevent neural networks from overfitting. J. Mach. Learn. Res. 15:1929–1958
  • Akiba T., Sano S., Yanase T. et al (2019) Optuna: a next-generation hyperparameter optimization framework. In Proc 25th ACM SIGKDD Int. Conf. Knowl. Discov. Data Min. 2623–2631
  • Sundararajan M., Taly A., Yan Q. (2017) Axiomatic attribution for deep networks. In 34th Int. Conf. Mach. Learn. 7:5109–5118

【口コミ】

  • ※口コミはありません。
ページトップへ戻る