DeepChem MoleculeNet介绍,第1张

  DeepChem MoleculeNet是一个用于化学模型的开源工具包,提供一系列的数据集和预处理工具,帮助研究人员开发和评估各种化学模型。该工具包目前包含了35个化学任务的数据集,包括分子属性预测、药物发现、生物活性预测等多个方向。这些数据集都是基于公共数据库或文献报道构建的,具有良好的数据质量和广泛的应用场景。

DeepChem MoleculeNet介绍,第2张

图1 不同数据集聚焦于不同的分子性质

   除了数据集,DeepChem MoleculeNet还提供了一系列预处理工具,包括特征提取、数据清洗、标签变换等等。这些工具可以帮助研究人员处理原始数据,转换成适合各种化学模型处理的形式,提高模型的性能和泛化能力。

  MoleculeNet数据集已经整合到DeepChem软件中,我们可以通过DeepChem的子模块dc.molnet来访问数据集中的各种数据。

 此外,DeepChem MoleculeNet还提供了多种化学模型,包括神经网络、随机森林、支持向量机等等,可以帮助研究人员进行各种化学任务的预测和分析。这些模型在各种数据集上都进行了充分的测试和优化,可以直接应用于实际问题中。

 下面是一些常见的数据集介绍:


DeepChem MoleculeNet介绍,第3张

BACE数据集

   BACE 数据集提供了 1522 种化合物的集合,该数据集为人 β-分泌酶 1 (BACE-1) 抑制剂的定量 IC50 结果和定性分类结果。所有数据均为过去十年科学文献中报道的实验值,其中部分分子具有详细的晶体结构。


DeepChem MoleculeNet介绍,第3张

BBBC001数据集

 该数据集包含 6 张人类 HT29 结肠癌细胞图像。任务是学习预测这些图像中的细胞计数。由于该数据集太小,无法用于训练算法,但可以用作测试数据集。


DeepChem MoleculeNet介绍,第3张

BBBP数据集

 血脑屏障渗透 (BBBP) 数据集专为屏障渗透性的建模和预测而设计。血脑屏障作为分隔循环血液和脑细胞外液的膜,阻断了大多数药物、激素和神经递质。因此,能否穿过血脑屏障是靶向中枢神经系统的药物开发过程中急需亟待解决的问题。


DeepChem MoleculeNet介绍,第3张

Clintox数据集

 该数据集对FDA批准的药物和因药物毒性未被批准的药物进行了对比,数据集包含1491个已知结构的药物化合物,包含两个分类任务:a: 临床药物毒性信息  b: FDA 批准状态。

DeepChem MoleculeNet介绍,第3张

Factors 数据集

 Factors 数据集是默克公司的内部数据集,该数据集包含 1500 种默克公司内部化合物,该数据集测量了对 12 种丝氨酸蛋白酶的抑制 IC50。与 MoleculeNet 中的大多数其他数据集不同,Factors 集合没有测试化合物的结构,因为它们是专有的 Merck 化合物。但是,该集合确实具有针对这些化合物的预先计算的描述符。

DeepChem MoleculeNet介绍,第3张

HIV 数据集

 HIV 数据集由药物治疗计划 (DTP) 艾滋病抗病毒筛查引入,该筛查测试了 40,000 多种化合物抑制 HIV 复制的能力。评估筛选结果并将其分为三类:确认没有活性 (CI)、确认有活性 (CA) 和确认中度活性 (CM)。DeepChem将后两个标签合并,使其成为非活性(CI)和活性(CA 和 CM)而分类的数据。


DeepChem MoleculeNet介绍,第3张

KAGGLE数据集

 Kaggle 数据集是 Merck 的内部数据集,它包含 100,000 种独特的 Merck 内部化合物,这些化合物是在 15 种酶抑制和 ADME/TOX 数据集上测量的。与 MoleculeNet 中的大多数其他数据集不同,Kaggle 集合没有测试化合物的结构,因为它们是专有的默克化合物。但是,该集合确实具有针对这些化合物的预先计算的描述符。

DeepChem MoleculeNet介绍,第3张

PDBBIND数据集

 PDBBind数据集包括来自PDBBind v2019“精细集”中4852个蛋白质-配体复合物的实验结合亲和力数据和结构,以及来自PDBBind v2019“常规集”中12800个复合物和来自PDBBind v2013“核心集”中193个复合物的数据和结构。精细集删除了在三维结构、结合数据或其他方面存在明显问题的数据,因此应该是对于对接/评分研究更好的起点。

DeepChem MoleculeNet介绍,第3张

QM8数据集

 QM8数据集是一项用于建模小分子电子光谱和激发态能量的量子力学计算的研究中使用的数据集。多种方法被应用于包含至多8个重原子(也是GDB-17数据库的一个子集)的分子集合中,包括时间相关密度泛函理论(TDDFT)和二阶近似耦合簇(CC2)等。

DeepChem MoleculeNet介绍,第3张

SIDER数据集

 副作用资源(SIDER)数据集是一个市场药品和药品不良反应(ADR)的数据库。DeepChem中的SIDER数据集版本按照MedDRA分类将药物副作用分为27个系统器官类别,该数据集包括了1427种已批准的药物。

DeepChem MoleculeNet介绍,第3张

Tox21数据集

 “21世纪毒理学”(Tox21)倡议创建了一个公共数据库,用于测量化合物的毒性,并已用于2014年Tox21数据挑战。该数据集包含了8k种化合物在12个不同靶点上的定性毒性测量结果,包括核受体和应激反应途径等。

DeepChem MoleculeNet介绍,第3张

USPTO数据集

 USPTO数据集包括从美国专利和专利申请中提取的超过180万个有机化学反应。该数据集以SMILES的形式包含化学反应过程,其一般格式为:反应物 试剂 产物。dc.molnet提供了加载USPTO数据集的子集的能力,即MIT、STEREO和50K。MIT数据集包含约479K个反应。STEREO数据集包含约100万个反应,没有重复项,并且反应包括立体化学信息。50K数据集包含50,000个反应,并且是反合成预测的基准。此外,反应还分为10个反应类别。


DeepChem MoleculeNet介绍,第3张

UV数据集

 UV数据集对默克公司内部的10,000种化合物进行了在210到400纳米之间190个吸收波长的测试。与MoleculeNet中的大多数其他数据集不同,UV集合没有这些化合物的结构,因为它们是专有的默克化合物。但是,该集合确实提供了这些化合物的预计算描述符。

DeepChem MoleculeNet介绍,第3张

ZINC15数据集

 ZINC15是一个包含超过2.3亿种可购买的化合物数据集,用于虚拟筛选小分子以确定可能与药物靶点结合的结构。目前,ZINC15数据以2D(SMILES字符串)格式提供。MolNet提供来自ZINC15的250K、1M和10M“类先导化合物”化合物的子集。全数据集包括270M个“goldilocks”化合物。ZINC15中的化合物根据其分子量和LogP(溶解度)值进行标记。每个化合物还具有有关其易于获取(可购买性)和其反应性的信息。“类先导化合物”化合物的分子量在300至350道尔顿之间,LogP在-1至3.5之间。Goldilocks化合物是具有进一步限制LogP值在2至3之间的先导类化合物。


关注我获得

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » DeepChem MoleculeNet介绍

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情