一. 基于模拟集群分析和机器学习技术的高效化学信息学方法研究
高质量的化学信息学模型是解决化学和生物医药问题的重要途径,但其构建过程中需综合考虑诸多化学建模的基础问题,如数据模式分析、奇异样本检测、冗余特征删除、非线性建模、模型应用域评估、多目标处理以及多种信息融合等。为解决结构复杂数据的模型构建及评价问题,申请人发展了基于模型集群分析理论的化学建模及模型评价新方法和基于协同过滤推荐及核融合技术的多尺度药物信息融合建模新算法。
① 模型集群分析策略:在化学或生物学研究中,我们感兴趣的是如何发现仪器测量数据中蕴含的化学或生物学规律,并在此基础上进一步获取该测量体系的一些更有价值的信息,如样本中奇异值或异常点、组学中的生物标记物或生物标记模式、仪器谱学测量中各种响应变量的主要特征、模型的数学表达以及应用范畴等。针对上述化学建模基础问题,申请人创造性地提出了模型集群分析(MPA)的策略,该方法是通过采用不同的统计采样技术构建成千上万化学模型,再研究这些模型特征的统计学行为来发展新型化学信息学算法的策略;MPA的主要思路是如何最大限度地有效利用已有样本集的信息,利用不同数据采样技术从不同角度考察数据集的内在性质,继而对所得结果进一步统计分析来获得数据集的内在结构(TrAC-Trends Anal. Chem., 2012, 38, 154;J. Chemom., 2010, 24, 418)。
奇异点在统计学上被定义为一些远离数据主体的异常数据样本,化学数据中奇异样本的存在会撕毁化学数据的主体分布,进而严重影响后续化学模型的构建和稳健性。目前统计学上一些常规的稳健指标和方法对于多个奇异样本存在的体系,其诊断和检出的效果非常不理想。申请人基于MPA策略,首次创新提出基于样本空间的随机采样来实现奇异样本检测的蒙特卡洛新算法,通过研究样本在模型种群中预测误差的分布,发现预测误差分布的统计特征(预测误差的均值和方差)能够有效区分正常样本和各种类型奇异样本,并有效降低掩蔽效应和沼泽效应带来的风险。该方法在多个数据集上的奇异样本诊断能力显著优于统计学的各种稳健回归和组合算法,有效解决了多个及多种奇异样本同时存在检测困难的问题(J. Comput. Chem., 2010, 31, 592,他引115次,代表性论文一;专利申请号:202010431470.9)。在该策略的基础上,通过在样本空间、特征空间、算法空间及算法参数空间进行随机统计采样,创新发展了子窗口重排分析法、随机蛙跳法、子空间软收缩法、蒙特卡洛树算法及多空间模型共识等算法来实现特征选择、非线性建模、数据模式分析及模型应用域评估等多个化学建模基础问题的研究,有效解决了高精度化学信息学模型构建和评价难题(TrAC-Trends Anal. Chem., 2012, 40, 158;Brief. Bioinform., 2021, bbaa374;Brief. Bioinform., 2020, bbaa321;Anal. Chim. Acta, 2016, 908, 63,扩展ESI高被引论文;Analyst, 2016, 141, 5586;J. Chem. Inf. Model., 2019, 59, 3714;Anal. Chim. Acta, 2015, 880, 32)。
② 多目标优化与多尺度信息融合算法:药物分子设计是一个多参数优化和多水平信息整合问题。如药物生物活性需要从生化水平、细胞水平、动物水平、个体水平乃至种群水平上进行测试和评估;分子结构优化改造需同时考虑生物活性、成药性、安全性、选择性及可合成性等多个关键特性。如何实现这种多尺度多参数复杂数据的有效建模分析是化学信息学面临的难点问题。针对结构多样及关系复杂数据建模问题,发展了基于协同过滤推荐系统和多核融合的多尺度信息融合系列创新算法,通过以样本相似性或者核的形式实现了多水平不同数据结构信息的有效融合,从而极大提升了预测模型的精度和适用范围,并将其成功用于药物性质预测、副作用评估、靶标识别等药物设计关键问题(CPT:PSP, 2015, 4, 498;Anal. Chim. Acta, 2011, 706, 97;Chemom. Intell. Lab. Syst., 2015, 46, 494);针对多个目标需同时处理的建模问题,提出基于帕累托非支配排序思想的多目标处理和优化策略,发展了通过加权随机采样方式注入重要模型信息来指导进化的单目标和多目标全局进化算法,并应用于影响分子生物活性和细胞渗透性的重要分子结构特征同时选择研究,解决了分子多个性质同时优化异常困难的问题(Trends Anal. Chem., 2019, 113, 102,ESI高被引论文;J. Chem. Inf. Model., 2016, 56, 763;J. Chemom., 2015, 29, 627),进一步整合优化开发了EcoFFeS开源软件,实现基于单目标和多目标(NSGA-II和MOEA/D)全局优化的多参数优化及组合不同机器学习技术的关键分子特征选择,是目前用于多参数优化和关键分子特征选择功能最为完善的开源软件之一(IEEE Access, 2018, 6, 20950)。
二. 复杂分子数据的高效信息表征技术研究
化学及生物相关分子表征是化学信息学研究的基本问题,实现分子数据的高效信息表征对高质量化学模型的构建具有重要意义。目前其难点问题在于如何快速高效地表征日益增长的复杂关系型数据(如药物-药物/靶标相互作用、蛋白-蛋白相互作用等)和新出现的蛋白多肽药物设计等生物医药问题。申请人开发了以小分子/蛋白质/DNA表征为基础的复杂关系型数据的多水平表征技术,有效解决了基于系统原理的复杂分子结构信息的提取、表征和存储问题。
① 化学小分子表征:系统分析了目前存在的各种分子描述符的优缺点,开发了用于化学小分子描述符和指纹计算的软件包ChemoPy(Bioinformatics, 2013, 29, 1092,扩展ESI高被引论文);根据用户反馈进一步开发了功能更完善、描述符计算数目更多的在线平台ChemDes,可计算3679个分子描述符和58种分子结构指纹(J. Cheminf., 2015, 7, 60,扩展ESI高被引论文;软件登记号:2017SR643783)。基于药物是通过和体内蛋白质相结合来发挥其效应的思想,创造性地提出了利用计算生物靶标谱来进行化学小分子表征的新思路。计算生物靶标谱的优点是利用和蛋白的结合关系来表征分子的功能信息,消除了对分子结构特征信息的依赖性,可以有效实现对分子结构差异大的化合物性质的准确评估和检索,从而实现分子的骨架跃迁研究。将该表征应用于药物毒性评估、药物-药物相互作用预测、药物作用机制评估及相似性搜索研究,充分证明了该生物谱优秀的预测性能和骨架跃迁能力(J. Comput. Aided Mol. Des., 2016, 30, 413;专利申请号:202010069615.5)。
② 蛋白质序列表征:以氨基酸理化性质为基本属性,利用各种自相关函数和序列窗口滑动策略发展了多种定性蛋白质序列特征,并通过注入更多氨基酸理化性质极大地拓展了各类蛋白质序列特征的数目和应用范围;通过计算20种氨基酸的分子描述符和各种位点进化信息,利用各种数据压缩技术(包括主成分分析、因子分析和多维尺度变换)创造性地开发了多种用于蛋白质组化学计量学研究的定量蛋白质特征;开发了蛋白质序列特征定性/定量分析软件包和在线平台,可计算22类共22700个定性特征和700多个定量特征,蛋白质GO相似性、序列比对及PSSM功能谱等表征,是目前功能最为强大的蛋白质序列特征计算开源工具之一,有效解决了蛋白质分子结构信息的有效提取和表征的难题,可广泛用于蛋白质和多肽药物设计、蛋白质结构分析、蛋白质功能位点预测以及蛋白互作用网络预测等(Bioinformatics, 2015, 4, 498,扩展ESI高被引论文;Bioinformatics, 2013, 29, 960, ESI高被引论文,他引244次;软件登记号:2019SR0891819)。
③ 关系型数据表征:针对关系型数据结构表征的难题,以关系对中单分子表征为基础,利用各种数据压缩技术和信息融合技术创造性地发展了多种用于关系型数据结构表征的特征计算方法,例如基于线性降维技术的矩阵拼接和矩阵外积的特征提取算法、基于多核融合的核主成分分析非线性特征提取算法、基于奇异值分解和约束矩阵分解的特征生成算法等,并开发了计算工具,如用于蛋白-药物关系表征的软件包PyDPI(J. Chem. Inf. Model., 2013, 53, 3086),用于多水平化学基因组学及蛋白质组化学计量学研究的软件包Rcpi(Bioinformatics, 2014, 31, 279),实现三类分子间六种相互作用特征计算的在线平台BioTriangle(J. Cheminf., 2016, 8, 34;软件登记号:2019SR0891826);集分子结构自动获取、分子结构矫正以及分子表征于一体的软件包PyBioMed,有效解决了六种关系型数据的结构信息快速提取和表征的难题(J. Cheminf., 2018, 10, 1)。
申请人整合并更新了上述工具的功能,开发了集分子自动获取、结构检查及预处理、分子结构特征计算、数据结构探索分析、模型构建与评价及可视化分析于一体的化学生物医药数据综合分析包BioMedR,可用于一站式的三类分子及各种关系型数据分析和相关性质预测(如QSAR建模、物化性质预测、成药性预测、毒性评估、药物-药物/靶标关系预测、蛋白多肽药物设计、蛋白质结构分析、蛋白质功能及位点分析、蛋白质互作用评估等),是目前功能最为强大的分子结构表征计算及数据分析开源软件包之一(Brief. Bioinform., 2020, bbz150,代表性论文二)。