Adv. Mater：高性能花菁光敏剂的机器学习辅助设计

内容提要

本研究基于目前可用的花青素分子数据集，提供了一个机器学习(ML)辅助的分子设计框架。通过将RDKit结构描述符与量子化学描述符集成，首次构建了能够准确预测菁氨酸衍生物(R₂ > 0.9)的荧光量子产率的基于混合特征的预测模型。在此基础上，开发了一种两阶段虚拟筛选策略，从2835个候选结构库中高效地识别出有前途的菁氨酸衍生物。合成了三个具有代表性的分子作为概念验证，证实了ML指导工作流程的预测可靠性和实用性。先导化合物1775表现出最高的性能，在细胞分析中表现良好，支持了mL辅助筛选策略在指导实验验证中的鲁棒性和适用性。

实验结果与讨论

分子数据库的构建

ML模型的训练数据集来自220个报道的菁氨酸衍生物，包括101个分子，实验测量的ΦΔvalues和184个分子在DMSO中具有Φ_F值，以及相应的SMILES字符串。这些分子主要代表流行的花青素类，如五甲基、七甲基和方胺染料。虚拟筛选的候选构建块是从之前报道的用于PDT或生物成像应用的320种花青素衍生物中选择的，以及我们团队在这类化合物上积累的实验数据。菁氨酸分子的结构修饰可分为三类，其中A型和b型结合为核心结构，C型对应于介取代基修饰。为了简化片段组装过程，将花氨酸结构修饰分为两部分:1)核心骨架变化，包括花氨酸链上氮原子的取代和芳香环上重原子的引入;2)中位官能团修饰，共编译了45个核心结构和63个介取代基，并通过RDKit通过匹配指定的附着原子进行算法组装，得到2835个独特的分子库。为了避免由于片段组装而产生只存在于狭窄结构空间中的分子，在候选筛选文库中计算分子相似性，得出平均相似性值为0.2827，表明结构分布广泛而多样。为了去除结构不稳定的化合物，我们使用RDKit进行了合成可达性(SA)评分筛选，以确保分子设计的化学可行性和合理性。对于构建的数据集，使用RDKit、Gaussian16和Marvin计算工具，采用两层描述符提取策略。首先，通过RDKit化学信息学工具包计算一系列基于结构的分子描述符，包括拓扑、物理化学和组成特征，作为ML训练的基线特征。由于文献和实践证明B3LYP函数的相关误差是相对可控的，并且与其他广泛使用的函数相比，它提供了更低的计算成本，因此选择B3LYP是在精度，效率，以及后续计算中的计算一致性。因此，基于输入SMILES字符串，在B3LYP/def2-SVP水平上对基态和激化态结构进行了均匀的几何优化，提取了HOMO-LUMO能隙和单重态-三重态能隙(ΔE ST)等关键量子描述子。

机器学习模型的构建

本研究针对花青基光敏剂的单线态氧量子产率（ΦΔ）和荧光量子产率（ΦF）构建了高准确度集成机器学习模型（R²均>0.9），通过多类型描述符整合与模型解释，揭示了分子结构与性能的内在关联，为光敏剂理性设计提供了明确指导。

模型构建流程

1. 输入特征设计，RDKit描述符，包含分子重量、氢键供体/受体数量、拓扑指数等基础结构特征，无需量子计算，训练效率高。量子化学描述符，通过Gaussian16在B3LYP/def2SVP水平计算，提取HOMO-LUMO能隙、单线态-三线态能隙（ΔEST）等电子结构参数。整合RDKit与量子化学描述符，同时捕获分子构型与电子行为，提升模型表达能力。

2. 模型选型与优化，测试5种回归算法，ΦΔ预测中梯度提升回归（GBR）表现最优，ΦF预测中随机森林（RF）稳定性最强。采用K-Best（基于F统计量）+递归特征消除（RFE）策略，ΦΔ模型保留12个关键特征，ΦF模型保留15个关键特征。通过五折交叉验证结合Optuna框架优化，最终构建集成模型，融合top-performing基础模型的预测结果。

3. 模型性能表现

| ΦΔ | R²=0.9256、MSE=28.23、MAE=4.12 | 高ΦΔ区域（ΦΔ>0.3）预测精度更高，泛化能力强 |

| ΦF | R²=0.9171、MSE=9.01、MAE=2.50 | 基于RDKit描述符即可实现高精度预测，计算成本低 |

模型解释分析

1. ΦΔ预测模型解释，排列重要性分析显示，HOMO能级、T₁能量、logP是主导因素，与光敏剂作用机制高度契合。SHAP分析揭示，低HOMO能级（弱电子给体能力）、高T₁能量、低T₂能量（减小ΔEST）可提升单线态氧生成效率；logP影响细胞摄取与亚细胞定位，适宜值可避免聚集诱导猝灭。残差分布近似对称，无明显异常值，仅存在轻微低估趋势，与后续实验验证结果一致。

2. ΦF预测模型解释，VSA_EState4、BCUT2D_MRHI、FpDensityMorgan3是关键指标，反映分子表面电子态、骨架刚性与官能团分布。低VSA_EState4（局部激发态电荷密度集中）、高BCUT2D_MRHI（增强骨架刚性）、适度FpDensityMorgan3（致密官能团分布）可提升荧光量子产率；简单紧凑的拓扑结构（低Chi值）能抑制非辐射衰减。残差呈近正态分布，中心围绕零值，说明预测无系统性偏差，准确性可靠。

关键发现

混合描述符对ΦΔ预测至关重要，量子化学特征补充了电子结构信息，而ΦF预测主要依赖分子结构特征，量子描述符贡献有限。模型不仅实现高精度预测，还重现了可解释的结构-功能关系，如HOMO能级与系间窜越（ISC）效率的关联，衔接了统计建模与化学理论。通过替代决策树（max depth=3）可视化预测路径，为分子结构改性提供了直观的规则指导。

筛选新分子

研究基于已验证的机器学习模型，采用两阶段虚拟筛选策略，从2835个候选分子中高效筛选出16个兼具高单线态氧量子产率（ΦΔ）和适宜荧光量子产率（ΦF）的新型花青基光敏剂，既保证了筛选准确性，又大幅降低了计算成本，为光动力疗法（PDT）提供了高性能候选材料。筛选同时满足“高治疗活性”（高ΦΔ）和“诊疗一体化”（适宜ΦF）的分子，避免ΦF过高抑制单线态氧生成，或ΦF过低无法实现成像功能。高准确度的ΦΔ预测依赖混合描述符（需量子化学计算），直接对2835个分子计算混合描述符计算成本过高，因此设计分层筛选策略平衡效率与精度。

第一阶段：RDKit模型初筛（低成本粗选），使用仅基于RDKit描述符的随机森林（RF）模型，虽预测精度中等（R²=0.78），但计算速度快，适合大规模初步过滤。设定高ΦΔ阈值（预测ΦΔ>0.50），减少低活性分子干扰，确保候选质量。同步用RDKit模型预测ΦF，优先保留中等ΦF分子，兼顾成像潜力。从2835个候选分子中短列出57个潜在高性能化合物。

第二阶段：混合描述符模型精筛（高精度细选）对57个初筛分子，通过Gaussian16计算量子化学参数（如HOMO-LUMO能隙、ΔEST），结合MarvinSketch计算的理化属性（logP、PSA等），生成完整混合描述符。使用之前构建的ΦΔ集成模型（R²=0.9256）进行高精度预测，修正初筛偏差。19个分子预测ΦΔ>0.30，性能达到或超越已报道的花青基光敏剂；经文献交叉验证，最终确定16个结构独特、未被报道的高性能分子。

对初筛（平均Tanimoto相似度0.4128）和精筛（0.4158）数据集进行相似度分析，结果均显示低相似度，表明筛选未局限于狭窄化学空间，候选分子 scaffold 多样。初筛采用高ΦΔ阈值（>0.50），优先保证高活性分子不被遗漏，虽可能排除少量潜在分子，但实现了“精度-效率”的最优平衡。训练集中高ΦΔ样本较少，但模型仍能有效识别新的高ΦΔ候选，体现强泛化能力。获得16个兼具高ΦΔ（>0.30）和适宜ΦF的新型花青基光敏剂，满足PDT诊疗一体化需求。筛选策略大幅降低计算成本：仅对57个分子进行高成本量子化学计算，避免了对2835个分子的全面计算，效率显著提升。从16个分子中选取3个代表性分子（1350、1775、1791）合成，其ΦΔ实验值分别为0.46、0.62、0.51，与预测值高度吻合，验证了筛选策略的可靠性。

实验验证和评估

为了验证构建的机器学习模型的预测准确性和分子筛选策略的有效性，从最终的16个候选分子中选择了三个具有代表性的分子(ID: 1350, 1775和1791)进行实际合成和实验评估。然后对这三种化合物的关键光物理性质进行了系统评价，重点关注ΦΔand ΦF作为机器学习模型预测的核心指标。所有三种分子都表现出典型的cy5样结构特征，在DCM溶液(<s:2> abs≈630-680 nm)中具有高摩尔消光系数(104 M−1·cm−1)的近红外区强吸收，满足PDT应用的基本要求。为了评估ROS的产生，1,3-二苯基异苯并呋喃(DPBF)被用作630 nm辐照(5 mW·cm−2)下的单线态氧探针。在这三种化合物中，化合物1775表现出最高的单线态氧量子产率，实验值为ΦΔof0.62(预测值:0.58)，显著优于大多数报道的花青素光敏剂。其ΦF也落在了预测范围内。化合物1350和1791的ΦΔvalues分别为0.46(预测值:0.46)和0.50(预测值:0.46)，完全在模型的平均绝对误差(MAE)范围内，进一步支持了先前从集合模型的残差直方图中得出的预测值往往略低于实际值的解释。他们在DMSO中的实验ΦF值也与预测值非常接近，没有明显的偏差。这些结果不仅证明了M L模型在小样本条件下的强大泛化能力，而且还证明了它们在分子筛选和性质估计方面的实际适用性。

结论

本研究成功建立了机器学习（ML）辅助的花青基光敏剂设计与筛选框架，通过构建专注于单一类别光敏剂的数据集、开发高准确度集成模型（R2>0.9）和两阶段筛选策略，从 2835 个候选分子中高效识别出 16 个兼具高单线态氧量子产率（ΦΔ）和适宜荧光量子产率（ΦF）的新型分子；3 个代表性分子（1350、1775、1791）的合成与实验验证，证实了模型预测的可靠性，其中先导化合物 1775 表现最优（ΦΔ=0.62），且具备优异的细胞摄取、双细胞器靶向和光动力治疗活性，最终确立了 “数据驱动建模 - 虚拟筛选 - 实验验证” 的闭环范式，为高性能花青基诊疗剂的理性设计提供了可靠、通用的解决方案。

参考文献

Machine Learning-Assisted Design and Discovery of High-Performance Cyanine-Based Photosensitizers for Integrated Theranostic Applications ,Bowen Diao, Shaoyang Shi, Junhan Li, Letao Yang, LingFeng Zheng, Hongxiang Guo, and Xiaojun Peng*,Adv. Mater. 2025, e15813,https://doi.org/10.1002/adma.202515813

行业文献

LITERATURE

Adv. Mater：高性能花菁光敏剂的机器学习辅助设计