癌症的发生与驱动基因突变密切相关,精准识别这些基因是理解癌症机制和开发靶向治疗的关键。然而,由于癌症成因复杂,现有的基因目录远远不够完善,现有预测方法在泛化性和可解释性方面仍存在诸多挑战。
近日,中国科学院新疆理化技术研究所与合作者,提出了人工智能(AI)可用于癌症驱动基因识别的图机器学习模型——TREE,通过创新性整合多组学数据,和同质/异质生物网络拓扑信息,在癌症驱动基因预测的准确性、泛化性和可解释性方面取得进展。
01
模型突破传统局限
识别癌症驱动基因能够为患者的个性化精准治疗提供策略,但至今仍存在大量功能未知、未被标记的癌症基因。
目前,癌症基因预测有两种主流方法:一是基于多组学的统计方法,二是基于网络的人工智能方法。虽然两种方法各有优势,但也都存在局限性,比如无法全面捕捉基因间的互动,或者难以处理复杂基因网络等。
TREE模型的诞生,突破了这些局限。TREE模型是一种基于Transformer的图表示学习AI模型,能够处理同质和异质网络,其中同质网络仅包含基因,而异质网络包含转录因子(TF)、miRNA和IncRNA等多种节点类型。
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
▲(a)多组学数据收集及同质/异质网络构建;(b)癌症基因预测整体模型流程图;(c)模型的基因表示学习层;(d)多通道整合模块。
02
TREE的“超能力”
研究表明,TREE在8个生物泛癌网络和31个癌症特异性网络上表现出优越的性能,与5种基于网络的AI方法相比,TREE的AUC与AUPR指标均表现最佳,平均AUC提升5.91%,AUPR提升9.87%,这都体现出模型的泛化性和鲁棒性。
同时,在可解释性方面,TREE同样表现出色。突变在癌症基因鉴定中至关重要,而TREE在精确定位罕见突变基因方面具有优势,异质信息允许TREE通过网络路径验证显著的癌症基因调控机制。
nload="this.removeAttribute('width'); this.removeAttribute('height'); this.removeAttribute('onload');" />
▲通过所有方法鉴定的癌症候选基因构成的韦恩图
TREE在对网络中所有常见的未标记基因进行评分后,推荐了57个潜在的癌症候选基因,认为它们有可能是与癌症相关的候选基因。随后,科研人员用全部的数据集来测试模型的性能,结果显示,模型给出的评估结果都很稳定且一致,这表明TREE是识别新的癌症候选基因的可靠工具。
在这57个潜在的癌症候选基因中,有21个也被其他方法鉴定,这些重叠基因获得了较高的排名。所有这些观测结果都在相当程度上强调了TREE的可靠性。
03
精准诊疗“利器”
科研人员选择了潜在癌症候选基因中的前三名(RYR2,SYNE1和LRP2)进行研究,与相关文献的结果一致,说明前三名可能参与了癌症的发生和进展。
TREE模型突破了传统方法在复杂生物网络解析中的局限性,为揭示癌症基因的分子调控规律建立了新范式。这种融合多组学分析、图神经网络与Transformer架构的跨学科创新,为精准医疗提供了可靠的计算工具。
未来,随着更多生物数据的积累和算法迭代,TREE有望成为连接基础研究与临床转化的重要桥梁。其在罕见突变识别、联合疗法靶点发现、癌症早筛等领域的应用潜力,将推动肿瘤诊疗的发展。
来源:中国科学院新疆理化技术研究所
责任编辑:曹旸