国家生物信息中心相助开发细胞身份判断新型AI引擎
随着单细胞和空间组学手艺的快速生长,果真可共享数据量已突破亿级大关。然而,手艺平台爆发的差别、重大疾病状态、跨物种研究带来的批次效应和离群细胞(Out-of-Distribution Cell,OOD细胞)等,对数据解读组成重大挑战。面临动辄百万规模的OOD细胞,依赖“先聚类、后注释”的古板剖析要领已展现出显着的局限性,难以快速、精准且可诠释地将这些“身份不明”的细胞映射到日益完善的参考细胞图谱上。怎样高效实现细胞的数字化表征、整合与剖析,已成为一个要害的瓶颈问题,严重制约着单细胞数据在跨大规模人群行列研究、多模态信息整合以及物种间守旧性探索等焦点偏向上的潜力。
克日,国家生物信息中心盘算生物学部蒋岚团队在Genome Biology?期刊揭晓了题为CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer的研究论文,研发了一款高效、泛化且可诠释的有监视细胞表征息争析模子CellMemory。该模子受全局事情空间理论(Global Workspace Theory, GWT)启发,对古板Transformer架构举行刷新,植入低维影象空间“Memory Space”,通过Cross-Attention机制将高维基因特征压缩、竞争、广播,提高盘算效率3-5倍,显著增强模子泛化能力,无需预训练即可实现单细胞数据跨平台、物种整合。同时,影象空间为CellMemory带来分层式“可读窗口”。L1 (Gene Level)为面临特定细胞,研究者可知单个基因对目的细胞表征的孝顺分数;L2 (Gene Program Level)为模子在影象空间中,自动归纳协调的共表达/共调控模式。多层可诠释性为明确模子决议逻辑,探索表型关联细胞状态提供了可靠解决计划,即“高准确性 + 强可诠释性”。
研究团队将CellMemory与3个单细胞基础大模子、16个使命专用模子在1500万细胞上举行较量;计啦庑Ч允,CellMemory在人群标准的单细胞数据整合、超高区分率细胞状态注释等使命中均取得了State-of-the-Art级别的体现。面临59张MERFISH小鼠脑空间组学切片(4百万细胞、338个细胞亚群),相较基于古板transformer架构预训练的单细胞基础大模子, CellMemory在95%的空间切片上取得领先的注释体现,准确率较古板机械学习要领提升30%,证实CellMemory精彩的泛化能力。
目今,将疾病细胞与康健细胞比对仍然是重大挑战。得益于准确与可诠释的细胞表征,研究团队进一步使用CellMemory在多个癌症行列单细胞图谱中剖析疾病重大性。例如在肺腺癌行列中,模子基于参考图谱定位到MSLN+ CAPN8+ 的肺泡2型过渡态细胞,并视察到其显著的拷贝数变异,提醒肺腺癌可能使用肺泡2型细胞可塑性获得侵袭能力。在混淆表型急性白血病、髓母细胞瘤等数据中,模子基于康健参考图谱展现了差别患者潜在的异质性起源,为耐药和预后研究提供了高区分率数据剖析基础,展示出CellMemory在离群细胞推断场景中的强盛表征能力。
综上,从“序列搜索”到“亚群搜索”,参考映射正在重塑单细胞数据剖析的手艺范式。依附强盛的泛化能力与高效的盘算效率,CellMemory有望成为笼罩病理、时空和物种等多维度细胞参考图谱建设与临床精准诊疗的要害引擎。
上述事情由国家生物信息中心蒋岚团队和多家单位相助完成。蒋岚研究员、新加坡国立大学刘钿渤教授、加拿大麦吉尔大学李岳教授为本文的配合通讯作者。蒋岚团队博士研究生王弃非,加拿大麦吉尔大学博士生朱赫为文章的并列第一作者。清华大学张学工、斯坦福大学James Zou,博德研究所Manolis Kellis教授对本项目亦有孝顺。该研究获得国家重点研发妄想、九游会j9先导专项、九游会j9全球共性挑战专项等项目的资助。?
CellMemory模子架构与应用场景
论文链接