九游会j9

国家生物信息中心相助开发细胞身份判断新型AI引擎

随着单细胞和空间组学手艺的快速生长,果真可共享数据量已突破亿级大关 。然而,手艺平台爆发的差别、重大疾病状态、跨物种研究带来的批次效应和离群细胞(Out-of-Distribution Cell,OOD细胞)等,对数据解读组成重大挑战 。面临动辄百万规模的OOD细胞,依赖“先聚类、后注释”的古板剖析要领已展现出显着的局限性,难以快速、精准且可诠释地将这些“身份不明”的细胞映射到日益完善的参考细胞图谱上 。怎样高效实现细胞的数字化表征、整合与剖析,已成为一个要害的瓶颈问题,严重制约着单细胞数据在跨大规模人群行列研究、多模态信息整合以及物种间守旧性探索等焦点偏向上的潜力 。

克日,国家生物信息中心盘算生物学部蒋岚团队在Genome Biology?期刊揭晓了题为CellMemory: hierarchical interpretation of out-of-distribution cells using bottlenecked transformer的研究论文,研发了一款高效、泛化且可诠释的有监视细胞表征息争析模子CellMemory 。该模子受全局事情空间理论(Global Workspace Theory, GWT)启发,对古板Transformer架构举行刷新,植入低维影象空间“Memory Space”,通过Cross-Attention机制将高维基因特征压缩、竞争、广播,提高盘算效率3-5倍,显著增强模子泛化能力,无需预训练即可实现单细胞数据跨平台、物种整合 。同时,影象空间为CellMemory带来分层式“可读窗口” 。L1 (Gene Level)为面临特定细胞,研究者可知单个基因对目的细胞表征的孝顺分数;L2 (Gene Program Level)为模子在影象空间中,自动归纳协调的共表达/共调控模式 。多层可诠释性为明确模子决议逻辑,探索表型关联细胞状态提供了可靠解决计划,即“高准确性 + 强可诠释性” 。

研究团队将CellMemory与3个单细胞基础大模子、16个使命专用模子在1500万细胞上举行较量 ;计啦庑Ч允,CellMemory在人群标准的单细胞数据整合、超高区分率细胞状态注释等使命中均取得了State-of-the-Art级别的体现 。面临59张MERFISH小鼠脑空间组学切片(4百万细胞、338个细胞亚群),相较基于古板transformer架构预训练的单细胞基础大模子, CellMemory在95%的空间切片上取得领先的注释体现,准确率较古板机械学习要领提升30%,证实CellMemory精彩的泛化能力 。

目今,将疾病细胞与康健细胞比对仍然是重大挑战 。得益于准确与可诠释的细胞表征,研究团队进一步使用CellMemory在多个癌症行列单细胞图谱中剖析疾病重大性 。例如在肺腺癌行列中,模子基于参考图谱定位到MSLN+ CAPN8+ 的肺泡2型过渡态细胞,并视察到其显著的拷贝数变异,提醒肺腺癌可能使用肺泡2型细胞可塑性获得侵袭能力 。在混淆表型急性白血病、髓母细胞瘤等数据中,模子基于康健参考图谱展现了差别患者潜在的异质性起源,为耐药和预后研究提供了高区分率数据剖析基础,展示出CellMemory在离群细胞推断场景中的强盛表征能力 。

综上,从“序列搜索”到“亚群搜索”,参考映射正在重塑单细胞数据剖析的手艺范式 。依附强盛的泛化能力与高效的盘算效率,CellMemory有望成为笼罩病理、时空和物种等多维度细胞参考图谱建设与临床精准诊疗的要害引擎 。

上述事情由国家生物信息中心蒋岚团队和多家单位相助完成 。蒋岚研究员、新加坡国立大学刘钿渤教授、加拿大麦吉尔大学李岳教授为本文的配合通讯作者 。蒋岚团队博士研究生王弃非,加拿大麦吉尔大学博士生朱赫为文章的并列第一作者 。清华大学张学工、斯坦福大学James Zou,博德研究所Manolis Kellis教授对本项目亦有孝顺 。该研究获得国家重点研发妄想、九游会j9先导专项、九游会j9全球共性挑战专项等项目的资助 。?

九游会·J9 - 国际官方网站 | 真人游戏第一品牌

CellMemory模子架构与应用场景

论文链接


附件下载:
【网站地图】【sitemap】