领域泛化实现单细胞和空间转录组学中的通用癌细胞注释

2024-04-30

点击下载

背景:转录组测序是一种高通量测序技术,可用于检测组织或细胞的基因表达水平。伴随着技术上的革新,转录组技术从组织水平到单细胞水平;再跨越到具有细胞定位的空间转录组技术。通过联合单细胞测序及空间转录组技术,能够揭示细胞特定空间位置上的信息,以进一步探究疾病发生发展的机制及疾病的防治。随着测序手段的不断优化,这些方法越来越多地被用于研究癌症和相关疾病。

图片122.png

图1. 单细胞转录组测序基本流程

恶性细胞注释,对于这些研究中的深入分析至关重要。由于准确性和普适性的缺乏,导致目前的算法从泛癌数据中一致且快速地推断恶性细胞仍具有挑战。癌症特异性的基因标志物暂无公布,且肿瘤相关标志基因用于区别恶性细胞仍然存在困难。基于此,该研究提出了一种基于领域泛化的深度学习算法—Cancer-Finder,用于单细胞数据中的恶性细胞快速识别;平均准确率可达95.16%。

推荐文章:Nat. Commun. 2024, 15:1929. DOI: 10.1038/s41467-024-46413-6.

Cancer-finder的概览图:Cancer-Finder 可分为两个部分:训练部分和工作部分。在训练部分中根据不同的组织器官分为不同领域:如将肺组织分为领域1,肝组织分为领域2,肠组织分为领域3等。将这些不同的领域特征进行提取,用于构建模型(神经网络),建立综合风险因子评估体系;接下来将这套体系运用于实际样本中。所采集到的组织或临床样本经过单细胞转录组及空间转录组测序后;将所得结果经过模型识别评估,用于区分恶性细胞和非恶性细胞。

043002.png

图2.深度学习算法Cancer-finder的模型构建及实际预测概览图

在本研究中选取来自13种不同的组织(血液,骨,大脑,乳腺,肠,眼,头及肩部,肝,肺,神经,卵巢,胰脏,皮肤),共计328,230个细胞转录组数据。其中血液,大脑,眼部,肺组织细胞量最多;可能与样本采集的难易程度有关。80%的数据用于训练部分,20%的数据用于验证部分。

043003.png

图3.不同组织中的细胞数量

细胞因为基因的差异表达而导致细胞分化。比起区分不同的组织细胞,从正常细胞中挑出恶性细胞不是一件容易的事情。在对比Cancer-Finder及普通方法针对恶性细胞与正常细胞的区分中(图c和d):红色代表恶性细胞,灰色代表正常细胞,每一个点代表一个细胞。可视化利用神经网络转化特征;我们发现Cancer-Finder的准确率更高,这展现了它强大的特异性筛选能力。

043004.png

图4.不同算法针对正常细胞及恶性细胞的判断结果

训练步骤不同会导致方差风险及平均风险。采用5次训练步骤,将余下的数据用于模型的准确性验证。将上述所有细胞转录组数据均应用于模型验证,除此之外还加入了15,986个细胞数据用于额外验证:在13个组织的准确性验证中,平均准确率超过90%,其中5个组织平均准确率甚至超过95%;达到了98.30%。骨组织准确率较低,可能是其分化程度高,转录组水平差异较低;难以区分正常细胞及恶性细胞。

043005.png

图5.方差风险,平均风险及算法准确率

在额外数据集验证过程中,选取10种不同类型的细胞及已知比例;来比较Cancer-Finder及其他四种模型(SCEVAN,CopyKAT,CaSee及ikarus)的预测准确性。在图b中,Cancer-Finder在10种不同细胞组成的数据集中均展现出了良好的准确性,总体准确性达到了98.30%。在这些数据集中尽管存在其他模型高于Cancer-Finder的情况;但在别的数据集中同样的模型又会出现准确率太低。同时为了比较在处理大量细胞转录信息(细胞数量从100升至1000000)的耗时情况,将Cancer-Finder及其他四种模型再次进行了对比。结果显示,Cancer-Finder在所有模型中耗时最短;且随着细胞数量增大,有的模型无法完成处理。

043006.png

图6.不同模型处理数据集的情况对比

空间转录组测序技术在获取细胞基因表达数据的同时,也获取了该细胞的空间位置信息。通过将Cancer-Finder与空间转录组结合,可实现肿瘤细胞的空间识别;有利于肿瘤微环境及相关区域的识别及研究。在前期模型训练及识别研究中Cancer-Finder已展现出它的高准确性特征,通过将单细胞转录组信息替换成空间转录组信息;Cancer-Finder依然展现出良好的可伸缩性。

043007.png

图7. 将Cancer-Finder扩展到空间转录组

共计14种空间可视化样本数据被收集,包括4种肝癌组织(HCC),3种大肠癌(CRC),1种胆管癌(ICC),1种卵巢癌(OV),2种乳腺癌(BRCA)和3种肾细胞癌(RCC)。其中分成两种类型:包含训练数据和不包含训练数据来检测Cancer-Finder结果与正常结果的相似性。

043008.png

图8.两种类型的检测结果

结合表格可以发现:Cancer-Finder在包含训练数据的检测结果中相似性更高,且检测结果与样本量有关,样本量越多,即便不包含训练数据,也可以通过相同组织的其他样本来和检测组织作比较,进而得到更准确的结果。而不同组织分化差异性较大,Cancer-Finder通过其他组织推断的准确率更低。

043009.png

表1.两种类型检测结果的准确性

将Cancer-Finder应用于5个肾透明细胞癌空间转录组样本,发现其具有良好的识别恶性细胞的能力。通过和病理组织对比可以发现,Cancer-Finder具有良好的识别能力。此外,由10个基因组成的基因特征在肿瘤-正常界面显著共定位和富集。后续对这10个基因的作用展开研究。

043010.png

图9. Cancer-Finder在空间转录组识别恶性细胞

肿瘤微环境是一个复杂且精密的系统,在肿瘤的发生发展中起到重要作用。由多种细胞类型组成:免疫细胞,基质细胞等。细胞与肿瘤微环境的相互作用影响病人的预后。这10个基因包括NDRG1, TAGLN, MALAT1, IGKC, IGHA1,IGHG4, IGLC2, IGHG3, SOD2 和 KRT19;通过在疾病的发展进程中发现与肾透明细胞癌患者的预后密切相关。

043011.png

图10.基因与疾病的预后发展进程

在线客服
热线电话

售前咨询微信