(D) T-SNE plot showing the annotation and color codes for two CD8+ T cell subclusters.
(E). Dot plot showing the expression of canonically expressed genes in two subclusters.
(F) Pseudotime-ordered analysis of CD8+ T cells from HBV+ HCC and HBV− samples. CD8+ T cell subtypes are labeled by colors.
(G) Heat map showing the dynamic of cytotoxic genes or exhausted genes
非常清晰明了,这个完整的数据分析我们在 为什么做拟时序 演示了一个简化版,后面也会继续更新完整版!
错误的拟时序分析例子
2024发表在《Journal of Cancer 》杂志的文章:《Integrated Bulk and Single-cell RNA Sequencing Data Constructs and Validates a Prognostic Model for Non-small Cell Lung Cancer》,文献进行了第一层次降维聚类分群后,并没有然后的生物学背景,就一股脑的把全部的肺癌肿瘤微环境里面的免疫细胞和间质细胞都拿去了拟时序,如下所示:
这样其实完全得不出什么结论,在肿瘤里面免疫细胞又不可能变迁成为恶性的上皮肿瘤细胞,就算是拿到了算法层面的每个细胞的拟时序分析后产生的 Pseudotime 和State,也很难去做生物学描述。
一些拟时序创新
因为单细胞转录组数据的流行才让大家都认识到了这个拟时序分析可以展示差异分析的细节,但其实展现 差异分析细节这个需求在单细胞之前就存在。只不过呢,我们常规的bulk转录组通常是少量的有限的三五个组别,每个组就三五个样品,所以差异分析拿到了变化倍数和统计学指标就足够了,后面主要是针对差异基因集去做各种生物学功能富集去编造生物学故事啦。但是,TCGA或者GTEX等计划里面的常规的bulk转录组样品数量其实已经是成百上千了,我们的单细胞转录组的各个亚群其实里面也就是成百上千个细胞,两者从表达量矩阵格式来说并没有本质区别,都是可以走拟时序分析算法的。
比如2021的文章:《Preoperative immune landscape predisposes adverse outcomes in hepatocellular carcinoma patients with liver transplantation》就是一千多个样品,它们的两万多个基因构成了一个表达量矩阵,但是文章作者仅仅是关心那些5000个表达量比较高的蛋白质编码基因,然后就做了拟时序分析:
其实就是肿瘤样品可以区分成为两个分子分型,上面的图例是 :
b t-SNE analysis using the 5000 most highly expressed protein-coding genes in the meta-dataset (n = 1179).
c Trajectory analysis of Korean HCC using Monocle 2.
而且可以很清晰的看到正常的乳腺组织跟两个分子分型的肿瘤样品的差异细节:
值得一提的是拟时序一本通专辑的目录是:
为什么做拟时序 (展示差异细节)
拟时序的正确姿势,错误示范,创新型拟时序
拟时序的多种算法大比拼
monocle2拟时序实战
降维聚类分群
拟时序
多种基础可视化
正向特殊可视化(目标基因表达量,基因集打分)
反方向特殊可视化(5种可视化)
monocle3拟时序实战
SCORPIUS实战
Slingshot实战
基于其它编程语言的拟时序分析
然而,本人的理解肯定是片面的,希望通过这10个推文的指引能让大家对单细胞转录组的明星分析方法拟时序有一个基础的认知。也欢迎大家提出来自己的不同的看法,或者自己对拟时序的疑惑之处,欢迎留言参与讨论哦!