Seurat V5 | 构建单细胞多模态数据整合的统一场论

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第1张

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第2张

男,

一个长大了才会遇到的帅哥,

稳健,潇洒,大方,靠谱。

一段生信缘,一棵技能树。

生信技能树核心成员,单细胞天地特约撰稿人,简书创作者,单细胞数据科学家。

编者按1:单个细胞的信息正在被次第打开,这些不同维度生物信息如何统一到一个分析框架中?新版本的Seurat朝这个方向做了进一步的努力。在本文中作者提出一种基于“桥式集成”('bridge integration’)的多模态数据整合方法,借助一个多组学数据桥("multi-omic  bridge"),将不同模态的数据整合到一起。并通过几组百万级单细胞多组学数据验证的这种方法的准确性、稳定性和可解释性。

编者按2:在本文中主要讨论的是表达数据的整合,未讨论但是也十分重要的还有:

跨物种单细胞数据分析中,如何找到哪个“桥”?非表达数据,如scVDJ-seq的数据如何与表达数据进行整合?空间数据的整合中,如何把不同空间数据纳入到一个统一的空间中?

编者按3:Seurat V6 会是什么样子?

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第3张

将单细胞图谱映射到全面的参考数据集是无监督分析的强大替代方案。然而,参考数据集主要是由单细胞RNA-seq数据构建,而不能用于注释非基因表达的数据集。文本介绍了“桥式集成”('bridge integration’),一种利用多组数据集作为分子桥来统一跨模态单细胞数据集的方法。多组数据集中的每个细胞都包含一个“字典”中的元素,可用于重建单模态数据集并将其转换为共享空间。作者证明了该程序可以准确地将转录组数据与染色质可及性、组蛋白修饰、DNA甲基化和蛋白质水平的独立单细胞测量相协调。此外,作者还演示了如何将字典学习(dictionary learning)与绘图技术相结合,以大幅提高计算可伸缩性,并分析860万个人类免疫细胞的测序和大规模单细胞数据。本方法旨在扩大单细胞参考数据集的效用,并促进不同组学数据之间的比较。

就像序列比对工具(read mapping tools)改变了基因组序列分析一样,将新数据集映射到已建立的参考文献的能力为单细胞基因组学领域提供了一个令人兴奋的潜力。作为完全无监督聚类的替代方案,监督映射方法利用大型和精心组织的参考数据集来解释和注释查询数据。这一方法得益于参考数据集的管理和公开发表,以及新计算工具的开发,包括已成功应用于这一目标的统计学习和基于深度学习的方法。

虽然功能强大,但现有方法的一个重要局限性是,它们主要关注单细胞转录组测序 (scRNA-seq)数据。单细胞转录组学非常适合于参考数据集的整合和注释,特别是因为差异表达的基因标记通常可以被解释为帮助注释细胞集亚群。这导致了高质量、精心策划和专业注释的参考文献的发展,特别是来自包括人类细胞图谱(HCA)、人类生物分子图谱项目(HuBMAP11)和陈-扎克伯格生物图谱(Chan Zuckerberg Biohub)在内的组织。映射到这些参考数据有助于数据的协调、细胞本体和命名方案的标准化,以及跨实验条件和疾病状态的scRNA-seq数据集之间的比较。

一个关键的挑战是将参考数据映射扩展到其他分子模式,包括染色质可及性的单细胞测量(例如scatac -seq)、DNA甲基化(scBS-seq)、组蛋白修饰(sccut tag)和蛋白质水平(CyTOF),其中每一种测量的分子特征都与scRNA-seq不同。缺乏转录组范围的测量为无监督注释带来了挑战。理想情况下,来自不同模式的数据集可以映射到scRNA-seq参考数据集上,确保已建立的细胞标签和本体将被保留。作者和其他人提出了跨模态映射数据集的方法,但这些方法都做出了严格的生物学假设(例如,可访问的染色质与活性转录有关),这些假设可能并不总是正确的,特别是在分析细胞状态转变或发育轨迹时。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第4张

在这里,作者介绍了“桥式集成( 'bridge integration’)”,它通过利用单独的数据集来集成测量不同模式的单细胞数据集,其中两种模式同时作为分子“桥式”进行测量。多组学桥数据集可以由一系列不同的技术生成(图1a),有助于在不同的测量之间转换信息,从而实现可靠的集成,而不需要任何限制性的生物学假设。作者说明了他们的方法的广泛适用性,展示了它在五种不同分子形态上的性能,并强调了可以帮助指导实验设计的多组数据集的特定要求。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第5张Figure 1

桥接集成利用了表示学习的子领域的工具,称为“字典学习('dictionary learning’)”,通常用于图像分析。字典学习的目标是找到输入数据的表示形式,作为单个基本元素的加权线性组合。作者证明了字典学习在单细胞分析中有多种潜在的应用。作者的桥接集成过程是通过将多组数据集中的每个细胞视为字典的元素来实现的,这些元素可用于重建单模态数据集。此外,作者还演示了如何通过数据集草图开发紧凑字典,从而极大地提高大规模单细胞分析的计算效率,并实现跨越数百万个细胞的数十个数据集的快速集成。

开发一种灵活而稳健的整合策略,以整合来自测量不同模式的单细胞测序实验的数据(“单模态数据集”)。最根本的挑战是不同的单模态数据集测量不同的特征集。例如,scRNA-seq测量单个转录本的表达水平,而scATAC-seq或scBS-seq测量DNA可达性或甲基化水平(图1)。作者小组和其他人先前提出的方法试图将一组特征转换为另一组特征,例如,将ATAC-seq信号的基因体和(或DNA甲基化水平)作为转录输出的一种函数。

利用多组字典进行桥接集成

单细胞数据整合的另一种方法是利用多组数据集作为桥梁,可以帮助在不同的模式之间进行转换。受到一种通常用于图像分析和基因组学的表示学习形式之启发,字典学习可以完成这一转换。字典学习的目标是用单个元素表示输入数据,如一个有噪声的图像。这些元素,比如被称为原子的图像补丁,它们共同组成了一个字典。将图像重构为这些原子的加权线性组合是去噪的有效工具,并表示将图像数据集转换为字典定义的空间。

字典学习是在单细胞分辨率下实现跨模态桥接集成的强大工具。本文的关键见解是将多组数据集视为字典,每个细胞的多组学文件代表一个原子。作者学习了基于这些原子的每个单模数据集的“字典表示”。这种转换采用测量完全不同的特征集的数据集,并将它们分别表示在一个空间中,其中定义特征表示同一组原子(图1)。一旦不同的模式可以用相同的特征集来表示,它们就可以在最后一步中很容易地对齐。

桥梁集成如图1b所示,几个关键点如下:

首先,过程没有对模态之间的关系进行假设,因为这些关系是自动从多组数据集中学习的。其次,在这里提出的关键进步是对项目数据集的转换,分析由共享特征集表示的不同模式。

转换后,最后的校准步骤与各种单细胞集成技术兼容,包括Harmony、mnnCorrect、Seurat、Scanorama或scVI。在本文中,使用mnnCorrect算法的实现来执行这一步。

最后,当处理相当大的桥数据集时,大量的原子(桥数据集中的单个细胞)造成了巨大的计算负担。受到Laplacian Eigenmaps所解决的类似问题的启发,为多组数据集计算图Laplacian,并计算特征分解,从而将维数从原子数降低到所选特征向量的数量。然后,作者利用这些特征向量将学习到的字典表示转换到相同的低维空间,极大地提高了桥梁集成过程的效率。

将scATAC-seq数据映射到scRNA-seq参考数据集

首先通过对人骨髓单个核细胞(BMMCs)的scATAC-seq和scRNA-seq样本进行跨模态映射来演示这一桥接整合策略。这些样本由代表造血分化全谱的细胞组成,包括造血干细胞、多效祖细胞和寡效祖细胞,以及完全分化的细胞。作为HuBMAP的一部分,作者利用公共数据集构建了一个全面的scRNA-seq参考数据集(“Azimuth reference”;297,627个细胞),仔细注释10个祖细胞和25个分化细胞状态(图2a)。该方法目标是将人类BMMC42的scATAC-seq“查询”数据集(16,266个全骨髓轮廓和9,893个CD34+富集轮廓)映射到这一参考数据集(图2b)。使用作为NeurIPS 2021的一部分公开发布的10x Multiome dataset(32,368个细胞配对snRNA-seq + scATAC-seq)作为桥梁。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第6张Figure 2

桥接过程成功地将scATAC-seq数据集映射到Azimuth 参考数据集上,实现了scATAC-seq和scRNA-seq数据的联合可视化和注释(图2c)。参考映射还在多个样本中对齐共享的细胞群,减轻了样本特定的批次效应。查询样本表达CD34+ BMMC片段映射到参考数据集中的HSC和祖细胞成分,表明桥式集成可以健壮地处理查询数据集表示参考数据的子集,而整个片段映射到所有35个细胞状态的情况(Supplementary Fig. 1a)。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第7张Supplementary Figure 1

参考衍生注释与原始作者生成的查询数据集的注释是一致的(补充图1b),但作者发现桥式集成注释了额外的稀有和更高分辨率的亚群。例如,作者的注释将单核细胞分为CD14+和CD16+部分,NK细胞分为CD56bright和cd56dιm亚群,细胞毒T细胞分为CD8+和黏膜相关不变T (MAIT)亚群(图2d,e和补充图1c,d)。虽然在无监督的scATAC-seq分析中没有发现这些细分,通过观察典型位点的差异可达性(即CD16+单核细胞中FCGR3A/CD16基因位点的可达性升高),在参考数据集衍生注释分组后,证实了这些预测。类似地,桥式整合发现了极其罕见的先天性淋巴样细胞(ILC;0.15%),最近发现AXL+SIGLEC6+ (ASDC)树突细胞44、45(0.10%)(图2f和补充图1e,f)。而这些细胞群以前没有在scATAC-seq数据中被识别过。差异可达位点,如SIGLEC6基因中的asdc特异性峰值(图2f),充分支持了作者比对程序的准确性。

参考映射过程不仅能够传输离散的注释,而且通过将来自多个模式的数据集投影到一个公共空间,使我们能够探索一种模式的变化如何对应另一种模式的变化。例如,在整合后,将扩散图应用于协调测量,以构建跨越髓细胞分化过程中多个祖细胞状态的关节分化轨迹(图2g)。由于这一轨迹代表参考细胞和查询细胞,可以探索染色质可及性的伪时间变化如何与基因表达相关,即使这两种模式是在单独的实验中测量的。

与之前的发现一致,本文确定了基因表达变化滞后于染色质可及性变化的情况。例如,虽然髓过氧化物酶(MPO)表达在粒细胞-巨噬细胞祖细胞(GMP)中表达,并与髓系命运相关,但在淋巴细胞启动的多能祖细胞(LMPP)中,调控区直接上游获得了可达性(图2h-j)。作者利用基于交叉相关的度量系统地识别了这条轨迹上的236个“滞后”位点。KEGG通路富集分析显示,参与细胞周期和DNA复制的基因有很强的富集(图2k)。这些位点的特征是在分化的最早阶段(造血干细胞)具有可接近的染色质,但在相关基因变得具有转录活性之前存在延迟(图2l)。这些位点在最早的祖细胞中的可访问状态可能代表了一种启动形式,一旦做出分化的决定,就可以快速进入细胞周期,并且代表了可以通过跨模式的综合分析实现的发现类型。

稳健性和基准分析

由于本文的策略依赖于字典表示和重建单个数据集的能力,作者探索了多组数据集的大小和组成如何影响集成的准确性。按顺序对多组数据集进行抽样(downsampled ),重复桥式集成,并将结果与原始结果进行比较。低采样桥通常返回与完整分析一致的结果,但正如预期的那样,可能会影响对抽样最敏感的稀有细胞类型的注释精度(图3a)。如果一个桥数据集包含至少50个代表给定细胞类型的细胞(“原子”),这就足以实现健壮的集成。作者注意到这个门槛并不是严格的要求;即使桥中存在少于10个细胞,对于ASDC等罕见细胞类型,整合也可以成功,但作者也观察到这种情况下的失败模式。作者注意到,对于许多多组学技术来说,生成每个亚群包含超过50个细胞的桥数据集是相当可行的,作者发现为执行多组学实验时的实验设计提供了指导方针。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第8张Figure 3.

接下来,作者将桥梁集成的性能与最近提出的两种多模态和单模态数据集集成分析方法进行了比较。multiVI48和Cobolt49都利用变分自编码器进行集成,虽然他们没有明确地将多组数据集作为桥梁,但他们的目标是将跨技术和方式的数据集集成到共享空间中。当应用于前面描述的数据集时,这两种方法在集成scRNA-seq和scATAC-seq数据方面都取得了广泛的成功,但没有在相同的分辨率水平上识别匹配(例如,两种方法都没有成功地将scATAC-seq数据中的ASDC与Azimuth 参考中的ASDC匹配)(图3b)。在比较计算效率时,桥接集成(0.8小时,不包括1.2小时的预处理时间)和Cobolt(3.3小时)是最高效的方法,而multiVI需要更多的计算资源(15.7小时)。

为了量化基准性能,作者将多组桥数据集分为两组。在一组中,将scRNA-seq和scATAC-seq数据视为来自不同实验的数据,代表了已知基本真相对应关系的集成基准数据集。第二组细胞被用作多组桥数据集。在跨模式比对细胞后,作者计算了每个scATAC-seq细胞与其匹配的scRNA-seq对应之间的Jaccard相似性度量。作者发现桥接整合策略始终最大化了这种相似性度量,这表明本文的程序最有效地匹配了不同模式下处于相同生物状态的细胞(图3c和补充图2d)。 与之前的结果一致,作者发现在绘制包括浆细胞和树突状细胞在内的罕见细胞类型时观察到最强的改进(补充图2d)。由于本文的程序与多种集成技术兼容,作者比较了使用mnnCorrect或Seurat v3进行最终对齐步骤时桥架集成的性能,并观察到非常相似的结果(补充图2d)。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第9张作为基于真实数据的第二个定量基准,作者使用最近发布的成对标记数据集采用了类似的策略,其中,通过scCUT Tag同时用RNA转录组测量单个组蛋白修饰结合图谱。由于每个配对标记实验都是用生物重复进行的,作者使用一个重复作为多组学桥数据集,并将另一个重复分成单独的模式进行基准测试。作者对活跃组蛋白标记(H3K27ac)、抑制组蛋白标记(H3K27me3)和增强组蛋白标记(H3K4me1)进行了scRNA-seq和scCUT Tag的跨模态整合。在每种情况下,桥接整合成功地跨模式整合细胞,并在匹配的scRNA-seq和scCUT Tag配置文件之间返回最高的Jaccard相似性(图3c和补充图2e-g)。

为了进一步证明本方法的灵活性,作者使用桥接集成来映射和注释snmC-seq数据集,该数据集测量来自人类皮层的单细胞DNA甲基化配置文件。作为参考数据集,作者用了Allen Brain Atlas的数据集,该数据集定义了人类皮层中的细胞类型分类,并伴随着专业策划和多层细胞本体。使用同时测量甲基化和基因表达作为桥梁的snmC2T-seq数据集,作者能够以高置信度注释snmC-seq配置文件(补充图2h)。即使引用派生注释没有增加snmC-seq数据无监督聚类的分辨率,它们也增加了大量的可解释性(图3d-f)。例如,无监督聚类识别了多个L6神经元群体(标记为L6-1、L6-2和L6-3),但rna辅助注释清楚地将这些集群标记为“近投射”(NP)或深部新皮层层流6b (L6b)兴奋性神经元(图3f)。

综上所述,这些结果证明了基于桥梁集成过程的准确性、鲁棒性和灵活性。本文展示了多种模式和数据类型的应用,以及通过定量和基本事实基准比较的最佳性能。作者演示了跨模态映射如何帮助解释和提高细胞类型注释的分辨率,包括极其罕见的细胞类型,其识别是由参考数据集中的管理注释促进的。此外,将数据集投影到一个协调的空间中也可以探索跨模态关系。

利用字典学习进行大数据集分析Seurat V5 | 构建单细胞多模态数据整合的统一场论,第10张

最近公开的单细胞数据集的增加对综合分析提出了重大挑战。例如,现在已有数十项研究对多种组织进行了分析,代表了数百个个体和数百万个细胞。将协调来自单一器官的广泛(或全部)公开可用的单细胞数据集的挑战称为“全局分析(community-wide)”集成。虽然丰富多样的分析方法可以协调数十万个细胞的数据集,但即使在分析单一模态时,执行无监督的“全局分析”(community-wide)集成仍然具有挑战性。

本文的灵感来自于之前关于“几何草图(geometric sketching)”的工作,该工作首先在所有数据集中选择一个有代表性的细胞子集(一个“草图”),将它们集成,然后将集成的结果传播回完整的数据集。这种开创性的方法极大地提高了集成的可伸缩性,因为最耗资源的计算步骤集中在数据的子集上。然而,这种方法依赖于主成分分析的结果,且必须在完整的数据集上运行。随着数据集规模的不断增长,需要更复杂的计算基础设施来将完整的数据集加载到内存中,甚至就连执行降维也可能成为限制步骤。本文的目标是设计一种策略,可以集成大量的数据集,而不需要同时分析或在完整的单细胞数据上执行密集的计算。

您将在本文看到,字典学习也可以实现高效和大规模的综合分析。作者首先从每个数据集中选择一个具有代表性的细胞草图(即5000个细胞),并将这些细胞视为字典中的原子(图4a)。接下来用学习字典表示法,表示原子的加权线性组合,可以重建整个数据集。这些步骤可以独立地针对每个数据集进行,从而实现高效的处理。然后,对来自每个数据集的原子执行集成。这是同时分析来自多个数据集的唯一步骤,但由于只考虑原子,因此不会对可伸缩性造成挑战。最后,作者将之前学习的字典表示应用于每个数据集的协调原子,并为整个数据集重建协调配置文件。作者把这个过程称为“原子草图集成(atomic sketch integration)”。作者强调,对在本算法中,用于重建数据集的“原子”表示数据集本身的一个细胞子集。相比之下,在桥式集成中,原子指的是来自不同(多组)数据集的细胞。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第11张Figure 4

原子草图集成( atomic sketch integration )的成功依赖于为每个数据集识别一个有代表性的细胞子集。单细胞分析的草图技术旨在找到保留这些数据集整体几何形状的子样本。这些方法不需要对数据进行预先聚类,但旨在确保绘制的数据集即使在抽样之后也能代表罕见和丰富的细胞状态。在这里,作者使用基于杠杆评分抽样的策略来执行草图,该策略已被提出用于大规模信息检索问题,并且可以在稀疏数据集上快速有效地计算。作者强调了原子草图集成代表一种提高可伸缩性的通用策略,可以广泛地与现有方法相结合。例如,可以使用各种集成技术(包括Harmony、Scanorama、mnnCorrect、scVI和Seurat)来集成每个字典中的原子元素,然后本文的方法可以将这些结果扩展到完整的数据集。

人类肺单细胞数据集成

为了证明原子草图集成在执行“全局分析”方面的潜力,作者将之应用于人类肺部的scRNA-seq数据集。在COVID-19大流行期间,从呼吸组织中广泛收集了scRNA-seq数据,特别是通过人类细胞图谱肺生物网络中的数据( Human Cell Atlas Lung Biological Network)。利用最近发表的scRNA-seq研究“数据库”,以及从人类细胞图谱中公开发布的肺和上呼吸道数据集,整合了一组19个数据集,涵盖1,525,710个细胞。作者创建了一个原子字典,由每个数据集的5,000个细胞组成(总共95,000个原子),集成这些细胞,然后重建完整的数据集。使用单个计算核心,原子草图集成程序在55分钟内完成了所有这些步骤(包括预处理)。

与分开分析相比,文章的结果显示了社区规模整合的优势。首先,通过跨数据集和技术匹配生物状态,集成参考可以帮助标准化细胞本体和命名方案(图4b,c)。当观察先前分配的来自每项研究的注释时,发现匹配的细胞群通常被分配略有不同的名称(补充图3a)。这种规模的无监督集成是识别这些冲突的工具,可以帮助开发权威和标准化的细胞本体(cell ontologies)。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第12张Supplementary Figure 3

作为第二个好处,作者发现社区规模的整合能够一致识别超罕见群体,特别是最近在人类和小鼠肺部发现的表达foxi1的“pulmonary ionocytes”群体(图4d)。虽然这些细胞仅在19项研究中的6项中独立注释,但作者的综合分析在19项研究中的17项中发现了至少一个pulmonary ionocytes细胞。所识别的pulmonary ionocytes细胞极其罕见(0.047%),但典型marker的明确表达(图4b),突出了汇集多个数据集来表征这些细胞的潜在价值。作者注意到,通过草图或杠杆评分抽样来选择字典原子对优化性能至关重要(补充图3b,c);使用随机抽样确定的一组原子重复分析成功地整合了丰富的细胞类型,但未能整合离子细胞,因为它们在字典中没有充分表示。

最后,作者发现社区规模的整合可以显著提高差异表达(DE)细胞类型标记的识别。19个研究重复的使用使我们能够识别出在实验室和技术中表现出一致模式的基因,代表稳健和可重复的标记。根据样本复制和细胞类型特征对细胞进行分组,并对得到的pseudobulk谱进行差异表达(图4e和补充图4)。例如,作者鉴定了116个肺离子细胞阳性标记物,代表了该细胞类型最深层的转录特征之一。这些标记包括典型标记,如转录因子FOXI1,但也揭示了atp酶(如ATP6V1G3, ATP6V0A4)和氯通道(如CLCNKA, CLCNKB, CFTR)的明确本体富集,支持这些细胞在调节肺中化学物质浓度的作用(图4f)。使用pseudobulk 的一个优点是提高了低表达基因的定量精度。事实上,使用该策略发现的顶级DE标记倾向于在较低的平均表达值范围内捕获更多的基因(图4g)。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第13张Supplementary Figure 4scRNA-seq和CyTOF的社区规模集成

之后,作者使用了循环人类外周血细胞数据来展示本文方法的有效性,这是最广泛使用各种单细胞技术的系统之一。通过对COVID-19样本或健康对照的公开研究,作者收集了14项采用scRNA-seq测量方法的研究,共来自639个个体的346万个细胞。其中11项研究的数据来自最近发表的标准化单细胞测序数据集。作者进行了无监督的原子草图集成,产生了一个和谐的集合,其中注释了30个细胞状态(图5a)。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第14张Figure 5.

由于样本的一个子集没有被粒细胞耗尽,收集到的包括一个不同的中性粒细胞群体,这在之前的人类PBMC的方位角参考中是不存在的。此外,作者还鉴定了特异性于COVID-19样本的活化粒细胞和B细胞的特定群体(补充图5a)。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第15张Supplementary Figure 5

与之前的报道一致,COVID-19样本中的单核细胞大幅上调了干扰素反应基因,但与健康单核细胞协调(图5b和补充图5b)。通过在疾病状态下匹配共享的细胞类型(同时仍然允许疾病特异性亚群的可能性),该集合为识别在多个研究中再现的细胞类型特异性转录变化提供了宝贵的资源。作者鉴定了另外8种细胞类型的细胞类型特异性反应,每种细胞类型都表现出保守的干扰素驱动反应以及细胞类型特异性反应基因的激活(补充图6)。

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第16张Supplementary Figure 6.

虽然单细胞测序技术能够测量数千个单细胞中的RNA转录物和表面蛋白质,但基于细胞术( cytometry-based )的技术可以测量数百万个细胞中的细胞外和细胞内蛋白质。基于桥接集成过程应该能够将CyTOF配置文件映射到scRNA-seq数据集上,作者获得了一个包含119个个体和5170,249个细胞的CyTOF数据集。使用之前收集的来自健康捐赠者的161764个PBMC的CITE-seq数据集作为多组学桥。CyTOF和CITE-seq数据集都具有30个细胞表面蛋白特征,而CyTOF数据集还测量了17种独特的蛋白质,其中包括无法通过CITE-seq测量的细胞内靶标。

桥式集成使用来自3.46M细胞scRNA-seq集合的聚类标签注释了每个CyTOF数据集,并允许我们推断每个聚类的细胞内蛋白质水平(图5c)。预测的调节性CD4+ T细胞表达高水平的转录因子Foxp363,效应T细胞表现出富集的Klrg1水平64(图5d)。,在细胞毒性淋巴细胞群中,MAIT细胞唯一缺乏细胞毒性蛋白酶颗粒酶B的表达,这与之前的报道一致。

这些模式中支持跨模态映射的准确性。最后,成功地注释了一种罕见的先天淋巴样细胞群体(0.024%),这些细胞在CyTOF数据集中没有独立鉴定,但正确地表现出CD25+CD127+CD161+CD56-免疫表型4,66(图5d,e)。综上所述,字典学习增强了集成的可扩展性,以及集成和比较不同分子形态的能力。

讨论

为了将测量不同模态集的数据集映射到scRNA-seq参考数据集,作者开发了桥式集成,这是一种利用多组数据集作为桥式的跨模态对齐方法。本文描述了桥梁数据集的特定组成要求,对真实数据集进行了定量基准分析,并证明了该方法对各种技术和模式的广泛适用性。最后,作者演示了如何使用原子草图集成来扩展本方法的可伸缩性,以协调跨越数百万个细胞的数十个数据集。

本文的方法对单个实验室和已经投资构建和注释综合scRNA-seq引用的更大的团队都有价值。例如,人类细胞图谱、人类生物分子图谱项目、Tabula Sapiens和人类细胞景观都发布了横跨多种人类组织的数十万个细胞的scRNA-seq数据集。类似的努力也存在于模式生物中,包括苍蝇细胞图谱项目和植物细胞图谱项目。在每种情况下,这些工作都涉及到仔细的、协作的和专家驱动的细胞注释以及参考细胞本体的管理。虽然对每个模态重复这种手工操作是不可行的,但是桥接集成可以在不修改引用的情况下映射新的模态。随着更多的多组数据集可用,预计像Azimuth这样的工具也将开始绘制更多的模式。

桥式集成特别适合实验设计,其中多组技术可以应用于一个子集,而不是所有的实验样本。这是一种常见的现象,特别是因为多组学技术通常与成本增加、通量降低和每种单独测量类型的数据质量降低相关。特别地,作者注意到组合索引方法可以很容易地应用于使用商业仪器来分析数十万个细胞中的单一模态,但对于多组学技术则不是这样。大型单模态数据集的收集,通过一个较小但具有代表性的多组桥来协调,可能代表了一种有效而强大的策略,可以探索数百万个细胞之间的跨模态关系。在造血干细胞中对细胞周期“启动(priming)”的识别代表了可以通过桥式整合获得的跨模态见解的一个例子。

作者工作的未来扩展可以进一步扩大桥梁集成的适用性或展示其在新环境中的潜力。例如,对空间分辨率的单模态数据集(例如CODEX73)进行桥式集成,可以帮助更好地表征大组织切片中scRNA-seq定义的细胞类型的空间定位。新的多组学技术将高分辨率质谱成像与单细胞或空间转录组学相结合,可以作为协调脂质组学和代谢谱与基于测序的参考文献的桥梁。此外,未来的计算改进将进一步降低桥数据集的要求,实现与更少数量的多组元的健壮集成。

文中作者强调桥梁和原子草图集成的能力,以识别和描述罕见的细胞群,包括AXL+ SIGLEC6+树突状细胞和肺细胞。单细胞转录组分析在这些细胞类型的最初发现中发挥了重要作用,但更深入地了解它们的生物学作用和功能将受益于多模态特征。从最初的细胞类型分类学分类到完整的多模态参考的目标不会通过单一的实验或技术来完成。可以设想用于跨模态集成的计算工具将对该图谱的构建发挥关键作用。

/seurat/
/content/10.1101/2022.02.24.481684v1.full

Seurat V5 | 构建单细胞多模态数据整合的统一场论,第17张

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
白度搜_经验知识百科全书 » Seurat V5 | 构建单细胞多模态数据整合的统一场论

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情