文献分享|拟南芥根部的单细胞分辨率调控景观

文章题为"The regulatory landscape of Arabidopsis thaliana roots at single-cell resolution"。该文章发表于 Nature Communications(中科院一区,IF=14.7,第一作者:Michael W. Dorrity,通讯作者:Josh T. Cuperus)。

文献内容简介

本文利用 scRNA-seq 和 scATAC-seq,深入研究了拟南芥根部细胞的基因调控与表达。研究发现,尽管染色质可及性与基因表达在植物中的相关性通常较弱,但在环境刺激或发育信号响应中动态变化的调控元件中,这种相关性有所增强。此外,研究还揭示了细胞类型特异性基因表达与细胞发育轨迹的关系,特别是细胞成熟过程中基因倍增现象(endoreduplication)对基因调控的影响。通过整合 scATAC-seq 和 scRNA-seq 数据,本研究成功预测了细胞的身份、功能及发育阶段,为解析植物发育的基因调控网络提供了新视角。

通过单细胞 ATAC-seq 技术,对 5283 个拟南芥根细胞核进行了分析,通过 UMAP 降维和 Louvain 聚类识别出九种细胞簇,并发现约 20%的可访问位点富含细胞类型信息。通过计算“基因活性”分数,将染色质可及性与基因调控关联,为每个细胞簇赋予细胞类型注释。研究发现,尽管许多位点在不同组织类型中显示出差异可及性,但相近细胞类型间的可及性差异仍有待深入研究。研究结果显示,单细胞 ATAC-seq 能有效识别已知根细胞类型,并提供细胞身份的额外信息,有助于细胞类型的进一步细分。

通过分析拟南芥中所有转录因子家族的代表性基序,构建了峰-基序矩阵,并利用线性回归测试了基序计数与细胞类型特异性可及性的关联。研究发现,所有细胞类型中至少有一个转录因子家族的基序与染色质可及性显著相关,例如 WRKY 转录因子家族的基序与表皮细胞的染色质可及性强烈相关。此外,基序对相对可及性的影响足以根据广泛的组织类别对细胞类型进行层次聚类,表明基序关联能够独立验证 scATAC-seq 数据中检测到的染色质可及位点的细胞类型特异性。

通过将单细胞 ATAC-seq 和单细胞 RNA-seq 数据整合,利用 Seurat 包中的基于锚点的多模态图对齐工具,在同一低维空间中嵌入两种数据类型,以保持由 scATAC-seq 和 scRNA-seq 定义的细胞身份。研究发现,来自两种实验的细胞在嵌入空间中混合良好,且同一类型的细胞在不同数据源中共同定位,表明 RNA 和 ATAC 信号在复杂组织中的单个细胞水平上能够有效分组细胞身份。此外,通过将邻近 scRNA 细胞的标签转移到 scATAC 细胞上,进一步细化了细胞类型注释,特别是在表皮细胞中区分了毛发和非毛发细胞。这一整合方法揭示了 scATAC 数据在单一细胞类型内提供比 scRNA 数据更细致的“类型”分层的能力。

通过单细胞 ATAC-seq 数据探索了拟南芥根中 DNA 拷贝数及其对基因调控的影响,特别是在不同细胞层经历不同速率的基因倍增(endoreduplication)。研究采用了基于可及性数据中转座事件数量和 scRNA-seq 数据中转录组特征的两种方法来识别基因倍增细胞,发现这两种方法在识别基因倍增细胞方面一致,并显示了表皮细胞层中基因倍增水平较高、韧皮部中较低的趋势。研究进一步分析了拟南芥根中的三种内皮细胞亚型,发现这些亚型在染色质可及性和基因表达模式上存在差异,这些差异与细胞的发育进程和基因倍增水平相关。较早期的内皮细胞亚型主要涉及卡斯帕里带形成和蜡质生物合成,而较成熟的亚型则与应激反应、毒性化合物代谢和水分通道蛋白有关。通过整合转录组和染色质可及性数据,研究揭示了内皮细胞亚型在发育进程和基因倍增水平上的差异,强调了综合分析这两种数据类型在识别可能被单一数据类型掩盖的细胞类型或状态方面的重要性。

通过整合单细胞 ATAC-seq 和单细胞 RNA-seq 数据,预测了拟南芥根细胞类型调控中的转录因子。以 WRKY 转录因子家族为例,研究利用最近邻注释方法分析了所有 WRKY 家族成员的表达水平,并根据其在表皮细胞中的特异性排序,确定了几个候选基因,如 TTG2。通过线性回归方法,识别了与 TTG2 表达水平显著相关的可及性位点,并观察到这些位点在 TTG2 表达增加时可及性增加或减少。分析表明,WRKY 转录因子在表皮细胞特化中可能涉及直接和间接的调控事件。这些发现为后续功能研究提供了候选基因和调控位点,强调了整合单细胞数据在揭示细胞类型特化中的重要调控事件方面的价值。

讨论

  • 本研究利用单细胞 ATAC-seq 技术,成功识别了拟南芥根中的多种细胞类型和发育阶段,并探讨了转录因子和 DNA 拷贝数的变化。研究发现,单细胞分析揭示的细胞类型特异性染色质开放位点远超传统 bulk 实验,更准确地反映了细胞类型的多样性。
  • 尽管单细胞 ATAC-seq 发现了更多动态可及性位点,但这些位点与基因表达的相关性仍然较弱,可能反映了调控过程的复杂性和两种数据类型捕捉到的调控方面的差异。
  • 作者识别了三种内皮细胞亚型,它们在转录复杂性和基因倍增方面存在差异,代表了内皮细胞发育的不同阶段。然而,对于单个标记基因 MYB36,其可及性在三个亚型中相似,而预测的 MYB36 表达在内皮细胞 3 中最高,表明可及性与表达之间没有直接的一对一关系。
  • 尽管单个位点上染色质可及性和基因表达的相关性较弱,但细胞的整体调控景观或转录组可以独立地捕捉其细胞身份,使得两种数据类型可以联合嵌入,并利用 scRNA-seq 数据来注释 scATAC 细胞。
  • 结合 scATAC-seq 和 scRNA-seq 数据将有助于构建基因调控网络的机制模型。由于许多植物转录因子家族成员众多且识别相似的基序,因此需要将可及性数据与单细胞表达数据整合,以缩小最可能参与个体调控事件的转录因子范围。