文章题为”Interplay between coding and non-coding regulation drives the Arabidopsis seed-to-seedling transition”。该文章发表于 scientific data(中科院一区,IF=16.6,第一作者:Benjamin J. M. Tremblay,通讯作者:Benjamin J. M. Tremblay。
种子中储存的 mRNA 对促进发芽过程至关重要。然而,在从种子到幼苗的转变过程中,RNA 聚合酶 II 的重新激活和 RNA 合成的时机一直存在不确定性。本研究通过整合 csRNA-seq、ATAC-seq 和 smFISH 技术,证明在整个拟南芥发芽过程中都能明显观察到活跃的转录起始。并且发现在拟南芥基因组中普遍存在染色质可及性的动态改变、反义转录以及双向非编码启动子等非编码调控特征。此外,作者揭示了发芽阶段对外源脱落酸 (ABA) 的响应依赖于 ABA 响应基因近端启动子的可及性。作者还发现活性增强子元素会转录、产生非编码增强子 RNA(eRNA),这一现象在后生动物中也广泛存在。本研究阐明了发芽关键阶段编码和非编码转录的程度和重要性,丰富了人们对调控植物发育转变的转录机制的认识。
为了研究种子到幼苗转变过程中转录起始的调控,作者对拟南芥的干种子(DS)、24h 的种子(S24)、72h 的种子(S72)以及暴露在阳光下 6h(L6)、26 小时(L26)、57 小时(L57)的种子进行了 csRNA-seq、sRNA-seq 、RNA-seq 和 ATAC-seq。通过主成分分析发现样本在各个不同的时间点之间表现出明显的相关性。而 csRNA-seq 中分层样品沿 PC1 与 DS 样品的距离更远,表明吸胀可能导致转录起始发生了变化。为验证这一点,作者进行了单分子荧光原位杂交实验(smFISH),在种子萌发的各个阶段的细胞核内都观察到了清晰的转录位点,证实 csRNA-seq 捕获了真正的转录活性,并且转录甚至在吸胀的最早阶段就发生了。热图显示,与 sRNA-seq 和 RNA-seq 相比,csRNA-seq 中基因 TSS 处的读数明显富集,与 ATAC-seq 样本中可访问性增加的区域一致,并且在萌发过程中活性 TSS 数量不断增加。此外,csRNA-seq 的信号富集相较于先前报道的从拟南芥幼苗获得的 GRO-cap 和 CAGE 数据具有明显的改善,说明 csRNA-seq 方法的敏感性能够改进种子萌发过程中转录程度的视图。
csRNA-seq 检测到的 TSS 被组织为 6 个簇,并且作者对每个簇中的基因进行了 GO 富集分析。大多数基因在细胞分解代谢、种子发育、ABA 反应、RNA 代谢、DNA 复制和碳水化合物生物合成等过程中富集。这表明种子中储存的 mRNA 在所有萌发阶段中都起着重要作用,与之相关的 mRNA 在触发萌发所需的翻译机制中处于活跃的转录状态。作者将 csRNA-seq 和 ATAC-seq 数据集进行比较,发现两个样本的时间匹配簇之间存在明显的重叠。并且 DS 特异性的簇 C1 具有最大比例的编码蛋白质的 TSS,而 A1 具有最大比例与转座元件重叠的 ACR。这表明在干燥的种子中可能存在其他未知的转录调控层。
作者对两组序列进行基序鉴定,发现了含有启动子和 ACR 中心周围序列的核心基序,类似于 ABRE、DRE、ACE、Telo-box 和 Site II 基序。这些基序可能与 ABI5 和 RAP2.1 等转录因子匹配,对翻译相关基因的激活可能起重要作用。结果表明在种子到幼苗转变中,染色质可及性、转录因子结合和转录起始相关。通过外源 ABA 处理,早期萌发受到抑制,与 ABI5 活性相关,可能涉及 ABI5 靶点的表达水平和启动子可及性。随后发现,ABI5 和其靶点基因在萌发后表达水平急剧下降,但启动子可及性变化较缓慢。外源 ABA 处理可能重新激活残留 ABI5 与靶点结合,直至其可及性完全丧失。
作者研究了非编码转录组的变化,利用 csRNA-seq 方法捕获到非编码转录起始点,并对其进行了评估。在这项研究中,共发现了 10,106 个非编码起始点,其中 1,293 个与已知注释相符。通过重构,作者成功获得了 2,588 个潜在的长非编码 RNA。此外,作者还发现了 2,702 个反义非编码起始点和 2,841 个基因间非编码起始点。虽然无法预测这些起始点的转录产物,但是它们具有类似于已知非编码 RNA 的特征,如上游 TATA 盒和可识别的 Inr 元素。作者还发现,重构的非编码 RNA 在大小分布、表达水平、编码潜力以及样本间表达变异性方面与已知的 RNA 相似,RNAPII 和修饰标记在蛋白编码和非编码起始点上也存在类似的富集模式。
作者发现,反义转录对蛋白编码基因可能产生影响。其中,约 20.7%的蛋白编码基因包含反义非编码 TSS,并且大多数反义 TSS 位于基因的转录终止位点附近。相比正义 TSS,反义 TSS 的转录起始率普遍较低,但序列保守性与正义 TSS 相当。存在近邻反义 TSS 可能会干扰基因内核小体的定位,影响 RNAPII 的正常移动。正义和反义 TSS 之间表达模式的相关性越高,平均最大表达水平就越低。此外,正义和反义转录很可能不能同时发生,并且仅在不同组织中表达。
作者通过 csRNA-seq 分析拟南芥的转录,发现了 1127 对 pcTSS-pcTSS 对,1643 对 ncTSS-pcTSS 对,以及 381 对 ncTSS-ncTSS 反向对,距离都不超过 500bp。48%的 ncTSS-pcTSS 对和 12%的 ncTSS-ncTSS 对高于参考文献观察值。距离缩小,ncTSS-pcTSS 和 ncTSS-ncTSS 对的平均相关性增加,表明 pcTSS 可能不能同时从共享启动子起作用,而 ncTSS 可能与另一个 pcTSS 或 ncTSS 结合起作用。距离不超过 500bp 的 ncTSS-pcTSS 对共享 ACR,而距离更远的 TSS 对则不能共享 ACR。具有分歧启动子的基因倾向于在转录起始位点距离之外有较大的可及性峰值。两个 TSS 起始的核小体存在,并且 RNA-seq 读取密度增加。除了分歧 ncTSS 处的 TATA 盒和 Inr 元件外,没有发现特定序列组成。大多数对的 Pearson 相关系数小于 0.25,但 csRNA-seq 信号比例相似,只有不存在相关性的对有所不同。分歧启动子对的 ncTSS 和 pcTSS 独立转录。分歧启动子对的可及性可能与分歧转录有关,而序列组成没有明显特点。使用 RT-qPCR 验证了两个基因的分歧转录,破坏启动子的突变 T-DNA 插入线不影响另一个 TSS 的转录。以上结果表明,拟南芥转录中存在分歧转录现象,ncTSS 和 pcTSS 在分歧启动子对中独立转录,分歧启动子的可及性可能与分歧转录有关,而序列组成没有明显特点。
作者发现,在拟南芥中存在双向非编码转录现象,该现象可在基因内与基因间观察到。双向非编码启动子的中位距离接近于发散式启动子,约为 200 bp。相对于发散式启动子,双向非编码启动子的保守性较低,且在基因内与基因间的情况下亦不明显。双向非编码启动子的序列组成除 TATA box 与 Inr 元件外无共同部分,但它们具 RNA 聚合酶 II(RNAPII)和核小体定位能力,另有 H3K4me3 和 H3K9ac 的活性化组蛋白标记。各个双向非编码启动子的表达量平衡且相关性较高。CRISPR 实验证实双向非编码启动子在基因内具有活性。此外,此研究亦证明,即使没有观察到转录活性,非编码区域也可作为远程调控因子。作者成功地验证了这些区域可作为转录增强子的能力。作者从单个 TSS 区域中确定了一组活跃的增强子,并通过对非编码 TSS 的搜索,获得了 1891 个可能的增强子,主要与非编码区域重叠。这些增强子在发芽期间活跃,并与 RNAPII 和活性化的组蛋白标记 H3K9ac 富集。与增强子相关的基因表达呈现高相关性,并富集于转录因子活性。以上结果揭示了拟南芥中双向非编码转录和增强子的特征,以及它们与基因表达的关联性和调控机制。
本研究利用 csRNA-seq 和 ATAC-seq 技术揭示了新生转录起始在种子至幼苗转变过程中的调控作用。研究发现在干籽中存在一些活跃调节,而在萌发和幼苗生长过程中,转录调控主要集中在 RNA 代谢、核糖体和蛋白质糖基化基因的转录。此外,研究还发现了广泛分布的 csRNA 峰,揭示了干籽中的转录起始活性。并且揭示了未注释的非编码转录起始位点和反义转录的存在,对双向启动子和双向非编码启动子的作用进行了探究。这些研究结果突显了新生转录在种子至幼苗转变过程中的重要性,为进一步研究种子生物学提供了新的方向。