Bioinformatics

RNA Seq 上游分析实践

之前那一篇文章主要讲的是一些知识与工具的用法,这次用六组数据进行分析,得到基因表达矩阵。

专题:RNA-Seq 上游分析学习

转录组测序的研究对象为特定细胞在某一功能状态下所能转录出来的所有 RNA 的总和,包括 mRNA 和非编码 RNA,相对于传统的芯片杂交平台,转录组测序无需预先针对已知序列设计探针,即可对任意物种的整体转录活动进行检测,提供更准确的数字化信号,更高的检测通量以及更广泛的检测范围,是目前深入研究转录组复杂性的强大工具,基于高通量测序平台的转录组测序技术能够全面获得物种特定组织或器官的转录本信息,从而进行基因表达水平研究、新转录本发现研究、转录本结构变异研究等。

详解 ATAC-Seq

ATAC-seq,全称 Assay for Transposase-Accessible Chromatin with high throughput sequencing,是 2013 年由斯坦福大学 William J. Greenleaf 和 Howard Y. Chang 实验室开发的用来研究染色质可及性(通常也理解为染色质的开放性)的方法。

比 Hisat2 更强的 bowtie2

最近在处理一组转录组数据时遇到一个问题,就是这个数据的参考基因组很大,有 10GB 多,Hisat2 总是会报错,于是找到该组数据的原文献,看到材料与方法里使用的是 bowtie2,所以就用 bowtie2 比对,就没有发生错误了。

使用 Trim Galore 替代 Trimmomatic 进行转录组数据清洗

最初第一次使用 Trimmomatic 的时候就很头疼,代码那么长,而且那些参数都很不好懂 … 但是当时也就凑活着用了,最近读到几篇论文都用 trim Galore 来进行测序数据的清洗,于是试用了一下,确实比起 Trimmomatic 要好一些。

富集分析原理

对于基因集功能富集分析原理之前一直不怎么清楚,虽然已经可以做出 GO/KEGG 富集分析,但原理还没有去学习过,这显然是不行的。参考了许多老师的文章,写一下自己对于富集分析原理的理解。

基因命名思路

最近在做黑麦草基因的项目,要对一个基因家族进行命名,与一些老师讨论后有了一个大致的思路。

对人类基因进行 GO 富集分析

最近有一位师兄找我帮忙写一些 R 语言代码,实际上我也不怎么会,网上「借鉴」一些,自己改一些,达到目的似乎也就可以了。但是日后可能要经常和 R 语言打交道,所以还是研究清楚一些比较好。本文说说对人类基因进行注释并做 GO 富集分析。

一次修改注释文件的经历

今天有一位师姐在看到我之前的 基因家族鉴定 帖子之后,请我帮忙修改一份注释文件,他们找了公司测得的文件,格式与标准的注释文件有所差别,于是我使用 Excel 和 Notepad++对文件的格式进行了修改。

使用 HMMER 网页工具进行结构域分析

由于数据库之间的差异,使用 NCBI CDD Search 搜索结构域有时候并不能满足我们的需要,比如我们通常使用 HMMER 来鉴定同一家族的基因并且需要进行结构域可视化,但 HMMER 所使用的数据都来自 pfam,它的数据库可能与 NCBI 的不同,因此而造成结果上的差异,有的时候这种情况会影响我们后面的研究,于是,使用 hmmer 网页工具 来进行结构域分析可能会更好。