GO&KEGG 富集分析

May 13, 2023

本文总阅读量次

功能富集分析是将基因或者蛋白列表分成多个部分，即将一堆基因进行分类，而这里的分类标准往往是按照基因的功能来限定的。换句话说，就是把一个基因列表中，具有相似功能的基因放到一起，并和生物学表型关联起来。

何为 GO 和 KEGG?

为了解决将基因按照功能进行分类的问题，科学家们开发了很多基因功能注释数据库。这其中比较有名的一个就是 Gene Ontology（基因本体论，GO）和 Kyoto Encyclopedia of Genes and Genomes（京都基因与基因组百科全书，KEGG）。

其中，GO 是基因本体论联合会建立的一个数据库，旨在建立一个适用于各种物种的、对基因和蛋白功能进行限定和描述的，并能随着研究不断深入而更新的语义词汇标准。GO 注释分为三大类，分别是：分子生物学功能（Molecular Function，MF）、生物学过程（Biological Process，BP）和细胞学组分（Cellular Components，CC），通过这三个功能大类，对一个基因的功能进行多方面的限定和描述。

而 KEGG，大多数听说过 KEGG 的人都会把它当做一个基因通路（Pathway）的数据库，其实人家的功能远不止于此。KEGG 是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG 下属 4 个大类和 17 和子数据库，而其中有一个数据库叫做 KEGG Pathway，专门存储不同物种中基因通路的信息，也是用的最多的一个，所以，久而久之，KEGG 就被大家当做是一个通路数据库了

如何做功能富集分析？

功能富集分析的算法有很多种，能够做功能富集分析的工具也非常多，如果大家想深入了解的话，下面是一个工具列表可供大家学习。

在以上所有的工具中，有一个工具是最为常用，也最为权威，那就是 DAVID，DAVID 是由美国 Leidos 生物医学研究公司的 LHRI 团队开发的一个在线基因注释及功能富集网站，其网址为 https://david.ncifcrf.gov 为什么说 DAVID 它是最权威的呢？看下图就知道了：仅 DAVID 这一个软件就发表了 10 篇 sci 文章，其中 5 分以上 7 篇，累计影响因子将近 85 分。其他用 DAVID 进行分析并发表的文章就更不计其数了

获取富集数据

打开 DAVID 官网：https://david.ncifcrf.gov/

点击上方功能菜单 Functional Annotation

选择上方的 upload 选项卡，在编辑框内粘贴基因 ID 列表，选 ID 类型为 ENSEMBL_GENE_ID ，选择列表类型为基因列表，最后上传列表

现在展示出的即富集分析结果，取消勾选上方 Check Defaults 取消全选，展开 Gene_Ontology 项，勾选 BP、CC、MF 项，点击最下方 Functional Annotation Chart 将勾选的项目以列表形式给出

随后就会跳出一个浏览器页面，以列表的形式将上述结果展示给我们了，点击右上方 Doanload File 将新弹出窗口中的数据复制保存在 Excel 表格中，按顺序保留下列数据

BP、CC、MF

此处我解释一下 BP、CC、MF 项分别为什么意思

GO 是 Gene Ontology 的缩写，是一种用于生物信息学和计算生物学中的术语表达的标准格式。GO 主要由三个部分组成：分子功能（Molecular Function，MF）、生物过程（Biological Process，BP）和细胞组分（Cellular Component，CC）这些术语描述了基因和蛋白质的不同功能和所处的环境

BP（Biological Process）是指分析对象（如基因）所参与的生物学过程，通常是一组相互作用的生物学事件，这些生物学事件在时间和空间上有一定的结构和组织，比如细胞代谢、信号转导、生物合成等等

CC（Cellular Component）是指分析对象（如蛋白质）所在的细胞组成部分，即它所在的细胞器、细胞构造和細胞組織中对应的位置。比如细胞膜、线粒体、细胞核等等

MF（Molecular Function）是指分析对象（如基因或蛋白质）具有的分子功能，即它所扮演的特定化学活性，比如催化反应、配体结合、蛋白质结合、转录因子结合等

处理数据

第一列：富集的名字（Term）第二列：是 X 轴显示内容，例如 gene ratio 等（%列）第三列：p 值或者 fdr，即图中的颜色，根据 p 值变化（p-value 列）第四列：基因数，控制气泡大小（Count）第五列：为可选列，为分类信息，例如 BP，CC，MF 等（Category）

在制作气泡图时，通常会对富集分析结果中的 P 值进行转换，以避免图像上 P 值的差异过分压缩的情况。常用的转换方式是将 P 值进行-log10（以对数值）的处理

对数据进行整理，简化一下名称，最终得到如下数据

绘图

打开微生信平台（http://www.bioinformatics.com.cn/）的富集气泡图功能进行绘图，也可以使用 R 和 Excel，R 的环境比较复杂，这里我就不放代码了。

结果分析

在这个 GO 富集分析结果中，我们可以从不同的角度来分析：

在功能方面（GOTERM_MF_DIRECT），我们可以看到，13 个基因处于“半胱氨酸型内切酶抑制剂活性”的功能位置，这一结果的贡献值（P 值，Bonferroni、Benjamin 人为误判率）非常小，表明这 13 个基因的相似分布可能不是随机事件造成的，进而推断这些基因在相关的生物过程、疾病或免疫应答方面扮演着重要的作用

在细胞组分方面（GOTERM_CC_DIRECT），这 13 个基因中有 11 个基因分布于“细胞外区域”，并具有非常高的显著水平和 FDR 调整系数值，表明这些基因在“细胞外区域”方面的富集并不是随机发生的，这表明这些基因可能参与了水稻的细胞外相关生理作用和功能

在生物过程方面（GOTERM_BP_DIRECT），这 13 个基因中的所有基因均涉及到“防御反应”，且 P 值和调整后的 P 值均非常小，这表明这些基因在水稻防御反应中可能扮演一个重要的角色

因此，结合这些结果，这些基因群应该与防御反应有关，它们在水稻中可能扮演着一种重要的保护性功能