一、ID常識
ENSG00000141510
ensembl ID是歐洲生物信息數據庫的基因標識符,ensembl ID是歐洲生物信息數據庫的基因標識符,基因都是以ENSG(ensembl gene)四個大寫字母開始,后面跟著11位數字。它包含了兩萬多個蛋白質編碼基因,有很多的假基因、miRNA等,因此它的數量較多,有六萬多個,比人類已知的基因數(2萬左右)多得多。
- Ensemble ID 基本上是以ENS開頭,后接表示物種的符號, ENSMUS: 表示Mus musculus (Mouse)
- Homo sapiens 直接以ENS表示
-
少部分的,以其他開頭
image.png
ENSMUSG00000000031: 小鼠基因
ENSMUST00000000031: 小鼠轉錄本
ENSMUSP00000000031: 小鼠蛋白
ENSG00000000031: 人基因
NG_017013
RefSeq數據庫,即RefSeq參考序列數據庫,是美國國家生物信息技術中心(NCBI)提供的具有生物意義上的非冗余的基因和蛋白質等片段序列的數據庫。RefSeq 有一套特殊的 Accesion Number(就是我們通常用的RefSeq ID)讓我們來進行檢索。ID的常見前綴為:
TP53
HGNC ID 是指由人類基因命名委員會(HUGO Gene Nomenclature Committee)指定的基因標識符,該委員會通常對基因賦予一個名字以及一個ID。官方基因名字(gene symbol)由HGNC起名。HGNC命名的基因收錄在以下數據庫中:http://www.genenames.org/
人類TP53基因:
- 標準的symbol(名字):TP53(tumor protein p53)
- HGNC ID :11998
7157
Gene ID 也稱Entrez ID,就是一系列數字, 也比較容易辨識。NCBI的Gene數據庫記錄了不同物種的基因信息,在Gene數據庫中,給每一個基因提供了一個唯一的ID, 這個ID叫做Entrez ID,Entrez是NCBI的檢索系統的名字。在NCBI中,所有的基因都有Entrez ID和Gene Symbol, 其中只有部分基因擁有HGNC Symbol。
Gene ID (Entrez ID)查詢:
https://www.ncbi.nlm.nih.gov/gene/
uc003tqk.4
UCSC的基因ID以uc開頭,比如uc003tqk.4, 稱之為knownGene, 完整的基因列表可以從以下鏈接下載:http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/knownGene.txt.gz
hsa:7157
KEGG的Gene 數據庫也擁有自己的gene ID, 以三個字母的物種縮寫和id構成,比如tp53對應的kegg gene id 為hsa:7157。鏈接如下:https://www.kegg.jp/dbget-bin/www_bget?hsa:7157
發表文章時,在文章中呈現的通常都是基因的HGNC symbol,就像TP53,EGFR,KRAS。
二、ID轉換
Biomart是ensembl下屬的一個網絡數據庫,里面包含非常多的信息。biomaRt包是該網站的R語言接口,可以幫助用戶在R語言中實現biomart的功能。
BiocManager::install("biomaRt")
library(biomaRt)
參考文章
https://www.sohu.com/a/245475759_777125
https://blog.csdn.net/shy_321/article/details/117968423
https://cloud.tencent.com/developer/article/1625202
https://cloud.tencent.com/developer/article/1638291
http://www.lxweimin.com/p/33e22a558457