St_Hakky’s blog

Data Science / Human Resources / Web Applicationについて書きます

GO(Gene Ontology)とは

こんにちは。いろいろ知識が増えて来たので、せっかくなのでまとめておきます。

○GOとは

GO は gene ontology のことであり、遺伝子の生物的プロセス、細胞の構成要素および分子機能に着目して、遺伝子に付けられるアノテーションです。ある遺伝子に付けられた GO を調べることによって、その遺伝子の機能や細胞内局在がある程度推定できます。

GOは、人が定義した遺伝子のアノテーション情報で、階層構造を持っています。最上位の回想では、以下の3つの分野に分類されています。

MF: Molecular Function <分子としての機能>
例.”ヘモグロビン”等、物質名

CC: Cellular Component <細胞の構成要素>
例.”ミトコンドリア”等、細胞内の局在、パーツ

BP: Biological Process <生物学的なプロセス>
例.”糖代謝”等、生体内の反応

GOの階層構造は、上位の情報の方がより一般的な機能の表現になり、下位の情報がより専門的な機能の表現になります。そのため、遺伝子のGOは上位の情報も合わせて確認する必要があります。

また、GOの3つの分野の階層構造はそれぞれDAGによって表現され、意味関係が必ず包含関係になるようになっています。これらの情報を見ることで、その遺伝子がどのような働きをしているかを確認することができます。

youtu.be

こちらのサイトを見ると、以下のようなことがわかります。
たんぱく質の機能情報を見る方法
Gene Ontologyで定義された3つの構成要素についてとそれぞれの意味
エビデンスコードと呼ばれる信頼度の尺度があること
・得られたGOの情報は、階層構造をグラフとして表現できること
・包含関係にも様々な関係("is a”など)があること

すごくわかりやすいです。

また、エビデンスコードの一覧は以下のサイトにあります。

Guide to GO Evidence Codes | Gene Ontology Consortium

Gene Ontology Consortium

標準化された用語によって生物学的現象を記述することを目的とした機能情報に関するデータベースのこと。

Gene Ontology Consortium | Gene Ontology Consortium

ここには、GOに関する様々な情報が入っています。詳しくみれたらまたこの部分は更新します。

○GO Term

GO内で決められたアノテーション情報は、GO Termといい、通し番号が振られています。
例:GO:0006915

アノテーションとはなんぞやって思った方はこちらを参照あれ。この場合は、遺伝子に紐づけられた特徴を表す情報といったところでしょうか。注釈情報とか。
アノテーション - Wikipedia
アノテーション (annotation) – マイクロアレイ解析(ゲノム解析)

アノテーション情報は主に以下の情報を含んでいます。
・GeneSymbol:公式の名称
・Description:遺伝子の機能を表す説明文
・GO:遺伝子に紐づけられたGene Ontologyの情報

その他にもありますが。

○GO解析(GO Analysis)

GO解析では、ある遺伝子リスト(発現変動遺伝子等)に対して、密に含まれているGO Termを超幾何分布のp値等で、統計的に検出します。

マイクロアレイ解析を行った結果得られた発現変動遺伝子を見ると、特定のGOが多く含まれていることがわかります。ここで、どの程度その特定のGOが見つかれば、特徴を表現しているとして良いか、を統計的に調べる手法がGO解析です。

例として、「GO解析 (1) – マイクロアレイ解析(ゲノム解析)」にあるように、

何個 “inflammatory response” が見つかれば、「マイクロアレイ解析の結果、炎症系の遺伝子に影響があった」と言えるのでしょうか?

といったことがあげられます。これを解析するのがGO解析となります。

GO解析(2) – マイクロアレイ解析(ゲノム解析)」によれば、GO解析のキーポイントは次の二点になります。

1.その用語をアノテーションに持つ遺伝子が、ゲノム中にもともと多いのかどうか。
2.発現が増加または、減少した遺伝子の数が多いかのどうか。

1は「もともと多いところからいっぱい見つかってもそれは特徴とは言えんだろ」ということで、2は「増減が多かったらその分いろんなアノテーションが出てくるからそれは特徴とは言えんだろ」という感じでしょうか。

超幾何分布などを用いて検定を行なっているようですが、ここについてはまた調べたらいいます。

■参考
GO解析 (1) – マイクロアレイ解析(ゲノム解析)
GO解析(2) – マイクロアレイ解析(ゲノム解析)

○GOの得意・不得意

以下のサイトにまとめられています。

Gene Ontology (GO) の得意、不得意 – マイクロアレイ解析(ゲノム解析)

○RでGO:GO.db

Bioconductor の GO.db パッケージは、遺伝子オントロジーを R で利用しやすいようにパッケージしたものである。詳しくは本家のサイトを参照あれ。

bioconductor.org


参考:
GO.db | Rを利用して遺伝子オントロジーをデータベースから調べたい場合

○RでGO:GOSim

RからGOのデータを扱う方法として、GOSimというパッケージが用意されています。

bioconductor.org

これを使うと、遺伝子の機能から遺伝子間の類似度を測れるそう(ちょっとこれはあやしいけど)。

○GOをややこしくしているもの

こちらにまとまっているのですが、ややこしくしているものがあります。

sites.google.com

①全ての遺伝子がGO Termを持っているわけではない
生物種によりますが、マイクロアレイで検出する遺伝子の半数くらいは何をやっているのかわかりません。そのため、これらはGO Termが付いていないので、GO解析では、GO Termが付いている遺伝子のみを解析対象としています。

②1遺伝子に対して、複数のGO Termが付随している場合が多い
定義によっては関係無いGO Termが二つ以上付いたりします。

③階層構造を持っているため、下の階層のGO Termで定義されている遺伝子には、上の階層のGO Termも当然定義されている(十分条件みたいな)
例えば、あるGO Term(CC)”ミトコンドリア内”というのが、”核内”というGO Termの真下の階層になっている場合、”ミトコンドリア内”というGO Termが付いた遺伝子には、当然”核内”というGO Termが併せて付いています。

こういったGOの性質のために、変な事が起きたりします。
*例え1遺伝子しか検出されていなくても、その遺伝子で定義された複数のGO Termが有意と判定される(検定は、GO Termに対して行われるため)
*そもそも定義している遺伝子が少ないGO Termは検出されると、確実に有意と判定される(階層構造で下に行く程、より絞られて数が少なくなるため)

○調べた感想というか改めての感想

んー、これってかなり曖昧な情報群な気が、、、っていつも思いながらみています笑。もちろん、これは凄まじい努力の上に成り立っていると思われますが、やっぱり生物は曖昧なのでしょうか。