ヒトゲノムWiki

幻影随想』というブログで以前『ヒトゲノムWikiが出来ます』というエントリに、以下のようなコメントを書き込ませてもらった事があるんだけど:

へー、2万5千しかないんですか、遺伝子。

非コード領域(=調節因子?)の重要性の認識がだんだん大きくなっていきそうですね。

…非コード領域に、種間の変異が中立的でない部分を統計的に示せたら、調節因子(?)として重要な領域をマークできるんじゃないかしらん?

…などと、ど素人なりに愚考w

Posted by Cru at 2008年07月12日 16:13


これ書いた時*1は、仕事で大量のデータを食わせて統計的に学習させるComputer Visionの真似事をやってた頃で、イメージとしてはゲノム解読が終わった生物種間のゲノム情報を総当りで調べればタンパク質コード領域以外のプロモータ配列を利用できない重要な領域を、中立的な変異速度に比べて塩基置換が遅い、あるいは逆に速い事を手がかりにマーク出来るんじゃないかなぁと漠然と考えていたわけ。
特にたんぱく質コード領域がえらい少ないという事になれば発生等の調節因子が決定的に重要になるんでないの?みたいな予感がしたんで。*2

で、先日買った『日経サイエンス』の『DNAに見えた「人間の証し」』という記事。
チンパンジーと人間の間のDNA配列がほぼ99%まったく同じという結果から、ゲノムの30億文字のうちの異なっている1500万塩基対のどこかに人とチンパンジーを分かちヒトをヒトたらしめる差が存在するということで――

 ヒトゲノムに占める割合は小さいものの,1500万塩基は探索するには膨大だ。そこで私は探索の効率を上げるために,ヒトゲノムをスキャンして,チンパンジーとの共通祖先から分かれた後に最も大きく変化したDNA配列を見つけるコンピュータープログラムを書いた。ランダムな遺伝子突然変異の大半は,生物体にとって有益でも害でもないため(訳注:純粋な中立進化),2つの現生種が共通祖先から分かれた後の経過時間を反映して一定の速度で蓄積していく(この変化率は「分子時計の刻み」と表現される)。
 一方,ゲノムの特定領域の進化速度がこの速度よりもずっと速ければ,「正の選択」を受けたことの証拠となる。正の選択とは,生存や生殖に有用な変異であれば,後の世代に伝えられる確率が高くなることを意味する。言い換えれば,チンパンジーとヒトの系統がヒトをチンパンジーと隔てるもの分かれてから大きな変化を受けた部分こそが,種としてのヒトを創りあげた可能性の高い配列にほかならない。
 数カ月間に及ぶプログラムのデバッグと最適化を終え,カリフォルニア大学サンタクルーズ校に設置された大規模なクラスター型コンピューターで計算を開始し,2004年11月,進化の過程で変化速度が速かった配列を洗い出したファイルをついに手に入れた。肩越しに画面を覗き込む指導教授のハースラー(David Haussler)とともにリストの一番上に目をやった。そこには118塩基対の配列があった。のちに,ヒト系統における進化の速度が速いという意味で「ヒト加速領域1」(human accelerated region 1 ; HAR1)として知られるようになる配列だ。
 同校のゲノムブラウサ(公共データベースに登録されたゲノム情報をもとに生物学的情報を盛り込んだ可視化ツール)を使ってHAR1のページを呼び出してみた。すると,HAR1の配列が,ヒト,チンパンジー,マウス,ラット,ニワトリに存在することがわかった。その時点でゲノム解読が終わっていた脊椎勣物のすべてにHAR1に対応する配列があったのだ。さらに,過去に行われた大規模スクリーニング実験で,HAR1の活性がヒト脳細胞の2つの試料中で検出されていたことも判明したが,その配列を命名したり詳しく調べたりした者はいなかった。HAR1が脳内で活発に発現しており,かつ研究者が注目していなかった遺伝子だとわかった瞬間,ハースラー教授と私は思わず「やった!」と声をあげた。
 私たちは大当たりを引いたのだ。…

やっぱ、置換速度を洗い出す手法は有効じゃん!
と、思い出したので上げて見ました。
6年も前の話らしいので全然プライオリティ主張出来ませんが、ど素人なので悔しくありません。^^
とか言って。^^
つか、これってだんだん標準的なサーベイ手法になってったりしないかしらん?

*1:いきなり遺伝子数に感心したりしてど素人丸出しですが^^、ヒトゲノム計画が終わりかけてる頃には遺伝子数が10万個とか言ってましたよね、確か。想像だけど、2万5千という数はプロモータ配列でマークされる蛋白質コード領域の数で、ここで日経サイエンスから引用したHAR1はふくまれていないんじゃないかな

*2:個人的にはやっぱり発生に一番興味がわきます。他にも分化細胞のメチル化の機構とかリボザイムとか。よくは知らんけど、たとえ発生初期には卵子の細胞内機構があるとはいえ、発生の時間順序・空間配置機構とか、ほとんどなんでもかんでもDNAにコードされてるはず。ヘッジホッグ蛋白質とか以外にも直接DNAにコードされてたりリボザイムがからんでたりする時間順序・空間配置の機構が発見されてくる気がするわけ。まったく何の役にもたたないジャンク領域ってあるのかしらん?(7/15追記:さすがにレトロウィルスの残骸とかはジャンクかなぁ) 蛋白質コード領域以外は置換速度が速い&個体差が大きいらしいけど…。生体の活性に決定的に重要なタンパク質コード領域以外の領域のほうが逆に表現形に与える影響が大きいんではないかと。