ENCODEプロジェクトのNGSデータを活用する
概要
ENCODEプロジェクトとは、ポストゲノム研究戦略としてヒトゲノムの機能性エレメントの同定とその全体像を解明するために組織された国際プロジェクトの1つです。
RNA-seq、ChIP-seq、DNase-seq、Hi-C、ChIA-PET、eCLIP-seqなどの解析手法を用いて、毎月膨大なデータを産出しています。
ENCODEプロジェクトでは、共通のプロトコルに基づいた実験と解析によりデータが産出され、即座に一般公開される仕組みを取っています。また、プロトコルも公開されているので自身で内容を確認・再解析することもできます。
ENCODEプロジェクトのデータは、プロジェクトに参加していないラボ・研究機関であっても、ウェブサイト上で公開されているNGSデータに関しては、自由にダウンロードして解析し論文のデータとして使用することもできます。
Data Use, Software, and Analysis Release Policies – ENCODE
実際に、ENCODEのデータを利用して投稿された論文はこれまで1700本にのぼります。
Publications using ENCODE data – ENCODE
ENCODEプロジェクトのデータベースには、有用な情報やデータがいっぱい公開されているのでこれらを使わない手はありません。
そこで今回は、ENCODEプロジェクトに登録されているデータを活用して手軽にデータ解析する方法をまとめました。今回は主に、RNA結合タンパク質(RBP)が結合するRNA領域を網羅的に同定する方法であるeCLIP-seqデータについて見ていきたいと思います。
また、RBPをIPした時に使用した抗体の情報など即座に使える情報も載っているのでそれらについても紹介しようと思います。
欲しいデータを探す
キーワードで検索
まず、ENCODEプロジェクトのウェブサイトに行きます。
ENCODE: Encyclopedia of DNA Elements – ENCODE
右上の検索欄に興味のあるRBPの名前を入力します。
試しにSFPQ
というRBPで検索にかけると、eCLIP-seq、Bind-n-seq、RNA-seq等のデータや、IPに使用した抗体の情報が出てきます。
データの種類から検索
他にも、[Encyclopedia]->[about]から各種データにアクセスできます。
この他にも、いろいろな検索方法が用意されていますが割愛します。
抗体の情報
右端にAntibody
と記載されているのが、抗体の情報です。
その中でも、緑色のマークがついているものは、ENCODEでStandardな抗体として認められた抗体です(抗体の特異性など幾つかの基準をもとに選定されている)。
クリックすると、その抗体でIPしたときのWestern blottingのデータや、shRNAでノックダウンしたときに目的のバンドが減弱しているかどうかWestern blottingで確認したデータなどが公開されています。
以上の情報から、各メーカーの抗体の良し悪しを知ることができます。 ちなみに、以下がENCODEプロジェクトで確認した抗体に関する論文になります。
http://yeolab.github.io/papers/2016/sundararaman_molcell_2016.pdf
Bind-n-seqデータ
Bind-n-seqについては、下記の論文を参照のこと。方法の詳細については、ここでは割愛します。
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4142047/
リコンビナントタンパク質のQCデータと、Enrichされたモチーフ配列の情報が載っています。
さらに、Processed data
の項目のところに、Enrichされた4, 5, 6, 7ntのモチーフ配列のデータがそれぞれ置いてあります(output typeがenrichment
となっているやつ)。
ダウンロードボタン(Accession
にある小さいアイコン)をクリックすると、該当のファイルをダウンロードできます。
同じページにRawデータ(FASTQファイル)とプロトコルが置いてあるので、自身の手で再解析することも可能です。
eCLIP-seqデータ
1. 必要なファイルをダウンロード
eCLIPのデータを選択し、該当するデータのページに飛ぶと下のほうにProcessed data
の項目があります。
ゲノム上にマッピングされたリードを可視化するためのデータとしてbigWig
ファイルを、各Peakの染色体座標軸に関するデータとしてbed
ファイルをそれぞれダウンロードします。
また、右上のGRCh38
(hg38)をhg19
に変更することで、異なるバージョンのヒトのリファレンスゲノムをもとにして作成したファイルにアクセスできます。
今回は、hg38 (GRCh38)
のデータをダウンロードします。
$ wget https://www.encodeproject.org/files/ENCFF823MPG/@@download/ENCFF823MPG.bigWig $ wget https://www.encodeproject.org/files/ENCFF960OTE/@@download/ENCFF960OTE.bed.gz $ gunzip ENCFF960OTE.bed.gz
ファイル名がわかりにくいのでリネームします。
$ mv ENCFF823MPG.bigWig SFPQ_eCLIP_rep1_ENCFF823MPG.bigWig $ mv ENCFF960OTE.bed SFPQ_eCLIP_rep1_ENCFF960OTE.bed
2. ファイルフォーマットの変換
bedgraphファイルの用意
bigwig
ファイルではUCSC genome browserにアップロードできないので、bedgraph
ファイルと呼ばれる形式にフォーマット変換します。
変換作業を行うために、今回はbigWigToBedGraph
というプログラムを使います。
下記のURLから、目的のプログラムのバイナリファイルを入手します。
http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/
$ wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigToBedGraph $ chmod 755 bigWigToBedGraph
ダウンロードした後、実行権限を与え、パスの通っているディレクトリに入れます。
続いて、bigWig
ファイルをbedgraph
ファイルにフォーマット変換します。
# bigWigToBedGraph <bigWigファイル> <bedGraphファイル> $ bigWigToBedGraph SFPQ_eCLIP_rep1_ENCFF823MPG.bigWig SFPQ_eCLIP_rep1_ENCFF823MPG.bg
- 1つ目の引数: フォーマット変換したい
bigwig
ファイルを指定。 - 2つ目の引数: 出力される
bedGraph
ファイルの名前を指定。
次に、UCSC genome brower用にデータを整えます。ENCODEのデータの中にはハプロタイプのシークエンスにもマッピングしたデータが含まれているので、UCSC genome browserでデータを可視化するために、Chr1-22, chrX, chrY, chrM
からなるCanonical genomeにマッピングされたデータのみを抽出する必要があります。
下記のような適当なスクリプトを書いて、データを整えます。
$ python ENCODE_eCLIP_mod.py SFPQ_eCLIP_rep1_ENCFF823MPG.bg SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC.bg
最後に、UCSC genome browserへデータをアップロードする際に、ファイルの種類やTrackの名前などを提示する必要があります。それらの情報をヘッダー行(ファイルの一行目)に記載します。
$ echo "track type=bedGraph name=SFPQ_eCLIP_rep1_ENCFF823MPG description=SFPQ_eCLIP_rep1_ENCFF823MPG visibility=2 maxHeightPixels=40:40:20 color=255,0,0" > ./header_tmp.txt $ cat header_tmp.txt SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC.bg > SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC_header_plus.bg $ bzip2 -c SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC_header_plus.bg > SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC_header_plus.bg.bz2
echo
コマンドのところでヘッダー行の情報をtxtファイルとして出力しています。
そのあとに、cat
コマンドを用いて、先ほど作ったBedGraphファイルと結合させます。
出力されたファイルをそのままアップロードしてもOKですが、容量が大きいためアップロードに時間がかかります。そのため、アップロードするファイルのサイズを小さくするために、ここではbzip2
ファイルに圧縮しています。
bedファイルの用意
ENCODEのサイトから得られるbedファイルを、bigWigファイルと同様にUCSC genome browserにアップロードできるファイルに加工します。
下記のような適当なスクリプトを書いて、データを整えます。
$ python ENCODE_eCLIP_mod_bed.py SFPQ_eCLIP_rep1_ENCFF960OTE.bed SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC.bed
最後に、UCSC genome browserへデータをアップロードするために、ファイルの種類やTrackの名前の情報をヘッダー行(ファイルの一行目)に記載します。ここも先程と同様です。
$ echo "track type=bed name=SFPQ_eCLIP_rep1_ENCFF960OTE_peak description=SFPQ_eCLIP_rep1_ENCFF960OTE_peak visibility=2 maxHeightPixels=40:40:20 color=255,0,0" > ./header_tmp.txt $ cat header_tmp.txt SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC.bed > SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC_header_plus.bed $ bzip2 -c SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC_header_plus.bed > SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC_header_plus.bed.bz2
データのアップロード
UCSC genome browserにデータをアップロードします。
ホーム画面から、[MyData] -> [Custom Tracks]をクリックします。
Add Custom Tracksというページに移動するので、ファイルを選択
をクリックし、アップロードするファイルを選択し、submit
ボタンをクリックします。
アップロードが完了すると、Manage Custom Tracksというページに移動します。右端にあるgo
ボタンをクリックすると、データをみることができます。
可視化したデータをみてみると、以下のようになります。
ざっくりとですが、以上になります。