ENCODEプロジェクトのNGSデータを活用する

概要

ENCODEプロジェクトとは、ポストゲノム研究戦略としてヒトゲノムの機能性エレメントの同定とその全体像を解明するために組織された国際プロジェクトの1つです。

RNA-seq、ChIP-seq、DNase-seq、Hi-C、ChIA-PET、eCLIP-seqなどの解析手法を用いて、毎月膨大なデータを産出しています。

ENCODEプロジェクトでは、共通のプロトコルに基づいた実験と解析によりデータが産出され、即座に一般公開される仕組みを取っています。また、プロトコルも公開されているので自身で内容を確認・再解析することもできます。

ENCODEプロジェクトのデータは、プロジェクトに参加していないラボ・研究機関であっても、ウェブサイト上で公開されているNGSデータに関しては、自由にダウンロードして解析し論文のデータとして使用することもできます。

Data Use, Software, and Analysis Release Policies – ENCODE

実際に、ENCODEのデータを利用して投稿された論文はこれまで1700本にのぼります。

Publications using ENCODE data – ENCODE

ENCODEプロジェクトのデータベースには、有用な情報やデータがいっぱい公開されているのでこれらを使わない手はありません。

そこで今回は、ENCODEプロジェクトに登録されているデータを活用して手軽にデータ解析する方法をまとめました。今回は主に、RNA結合タンパク質(RBP)が結合するRNA領域を網羅的に同定する方法であるeCLIP-seqデータについて見ていきたいと思います。

また、RBPをIPした時に使用した抗体の情報など即座に使える情報も載っているのでそれらについても紹介しようと思います。

欲しいデータを探す

キーワードで検索

まず、ENCODEプロジェクトのウェブサイトに行きます。
ENCODE: Encyclopedia of DNA Elements – ENCODE

右上の検索欄に興味のあるRBPの名前を入力します。

f:id:biodata:20170205115147p:plain

試しにSFPQというRBPで検索にかけると、eCLIP-seq、Bind-n-seq、RNA-seq等のデータや、IPに使用した抗体の情報が出てきます。

f:id:biodata:20170205115936p:plain

データの種類から検索

他にも、[Encyclopedia]->[about]から各種データにアクセスできます。

f:id:biodata:20170205115421p:plain

この他にも、いろいろな検索方法が用意されていますが割愛します。

抗体の情報

右端にAntibodyと記載されているのが、抗体の情報です。 その中でも、緑色のマークがついているものは、ENCODEでStandardな抗体として認められた抗体です(抗体の特異性など幾つかの基準をもとに選定されている)。

f:id:biodata:20170205121714p:plain

クリックすると、その抗体でIPしたときのWestern blottingのデータや、shRNAでノックダウンしたときに目的のバンドが減弱しているかどうかWestern blottingで確認したデータなどが公開されています。

f:id:biodata:20170205171928p:plain

以上の情報から、各メーカーの抗体の良し悪しを知ることができます。 ちなみに、以下がENCODEプロジェクトで確認した抗体に関する論文になります。

http://yeolab.github.io/papers/2016/sundararaman_molcell_2016.pdf

Bind-n-seqデータ

Bind-n-seqについては、下記の論文を参照のこと。方法の詳細については、ここでは割愛します。

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4142047/

リコンビナントタンパク質のQCデータと、Enrichされたモチーフ配列の情報が載っています。

f:id:biodata:20170205173032p:plain

さらに、Processed dataの項目のところに、Enrichされた4, 5, 6, 7ntのモチーフ配列のデータがそれぞれ置いてあります(output typeがenrichmentとなっているやつ)。

ダウンロードボタン(Accessionにある小さいアイコン)をクリックすると、該当のファイルをダウンロードできます。

同じページにRawデータ(FASTQファイル)とプロトコルが置いてあるので、自身の手で再解析することも可能です。

eCLIP-seqデータ

1. 必要なファイルをダウンロード

eCLIPのデータを選択し、該当するデータのページに飛ぶと下のほうにProcessed dataの項目があります。

ゲノム上にマッピングされたリードを可視化するためのデータとしてbigWigファイルを、各Peakの染色体座標軸に関するデータとしてbedファイルをそれぞれダウンロードします。

また、右上のGRCh38(hg38)をhg19に変更することで、異なるバージョンのヒトのリファレンスゲノムをもとにして作成したファイルにアクセスできます。

f:id:biodata:20170205175852p:plain

今回は、hg38 (GRCh38)のデータをダウンロードします。

$ wget https://www.encodeproject.org/files/ENCFF823MPG/@@download/ENCFF823MPG.bigWig
$ wget https://www.encodeproject.org/files/ENCFF960OTE/@@download/ENCFF960OTE.bed.gz
$ gunzip ENCFF960OTE.bed.gz

ファイル名がわかりにくいのでリネームします。

$ mv ENCFF823MPG.bigWig SFPQ_eCLIP_rep1_ENCFF823MPG.bigWig
$ mv ENCFF960OTE.bed SFPQ_eCLIP_rep1_ENCFF960OTE.bed

2. ファイルフォーマットの変換

bedgraphファイルの用意

bigwigファイルではUCSC genome browserにアップロードできないので、bedgraphファイルと呼ばれる形式にフォーマット変換します。

変換作業を行うために、今回はbigWigToBedGraphというプログラムを使います。

下記のURLから、目的のプログラムのバイナリファイルを入手します。

http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/

$ wget http://hgdownload.cse.ucsc.edu/admin/exe/linux.x86_64/bigWigToBedGraph
$ chmod 755 bigWigToBedGraph

ダウンロードした後、実行権限を与え、パスの通っているディレクトリに入れます。

続いて、bigWigファイルをbedgraphファイルにフォーマット変換します。

# bigWigToBedGraph <bigWigファイル> <bedGraphファイル>
$ bigWigToBedGraph SFPQ_eCLIP_rep1_ENCFF823MPG.bigWig SFPQ_eCLIP_rep1_ENCFF823MPG.bg
  • 1つ目の引数: フォーマット変換したいbigwigファイルを指定。
  • 2つ目の引数: 出力されるbedGraphファイルの名前を指定。

次に、UCSC genome brower用にデータを整えます。ENCODEのデータの中にはハプロタイプのシークエンスにもマッピングしたデータが含まれているので、UCSC genome browserでデータを可視化するために、Chr1-22, chrX, chrY, chrMからなるCanonical genomeにマッピングされたデータのみを抽出する必要があります。

下記のような適当なスクリプトを書いて、データを整えます。

$ python ENCODE_eCLIP_mod.py SFPQ_eCLIP_rep1_ENCFF823MPG.bg SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC.bg

最後に、UCSC genome browserへデータをアップロードする際に、ファイルの種類やTrackの名前などを提示する必要があります。それらの情報をヘッダー行(ファイルの一行目)に記載します。

$ echo "track type=bedGraph name=SFPQ_eCLIP_rep1_ENCFF823MPG description=SFPQ_eCLIP_rep1_ENCFF823MPG visibility=2 maxHeightPixels=40:40:20 color=255,0,0" > ./header_tmp.txt
$ cat header_tmp.txt SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC.bg > SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC_header_plus.bg
$ bzip2 -c SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC_header_plus.bg > SFPQ_eCLIP_rep1_ENCFF823MPG_for_UCSC_header_plus.bg.bz2

echoコマンドのところでヘッダー行の情報をtxtファイルとして出力しています。

そのあとに、catコマンドを用いて、先ほど作ったBedGraphファイルと結合させます。

出力されたファイルをそのままアップロードしてもOKですが、容量が大きいためアップロードに時間がかかります。そのため、アップロードするファイルのサイズを小さくするために、ここではbzip2ファイルに圧縮しています。

bedファイルの用意

ENCODEのサイトから得られるbedファイルを、bigWigファイルと同様にUCSC genome browserにアップロードできるファイルに加工します。

下記のような適当なスクリプトを書いて、データを整えます。

$ python ENCODE_eCLIP_mod_bed.py SFPQ_eCLIP_rep1_ENCFF960OTE.bed SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC.bed

最後に、UCSC genome browserへデータをアップロードするために、ファイルの種類やTrackの名前の情報をヘッダー行(ファイルの一行目)に記載します。ここも先程と同様です。

$ echo "track type=bed name=SFPQ_eCLIP_rep1_ENCFF960OTE_peak description=SFPQ_eCLIP_rep1_ENCFF960OTE_peak visibility=2 maxHeightPixels=40:40:20 color=255,0,0" > ./header_tmp.txt
$ cat header_tmp.txt SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC.bed > SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC_header_plus.bed
$ bzip2 -c SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC_header_plus.bed > SFPQ_eCLIP_rep1_ENCFF960OTE_for_UCSC_header_plus.bed.bz2
データのアップロード

UCSC genome browserにデータをアップロードします。

genome.ucsc.edu

ホーム画面から、[MyData] -> [Custom Tracks]をクリックします。

Add Custom Tracksというページに移動するので、ファイルを選択をクリックし、アップロードするファイルを選択し、submitボタンをクリックします。

アップロードが完了すると、Manage Custom Tracksというページに移動します。右端にあるgoボタンをクリックすると、データをみることができます。

f:id:biodata:20170205212758p:plain

可視化したデータをみてみると、以下のようになります。

f:id:biodata:20170205213341p:plain

ざっくりとですが、以上になります。