Exome 解析に使うツール群のリンク (主に Exome)

ツールアップデートめんどいので、なるべく CUI からいけるように付記したバージョンを書き起こした。

  • FastQC

http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/

  • FASTX-Toolkit

http://hannonlab.cshl.edu/fastx_toolkit/

  • Burrows-Wheeler Aligner

http://bio-bwa.sourceforge.net/
https://github.com/lh3/bwa

git clone https://github.com/lh3/bwa.git

bwa-0.6以降では SOLiD/colorspace 対応がなくなっている様子 (オプションとしては見えるが、README か NEWS にそう書かれている)。必要な場合は bfast や bwa-0.5.10など対応版を使うしかなさそう。

  • SAMtools

http://samtools.sourceforge.net/

svn co https://samtools.svn.sourceforge.net/svnroot/samtools/trunk/samtools

  • Picard

http://picard.sourceforge.net/

svn co https://picard.svn.sourceforge.net/svnroot/picard/trunk picard

svn よりバイナリーをダウンロードした方がラク

  • bedtools - bedtools: a flexible suite of utilities for comparing genomic features.

http://code.google.com/p/bedtools/
https://github.com/arq5x/bedtools

git clone https://github.com/arq5x/bedtools.git

http://www.openbioinformatics.org/annovar/
作者にメールする必要がある

  • GATK

http://www.broadinstitute.org/gsa/wiki/index.php/Home_Page

git clone https://github.com/broadgsa/gatk.git

  • Dindel: Accurate indel calls from short-read data - Wellcome Trust Sanger Institute

http://www.sanger.ac.uk/resources/software/dindel/

wget -r -np -nd ftp://ftp.sanger.ac.uk/pub4/resources/software/dindel -P dindel

  • Pindel

https://trac.nbic.nl/pindel/

svn checkout https://trac.nbic.nl/svn/pindel pindel

その他

  • dbSNP VCF

ftp://ftp.ncbi.nih.gov/snp/organisms/human_9606/VCF/v4.0/000-README.txt
ただし annovar のそれを使った方が楽なケースが多いと思う

  • variationtoolkit

svn checkout http://variationtoolkit.googlecode.com/svn/trunk/ variationtoolkit-read-only

  • vcftools

http://vcftools.sourceforge.net/

svn co https://vcftools.svn.sourceforge.net/svnroot/vcftools vcftools

  • VarScan

Variant Detection in Massively Parallel Sequencing Data

http://varscan.sourceforge.net/

  • ExomeCNV

Availability: CRAN package "ExomeCNV"
http://cran.r-project.org/web/packages/ExomeCNV/index.html
2012/06/01にもアップデートしてる
ExomeCNV User Guide - Nelsonlab
https://secure.genome.ucla.edu/index.php/ExomeCNV_User_Guide

  • exomeCopy

http://bioconductor.org/packages/release/bioc/html/exomeCopy.html

  • CNVnator

http://sv.gersteinlab.org/cnvnator/

  • CNAseg

http://www.compbio.group.cam.ac.uk/software.html
download
http://www.compbio.group.cam.ac.uk/Resources/CNAseg/CNAseg.rar
example data
http://www.compbio.group.cam.ac.uk/Resources/CNAseg/CNAseg_exampledata.rar

  • GATK の資料

GATK documentation index
http://www.broadinstitute.org/gsa/gatkdocs/release/
Running the GATK for the first time - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/Running_the_GATK_for_the_first_time
Best Practice Variant Detection with the GATK v3 - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/Best_Practice_Variant_Detection_with_the_GATK_v3
Frequently Asked Questions - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/Frequently_Asked_Questions
GATK resource bundle - GSA
http://www.broadinstitute.org/gsa/wiki/index.php/GATK_resource_bundle

  • Bowtie2

http://bowtie-bio.sourceforge.net/bowtie2/index.shtml

  • TopHat - A spliced read mapper for RNA-Seq

http://tophat.cbcb.umd.edu/
iGenome にあるゲノムとインデックスは bowtie2 のものにアップデートしているとウェブサイトに表記がある
http://tophat.cbcb.umd.edu/igenomes.html

  • Cufflinks - Transcript assembly, differential expression, and differential regulation for RNA-Seq

http://cufflinks.cbcb.umd.edu/

  • Bowtie2

http://bowtie-bio.sourceforge.net/bowtie2/index.shtml

  • BFAST: Blat-like Fast Accurate Search Tool

http://sourceforge.net/apps/mediawiki/bfast/index.php?title=Main_Page

git clone git://bfast.git.sourceforge.net/gitroot/bfast/bfast

  • IGV

http://www.broadinstitute.org/software/igv/
http://www.broadinstitute.org/software/igv/download

  • jksrc のバイナリー

http://hgdownload.cse.ucsc.edu/admin/exe/

TruSeq Exome 関連

Exome 解析に使うツール群のリンク

  • FastQC

http://www.bioinformatics.bbsrc.ac.uk/projects/fastqc/

  • FASTX-Toolkit

http://hannonlab.cshl.edu/fastx_toolkit/

  • Burrows-Wheeler Aligner

http://bio-bwa.sourceforge.net/
https://github.com/lh3/bwa

git clone https://github.com/lh3/bwa.git

  • SAMtools

http://samtools.sourceforge.net/

svn co https://samtools.svn.sourceforge.net/svnroot/samtools/trunk/samtools

  • Picard

http://picard.sourceforge.net/

svn co https://picard.svn.sourceforge.net/svnroot/picard/trunk picard

  • bedtools - bedtools: a flexible suite of utilities for comparing genomic features.

http://code.google.com/p/bedtools/
https://github.com/arq5x/bedtools

git clone https://github.com/arq5x/bedtools.git

http://www.openbioinformatics.org/annovar/
作者にメールする必要がある

  • GATK

http://www.broadinstitute.org/gsa/wiki/index.php/The_Genome_Analysis_Toolkit

git clone https://github.com/broadgsa/gatk.git

  • Dindel: Accurate indel calls from short-read data - Wellcome Trust Sanger Institute

http://www.sanger.ac.uk/resources/software/dindel/

wget -r -np -nd ftp://ftp.sanger.ac.uk/pub4/resources/software/dindel -P dindel

TruSeq Exome 関連

遺伝子検査で思ってたここ3日くらいの胸のつかえが取れたかもしれない

2日前に書いていたんだけど、いろいろなタイミングで出さずじまいかと思いきや、はてブを読んでてやっぱり気持ち悪くて出そうと思い直した。
CheckDNA (アルクグループ) の一連でいろんな人がツィートしてて、「今回の件はよろしくない」という点でほとんどは一致しているんだけど、少し粒度を細かくした点では僕はいろいろと他の人と違和感を感じてた。
ぶっちゃけると僕は他の人達とどうも意見が異なるんだろうな、と思ってた。
なんだけど Togetter で先頭きって旗振ってるようにすら見える自分がいきなし「オレが思ってることは違うだけどー」とか言い出すのもどうかと思ってた。
あの流れの中で、細かくて慎重に進めないといけない、しかも全く別件の議論を持ち出すのが時間と体力の面ですごくしんどかった。
そんなわけで今さらだけど、やっぱし表明しとく。

表明の契機になったのは、以下のはてブについてるブコメ
はてなブックマーク - 「遺伝子診断による教育サービス」に対する専門家コメントScience Media Centre of Japan | Science Media Centre of Japan http://b.hatena.ne.jp/entry/smc-japan.org/?p=489

特に
id:CelestialFire さん (良い指摘だと思いました)
id:wuwa さん (良い指摘だと思いました)
id:aggren0x さん (近い感想を持ちました)
のが自分に刺さった。

以下は2日前に書いたけど、結局しなかったツィート達。なので140文字を超えてるのもある。
あと乱暴なものも入ってるので身分を明かしておくと、埼玉医科大学所属の神田将和 (こうだまさかず) が書きました。GWAS や Exome などに専門的な理解があり、23andMe と Pathway Genomics の遺伝子テストサービスを実際に利用しました。所属する団体の考えを反映するものではなく、このブログ全ては一個人の考えによるものです。

「遺伝子診断による教育サービス」に対する専門家コメント | Science Media Centre of Japan http://smc-japan.org/?p=489 この中では宮川先生の意見に一番同意する。次に福嶋先生。他には否定はしないけど、賛同もしない。
安藤先生のはすごく分かりづらかった。逆に一般の方は分かりやすいと言われていたので、ただ単に自分は理解してるから回りくどく感じたのかもしれない。*1
佐倉先生のはやや感情的になっていて少し乱暴だと感じた。ただしこれはすごく短い時間で対応されて書かれたものなので、多少は仕方がない。それでもこれはやはり暴論な部分があって、子供の才能判定遺伝子検査以外の全ての検査を一緒くたにまとめてるようにも見受けられる。

これは立ち位置の違いで、僕は医師でないし、遺伝カウンセリングにすごく強い興味はないから。基礎寄りの研究者でかつ、保守的じゃないので遺伝子テスト自体は否定してないから。なんせ自分で2つも海外の遺伝子テストサービスを利用してるくらいだし。

遺伝子テスト自体もまだ玉石混淆だけど、役に立つ可能性はあると思っているので、今回の子供の才能遺伝子検査と一緒くたにされて批難されてるのを見たらきっとムカつく。

ものすごく細かくて伝わるはずないんだけど、僕自身は約1年くらい前から遺伝子テストと遺伝子検査という単語を使い分けてる。

怪しい遺伝子検査と最先端DTC遺伝子テストの区別がついてる人はそう多くないよ。ホントにそうなのは実際にDTCを受けた人か受けようと考えたことがマジメにある人くらいなもん。

なので一見まっとうなことを言ってるように見える先生でも、僕からみたらよく分かってなくてただ保守的になってる、とかある。大抵の先生はDTCのことを知らないか、知ってても名前だけだから。そもそもDTCのバックボーンになっている科学研究を部分的にでもきちんと追えてる人は少ない。

ここまでで書きためていたのは終わり。
最後に、病院でやられる本当にまっとうなものは除いた上で、一般人が利用できる遺伝子検査についての僕の意見をまとめると…

1. 現状の遺伝子検査サービスでは怪しい物が多いように、僕の目からは見える
言い換えると、遺伝子型 (genotype) と表現型 (phenotype) との結びつきの強さにおいて、検査として使えるほどの科学的根拠を備えてるいるものがなさそう、もしくはカウンセリングとか無理でしょうということ。まあ科学の発達がそこまでいってないよね。単一遺伝子で決まるようなのは例外です。
2. ただ多くの人がここまでの知識でストップしているように見える
でも3で言う遺伝子テストサービスまでマゼコゼにしてしまって議論している場合があると思われる。ここが自分的にはイヤな気持ちになってしまう。
3. 自分が言いたいのは
ここ2年くらいで遺伝子テストサービスというものが海外では利用可能になっていて、少なくとも一部の会社は科学的根拠は備えているという事実があるよ、ということ。むろん科学の発達が十分でないので精度云々の問題はあるけど、暴論やエセ科学ではなく真面目なアプローチなんだよ。しかし1と2の両方の事情が合わさることで3のように真面目に遺伝テストという科学が世の中に入ってこようとしていることまで誤解されることを恐れているんです。

かな。
上に3つ id を上げた方達には感謝してます。
なんていうか少し吐き出すことが出来ました。僕のアクションや主張が良い・悪いかは置いておいて、言わなかった自分を壊せて感謝しています。
ありがとう。
遺伝子テストにも問題大ありなのが現状ですが、エセ科学ではないので見守ってほしいなーと考えたりしてます。

*1:ここだけ補足: 今読むとすんなり分かるので、どうも忙しくて自分がイラついてただけかと。すいません。。

科研費の基盤と新学術の公募が出ていたよ

基盤

新学術

最後の URL からそれぞれの領域のサイトに飛べる。
科研費獲得の方法とコツ

科研費獲得の方法とコツ

書類の書き方はまずはこれを読んでおけば良い、と思う良本。

つらつらと Galaxy 関連の URL を貼るだけのエントリー

Galaxy の説明もしない俺得エントリー (?)

Galaxy web service

http://main.g2.bx.psu.edu/
http://galaxy.fml.mpg.de/
http://hyperbrowser.uio.no/hb/
クローンが各地にあるっぽい。派生版もある?
クローンでのツールが多少異なるのはバージョン違いか個性のどちらかだろうけど、今のところ見分けがつかない。。

Galaxy Developer Conference 2010 Slides

galaxy / galaxy-central / wiki / DevConf2010 — Bitbucket

  • Deploying Galaxy on the Cloud - Enis Afgan
  • Integrating and Scaling Analysis Tools - Dan Blankenberg
  • Building Scalable Galaxy - Nate Coraor
  • Galaxy data libraries and sample tracking at NGS facilities - Greg Von Kuster
  • Next-generation sequencing request management system in Galaxy -- Slideshare - Brad Chapman
  • Building Custom Genome Browsers with Galaxy Trackster - Kanwei Li
  • Reproducibility & Transparency: Workflows and Pages - Jeremy Goecks
  • ZFS for NGS data analysis - Davide Cittaro
  • Do-It-Yourself Bioinformatics with the FMI Galaxy Server - Hans-Rudolf Hotz
  • Cistrome Project: An Integrative Platform to Analyze ChIP-chip/seq Data - Tao Liu
  • Transcriptome Analysis with Galaxy - Gunnar Rätsch
  • DBCLS Galaxy: A Galaxy Service to integrate databases in Japan - Atsuko Yamaguchi
  • MPI EVA: High-throughput sequencing of ancient and modern DNA samples - Martin Kircher
  • Enabling Galaxy to access web services (accessing external resources with point and click) - Jessica Kissinger
  • Galaxy Internationalization (i18n) and Localization (L10n) - Mitsuteru Nakao
  • Mercurial for Galaxy Admins - Ry4an Brase
  • Composite Datatypes in Galaxy - Ross Lazarus
  • Useful and Usable - Assaf Gordon

Galaxy 本体サイト bitbucket.org

3つのブランチに分かれた構成になっている。
galaxy / galaxy-central / wiki / Home — Bitbucket

Main development repository for Galaxy. Active development happens here, and this repository is thus intended for those working on Galaxy development. See http://bitbucket.org/galaxy/galaxy-dist/ for a more stable repository intended for end-users.

galaxy / galaxy-dist — Bitbucket

epository containing latest version of galaxy that is intended for end user use. Normally this has passed functional tests on multiple platforms and is the version running on http://main.g2.bx.psu.edu.

galaxy / cloudman — Bitbucket

Galaxy CloudMan

Galaxy を Amazonクラウドサービスで動かす、とかどっかにあったのでそれ関連?

galaxy / galaxy-central / wiki / Home — Bitbucket
galaxy / galaxy-central / wiki / DataLibraries / Tutorial / DataLibrariesSampleTracking — Bitbucket
galaxy / galaxy-central / wiki / ISMB2010 GalaxyTutorial 3 RunningYourOwn — Bitbucket
galaxy / galaxy-central / wiki / Share your Galaxy items with other people — Bitbucket
galaxy / galaxy-central / wiki / cloud — Bitbucket
galaxy / galaxy-central / wiki / ToolConfigSyntax — Bitbucket
galaxy / galaxy-central / wiki / WritingTests — Bitbucket
galaxy / galaxy-central / wiki / DataSources — Bitbucket
galaxy / galaxy-central / wiki / Config / ToolData / AddMAFs — Bitbucket
galaxy / galaxy-central / wiki / AddingDatatypes — Bitbucket
galaxy / galaxy-central / wiki / SecurityFeatures — Bitbucket
galaxy / galaxy-central / wiki / Config / Eggs — Bitbucket
NGSLocalSetup
synonymous-and-non-synonymous-snps
galaxy / galaxy-central / wiki / DataLibraries / UploadingFiles — Bitbucket
http://bitbucket.org/galaxy/galaxy-central/src/tip/tools/samtools/
NGS 用ツールのパーザーレポジトリかな?
http://main.g2.bx.psu.edu/u/jgoecks/w/snp-identification-within-annotated-genes-from-ngs-pe-data
やりたいことのほぼ全てなワークフローじゃないすか
http://main.g2.bx.psu.edu/workflow/list_published
ワークフロー一覧

etc

KazusaAPI開発日誌のGalaxyカテゴリー
DBCLS Galaxyではじめるゲノムスケールデータの…*1
lectures_Galaxy-CSHL-2010
Manipulation of FASTQ data with Galaxy | Bioinformatics | Oxford Academic
http://hannonlab.cshl.edu/fastx_toolkit/commandline.html
Galaxy にも入ってる FASTQ操作コマンドライン詰め合わせ
Category:NBIC Galaxy - BioAssist NCBI の Galaxy グループのメモ

…ほう。

*1:なぜか"共同研究"って入れるとはてながおかしくなるので省略…

NBA::GWAS Further Readings

# 9/20 少し追加
# 9/1 当日のスライドをエントリ最後に追加しました

疾患の研究論文を読み漁ったので、ついでにブログに残してみる。
対象としたのは、GWAS (全ゲノム相関解析)、Missing Heritability (GWAS でつかめなかった遺伝寄与 = Missing heritability) が中心。
Rare variants は Genomic disorders を確立したけれども、多因子疾患ではどうなるのか?


今、疾患研究は GWAS と CNV が期待通りにいかなかったというターニングポイントを回って、aCGH/SNP array が築き上げた Rare variants が期待のバトンを握ったところか。
これに加わると期待されるのが次世代シーケンサーによる Rare variants の発見。 GWAS-identified locus の deep sequence、または脳・神経・精神疾患における Exome resequencing 的なアプローチ(?)に期待がかかっている、というところだろうか。


Pathway 解析なども読んだけど、遺伝学系の雑誌ではまだまだ。Missing heritability という GWAS で見えない遺伝率が探されるのと同じように、まだ見えてない関連遺伝子をこのレイヤーで探す需要はある。

Papers (mainly review)

Nature

Finding the missing heritability of complex diseases. - PubMed - NCBI
Missing heritability and strategies for finding the underlying causes of complex disease. - PubMed - NCBI

Journal of Human Genetics (日本の雑誌)

年表もあるし、小見出しがいちいちイイ感じ。
The pursuit of genome-wide association studies: where are we now? - PubMed - NCBI

CELL Leading Edge Essay

GWAS は終わった、というような論調で物議を呼んだ。
Genetic heterogeneity in human disease. - PubMed - NCBI
即座に2つの反論がついている。
異なる立場の考えが読めるのが良い。
Successes of genome-wide association studies. - PubMed - NCBI
Strategies for genetic studies of complex diseases. - PubMed - NCBI

Blogs and BioStar

How to read a genome-wide association study « Genomes Unzipped
Genomes Unzipped は最近できた group blog (centralized blog) でウオッチしていた遺伝系ブロガーが何人か集まって書いてる。出来たばかりだけどおもしろい。

Biology. Given that a GWAS has some firm results, there’s almost always some speculative comment about why these regions of the genome are important to this disease. Take this section with a grain of salt, since it’s surprisingly easy to dig up a paper published at some point in history to support almost any functional hypothesis!

http://biostar.stackexchange.com/questions/1988/good-gwas-papers-resources
イムリーな質問で、良い回答だと思う。つか自分が50以上読んでまとめたものとほぼ同じ。つまりこの質問があと1週間早ければ…オウフ
http://biostar.stackexchange.com/questions/2125/any-recommendations-for-statistcal-genetics-texts
教科書は僕自身良いものを知らないので一応。

Site Search | GenomeWeb
詳細はないが、研究者が思う一般的な疑問にQ&A形式で答えている。専門家が斜め読みするとおもしろい?

http://biostar.stackexchange.com/questions/142/mapping-snps-to-pathways
GSEA のような解析が Transcriptome から輸入されてきてる。
http://biostar.stackexchange.com/questions/778/exploring-snp-data

Transcriptome Genetics with HapMap and RNA-Seq

発表時に使った資料

ここで扱わなかったもの

  • Uncovering the roles of rare variants in common disease through whole-genome sequencing
  • Pharmacogenetics (Personalized medicine)
  • Slideshare