超絶高速ゲノム配列検索ツール GGGenome 編集3

しばらくぶりの勤務でした。前回指摘された点について、いくつか動画の手直しや追加を行いました。追加した箇所は以下のとおり。

NCBI BLAST や UCSC BLAT で10塩基の配列の検索を行った結果の画面のスクリーンショットを表示し、これらのサービスでは検索するのが難しい短い配列も GGGenome では検索できるということを強調
・ミスマッチやギャップを許容したときの検索結果を提示
・検索結果の配列タイトルから UCSC ゲノムブラウザ(ゲノム配列の場合)や NCBI Nucleotide(転写産物配列の場合) にジャンプ

編集長とめそさんに確認していただきOKをいただきました。時間の都合上アップロードは次回勤務時、来週の水曜日か木曜日となります。

超絶高速ゲノム配列検索ツール GGGenome 編集2

最近日中極端に眠い気がします。
さて、GGGenome 動画いったんできましたが、編集長からもっとメリットを前面に出して煽っていけとの指示をいただきました。類似するサービスがある中で GGGenome のメリットはどこにあるのかという点を強調する必要があるということです。

一次脚本には載っていたけれどもそこまでしなくてもいいかなと思って結局動画には載せなかった他サービスとの比較ですが、そういうのも含めたほうがメリットがわかりやすいのではないかと意見をいただきました。

細かいことはまた次回考えますが、とにかく「UCSC BlatNCBI BLAST では苦手な短い配列の検索も高速に行うことができる」「全ゲノム配列と転写産物のデータベースを対象に検索できる」といったポイントについてより強調した文言を考えて、適宜追加編集を行いたいと思います。

超絶高速ゲノム配列検索ツール GGGenome 編集1

GGGenome 動画編集開始いたしました。
本日は Camtasia が2落ち。2回めはそこそこ作業が失われました。うんざりしますね。
以下現行の脚本を載せておきます。



GGGenome(ゲゲゲノム) は、DBCLS で提供されているツールの一つで、代表的なモデル生物のゲノムまたは転写産物のデータベースを対象に、塩基配列を高速に検索することができます。

早速使ってみましょう。検索窓に配列を入力します。
検索対象を指定します。今回はヒトゲノムで検索します。
ミスマッチやギャップを許容する場合はこちらにいくつまで許容するかを入力してください。
検索!
結果があっという間に表示されました。
Data Export から、結果を tsv または json の形式で表示・ダウンロードできます。

(ここから保留)
同じ配列を、NCBI Blast のデフォルトの設定で検索してみましょう。
待たされたあげく、短すぎて特異性を確保できなかったと表示されました。パラメータをいじらないと表示できません。
このように、GGGenome では短い配列も高速に検索できるのが特長です。
(ここまで保留)

なお、ゲノム配列のほか、転写産物のデータベースにも対応しています。RefSeq Complete RNA を選択。


GGGenome では、検索結果へリンクする URL がこのような形式で決められています。
検索した配列情報の管理に便利です。

これを利用した応用例として、Google スプレッドシートを用いたプライマー配列情報の整理法を紹介します。
まずプライマーの名前と配列を入力します。
GGGenome では検索クエリと URL が1対1対応しているので、配列から URL を生成できます。
配列の隣のカラムに、=concatenate("http://GGGenome.dbcls.jp/rice/", C2, ".txt") と入力します。
配列を GGGenome でイネゲノムを対象にして検索した結果へのリンクアドレスが生成されました。
次のカラムでは、Google スプレッドシート 特有の関数である ImportData関数を利用します。
引数に指定したテキストの URL から情報を取得してくれる関数です。GGGenome の URL を指定すると…
配列情報が自動で取得されました。
split 関数を利用してこれを分割します。
プライマーの組の座標からプロダクトの長さを計算するなどできます。
手動で入力するのはプライマー配列(とその名前)だけで済むことになります。
配列情報はその都度取得されるので、データベース側に変更があっても自動で反映されるのもポイントです。

超絶高速ゲノム配列検索ツール GGGenome 調査1

DAVID 動画を上げましたというエントリーがありませんが無事に5月末に上がっております。こちら

さて今回より「超絶高速ゲノム配列検索」ツール GGGenome の紹介動画を担当することになりました。DBCLS の @meso_cacase さんが制作・管理されているツールです。読みは「ゲゲゲノム」です。ファイナルアタックライd

代表的なモデル生物のゲノムまたは転写産物のデータベースを対象に、塩基配列を高速に検索することができます。NCBI Blast では(デフォルトのパラメータだと)検索できないような10塩基くらいの短い配列も問題なく、高速に検索できるのが特長です。パーフェクトマッチで良いならあっという間に結果を表示してくれます。

検索結果へリンクする URL が以下の形式で決められています。検索した配列情報の管理に便利です。

(GGGenome トップからそのまま引用)
http://GGGenome.dbcls.jp/db/k/sequence[.format][.download]
db → hg19, mm10, rn5, galGal4, xenTro3, danRer7, ci2, dm3, ce10, TAIR10, rice, bmor1, refseq, ddbj。省略時は hg19
k → 許容するミスマッチ/ギャップの数。あまり大きいとしぼうする。省略時は 0
sequence → 塩基配列。大文字・小文字は区別しない
format → html, txt, json。省略時は html
download → URLの最後に付加すると検索結果をファイルとしてダウンロードできる
(引用終わり)

検索結果の下部にある Data Export から、結果を tsv または json の形式で表示・ダウンロードできます。

めそさんとも相談しまして、おおまかな動画の流れとして以下のような方針を立てました。

・概要説明
・とりあえず適当な配列を入れて検索(NCBI Blast と速さ比較?)
・tsv でのダウンロード
・検索結果へのリンクの説明
・応用例

応用例としてはめそさんがこちらで紹介されている、Google スプレッドシートを利用したプライマー配列情報の整理法を紹介します。
配列と URL が1対1対応していることを利用し、配列の横のカラムには配列から生成した URL を入れます。そして Google スプレッドシート特有の ImportDATA(URL) 関数を使います。これは引数に指定した csv または tsv 形式のテキストの URL から情報を取得してくれる関数で、GGGenome の URL を format を txt にして指定すれば、配列情報を自動で取ってきてくれます。おおー。これを split 関数で分けて、プライマーの組からプロダクトの長さを計算するなどできます。手動で入力するのはプライマー配列(とその名前)だけで済むことになります。データベース側に変更があってもその都度取得して反映してくれるのもありがたいところです。

ImportDATA 関数は初めて知りましたが、色んなところで使えそうですね。
完全に脇道ですが、気になったので Google スプレッドシート特有の関数を少し調べてみました。https://support.google.com/drive/table/25273?hl=jaGoogle 型の関数にいろいろあります。html から表やリストを取ってくる ImportHtml とかも面白いですね。
GoogleTournament 「NCAA全米大学体育協会)第一部主催の男子/女子バスケットボール チャンピオンシップの開催中、試合のデータを返します。」って誰が使うんだよ。

早速ですが次回からもう撮れるかと思います。応用例として他になんか思いついたら付け足します。

DAVIDを使ってマイクロアレイデータを解析する 実践編 Gene ID Conversion Tool の調査

DAVID の Gene ID Conversion Tool について。

Biomart の ID 変換では、変換先に複数の ID を選択するなどできますが、実際には手持ちの ID を単一の目的 ID に変換したリストが欲しいだけの場合も多く、その場合は DAVID の ID Conversion Tool で充分です。リストをアップロード、変換先の ID を指定してサブミット、というごく簡単な手順で変換したリストを得ることができます。

ところで、アップロードしたリストの ID の中には、変換実行時に ambiguous と判定されるものがあります。リストをアップする時の ID 指定に "Not Sure" を選択している場合は、同じ名前の ID が別のデータベースでつけられていることがあれば ambiguous として表示され、候補を表示してユーザーにどの ID として使うか判断を仰ぐ、ということで問題ないです。ところが、ID を予め指定していて、しかも他に候補がない場合にも ambiguous が出てくることがあり、これが何だかよくわかりません。バグでしょうか。

これはとりあえず置いておいて、撮影しました。既にアップロードしたリストに対して REFSEQ_GENOMIC への変換を行なっています。

火曜日に講習会があるとのことなので、なるべく月曜にアップできるようにします。

DAVIDを使ってマイクロアレイデータを解析する 実践編 動画できたけど

DAVID 動画できました。が、編集長の提案でもう一点追加することになりました。
一応過去の記事に書きましたが、DAVID には Gene ID Conversion Tool というのがあります。遺伝子 ID を別の ID に変換するツールです。
統合TVではこれを行うツールとして過去に BioMart が紹介されています(こちら)が、DAVID のものはより簡便で直感的であり、機能面もこちらで事足りてしまうことも多いようです。
というわけでこれについて少し調べて撮影・編集するのが次回のお仕事です。

DAVIDを使ってマイクロアレイデータを解析する 実践編

まーた長らく更新を怠りました。毎度反省がありません。

DAVID 動画の実践編、撮影・編集に入っております。
DAVID をサイトしている論文をいくつかあたってみましたが、ほとんどのものは GO 解析のみに使っており、たまに KEGG を用いているものを見かける程度でした。そこで今回の動画ではこれらに絞って使用し、解説することにしました。

例として用いるデータはこちら Gene expression regulation in response to heat stress in different yeast strains
酵母の熱ショック応答前後の遺伝子発現を調べた実験のデータです。GEO2R で "30 min after heat stress" と "before heat stress" の各 6 サンプルずつをそれぞれグループ化し、解析を実行しました。save all result から全データをダウンロードし、openoffice calc で t 値で並べ替え。t 値の高い方と低い方、それぞれ補正p値が0.05 未満の遺伝子を取って、ID のリストを別ファイルに保存しました。
DAVID での GO 解析の結果では、熱ショックで上がっている遺伝子リストからは response to heat や protein catabolic process など、下がっているほうでは ribosome や translation などのタームがエンリッチされていることがわかりました。動画内では前者のリストを用いて説明しています。