人気ブログランキング | 話題のタグを見る

Microarray Quality Control by FDA

FDAが行っているMicroarray Quality Control Project (MAQC)の第一フェーズが終わったので、関連する文献が2006年9月号のNature Biotechnologyにまとまったpaperとして掲載されている。

Microarray Quality Control

その中の

The MicroArray Quality Control (MAQC) project shows inter- and intraplatform reproducibility of gene expression measurements

では同じデータセットを同じプラットフォーム、異なる地域で実施した場合の再現性、Taqmanのデータとの相関、また異なるプラットフォーム間での比較、、などデータの比較を行うための基礎的なデータがまとまって掲載されている。

異なるプラットフォーム間、1色vs2色の比較でも、比のデータとして比較し、Fold Changeである程度有意に発現に差が見られるものを比較することで、ある程度の比較が可能、というような結果が出ている。P-valueでのランクだと、プラットフォーム間のばらつきが同じではないから、ゆるいP-valueか、Fold Changeの方がいいようだ。
# by bioinfo_paper | 2006-10-10 00:16 | Array>DataProcess

Concordance among gene-expression-based predictors for breast cancer.

Concordance among gene-expression-based predictors for breast cancer.

同じ乳癌のデータセットを使って、Van de Vijver, Chang, Paik, Perou やMa XJらがそれぞれ別に解析し、異なる遺伝子セットで予後予測を行っているけれども、予後の予測は5つの方法で選ばれた遺伝子セットのうち、4つの遺伝子セットは予後の予測を有意に正確に行っているというということの検証。
同じデータセットであっても、文献ごとに選ばれる遺伝子が違う、という指摘はよく聞くが、同じ機序に載っている遺伝子ということなのかもしれない。興味深い結果だ。

最近NEJMではマイクロアレイを使った病型の予測が多い。今年に入ってから、3本以上でていると思う。この同じ月にも肺がんの予測がある。

それぞれの手法について、詳細を調べてまとめたいと思います。
# by bioinfo_paper | 2006-08-14 12:59 | Array>Classify

A multi-class predictor based on a probabilistic model~

A multi-class predictor based on a probabilistic model: application to gene
expression profiling-based diagnosis of thyroid tumors


マルチクラスの識別器を確率モデルをベースにしてつくった、という文献。
2群の分類を拡張させているマルチモデルで、分け方も1対1、1対残り全部、サブグループvsサブグループという組み合わせのものと、判別結果のSummationの組み合わせで調べているようです。判別関数はWeighted Votingで、判別関数が0より大きければ1、小さければ0という風に振り分けるのが普通ですが、これを確率的に考えて、判別関数に当てはめたものを0から1までの範囲の値になるようにロジスティック回帰で、Mappingしている。
データによって、1対1の組み合わせのものがよかったり、サブグループvsサブグループのものがよかったりするみたいです。
# by bioinfo_paper | 2006-08-02 15:17 | Array>Classify

Comparing gene expression networks in a multi-dimensional space to extract similarities~

Comparing gene expression networks in a multi-dimensional space to extract similarities and differences between organisms

種類の異なる分裂酵母を用いて、種間の遺伝子発現情報を多次元尺度構成法(Multi Dimensional Scaling ; MDS )を用いて表示させ、類似しているもの、していないものを見つける。S.cerevisiaeと S.pombeの胞子形成の過程にみられる遺伝子をMDSを用いて3次元空間へ表示させる。
オーソログの情報を使って、2つの種間でペアとなる遺伝子の‘セット’をつくる。このセットが、MDSの3次元空間上でもっとも近くなるように最適化させる。1つの遺伝子がもう一方のゲノム上で複数の遺伝子をオーソログとして示すことがあり、このアルゴリズムはそういった場合にも対応できるようになっている。

胞子形成のタイムコースデータをCase Studyとして使用。遺伝子のペアを見つけ、3次元表示をさせてみると、配列の類似性と発現には相関があることが分かった。また発現に差があったものも見られており、それがどういう機能のものだったか、ということを、胞子形成の過程を4つに分類した方法に基づき、調べている。

多次元尺度構成法って、こういう事にも活用できるのか、と思った文献でした。
# by bioinfo_paper | 2006-06-06 17:02 | Array>Cross Species

A comparative study of feature selection and multiclass classification

ご無沙汰しておりました。少しばたばたしておりましたが、またUpdateを開始したいと思います。今回は新しい文献ではありませんが、面白い文献だったので、詳細をUPします。

A comparative study of feature selection and multiclass classification methods for tissue classification based on gene expression

マイクロアレイを多値問題のモデル作成に使うにあたり、Feature Selectionと分類手法について検討した文献。

マイクロアレイを識別に使うにあたり、研究者は4つの技術的な問題に直面することになる。
4つの問題
一つめ:現在のひとつの細胞からのmRNAの複製の技術は非常に難しい仕事であるため、同じ状態、または機能をしていると思われる組織がプールされ、必要量のmRNAを入手するために使われている。つまり計算された発現レベルはプールされた細胞の平均であるということである。
二つめ:遺伝的な発現レベルの多様性が遺伝子発現に影響を与える。つまり個々個人の発現は異なりうる。
3つめ:結果に対してノイズが含まれる可能性が非常に多いこと。実験の中のさまざまなポイント、たとえば細胞の回収やRNAの複製、チップへハイブリダイズする際などである。
4つめ:回収されたサンプル数が少ないこと。100もサンプルがあることは非常にまれである。データの次元は非常に多く、1000から1万になることがあるにもかかわらず、サンプルサイズは非常に小さいのである。

多値クラス分類は大きく2つのタイプに分けることが出来る。ひとつは2値分類を拡張したもの。判別分析、回帰や決定木がこれにあたる。もうひとつのタイプは多値問題を分解(Decomposition)し、2値問題へしたもの。One-versus-the-restやペアワイズ比較、error-correcting output coding(ECOC) やmulticlass objective functions がこれに相当する。

Scholkopf と Smola(2002)によると、このうちのどれがほかよりも優れている、というものはおそらくなく、方法の選択は制約による、たとえば求められる精度のレベルや開発にかけられる時間、分類問題の性質などである。しかしながら、方法の選択は非常に難しい仕事であり、方法を決定したとしても、精密にチューニングが必要となる。Crammerと Singer (2000)の研究では、error-correcting output codingに対し、さまざまな方法でのアプローチを行ったが、結局はっきりとしたもっとも優れたものを見つけることが出来なかった。

この文献ではLiu et al. (2002)が行ったFeature Selectionの比較に関する文献と, Dudoit et al. (2002) らが行った判別方法の比較について行った研究をあわせ、さらに拡張してさまざまなFeature Selectionの方法の比較と多値分類の方法の比較をより多くのデータセットを使って検証する。

方法SVM:2値分類で非常に優れている方法であり、2群のデータ間のマージンを最大にするような超平面を見つけることで分類を行う。この文献では以下の4つの方法(Decomposition)を用いる。

One-versus-rest : あるひとつの群、対、残り全部。クラスがk群ある場合、k回のClassifierとなる。すべてのkが一貫した結果を示せばよいが、そうでない場合はランダムに選択することになり、これがこの方法で指摘される点である。

Pairwise:総当りで2値分類を行い、最も多く分類された群へ分類する。k組ある場合は、k(k-1)/2組のClassifierとなる。分類が同数になった場合はランダムに割り振られる。One-versus-the-restでも指摘されることだが、これは非対称な問題を対称な問題として解決することになる。この方法を使うメリットは2値問題に分解できるので、トレーニングがしやすい点である。しかしながらそれぞれのトレーニングに非常に時間がかかったり、クラスの数が多い場合、多くの時間を要するという問題もある。

ECOCはDietterich and Bakiri, (1995)によって考えられた方法で、多値問題を2値問題のセットとして解決しようとする方法である。どのように2群に分類するかについては、コーディングによっており、以下の2つについて検討。

ECOC (Random Coding)
Allweinet al., (2000).によるランダムCodeing。10 log2(k)個のClassifierが使われている。
ECOC (Exhausted Coding)
Dietterich and Bakiri, (1995)によるExhausted Coding。(2^(k−1))−1個のClassifierを使う。
このコーディングの欠点は、分類するクラスが増えるにつれ、Classifierが指数的に増える点にある。

このほか、Naïve Bayes、kNN、決定木も比較に加える。

Feature Selection
Rankgeneというプログラムに含まれる以下8つのFeature Selectionを使用。
information gain
towing rule
sum minority
max minority
Gini index
sum of variances
one-dimensional SVM
t -statistics.
最初の6つはMachine Learningだけでなく、Statistical Inferenceにおいても幅広く使われている。

いくつの遺伝子を使うか、については決定が難しいところであるが、それぞれの方法において150以上を採用すると、識別の精度に差がでなくなるため、それぞれの方法でランキングされた遺伝子のトップ150を採用。(Fig.1)

ALL/AMLのデータセットをはじめ9つのデータセットで試している。それぞれのデータセットにおいて、識別の精度をそれぞれのClassifierのパフォーマンスとして比較。(データセットはあらかじめTrainingとTestにわけている)

Feature Selectionの8つの方法を決定木、Naïve Bayes,kNN, SVM one-vs-the-rest, SVM Random, SVM Exhaustive, SVM pariwise にて比較。

結果
どのデータセットにおいてもSVMのパフォーマンスが良い結果を示しているが、どのDecomposition方法がよいかについては、識別するデータに依存しているようで、一貫した結果にはなっていない。
kNNはどのデータにおいてもSVMほどではないが、良い結果を示している。kNNとtwoing rule のFeature SelectionではALLのすべてのクラスを使ったデータでは完璧な識別率を示しており、Feature SelectionがkNNには重要であることが示唆される。
Naïve BayesはFeatureが独立であることを仮定しているが、遺伝子発現においてはこれを断定できないので、結果があまりよくないのはそのためと考えることができる。
Feature Selectionについては、どの方法がベストということは難しい。GCM以外のデータセットでは、sum of variances、one-dimensional SVM、t –statisticsはまったく同じTop150を示した。
識別の精度については、Feature Selectionよりも、識別の方法の選択の方が重要である。

Coclusion
遺伝子発現における多値問題の解決は2値問題の解決よりもさらに複雑でる。クラス数が少ない場合はまだ良い結果を得られるが、分類しようとするクラスの数が増えるにつれ、精度は激減する。

将来的な方向性として、よりよいFeature Selectionの探索が1つあげられる。ランクによるFeature ExtractionはFeature間の相関を無視している。Feature間の相関を考慮したFeature Extractionの方法が可能かどうかは将来の検討項目である。
最後にアンサンブル学習は遺伝子発現において、当てはめることが可能であるのか、ということも考えられる。

プリチャード:Featureの数をもっと減らすと、結果がかなり違うのでは・・と思いました。相関が高いFeatureについてのFeature Extractionの方法が現在どのように検討されているのか、良い文献をご存知の方がいらっしゃいましたら、ご連絡いただけると幸いです。
# by bioinfo_paper | 2006-05-29 17:51 | Array>Classify