完全にメモ。メモを公開しているだけ。日本語のフリした似非日本語

http://www.jsps.go.jp/j-grantsinaid/03_keikaku/index.html

ここにあるように科研費の枠は色々あるのだが、以下は使える

  • 特別推進研究  は成果が期待された研究、つまりアツい
  • 挑戦的萌芽研究 は新しい領域の挑戦的な研究、来るかもしれない来ないかもしれない
  • 若手研究    は若手の単独での研究、研究者の繋がりにはいらない。単独で研究する内容に面白い相同性は無いのかな?

他にもJSPSの公式サイトを舐めまわしたが、使える情報はこれぐらい。
あと科研費申請の流れの図は将来的に役に立つのかなとは思った。

  • 特別推進研究とその他の研究の関係をみてみると、どういう状況で特推研が発生するのかわかる?
  • 挑戦的萌芽研究の成否がその後の研究で分かる?

なんて本題とあまり関係のないことも考えついたけれど、実際こいつらが意味あるのか無いのかが分からない
ので調べなければうかつに使うのはダメな気もする。

研究を繋げるのにキーワードと研究者を使って内積的なのとってつなげる?
クラスタリングで分野を機械的に決定する?
有意なパラメタを分野のキーワードとする?

これだと研究が骨組みで、研究者は肉に対応しそう。

研究のネットワークと研究者ネットワーク別々に構築する?
それでどうする
研究ネットワークのパラメタを研究者ネットワークを用いて補正?
研究ネットワークから生まれる研究者ネットワークが、市川モデルの研究者ネットワークに従うように学習?

とりあえず市川モデル(現実の繋がりのモデル)作る?

研究ネットワーク由来の研究者ネットワークって?
市川モデルにキーワード入れただけでね?
いっそnew市川モデルでいくね。
ソーシャルな繋がりが知りたいわけでは無いし。

こっちのモデルのほうが同じ分野の人間がみつかりやすい。
研究ネットワークと研究者ネットワークの2つを上手に使いたい。
2つのネットワークに分けるのはいい考えだと思うのだけどもん。

むしろ研究と研究者の混合二部グラフを作って研究ネットワークと研究者ネットワークにスイスイ変形できるっていいかも?
これいい!

研究課題の絞り込みメモ

projects0.csv
[研究分野:/基礎ゲノム科学/ OR /応用ゲノム科学/ OR /システムゲノム科学/ OR /ゲノム医科学/ OR /ゲノム情報科学/ OR /ゲノム生物学/ OR /代謝生物化学/ OR /生物分子科学/ OR /ケミカルバイオロジー/ OR /生物有機化学/] [採択年度:2002〜2012]
projects1.csv
[研究分野:/形態・構造/ OR /生態/ OR /生物多様性・分類/ OR /植物生理/ OR /動物発生・生理学/ OR /植物生理学/ OR /遺伝/ OR /植物生理・分子/ OR /動物形態・分類学/ OR /生物形態・構造/ OR /生態学/ OR /遺伝・ゲノム動態/ OR /生態・環境/ OR /植物形態・分類学/ OR /動物生理・行動/ OR /動物生理・代謝/ OR /植物分子生物・生理学/ OR /系統・分類/ OR /遺伝学/] [採択年度:2002〜2012]
projects2.csv
[研究分野:/物質生物化学/ OR /代謝生物化学/ OR /細胞生物学/ OR /発生生物学/ OR /機能生物化学/ OR /分子生物学/ OR /構造生物化学/ OR /生物有機化学/ OR /生物物性学/ OR /分子遺伝学・分子生理学/ OR /進化生物学/ OR /生物物理学/ OR /人類学/ OR /応用人類学/ OR /人類学(含生理人類学)/ OR /生理人類学/ OR /自然人類学/] [採択年度:2002〜2012]
projects3.csv
[研究分野:/創薬化学/ OR /生物系薬学/ OR /化学系薬学/ OR /環境系薬学/ OR /医薬分子機能学/ OR /物理系薬学/ OR /医療系薬学/] [採択年度:2002〜2012]

KAKENからprojectの情報を拾う

タイトルの通りで情報は拾えました。
一度研究者の情報抽出はやっていたので簡単でした。
二度目の*.csvには手こずらなかったぜ!
なぜこんなことをやったかというと、共同研究者を結びつける時に共同研究の回数で絞るためであり。
またこれで研究者ープロジェクトーお金、というようにプロジェクトを介してお金と研究者を結び付けられるようにするためです。
今度tabrisさんみたくコードをgithubに上げたいと思います。

関係ないけど髪を切ってさっぱりしました。
あと下北沢には可愛い女の子が沢山いました。以上。

問題

今日から対象データを増やして(約一万人)解析しようとして手始めに全体のネットワークを書いてみようかなー。
と思ったところ僕のノートPC(8G)ではメモリに収まらず断念。
ただたったの1万ノードでメモリが逝ってしまうのは妙な気がしたので次数分布をplot!

おふぅっ、、、
て声が出ちゃうレベルに平均して次数が高い!
べき分布といえど裾野が裾野ってほど小さくない!
そういえば共同研究は一回きりの関係が多いと有田先生がおっしゃっていたような、、、
よって共同研究の回数でフィルタリングor拾ってくるデータの対象期間を縮める、のふた手が思いついたが、後者は先に挙げた’一回きりの関係’によって重要な情報の重みが霞んでしまうと考えられる。
よって前者!
ちょうど研究課題のデータから情報抽出しようと考えていたのでまあいいタイミングで問題に気づけてよかった。

取得データのメモ

KAKENで研究者の情報を取得するためのクエリ
researchers0.csv
[研究分野:/基礎ゲノム科学/ OR /応用ゲノム科学/ OR /システムゲノム科学/ OR /ゲノム医科学/ OR /ゲノム情報科学/ OR /ゲノム生物学/ OR /代謝生物化学/ OR /生物分子科学/ OR /ケミカルバイオロジー/ OR /生物有機化学/] [採択年度:2002〜2012]
researchers1.csv
[研究分野:/生態/ OR /形態・構造/ OR /生物多様性・分類/ OR /動物発生・生理学/ OR /遺伝/ OR /応用人類学/ OR /生態学/ OR /人類学(含生理人類学)/ OR /生態・環境/ OR /生物有機化学/ OR /植物分子生物・生理学/ OR /遺伝学/ OR /生物物理学/ OR /物質生物化学/ OR /植物生理/ OR /植物生理学/ OR /生物物性学/ OR /系統・分類/ OR /進化生物学/ OR /人類学/ OR /代謝生物化学/ OR /植物生理・分子/ OR /動物形態・分類学/ OR /遺伝・ゲノム動態/ OR /機能生物化学/ OR /生理人類学/ OR /分子生物学/ OR /植物形態・分類学/ OR /動物生理・行動/ OR /分子遺伝学・分子生理学/ OR /細胞生物学/ OR /発生生物学/ OR /生物形態・構造/ OR /自然人類学/ OR /構造生物化学/ OR /動物生理・代謝/] [採択年度:2002〜2012]
researchers2.csv
[研究分野:/創薬化学/ OR /生物系薬学/ OR /化学系薬学/ OR /環境系薬学/ OR /医薬分子機能学/ OR /物理系薬学/ OR /医療系薬学/] [採択年度:2002〜2012]

簡単なお絵かきが出来ました。

ここ3回の作業ではネットワークをpythonから簡単に打てるソフト、
pydot http://code.google.com/p/pydot/
networkx http://networkx.github.com/
について勉強ついでに簡単なネットワーク図を書いていました。ちなみにpydotはマニュアルが親切でなく情報が非常に乏しいので、
pythonからネットワーク図を書こうという方にはnetworkxを推します。中身はc,c++,FORTRANで書かれているので速度に問題はありません。
installでちょっと躓いてしまった記憶があるのですが、詳しくは忘れてしまいました。ただ我らがstack overfllowに解決策は載っていました。
ちなみにこんな図が書けます。

データの元はKAKENですがデータも小さいし、なんの情報も載っていないのでつまらないですね。
これからこいつを面白くしていくので好ご期待。
Louvain algorithmを用いてインタラクティブに情報を得られるようなソフトを作りたいのですが、ただ収穫祭ではそこまでは無理かなと思います。

下準備の下準備完了

KAKENから落としたファイルから情報を抽出してjson形式にダンプして使いやすくしました。
次はgraphvizに合わせたクラス設計をしたいのでgraphvizのお勉強と、時間があればコードの設計までしたいですね。
どうせ一発でいい結果なんて出るとは思わないのでパパッとやって、どんなかんじになるか見てみたいです。
パパッといければですが