研究ブログ

研究ブログ

コードの神話

IoTとかデータシェアリングとかにとって肝要なのはちゃんとしたコードや識別子(ID)の設計と運用である。ところがこのコードに関してある種の思い込み(ここでは神話といおう)があって、それが”いい”コードの普及の障害になっている。そこで、わたしなりにこのコードの神話を書き記そう。

コードと識別子(ID)はどちらもなんらかの事象・事物を識別するために用意する一意の記号である。抽象的な事物につけるときはコード、具体的な事物なつけるときは識別子(あるいは単に番号)というようである。コードは相対的には量が少なく固定的で、識別子は量が多く動的(追加や削除が多く行われる)ものとされる。コードはコード間で関係をもつことがある(たとえば上位コード下位コード関係)が、識別子はない。
ちなみにIMI共通語彙基盤では、コードとIDという別のクラスであるが、その違いは上の関係の有無と表記の有無である。
ただ、一般用語としてのコードと識別子(番号)は必ずしも上のような原則に則っているわけではなく、混在している。たとえば、郵便番号は番号といっているがコードとみたほうが適切である。一方、電話番号は識別子である。JANコードはコードと名打っているが内容としては識別子である。

さて主にコードに関してであるが、歴史は古く、図書館分類のようにコンピュータ導入以前から使われていたものもあるが、いまあるような多種多様なコードの出現はコンピュータ利用と相まって始まった。コンピュータの出現とともに使われてきたという経緯があるため、そのときどきのコンピュータの能力に依存した形でコードが決められてきた。コンピュータの能力が変化すればコードのあり方も変わるのである。そこで古いコードと新しいコードではその作り方が変わってきている。にもかかわらず古いコードの考え方が残っているところが問題である。これあ私が呼ぶところのコードの神話である。ではその神話を順にみていこう。

(1)コードは固定長であるべきである(半分正しく、半分間違っている)
コードの対象の総量は概ね固定されていることが多いので、その総量を予め見越せは、それにあった固定長の文字列を与えることは理にかなっている。ただ、固定長であることが必須ではない。識別子のほうはとくにそうで、総量が予想つかない場合や使い勝手を考えた時、可変長のほうが理にかなっていることがある。たとえばDOI(Digital Object Identifier)は可変長で、短いものもあれば長いものもある。また、長さもあまり無理してぎりぎりにすることはない(これも神話)。むしろ余裕があったほうがいいことがある。これも識別子の例で恐縮だが、ORCID (Open Researcher and Contributor Identifier)は研究者に対するIDだが、16桁の数字からなる。研究者が京単位までいるとは思えないが、これは別の人に対するIDであるISNIとの相互互換を図るためにこの桁数にしている。

(2)コードは構造的につくるべきである
構造的なコードとは、たとえば1桁目はこの分類を指し、2-3桁目はあの分類を指すといった、コードの文字列の中に構造があるようなコードのことである。先に挙げたJANコードやISBNは最初の何桁は事業者・出版社、次の何桁は商品番号を指すように桁ごとに分けられている。あるいは生鮮食品流通でつかわれるベジフルコードではもっと細かく大分類1桁、中分類3桁、品名2桁の計6桁のようにつくっていある。
これらは一見合理的にみえるが、拡張性や変更可能性がない、使いづらいコードなのである。たとえば一部の分類が想定される桁数を超えた場合、上位の桁を変更して無理やり収納せざるをえない。そうすると想定した構造が壊れてしまう。たとえば単一の事業者・出版社・中分類が複数の番号(文字列)をつかうことが上の例でもおこっている。
そもそもなんでこんな形式がよく使われきたかというと、一つはコンピュータの処理の能力であり、もうひとつは人間可読性からである。
確かにコンピュータの処理能力が乏しい時はコードの一部を使うだけで処理可能であるコードは便利である。今はそのメリットはほとんどない。むしろ分けて処理する方が面倒である。人間可動性とは人が読んでわかりやすいということである。確かにコードの文字列を見るだけで、コンピュータを使わずに内容の一部がわかるというのは人間にとってもありがたい。しかし、いまやコードを人間が読むというのは現実的な利用法とはいえない。むしろコンピュータにまず読み取らせるというが普通である。これが制約になるというはいまや不合理である。
ではどうしたらよいかといえば、コードに意味をもたせず、単に文字列(数字列)で表現すればいい。そして、もしそのコードの意味が知りたければ、そのコードに結び付けられた情報を別途データベースに問い合わせて知ればよい。データベースの構築が面倒と思うかもしれないが、そもそも現代のコードはコンピュータ利用が前提であり、そのために元になるデータベース構築やそれへの問い合わせは必須である。

(3)コードはコンパクトのほうがいい
なるべくコードのリストの長さが短いほうがいいコードだということである。これも人間可読性からくる不必要な制約である。確かに人間が読むのなら、何百ページのコード表はいやかもしれない。が、コンピュータにとってはなんら問題ない。むしろ必要なコードが用意されず、本来分けるべきものが一つのコードに押し込められてしまう状態のほうが困ったコードである。やたら「その他」項目が多いコードリストのその典型である。

(4)最新版のコードさえきちっと作っておけば、過去のコードは関係ない
一部のコードリスト(コード表)は毎年といった具合に改訂される。必要であればコードリストが改訂されるのは致し方ない。しかし、たとえ今後必要なはこの改訂されたコードリスト(コード表)だけだとしても、以前のコードとの関係性は必ず明示されなければならないし、ましては過去のコード(数字列や文字列)の再利用はもってのほかである。いまや、すべての情報は蓄積される。そのとき過去の情報は過去のコードリストを使って表現されている。この過去の情報を理解するのはいまのコードリストとの関係を知らないといけない。市区町村コードは合併等によって市区町村がかわればコードもかわる。幸いなことに市区町村コードはほとんど再利用がされていないので、コードが間違った対象に解釈されることはない。しかし、過去の文書で使われいる市区町村コードが指すものが何かはそのときの市区町村コードが何をさしているか(たとえば合併前の市を指しているのか後なのか)はコードの履歴を管理して、そこから導けるようにしないといけないというわけである。文部科学省の科学研究費補助金では分野等の分類表というコードリストを用意しているが、これは時々(2年に一度程度)改訂される。これはコードそのものも再利用されるので、あるコードは何を指しているのかは、何年次のコードリストかとペアにしないとわからないという使いづらいコードになってしまっている。

全体をまとめると、設計指針としてはこんぐらいだろうか。
(1)人に読ませることは考えるな。コンピュータに読ませることだけを考えよ。
(2)コンピュータ利用を前提に設計せよ。コンピュータの能力が発揮しやすい形式にせよ。また、データベース利用を前提に設計せよ。
(3)過去との関係も考えよ。
0

「集合知とはなにか」 6. まとめ

「集合知とはなにか」 
(承前)
6. まとめ

集合知、ことにインターネットを利用した集合知は、これまでのない知の発現の仕方であった。これからもより多くの人がインターネットにつながり、さらに多様な使い方をするつれ、様々な形で集合知は発現するであろう。とくに大規模なデータ収集と様々なアルゴリズムによる処理との組み合わせは、今後もこれまでにない集合知の作り出すことが可能になるだろう。ただし、集合知は万能薬ではないし、ある種の条件下でしたうまく働かない。そういう点を理解しておくとは肝要である。



* 図表
図1:群盲象を評すxvi
図2:交差点での人の動きxvii。
図3:ニコニコ動画における動画のネットワークxviii
図4:reCAPTCHAの画面

* 脚注
i James Surowiecki : The Wisdom of Crowds: Why the Many Are Smarter Than the Few and How Collective Wisdom Shapes Business, Economies, Societies and Nations, Anchor (2005) 邦訳:ジェームズ・スロウィッキー:「みんなの意見」は案外正しい、小高尚子訳、角川書店(2006)
ii 前掲書の訳に従い、2番目の項目を独立性(independence)、3番目の項目を分散性(decentralization)と訳した。ただ、日本語としては、前者は相互非依存性、後者を自律性あるいは独立行動性といったほうがわかりやすいかもしれない。
iii Googleの検索エンジンは初期にはこのPageRankアルゴリズムのみに依存するものであったが、現在は他の様々な要因を使って実現しており、必ずしもPageRankアルゴリズムだけではない。しかし、基本はこのアルゴリズムである。
iv 「重要度=人気度」と考えるなら、この結果は自明と思うかもしれない。そうではない。Webの書き手は自分の用途のためにリンクしたのでは、
v 調整の問題は限られた資源を多数で利用するときにおきやすい問題であり、員テーネットではあまり限られた資源がないため、ここでは実世界の問題を取り上げた。
vi Wikipediaには管理者というユーザがいるが、あくまで議論が紛糾したり、ページが荒れてきたときなどに介入するだけで、一般の百科事典の編集者とはまったく違う。
vii 2014年9月18日調べ。
viii“Internet encyclopaedias go head to head”, Nature 438 (7070) p900-901; 
http://dx.doi.org/10.1038/438900a。ある方法で調査したところ50件の対応する記事でブリタニカで123件、Wikpediaで162件の指摘があったという。これにはブリタニカより反論があり、またその反論もNature誌も行っている。
ix 記事の品質と執筆者との関係は様々な研究がなされている。例えば、以下の論文では品質の向上と執筆者数の増加はある条件(執筆者間の適切な関係)において相関していると述べている。Aniket Kittur and Robert E. Kraut. 2008. Harnessing the wisdom of crowds in wikipedia: quality through coordination. In?Proceedings of the 2008 ACM conference on Computer supported cooperative work?(CSCW '08). ACM, New York, NY, USA, 37-46. DOI:10.1145/1460563.1460572 
xEric S. Raymond, The Cathedral and the Bazaar, February, 2010. 邦訳:エリック・レイモンド、伽藍とバザール、山形浩生訳。http://cruel.org/freeware/cathedral.html
xi n次創作については、濱野 智史「ニコニコ動画はいかなる点で特異なのか 『擬似同期』『N次創作』『Fluxonomy(フラクソノミー)』」、『情報処理』Vol.53 No.5、情報処理学会、2012、489-494ページ、参照
xii ニコニコ動画における創作の連鎖については、濱崎雅弘, 武田英明, 西村拓一 動画共有サイトにおける大規模な協調的創造活動の創発のネットワーク分析 -ニコニコ動画における初音ミク動画コミュニティを対象として-, 人工知能学会論文誌, Vol. 25, No. 1, pp 157?167 (2010).参照
xiii カーナビゲーションシステムでも最近はこの情報も使っていることがある。また2011年の東日本大震災においてはカーナビゲーション会社がこの情報を利用して、通行可能な道路かどうかが分かるサービスを一時的に公開した。
xiv 心理学における被験者実験においては、被験者に実験の目的を知らせないあるいはさとらせないようにすることが求められる。このためわざと偽の目的を被験者に説明することもある。というのは、人間は賢く、何かを求められていると知ると無意識的でもそれに合わせた行動をとるからである。
xv H. Takeda and I. Ohmukai: Building semantic web applications as information/knowledge sharing systems, in End User Aspects of the Semantic Web, Colocated with ESWC 2005, Heraklion, Greece (2005). 参照。
xvi葛飾北斎, 北斎漫画, 8編, (1878)。国立国会図書館 近代デジタルライブラリーより。著者により一部改変。
xvii Tom Page, Shibuya's Crossing Dance, CC-BY, https://www.flickr.com/photos/tompagenet/35574542/in/photolist-49k5b-7ffvSj-dYWyoU-8VL1PQ-5mo1Z5-51zefC-8VnGfS-5ATcq-5ATbH-9npJ6P-dwwwhN-b6ffaR-iBrxj-4W8V63-5R9eWZ-9M7maJ-nWMf1N-7grYVd-gDgWDJ-5vEYki-ossoh5-b9edzz-9PxkUB-5d7hLA-b9ecVa-4boZCG-axqrhk-a6Edr-8Rhb5W-9xpQSj-7ft5Eg-4zupU8-5krhiZ-7TgfzH-8VnF4m-8VjC6M-8VnFA5-8VnENL-c4XHjG-7xPVr4-4ru6kM-fMpzGM-WBYZQ-8Vr1Sn-4TpVCC-bWwSMd-8UxpHz-6omEea-wrQYc-7tem93
xviii R. Cazabet and H. Takeda: Understanding mass cooperation through visualization, L. Ferres, G. Rossi, V. Almeida and E. Herder eds., Proceedings of the 25th ACM conference on Hypertext and social media, pp 212?217, Santiago, Chile (2014), ACM.
(おしまい)
最初に戻る
1

「集合知とはなにか」 5. 集合知に対する誤解

「集合知とはなにか」
(承前)
5. 集合知に対する誤解
インターネットの普及について集合知の重要性が顕著になったゆえに、集合知に対する一方的な賛辞や批判もでてきている。そういった極端な言説は集合知に対する誤解を生んでいる。いかではそのいくつかを取り上げる。
(1)「集合知はインターネットによる民主主義である。」
あるいはそこまで言わなくても、集合知は民主主義的方法だと考える人がいる。しかし、集合知は現在の政治制度としての民主主義とは一線を画すものである。政治制度としての民主主義は平等に重きをおくが、集合知は実はそうではない。確かに集合知においては資格や能力の有無を問わず参加できるという点で平等なシステムのようにみえる。しかし、それは機会の平等だけであって、結果は極めて不平等である。GoogleのPageRankでのランク付けやYouTubeやニコニコ動画での再生回数にみるように、たとえ多くの人が貢献したとしても利用されるものはそのうちわずかであり、むしろ一部に極度の集中する仕組みになっている。政治制度的にみれば独裁的ですらある。このような不平等さが集合知としての賢さを作っている以上、避けられない。なお、逆に集合知のほうから民主主義を再定義するというのは別の議論としてありうるだろう。
(2) 「集合知は市場主義の社会化である。」
クラウドソーシングやAmazonの推薦などは我々の日常の行為を収集して、ある種の価値付けをして利用している。これは個人個人の活動が市場メカニズムに組み込まれていくという意味で、市場主義の拡張ではないかという考え方である。確かに健全な市場のためには多様性・独立性・分散性・大規模性が必要であり、これは集合知の条件と同じで、集合知は市場主義と近縁にみえる。しかし、健全な市場とは集合知の発現の一種であり、逆ではない。集合知では価格といった単一の基準以外の方法でタスクの解決をすることができる。とくにWikipediaでみたような協調的なタスク解決は市場主義では実現できない。むしろ市場主義では解決でないことを解決できる仕組みである。
(3)「集合知は効率的な仕組みである。」
クラウドソーシングによるタスク解決は往々にしてこれまでの方法にくらべてコストが安い。これをもって集合知は効率的な方法だと考えるのは間違っている。効率という観点からみれば、集合知は極めて非効率な方法である。多数の貢献があったところで、実際に利用されるのはその一部であり、残りは利用されない。クラウドソーシングがコスト安にみえるのは、余剰時間の活用や社会貢献といった要因からくるもので、投じられた労力を算定すれば既存の方法より非効率である。
集合知の価値は、上記のような既存の方法でできることの置き換えにあるのではない。むしろ、集合知でしかできないことを達成できることに価値がある。とくに協調的・共創的な活動は集合知でしかできなかったことである。
つづく
0

「集合知とはなにか」 4. 集合知のデザイン

「集合知とはなにか」 
(承前)
4. 集合知のデザイン
インターネットの発達に伴って集合知が様々なところで発現するようになった。しかし、集合知は自然発生的に発現することはまれである。多くの場合、集合知が発現するようにデザインされている。集約性・大規模性についてはコンピュータ・インターネットによって実現するところなのでデザインが必要なのは明らかであるが、それ以外の多様性・独立性・分散性を担保するためにもデザインが必要である。
技術的にみれば集約性を実現する仕組みは興味深い。GoogleのPageRankアルゴリズムやamazonの推薦アルゴリズムはその最たる例である。しかし、アルゴリズムの善し悪しは集合知の実現の要素の一つに過ぎない。集合知が成功するかどうかの重要な要素は、いかに人を巻き込めるかということである。集合知においては、多様でかつ独立かつ活動・興味が散らばった人をいかに多数集められるかが成功の鍵を握る。すなわち、デザインの観点からすれば、そのような人を巻き込む仕組みをデザインするということになる。
集合知のための活動に人がどのように関与するかをわけると以下のようになる。
1. 何もしない
2. 別の目的の何かをしてもらう
3. お金を払ってしてもらう
4. 積極的にしてもらう
1から4の順にユーザの負担が増える。
「何もしない」というのはユーザはまったく意識しない行為・活動が集合知にこうけんするという仕組みである。ある意味、最も理想的な仕組みである。Google Mapにおける渋滞情報がその例である。Google Mapを利用していると渋滞している道路が色をつけて表示されている。多くの日本のカーナビゲーションシステムでは渋滞情報は地上に設置されたセンサからの情報を集約したものを利用している。しかし、Google Mapはこの情報ではない方法で渋滞情報を生成している。それはGPSつき携帯電話でGoogle Mapを使っているとその携帯電話の移動情報がGoogleに伝えられる。Googleはこの情報を集約して渋滞情報を生成しているxiii。この場合、ユーザは特段何もしていない。しかし、結果として集合知が実現されている。
「別の目的で何をしてもらう」というのは、ユーザが行う別の目的の行為を利用して集合知を実現するものである。わかりやすい例としては、amazonの推薦がある。Amazonを使っていると、表示されている商品に関連された商品が推薦されるようになっている。この推薦の元になっている情報は、amazonのユーザがさまざまな商品を閲覧したり購入したりする行為である。ユーザは別にこの推薦のために閲覧・購入行動をしているわけではない。
変わった例ではreCAPTCHAがある。インターネットのサービスにおいて、コンピュータによる不正アクセスを防止するためにCAPTCHAというものが使われることが多い。CAPTCAとはアクセスしたものがコンピュータではなく人間であることを認証するプログラムで、コンピュータには難しく人間には優しい課題を回答させることで認証を行う。多くのCAPTCAでは文字を含んだ画像から文字を入力させるということを行わせている。reCAPTHCAでは、この課題の画像に書籍のデジタル化でOCR(文字読み取りプログラム)で認識が難しかった部分の画像を使い、reCAPTCHAのユーザに解かせている。reCAPTCHAでは二つの画像を提示し、二つの文字列を回答させる。そのうち1つの画像は既知の画像で、もう一つがは未知である。既知の画像を正しく回答するユーザは認証され、同時に未知の画像の正答の候補となる。この候補を集め、一定数になったら、それを正答とする。すなわち、ユーザはサービスを利用とするという行為のためにreCAPTCHAを使い、結果として、書籍のデジタル化に貢献しているわけである。
この二つの方法に共通することは、多様性・独立性・分散性を満たすユーザがいるサービスに埋め込んでいることである。さらによいことは、どちらもユーザは集合知の目的を意識しないので、行為に特定の目的に合わせようとするバイアスがかかることはないxiv。このようなバイアスがかかると行為の独立性が損なわれる。これは行為の独立性を高めるよい条件である。
さらにもっと直截的に「対価を払ってやってもらう」という方法もある。これはクラウドソーシングと呼ばれるもので、amazonが運営しているMechanical Turkが有名である。クラウドソーシングではタスクを不特定の多数の人に対価を払って実施してもらって、その結果を集約することで、タスクを解決するというものである。これまでも業務や問題解決を外部に委託する(アウトソーシング)は行われてきたが、クラウドソーシングでは公募方式で多数の参加者を募る点で異なる。クラウドソーシングは広く受け入れされ、前述のMechanical Turkをはじめとする多数のクラウドソーシングのサービスが運用されて、利用されている。クラウドソーシングにおいて参加者の多様性・独立性・分散性・大規模性を満たすようなタスクを設計することが肝要になる。多くの場合、タスクを小規模で単純なものにすることで、参加の敷居をさげることで、上述の集合知の条件を満たすようにしている。
もっと意識的に集合知に参加することはできないだろうか。それが最後の「積極的に参加してもらう」という方法である。これこそが集合知の本来のあり方であるが、簡単に実現できるわけではない。というのは、集合知は参加する人々に対して直接的な報酬や利益を与えるわけではない。参加者は間接的あるいは長期的には集合知の恩恵を受けるかもしれないが、それは活動している時点ではない。このため純粋に集合知のために貢献するというような仕組みは参加者の規模的にも時間的にも広がりをもつことが難しい。集合知形成で「別の目的で何をしてもらう」方法が実際的なのはそれ故である。人は短期的な利益(その場でのありがたいこと)のためなら行動しやすいが、長期的な利益のためには動きづらい。現在何億とあるWebページで構成されるWeb空間は集合知の結果であり、長期間かつ多くの人々の参画で出来ている。一方、イントラネット等で情報共有・知識共有をするサイトは往々にしてうまくいかない。この差異はどこにあるのだろうか。
成功する集合知のサービスのデザインにおいて、(1)長期的なご利益だけでなく、短期的なご利益もあるようにする、(2)短期的なご利益とご利益が結びつくことをみせる、ということが必要である。(1)はまず参加するだけでも参加者が自分自身にとってありがたいサービスであるということである。そのうえでそれが長期的な利益(集合知)に貢献してことをみせる(2)というわけである。これを2重のご利益ループと呼ぼうxv。
例えば、Webにおいては、Webページを作ることは、それだけでも役に立つ。自己表現にも使えるし、人にみてもらうことができる。この段階だけでもWebページを作り続ける動機になる。その上で、このWebページを登録することで、検索エンジンなどを通じてアクセス可能なことがわかると、単に自分のためだけでなく、他者に使ってもらうことも価値を理解することが出来る。SNSといったサービスは元々情報共有が目的であるが、(1)の部分、すなわち自分の情報・状況を記録することだけでも楽しくないと広がらない。位置を使ったサービス・ゲームも同様で、まず自分だけでも楽しいといったことが必要である。先に挙げたイントラネットにおける情報共有・知識共有は成功しないのは、こういった2重のご利益ループを埋め込めていない点にある。
つづく
0

「集合知とはなにか」 3. 集合知のタイプ

「集合知とはなにか」
(承前)
3. 集合知のタイプ
以下では主にインターネットでの事例を取りあげて、集合知を考えていく。ここでは人々同士がどのくらい関与し合うのかによって、認知、調整、協調、共創の問題にわける。すなわち人同士の関与がこの順に強くなっていく。

3.1.認知の集合知
認知の集合知とは、なんらかの判断を下す問題があったとき、とくに秀でた少数の人の認知に基づく判断より、単に多数の人の認知を総合した方がうまくいくという集合知である。
認知の集合知の最も身近な例はGoogleの検索エンジンであろう。Googleの検索では、知りたい単語などを入れるとその単語に関連したWebページが列挙される。実際使ってみると、上から数件のWebページのどれかが知りたいページになっていることが多い。数多あるWebページをこのような適切な順番にどうやって並べているのだろうか。実は、このWebページの順位付けが集合知によって実現されている。
Googleの最初でかつ最も重要なサービスである検索エンジンの基本はPageRankアルゴリズムというものであるiii。PageRankアルゴリズムでは、Webページ間のハイパーリンク(リンク)を利用する。多くのWebページの中からリンクで指されているページは重要であると考える。ある種の人気投票のようなものである。が、単純に人気投票ではない。さらに重要なページからリンクされているページはやはり重要であると考える。単にリンクされているページの数ではなく、それぞれのページの重要度を足し合わせたもので重要度を計算する。
これは循環的定義であるが、繰り返し計算などをすることで求めることができる。Googleでは世界中のWebページを収集して、この計算をして各ページの重要度を決定する。この重要度が我々の直感に合っているのはgoogleを使っている人なら日々実感しているだろう。
ここで利用されている情報は、インターネット上にある莫大なWebページである。この莫大なWebページは、沢山の様々な人々がそれぞれの目的のために作ったものである。そうした個人の行為をまとめると、多くの人が納得できるページの順位付けができるというわけであるiv。これは典型的な認知の集合知である。
この例では集合知の条件はどうであったであろうか。世界中の異なる立場の人たちがWebページを書いており、実に多様であり、多様性はよく確保されている。Webページの書き手がみな同じ情報に接したり、直接コミュニケーションをとることはないので、独立性は確保されている。Webページの書き手はそれぞれの環境下でそれぞれの目的でページを書いているので、十分に分散性が確保されている。集約性についてはまさにgoogleがなしえて部分で、googleが大規模なWebページ収集をして集約したことによって初めて実現でいた。大規模性については言うまでもなく十分である。
逆に集合知がうまく働かない条件を考えると、例えば独立性が損なわれるケースであろう。あるWebページが強く影響力があり、多くの人がそのページに接して影響されれば、独立性が損なわれる。すなわちgoogleが作るランキングによって人々の行動が変わり、ランキングが再帰的に強化される。これは実際に起こっており、このため影響力をもちたいWebの書き手はgoogleのランキングをいかによくするかといった工夫(Search Engine Optimization, SEO)をしたりしている。Googleもこのことを理解しており、単にPageRankアルゴリズムだけに頼るのではなく、他の要素もいれるようにしている。

3.2 調整の集合知
認知の集合知においては、個々の人は他者を気にすることなく行動することができる問題であった。調整の集合知においては、他の人の関係を考慮しなければならないような状況での集合知である。相互に関わり合いのある状況においては、ある人の行動が他の人に行動に影響を与えてしまう。このような場合の一つの解決法は、だれかが司令塔になって行動を制御することである。これは多くの社会的組織で行われており、効率がよいとされるものである。しかし、非常に多くの人が関わる場合、この中央集権型制御が必ずしも適切とは限らない。
典型的な例として交差点での人の動きを考えてみようv。写真(図2参照)は渋谷のスクランブル交差点である。この交差点では四方から人は交差点に進入してくる。混んでいるときは適度に避けないとぶつかるが、避ければ別の人とぶつかる可能性ができる。それぞれの動きが影響し合っている。それぞれの人はごく自分の近隣しかみずに行動しているが、ほとんどぶつかることはない。これを全員を一括して制御するのは容易でない。しかし、この容易ではないことを、人々のさりげない行動の集積で実現している。
ここでの集合知の条件ではどうであろうか。多様性は歩行者の歩く速度や避け方などの行動の多様性において担保されている。一見、行動が多様なほうがぶつかりやすいと思うかもしれないが、必ずしもそうではない。統率された行進がちょっとしたアクシデントで往生することがあるのにくらべ、行動が多様な場合はそういうことはおこりづらい。独立性は、歩行者の行動は直前や周囲の歩行者の動きに影響されるものの、全員がひとつの情報に影響されているわけではないことから、概ね確保されている。分散性は当然で一人一人は自分の行動のみを決定しているので、ばらばばらである。集約性は交差点という場所そのものであるが、これはあまりいい集約する仕組みではない。大規模性はそれほど高くない。このケースにおいては主に多様性と独立性と分散性のバランスがうまくいくとき、集合知が発揮されていることがわかる。
同様な場合でも集合知がうまく働かないことがある。行楽や帰省時の高速道路の渋滞はその例である。近年は渋滞予測など情報が事前に提供されるにも関わらず、相変わらず渋滞は起こる。この場合は、独立性に問題がある。元々、同じ目標を共有(ある時期にある場所へ行く)している時点で独立性は弱いが、さらに渋滞情報を共有することで行動がより独立でなくなっている。みんなが予想された渋滞を避けるために同様の行動をとることで、別の時刻・場所で渋滞が起こるとういうのはその典型例である。

3. 3 協調の集合知
調整の集合知のおいては、確かに人々の行動は他者の行動から影響を受けているが、行動の目標を変えるわけでなく、目標に至るまでの個々の行動を多少変えるだけである。それに対して協調の集合知においては、行動の目標そのものが他者から影響を受ける。
協調の集合知として顕著なのはWikipediaである。Wikipediaはオンラインの百科事典で、様々な事象に関する説明が収録されている。一般に百科事典は編集者が掲載項目をえらび、その上で個々の項目に相応しい著者に記事を依頼して作られる。つまりそれぞれの専門家が記事を執筆する。一方、Wikipediaでは、誰でも新しい項目を起こして記事を執筆することができ、かつ誰でも他の人の書いた記事の内容を修正・加筆してよい。基本的にだれも管理をしない百科事典であるvi。にも関わらず、大量の項目の記事が掲載されかつ多くの人が使うサイトになっている。例えば、英語版のWikipediaでは460万件以上、日本版でも100万件近くの記事があるvii。項目数に関しては他の百科事典では比較にならない大きさである。その信頼性については多くの議論があるが、古典的な百科事典ブリタニカと遜色ないという報告もなされているviii。
Wikipediaの全記事を知っている人間は誰もいない。各執筆者は自分が興味がある記事だけ執筆したり修正したりしているだけである。にも関わらず大量かつそれなりの信頼性のある記事があるというのは、まさに協調の集合知の賜物である。
この場合の集合知の条件はどうなっているだろうか。まず多様性においては、全く制約なく誰でも参加でき、実際専門家からごく普通の人まで多様な人が参加している点で多様性が確保されている。独立性については、執筆者間は基本的に関係はなく、相互に影響をもっていることはなく、独立性は保たれているといえる。分散性においては、一つの記事においても執筆者の興味は異なるし、Wikipedia全体ではそれぞれ自分の興味に従って異なる項目を執筆するので、よく分散されているといえる。集約性はWikipediaという存在そのものが集約を促す存在で有り、かつ記事の共同執筆を支えるソフトウエアの仕組み(いつでも元に戻せる仕組みや議論ページ)がメカニズムとして集約を実現している。大規模性においては、一つの記事にも複数の執筆者が存在する程度に大規模であることが重要である。多くの人が一つの記事を執筆することで、誤った情報などを取り除くことができている。
Wikipediaにおいても上記の条件が満たされなくなると、信頼性が損なわれる。例えば、各記事には執筆者が議論できるようになっている(議論ページ)。しかし、ここで議論を行いすぎると執筆者間の独立性が失われてしまう危険性がある。また、一つの記事の執筆者が少ないと、その記事が必ずしも正しくないことがある。これは大規模性が損なわれているときであるix。
このような集合知のよる創造的活動はWikipediaが初めてではない。それ以前にLinuxに代表されるオープンソース・ソフトウエアの作成において特に注目されるようになった。このようなソフトウエアの作成においては、ソフトウエアのソースコードは公開され、誰でも修正や改善することができる。ソフトウエアのプログラミングのように高度な専門性が必要とされる活動は一般には専門の人間を集めて実施される。しかしオープンソース・ソフトウエア作成においては、参加者に資格が必要とされず、誰でもその気になれば参加できる。そのような状態で本当に信頼できるソフトウエアができるのであろうか危惧するのは当然であろう。しかし、実際にはLinuxをはじめとする多くのインターネットで使われているソフトウエアはこのような形で作られてきている。
オープンソース・ソフトウエアの活動を推進するレイモンドはオープンソース・ソフトウエアが成功する一つの要因として十分な数の開発者とテストをする人がいることをあげている。いわく「目玉の数さえ十分あれば、どんなバグも深刻ではない」x。これはまさに多様性、独立性、分散性、そして大規模性を兼ね備えた開発者コミュニティが成功の鍵であることを示唆している。集約性はプログラミングのソースコードそのものである。
3.4 共創の集合知
Wikipediaやオープンソース・ソフトウエア開発の場合は達成したいゴール(記事やソフトウエア)は外から与えられ、それを集合知が解決している。さらに一歩進んで、ゴールそのものをみつけるような集合知もある。
ニコニコ動画はYouTubeに代表される動画共有サイトの一種であるが、アニメや音楽などポップカルチャーに関わる創作的動画が多く投稿されている。特徴的な点は、これらの動画が孤立したものではなく、過去にニコニコ動画に投稿された動画を改変したり、部分的に利用したりするn次創作的動画が多いことであるxixii。1つ1つの動画は個人の創造的行為であるが、過去の動画の利用という形で隠れた協調が行われている。その利用に仕方もコンセプトの借用から楽曲や3Dモデルの利用までさまざまである。図3にその関連性の一部を示している。○印が動画を示し、線は利用・参照などの関係を示している。○の大きさは他からの参照の多さを表現している。○の色の濃淡は異なるタイプの創造的行為を示している。動画制作において、どの部分(楽曲制作、イラスト制作、3D動画制作、ダンス、歌謡など)が創造的部分かによってわけている。この図からわかるように、関心の高い動画のは様々であり、また関係の仕方も様々なである。
この場合の集合知としての興味深い点は創造的行為を集団として創発的に実現していることである。Wikipediaやオープンソース・ソフトウエア開発においては行為のゴール(新しい記事やソフトウエアをつくること)は外から与えられるものであるのに対して、ニコニコ動画においては行為のゴール(新しい動画をつくること)は集合知のプロセスの中で生まれてくるものであるという違いである。
参加者はすでにある動画を視聴することで新しい動画をつくることを動機づけられ、新たな動画を制作して投稿する。多くの人が興味をもつ動画の関連動画が増え、それはまたさらにその関連動画に関連する動画が制作される。結果として図に示すような複雑かつ大規模な動画のネットワークが作られている。あらかじめどのような動画をつくるというゴールが決まっていたのではなく、集合知の作用の結果としてどのような動画は投稿されるかが決定されている。すなわち、自立的あるいは創発的集合知であるといえる。
集合知の条件から見ると、参加者はプロからアマチュアまで幅広く多様性に富んでいる。基本的に参加者は直接コミュニケーションを取ることもなく独立性は保たれている。分散性はとくに顕著でこの図に示すように異なる多様な創作的興味によって動画が作られている。大規模性については一つの動画の派生が大量に生成されていることから分かるように参加者の数はとても大きい。ただ、集約性については他の協調の集合知に比べると弱く、動画につけられたタグや説明文の検索で弱くつながっているに過ぎない。
このような創発的協調は実は古く、学術世界における学問の発展でも行われていた。学術論文も引用・参照という形で隠れた協調が行われている。その集積としての学問は、自らの方向を自らきめる創発的集合知である。ニコニコ動画の世界と構造は同じである。違いは、インターネットを介することで、より幅広い多数の人間を参加することが出来るようなったという点である。
つづく
0

「集合知とはなにか」 2. 集合知の条件

「集合知とはなにか」
(承前)
2. 集合知の条件
 スロウィツキーは集合知が発現する条件として、多様性、独立性、分散性、集約性をあげている。これに加えて、ある意味当然であるが、大規模性を付け加えておく。
(1)多様性:これは参加者が多様であるということである。ここでいう参加者が多様であるということは、参加者それぞれが異なる視点をもっていたり、異なる情報を利用していたり、異なる推論・判断をするということである。多様性のある参加者の集合であれば、総体として広く可能性を追求することができ、異なる意見・行為を作り出そうことが出来る。その結果、求めるものを見逃すことが少なくなる。
(2)独立性:これは参加者の意見や行為が他の参加者の意見や行為に関係せずに、独立になされるということである。ある参加者が他の参加者に影響を受けているときや、一つの情報に多くの参加者が依存している場合、参加者の意見や行為は独立にならない。そのような場合、偏った結果を出す危険性が大きい。もちろん、達成すべき問題が比較的単純(認知的問題)であれば独立性を保つことはやりやすいが、調整的問題、協調的問題、共創的問題となるにつれ、問題達成のために参加者の相互関係が必要となってくるので、独立性の維持と問題達成のやりやすさはトレードオフになりがちである。
(3)分散性:これは、参加者の視点や行為が散らばっていること、すなわち一つの現象の異なる側面に注目して行為をする、あるいは異なる状況において行為をするということである。参加者の自律的に振る舞うことを担保することで、多様性と独立性が発揮されるii。
(4)集約性:これは参加者の意見や行為が集約する仕組みがあることを指す。ここがインターネットによって劇的に変わったところである。採決や投票は古典的な集約方法であるが、インターネットを利用することで様々な集約方法が可能になった。
(5)大規模性:参加者の人数が十分大きいこと。十分大きいというのは対象とする問題や現象によっても変わるが、基本的に十分に冗長である(同じ意見・行為するひとが多数いること)ことは必要である。達成すべきこと(認知的問題、調整的問題、協調的問題、共創的問題)なのかによっても変わる。

つづく
0

「集合知とはなにか」 1. 群盲象を評す(改訂版)

*******
とある本の1章のために「集合知とはなにか」という小論を書いています。
以下はその草稿です。見直しをしていないので相当文章が汚いですが、まずは初稿ということで御容赦ください。
間違いの指摘、コメント、批評等があればぜひお願いします。
*******
追加コメント:集合知の導入あたりでいろいろご指摘を受けました。それを受けて第1章を中心に改訂しました。
第1章では第2段落と最終段落を主に改訂しました(改訂前の文章はコメントに残しておきます)。
*******

「集合知とはなにか」
1. 群盲象を評す

「群盲象を評す」とは仏教説話にも出てくる話で、知っている人も多いだろう。おおよそこんな話である。多くの盲人が象を触ってそれが何であるかを知ろうとするが、ある人は柱のようだといい、ある人は壁のようだといい、触った場所によってまったく異なる意見がでてまとまらない(図1参照)。これはよく凡人は大人物や大事業を理解できない喩え、すなわち衆愚の喩えとして使うことが多い。この話はインドが原典で、意味するところは実は一意ではない。別の解釈では、多くの人が多様な情報を持ち寄り、それよって全体像が知ることができるという風に説明される。

後者の解釈は集合知のよい例になっている。多くの人が参画することで、一人一人が出来うること以上のことが出来るというわけである。別の形の集合知としては、秀でた少数の人に任せるより単に多数の人を集めて総合した方がうまくいくというものがある。あるいは堅牢な統率システムで集団を制御するより、各自に任せた方がうまくいうのもある。人は集まることで、全体として賢い振る舞いができる。これが集合知である。

ただ、この一つの話が賢さの喩えにも愚かさの喩えにもなるということが示唆するように、単に多数の人間が集まれば、無条件にそのようになるわけではない。そこがポイントである。実際、我々はどちらかというと集団の愚かさのほうをよく知っている。パニック時の暴動やバブルとその崩壊、民主主義の中での独裁政権の成立など、枚挙にいとまがない。一方の集団の賢さは少なくても近年になるまでは目立つような事象はなかった。近年、集団の賢さはインターネット普及につれて注目されるようになった。これは人の行動が変わったのではなくて、インターネットによって、後の述べるような集合知発現の条件が揃ってきて社会のいたるところで顕著になったということである。

 集合知についてはジェームズ・スロウィッキーの本[i]で一般によく知られるようになった。彼は様々な分野で多数の人間が参加することで全体として賢さが現れることをまとめてwisdom of crowds (群衆の賢さ)と称した。集団による知性についてはこれまでもcollective intelligence(集団的知性)と呼ばれて、生物学、社会学、人工知能などの様々な分野で研究されてきた。ここでは集合知という言葉を両者を包含する意味で用いる[ii]



[i] James Surowiecki : The Wisdom of Crowds: Why the Many Are SmarterThan the Few and How Collective Wisdom Shapes Business, Economies, Societiesand Nations, Anchor (2005) 邦訳:ジェームズ・スロウィッキー:「みんなの意見」は案外正しい、小高尚子訳、角川書店(2006

[ii]スロウィッキーの集団の賢さは現象を包括して呼んでおり、一方集合的知性についてはそれぞれのアプローチで定義や原理、振る舞いが議論されている。本章では集合知の原理などに踏み込まず、現象としての集合知を紹介する。原理などの議論は後章を参照されたい。


つづく
1

モノとヒトの関係

twitter経由でたままた、こんなブログをみて、以前、自分が考えていたことを思い出した。

「あなたは、あなたの選んだもので出来ている」と「モノのSNS」のブームへの洞察。
http://sakainaoki.blogspot.jp/2011/09/sns.html?spref=tw

ここではモノのSNS、http://sumally.com/ なるものが紹介されている。
その考察において、
日産の軽 MOCO「モコを選ぶ人」篇  (2007.10-)CM
の中の
「あなたは、あなたが選んだものでできている。」
というキャッチが取り上げられ、モノとヒトとの関係が語られている。

これをみて、ちょうどそのとき、自分もそんなことを考えていたな、ということを思い出した。

http://www.race.u-tokyo.ac.jp/vaci/sympo-H19-1130-j.html 
> 価値創成シンポジウム「人工物・価値・サービス」
> 日 時:平成19年11月30日(金) 13:00―17:00
> 場 所:東京大学本郷キャンパス 理学部1号館 小柴ホール
> ...
> 13:10-13:40「人工物の価値と人,社会」武田 英明
http://www.race.u-tokyo.ac.jp/vaci/data/sympo-H19-1130-takeda.pdf
この中で、最後から4枚目なんかは、まさにこのキャッチの模式化。
端的に言えば、モノとヒトとの関係が主客逆転している、じゃあこの状況下でのモノづくりはなんなの?という問いかけです。
(その問いかけに対する回答は
http://www.race.u-tokyo.ac.jp/vaci/sympo-H22-0323-j.html 
で部分的に試みた)

そのちょっとした実装ということで

木村諒史, 福原知宏, 大向一輝, 武田英明: 携帯電話とバーコードを用いた実世界における人や物の関係ネットワークの分析, 人工知能学会全国大会(第22回)論文集, No. 2E2-01, 旭川.
http://www-kasm.nii.ac.jp/papers/takeda/08/kimura08jsai.pdf

なんてものをつくってみたこともあった。
まあ実装は当時のあるだけなのでいかにもちゃちだけど、やりたいことはまさに、モノのSNS。

でもまあ、その経験からするとヒトのSNSのアナロジーではモノのSNSはうまくいかない。それはモノの世界の量や多様性はヒトの世界とはまったく違う(例えばモノのオントロジー)。発散するか、うまくいってもある特定のコミュに収斂するだけでしょう。もっと別の仕組みあるいは別の切り口が必要でしょう。

でもこういうことをみんなが考えるようになっているですね。元人工物工学メンバーとしてはちょっと希望を感じます。

0

International Workshop on Contributorship and Scholarly Attribution

ずいぶんと遅くなってしまいましたが、5月16日にハーバードで行われた、International Workshop on Contributorship and Scholarly Attributionについての簡単なまとめを書きます。
http://projects.iq.harvard.edu/attribution_workshop 

これは、いわばWeb時代の論文の著者を考えるワークショップ。研究の著者あるいは貢献者とは何か?どうクレジットして、どう利用されるべきか。いくつかの研究分野、いくつかの関係分野(出版等)の人を集めて、お互いに情報交換をして、問題を共有しようというものです。

*********
まず一番の問題分野である実験物理から。

The Collective Author, Peter Galison, University Professor, Harvard
Physicsの人

加速器物理における論文著者の変遷を語る。
・戦前は数人の著者
・1960年代 Bubble Chamber 1963 著者12-18人
実験者というのは新しい貢献のしかた
・1980年代 UA1 Z-decay, 1983 著者137
アルファベット順 (研究グループ内のコヒーレンスのためにそうすべき。例外なし)
物理学者も工学者も著者になるべき
・1990年代 1994 D0 Rules of authorship
・2000年代 LHC(2000) atlas 2500人

著者帰属の難問:
・誰が論文の責任者なの?だれが喋ってくれるの?
・機械工学者や電気工学者まで著者になるとき物理学者のアイデンティティは?

あとグループ著者の問題
1. Pseudo-I: 一人の著者の名前のついたグループ
2. collective author: 特定の著者や機関に帰属しないようなグループ
ニュートリノ超光速の研究もその例。

Q 解はあるのか
A 素粒子物理以外にも、バイオインフォマティクス、宇宙科学、ナノサイエンスなども同様だが、文化が違うことを十分に考慮すべき。
どんなアナリシスがグループ内部でされるか。どんなレビューがされるかに依存。Q他のbig scienceはQPから学んだ?
Q 映画のクレジットと比較。CG関係者はちょうとQPと同じように増えている。専門が増える
映画産業から学べる?
A 物理学者は物理学者として評価されたい。特定の専門を明示されるのはうれしくない。これに一生をかけているのだから

**************
Issues of authorship practice and policy in experimental science research labs, Cassandra Extavour
実験生物学

チーム:Pricipal Investigator (PI) - Postdoc - research assistants - Graduate - Undergraduate
それぞれ違うゴールがある
PI: Publish, funding, get tenure
Postdoc: achieve careeer stability
Graduate Student: Graduate, obtain posdoc, publish
Research Assistants: Keep good job, obtain nect career, contribute to search, publish
Undergraduate: Graduate, obtain post-graduate position, contribute to reeach, publish
なので、論文の著者は違う価値がある

PI:リードする力
Postdoc: 独立の研究する力
G: 研究をできる力
RA: 次の職へ石
U:次の職への印

著者順は特別な意味
第一著者:実験や分析メイン、院生、ポスドク
第2著者:実験や分析に貢献、学生か技術者
途中の著者:
ラスト:PI

誰が実質的な貢献をしたのか?
ー実質の定義がメンバーによってちがう
ーPIが最終的に決める

でもいつも著者順が意味があるわけではない

*********************************************
Contribution and attribution in research: funder perspectives, Liz Allen (Wellcome Trust) 基金

ーbig scienceでは著者が沢山で貢献がわからない
ー謝辞での記述と著者との関係が不明
ー著者の増加
WellcomeTrustで参照された論文の著者数
20062010
Genetics paper 10.2129,82 (1-505)
ALL6.28     8.32

*********************************************
Authorship: the journal perspective, Christine Laine, 出版社(医学系)

著者とは*実質的*な知的な貢献をしたした人
著者の意味:
- 学術的、社会的、財政的示唆
ー読者が誰がしたかを知りたい
ーこの仕事のとりまとめは誰?

著者の基準 ICMJE 
- 概念化、設計、データ獲得、分析、解釈において実質的貢献
ー文章に負い蹴る重要な知的コンテンツ
ー印刷版での承認
http://www.icmje.org/ethical_1author.html

謝辞の定義 ICMJE
ー著者の定義にあわない人たち
ー臨床実験関係者

編集者は規制できない。著者が決めることだから。著者が不十分だったり、ギフトのような不適切な著者がいるだろう。

Concil on Publication Ethics (COPE)

ロールの明示化

現代的な著者定義への提案
ー説明可能な実質的貢献
ー他の人の貢献を理解すること、全体への合意
ー全員が論文をレヴューすること

*********************************************
Authorship: a provostial perspective (deeply informed by scholar, selection/funding committee, and editorial board perspectives), Judith Singer, 学長の立場から

各著者がどれだけ貢献しているかを明示化することは必要
citationはきくところと聞かないところ
フィールドをまたいだcitationは重要

***********************************************
関係する活動のパネル

** PLoS: Big science and medicine and the attribution of authorship, Ginny Barbour, 
- ガイドライン The First COPE guideline in 2003
しかし、
- authorshipはインフレーション中 
- もはやauthorshipは無意味化している
-- ゲームのような様相
-- とても時間を食う

(武田注:因みにこの発表で取り上げられた著者沢山の例は
http://www.ncbi.nlm.nih.gov/pubmed/22463517
475人+Coroprate author (CDF Collaboration) なる著者。後者は前述のグループ著者に相当するものだと思う。
)

** Why are the attribution and citation of scientific data important? (Introduction to the BRDI/CODATA report) Christine Borgman, Professor and Presidential Chair in Information Studies, UCLA

** FundRef: a new project from a publisher-funding agency collaboration to standardize the collection and display of funding agency information in scholarly publications, Fred Dylla, Executive Director and CEO, American Institute of Physics
http://projects.iq.harvard.edu/attribution_workshop/files/fundref_overview_-_051112.pdf

- FundRef: 研究の資金源を論文に報告する標準的方法をよういいするパイロットプロジェクト(CrossRefが援助)
http://www.crossref.org/fundref/
Needs
- Funding agencies: fundした研究の出版を簡単に同定できない。説明責任
- Publishers: 標準化された語彙がないので、funderに簡単にレポートできない
- Readers: 一定の方法で資金源情報を知ることができない
開発中
- 4000資金源の名前 Elsevierから
-- 機関の下のGrantのレベルまである
- CrosRefにいれる仕組み
スケジュール 2002
- 3月 スタート
- 秋 公開デモ

** Contributor roles in VIVO, Brian Lowe, VIVO Semantic Lead Developer, Cornell University Library
- 研究の統合されたview/ Integrated view of research
- Linked, open semantic data


** Researcher perspectives on on attribution, contributorship and new forms of scholarly communication: preliminary survey results, Mike Taylor, Principal Investigator, Elsevier Labs

contributionのタイプを収集
- interpreation of results
- critical erwiew of manuscripts
...
アンケート調査 1800人
- 自分がどれだけcontributeしたか
- どれが貢献として含まれるべきか
- authorしてクレジットされるべきか
- どんな関わり方

**************************
この後は、小グループに分かれて議論
**************************
感想:
たぶん、こんなワークショップは世界で最初なんではないだろうか。
みんな困っている。でもどう困っているかは実は結構研究分野や関連分野で違う。私にとっても、たとえば実験物理ではあるときから装置を作った人や操作した人など工学系もいれるようになり、さらにアルファベット順が必須になっているとか、医学系では著者のガイドラインがあって、単に臨床実験に参加した人は著者じゃなくて謝辞となっていると、分野ごとの違いを知るのは新鮮。
で解決はあるのかというと、それは単純ではなさそう。映画とのタイトルロールのよるに、役割を記して書いていくのが一法であろうが(実際、会場では暗にそういうコンセンサスがあったような気がする)、質疑にあったように研究者の役割は映画制作の役割のように単純化できないところもある。またそれと業績評価もリンクしているだけにややこしい。
この会議はまずは問題を共有するという点では成功したのではないかと思う。
(以上)
0

アルゴリズムの呪縛

「アルゴリズムの呪縛」といっても、アルゴリズムによる制約問題を語ろうというのではない。ディシプリンとしてのアルゴリズムに束縛されているという話。
ちょっと前にデータの公開や共有に関する活動がなかなか評価されないということをtwitterに書いた。そのココロを語ろうと思う。

研究者というのは多くの場合、一定のディシプリンの元での教育を受け、そのディシプリンに基づいて研究活動をしている。ディシプリンはその分野の発展させる礎であると同時にその分野での研究を評価する基本原理でもある。

私は今でこそコンピュータサイエンスの研究者でございという顔をしているが、元々は(広義の)機械工学の教育を受けてきた。機械工学のディシプリンと言えば、「力学」(機械力学、材料力学、熱力学、流体力学)である。物理世界にいる限り、どんなものの設計・製造においても絶対的には力学からは離れられない。なので問題は結局最後は力学に帰着するというのは、機械工学者の頭にたたき込まれている。もちろん、事実の認識としては正しいが、事態の認識としては必ずしも正しくない。所与の問題の本質が力学問題にあるとは限らない。 現在の機械設計では人間や利用環境に本質であることもしばしばである。というものの、機械工学者はやっぱり困ったときはそのディシプリンである力学に立ち返る。いやもっといえば、困ったときは力学に頼ることで、自らの尊厳を維持している。この意味で、いわば機械工学者は力学教徒である。

コンピュータサイエンスのディシプリンがなにかといえば、アルゴリズムであろう。
最終的にコンピュータで実現する限り、どんなシステム・プログラムにおいても根本的にはアルゴリズムからは離れられない。もちろん、機械工学のときと同じで、アルゴリズムが問題の本質であるかは限らない。ヒューマンインタラクションなどもっと別のところに本質がある問題も多い。また、一方で現代の高度なプログラミング技術や分析技術においてアルゴリズムは表面的には現れないことも多々である。しかし、 アルゴリズムがこの分野の共通の知識であり、原理であることは変わりない。こまったときはここに立ち戻り頼る、この点においてコンピュータサイエンティストはアルゴリズム教徒である。

コンピュータが関わる世界は急速に広がっている。コンピュータサイエンスはコンピュータを作って使わせる立場であった。それはコンピュータを創造し利用を普及するという点においては正しかった。しかし、いまやWebに代表されるように世界のあらゆる情報がデジタル化してコンピュータで処理されるようになった。コンピュータはデジタル化された情報の媒体としての役割になっている。媒体側であるコンピュータの原理も重要であるが、その内容側、コンテンツの原理も重要である。この点においては、いまディシプリンの変更が迫られている。

今、大規模データ処理やコンテンツ処理、ソーシャルメディアなど、データやコンテンツに関する研究がコンピュータサイエンスで盛んに行われているようになっている。しかし、意識としてはアプライド・コンピュータサイエンス(応用計算機科学)であるようにみえる。極言すれば、コンピュータサイエンスの原理を様々なコンテンツに適用だけである。それは多分言いすぎで、コンテンツの中から新たなアルゴリズムを発見することを行っている研究というのがフェアであろう。この中からネットワークサイエンスのような新しい分野が生まれ出ることもある。しかし、これも実は扱いやすいところだけを抜き出しし、あとを捨てているという点においては、コンテンツのもつ問題を全面的に引き受けているわけではない。コンテンツにはコンテンツの問題があり、それを正面から扱うには違うディシプリンが必要である。

データ科学、コンテンツ科学というものがほんとにあるのか、あるとするならばそのディシプリンは何か?正直言って私にもまだ分からない。しかし、コンピュータサイエンスのディシプリンとは違うものではあるらしい。それを探求中のいうのが現状である。

私のグループでは今、コツコツと様々な分野のデータをLinked Data化している。その前処理やデータ処理、応用においてはいわゆるコンピュータサイエンスの課題もあるが、コンピュータサイエンスサイエンスの課題としてはさほど難しいものではない。実際中心的なデータ処理はほとんど解決済みである。むしろ我々の知りたいのは、こういった様々な分野のデータをLinked Data化するときにみえてくるデータ側、コンテンツ側の性質なり原理なりを知りたいのである。私は一方でソーシャルメディアの情報にも興味がある。この二つは一見別の問題にみえるが、コンテンツ側の原理を知りたいという点においては同じ探求の別側面だと思っている。

しかし、残念ながらコンピュータサイエンスのディシプリンからみれば、新しいアルゴリズムを探求しないような研究は評価されずらい。しかも、新しいアルゴリズムを結果として発見できないのではなくて、初めからしないといっているのだからタチが悪い。一方で新しいディシプリンに基づいているわけでもない。厳しいところである。現状をフランクにいえば、情報の「博物学」といったところだろう。博物学はある種のプレサイエンスである。そこから脱皮できるか、それは今後の活動次第だろう。

この小論では、データ科学、コンテンツ科学の研究は既存のコンピュータサイエンスのディシプリンでは難しいことを述べた。ことにコンピュータサイエンスの正しい教育を受けた研究者は正しくディシプリンを習得しているが故により難しいかもしれない。私はたまたまそういう人間でないだけに気づきやすかったのだろう。でも、気づけば意外に簡単かもしれない。また、コンテンツ側の人間、各分野の研究者のほうがより取り組みやすいともいえる。そういう研究者がどんどん参入するすることが、この分野を飛躍させることができると重要な鍵であろう。
0