klarer-himmel13's diary

(旧)図書館の中では走らないでください!から

OA図書の利用統計:COUNTER R5と Google Analytics

insights.uksg.org

少し前に発行された事例紹介を読んでみた。
2020年4月、OAPEN Libraryのが自プラットフォームがDSpace 6にバージョンアップしたタイミングでIRUS-UKがCOUNTER R5(以下、R5)対応した。
それを好機としてOA図書の主な利用統計ツールであるR5と Google Analytics(以下、GA)を比較したもの。
対象となった期間は2020年4月15日から7月31日、図書と章のダウンロードが対象となっている。

OAPEN LibraryはOAPENが運用する査読付きのOA単行書の検索サービスを兼ねたフルテキストのリポジトリ

current.ndl.go.jp

IRUS-UK (Institutional Repository Usage Statistics UK) はJiscが開発・運営している機関リポジトリのための利用統計アグリゲータサービス。

irus.jisc.ac.uk

話はそれるがIRUS-UKはIRUS-UKが対象としているリポジトリでCoronavirus関連の論文一覧ページを作成している。

https://irus.jisc.ac.uk/coronavirus/

文献のなかで繰り返されているように、R5とGAのどちらかが良いかを決めるものではなく、それぞれのどんな特徴を持っているかを明らかにすることが目的。
そもそもOA図書の利用統計ツールや方法が確立されていないという点も言及されている。
おそらく現時点ではどちらかを選ぶにせよ、両方使うのせよ、それぞの特徴を踏まえることが大切なのだろう。可能なら両方あるとよいのかもしれない。

関連する取り組みとして、過去の文献紹介とともにOpen Access eBook Usage (OAeBU)が取り上げられている。
これはOAモノグラフ(図書)のための利用統計やエンゲージメントデータの信頼性を担保する仕組みを検討する活動である。(2020-2021)

educopia.org

それらの状況を踏まえて、 OAPEN Libraryでは月別、国別、タイトル別のダウンロード数から、R5とGAに見られる違いについて明らかにしていく。
なお、R5はTotal_Item_Requestを、GAはイベントカテゴリのbitstreamを比較対象としている。

wiki.lyrasis.org

  • 全体的な傾向としてはR5(1,600,000件)よりGA(3,600,000件)のほうがダウンロード数が多い
    • COUNTERの判定のほうがより厳しいため?
  • とはいえ両者のconvert方法を単純に比較することは難しい
    • GAはbot削除を行っている
  • 国別比較だとGAの法が数倍も多い国がある(USA)一方でほぼ同数の国もある(オーストラリアなど)
  • タイトル別にみてもダウンロード順位が似ている(順位の差が10未満)のは全体の6%
    • GAのダウンロード数が10倍多いタイトルがある一方で、R5のダウンロード数が多いもののある

論文の評価としてダウンロードは絶対ではなく、オルトメトリックスや引用などとの組み合わせにより総合的に行うというのが最近のトレンドであるようだ。
ただ、総合的な評価の一側面であるダウンロードもなかなか一筋縄ではいかないようで、重要なのは何を選んだか、そのツールにはどんな特徴があるのかを明らかにすることであると締めくくられている。

研究データのメトリックスについて(最近よんだもの)

過去に何度か取り上げた利用統計から派生して、研究データにおけるメトリックスについて読んだ文献について2本ほど取り上げる。

datascience.codata.org

doi.org

大雑把な雑感

研究データにおけるメトリックス周辺の最近の動向をざっと追ってみた。

  • Data Usage Metrics WG(RDAの下部WG)とMaking Data Countが主な登場人物
    • ただし両者の関連がよく分からなかった
  • citationとusageから総合的に考える
  • 技術・インフラにおいては一定の成果をあげている(と評価されている)
  • 次なる課題は研究データにおけるメトリックスとは何か(何を評価するのか)という点を研究者や研究コミュニティをともに考える段階にある

Bringing Citations and Usage Metrics Together to Make Data Count

Data Usage Metrics WGから見た、研究データのメトリックス、 Data Level Metrics (DLMs)に関するレビュー。CitationとUsageの動向、それらを総合的に活用するサービスがコンパクトに概観できる。

Open Data Metrics: Lighting the Fire

Make Data Count が研究コミュニティに向けて研究データのオープン化と(再)利用の促進を目的として書かれた入門書。現状、研究データや研究データのオープン化自体が評価対象ではなく、オープン化するインセンティブがないという課題から、研究データのメトリックスについて利用統計と引用について解説してある。先行事例として下記を紹介。

面白かった箇所。"What we mean by data usae and data citation?"において、Data usageとData citationが定義・解説されている。Data usageはviews と downloadsを数えるもので、それの標準がCOUNTERである。そうでなければ異なるリポジトリ間で比較できないだけでなく、アグリゲータ内、ミラーサイトと本体同士で数字が持つ意味が変わってきてしまう。Usageそれ自体はメトリックスではなく、どう発展させるかという課題がある。
Data citationは古くからそれぞれの分野で検討されてきているが、文献とデータセット、データとデータ間の単なるリンク関係よりも広げて考える必要がある。バージョンやデータの包含関係という特徴から、文献同士のcitationをそのまま援用は出来ないし、Data citationがメトリックスにとってどういう意味を持つかは検討する必要がある。

Igniting Change: Our Next Steps Towards Open Data Metrics

MDCの次なるステップが先日、発表された。チームにあらたにCrossrefとBibliometriciansであるDr. Stefanie Haustein (University of Ottawa, Co-Director ScholCommLab) と Dr. Isabella Peters (ZBW – Leibniz Information Centre for Economics) を迎え入れる。

makedatacount.org

http://www.scholcommlab.ca/research/data-citation/


次なる目標は下記の通り(翻訳は簡易なもの)

  1. Increased adoption of standardized data usage across repositories through enhanced processing and reporting services(標準化されたデータの利用統計が処理/レポート作成サービスの強化によって増えること)
  2. Increased implementations of proper data citation practices at publishers by working in conjunction with publisher advocacy groups and societies(適切なデータの引用の慣習が、出版社のアドボカシー・グループや学協会と連携することにより実装(実践?)されるようになること)
  3. Promotion of bibliometrics qualitative and quantitative studies around data usage and citation behaviors(データの利用統計と引用慣習に関する計量的・定性的研究の推進)

第 2 回肖像権ガイドライン円卓会議 IN関西

第 2 回肖像権ガイドライン円卓会議 IN関西
2020年2月15日(土) 14:00~17:00
同志社大学新町キャンパス 尋真館
digitalarchivejapan.org

14:10~15:00 肖像権ガイドライン(案)の提案
数藤雅彦(弁護士・五常総合法律事務所)
15:00~15:50 現場での課題
植田憲司(京都文化博物館
松山ひとみ(大阪中之島美術館準備室)
木戸崇之(朝日放送テレビ報道局ニュース情報センター)
三浦寛二(愛荘町立愛知川図書館)
村上しほり大阪市立大学客員研究員)
15:50~16:00 コメント
曽我部真裕(京都大学大学院法学研究科教授)
16:00~17:00 ディスカッション
司会:原田隆史(同志社大学大学院総合政策科学研究科教授)→代打:福島幸宏(東京大学大学院情報学環 特任准教授)

肖像権処理ガイドライン案(ver.2)をベースに関西のデジタルアーカイブの現場のお話が紹介された。

digitalarchivejapan.org

このガイドラインデジタルアーカイブを公開基準に迷う各機関が、その判断や議論を客観化をすることを助けることを目的に作成された。
数藤さんによると、判断の客観化とはドキュメント化であるという。判断を取り下げた場合においてもそれをドキュメントとして残しておくことが重要だと。

このドキュメント化は、その後の現場からの報告やディスカッションでも、かたちを変えて何度か言及されたように思ったので、円卓会議のテーマであったのかなぁと思う。

日本には肖像権を明確に規定する「肖像権法」はなく、判例などを参考にするしかない。つまり、人格的利益の侵害が社会生活上受忍の限度を超える場合には肖像権の侵害になると判断できる。

曾我部先生曰く、それは、名誉棄損、名誉感情を肖像の点から毀損するか、にあるという。死者に肖像権はないと解釈されるのはそのためだ。

ver.1と2の違いで最初に気になったのは点数計算の結果のカラーである。マイナス31点以下(マスキングで公開可)が、レッドからグレーになっていた点である。ほかは各チェック項目に追加があった。

たとえば、被災撮影者の社会的地位に「事件の被害者とその家族(-5)」、被撮影者の活動内容に「公共へのアピール行為(̟+10)」である。ほかには、ver.1でもあった、被撮影者の立場「社会的偏見につながり得る情報の点数」が-10/-20で議論中であることも、紹介された。

変更や加筆ではないが、写り方「多人数(+10)」の「多」は、あえて具体的な人数を明示していないそうだ。
以下、現場からの報告を簡単にまとめる。

上田氏

‐芸術の自由
‐‐現代の社会における(法律上の)芸術の自由

    • 現代の社会とは別の秩序に属する芸術の自由
  • 撮影者の属性はガイドラインに反映できるか?(という提案)

松山氏

  • 中之島美術館におけるアーカイブズの2つの系統
  • アーカイブズベース?(システム)を導入しているが公開にはいたっていない。
    • 著作権的に複製できない
    • 著作権者不明写真は複製・利用にあたっては利用者に誓約書を書かせている
  • 問い合わせ対応するための管理システムとして、デジタル化
    • 具体美術協会(すでに解散)が作成した、写真コレクションのアルバム(写真のキャプチャとネガフィルムの番号が対応している)

‐‐‐PDと判断した

  • アルバムを公開したいが、被写体を特定しないと目的(ネガを特定)が達成されないが、特定すると肖像権を精査する必要がある。
    • その時間がない。遺族の感情がある。
    • 法的にはOKだけど、感情的にNGなことがある。

木戸氏
取材映像アーカイブ
‐‐インタビューの重視(被災者の顔)
‐‐‐被災者の肖像権に配慮すると避難所の映像が少なくなる。
‐どのような議論をしたか?
‐‐肖像権…社会的受忍の限度を超えるのか?社会的意義とのバランス
‐‐個人情報…氏名、住所、電話番号がうつった場所はカット

  • 避難所に今は入れないからこそ、避難所の映像が大事だったり
    • 報道出来る範囲が道義的に縮小している。からこそ
  • 被写体の名誉を傷つける可能性が容易に推察できるものは加工
    • 災害対応に激昂、悲しみに取り乱す、受験したけど結果が不明、職探ししたけど結果が不明、病歴
  • 遺影、被救助者、震災孤児も加工したり、非公開に

‐受忍限度を定量的に把握した。30名くらいの人にインタビュー(反対はされなかった)

三浦氏
古写真の収集、保存、公開
‐おおよその担当者判断基準で
‐町のみなさんに懐かしんでもらうために
‐顔が見える関係だからこそできる草の根収集

村上氏
阪神・淡路大震災「1.17の記録」
‐‐顔に機械的なマスキング処理
人と防災未来センター
‐‐館内閲覧、インターネット公開、利用(ダウンロード)の複数段階で公開を考える
‐‐「震災資料の公開等に関する検討委員会」報告書 (H17.6)
‐‐個別事情で公開制限したものは10年ごとに見直す

曾我部先生
‐ABCのアーカイブで協力し、ガイドラインを紹介した
‐死者の承諾の問題
‐‐遺族から提供された写真(+15)死者には肖像権はない
‐‐あるのは遺族への配慮(遺影)や閲覧者の保護という文脈
‐step2の同意は何か?同意を得る努力の有無を問うのか?
‐公開機関によって公共性は変わってくるのか?それによってガイドラインの点数付けが変わるのか?
‐撮影者側の視点がない。
‐オプトアウトを想定する
‐‐時間の経過とともに見直すことを含んだ公開基準とする
‐‐公開は出来ないけど、持っておくことが求められる
アーカイブは報道なのか?
‐‐個人情報の適応除外に報道はあるが、そのアーカイブには?

ディスカッション
‐写真のサイズは論点にはいるか?
ガイドラインの外の契約の観点
‐現場のガイドラインを作る必要がある
資料の文脈をどう判断するのか
‐‐撮影目的(別の秩序)をどう考えるか?
アーカイブになる=撮影した時の目的とは違う可能性にある
‐‐目的外使用。報道≒記録?

  • 写真というメディアを取り巻く環境にこのガイドラインをどう置くのか?
  • なぜこの資料を所蔵し、公開するのかという意義付けを正当化する方向性が別に必要
    • 資料取り扱い、公開(ネット)の要綱や運用基準を作る必要性がある
    • ガイドラインはその次
  • DLするとコンテキストを離れて使われる。
  • ガイドラインにこれあると絶対公開できないだろ…という要素はあるか?
    • 非人間的なひどい遺体はよほどのことじゃないと公開できないんじゃ…?

GakuNin RDMを理解するために『The Realities of Research Data Management』を少し読んだ話

すでに2年以上経過しているが、OCLCから『The Realities of Research Data Management』が公開されている。

www.oclc.org

先行事例をケーススタディRDMサービスを構築するための、設計図というか概念を理解するためのレポートである。(という理解)

RDMについて関わろうとする機運が高まっているな、と感じ始めてはや数年が経ち、現場レベルでデータデポジットの事例に対応する中で、仕組みから始めるのか、中身から始めるのか。仕組みもシステムを用意するのか、ポリシーを制定するのか、中身も人材を集めるのが先か、データをとりあえず集める(把握する)のか、いろいろと課題はあるが、国内において汎用的に活用できるサービスがある。

rcos.nii.ac.jp

www.nii.ac.jp

id.nii.ac.jp


GakuNin RDMは実証実験中であり正式なサービスイン前であるが、GakuNin RDMや研究データ管理を理解するために、類似のサービスや実践例と比較がしたいなぁと思い、上記の『The Realities of Research Data Management』を少し読んだ。

www.youtube.com

全4パート+付録で構成されているが、最初の1・2パートを中心としたウェビナーが公開されているので、60分で何となく概要をつかむこともできる。付録の実践例を見ながらいくつか気になったことを取り上げる。

f:id:klarer-himmel13:20191110185153j:plain
A Tour of the Research Data Management (RDM) Service Space(part. 1)

OCLCのレポートは上記の概念図をベースにしながら、RDMを解説し、各大学の事例を整理している。
GakuNin RDMはRCOSのなかで、管理基盤を担っている。このレポートにあてはめると、Curationの部分に該当するだろうか。Curationはつまり、管理+公開+検索基盤だという理解である。

f:id:klarer-himmel13:20191207230115j:plain
プロジェクト概要(https://rcos.nii.ac.jp/service/

レポートで紹介されている事例から、このCurationに注目する。

University of Edinburgh

https://www.ed.ac.uk/information-services/research-support/research-data-service


ストレージ:DataStore(500Gb/人。グループ版もあり)。
共有:DataSync
公開:DataShare
長期保存:DataVault
研究者管理:Pure

University of Illinois at Urbana-Champaign

www.library.illinois.edu

ストレージ:Active Data Storage(ADS)($96/TB/year~)
共有:U of I Box
公開:Illinois Data Bank
長期保存:Medusa

Monash University

https://www.monash.edu/library/researchers/researchdata/about


ストレージ:Monash Google Drive
管理:myTardis、LabArchive、ownCloud(いずれも外部サービス)
公開:myResearch Portal(Pureをローカライズしたもの)
長期保存:figshare機関版、VicNode(ナショナルサービス)

Wageningen University & Research

www.wur.nl


管理:Git@WUR(Gitの機関版)
ストレージ・保存:DANS-EASY(ナショナルサービス)、4TU Centre for Research Dataを推奨(3大学の共同運営)
公開:National Academic Research and Collaborations Information System(ナショナルサービス)
研究者管理:Pure

GakuNin RDM

University of EdinburghとUniversity of Illinois at Urbana-Champaignが機関としてのサービスをがっつり提供しているのに対して、Monash UniversityとWageningen University & Researchは、オーストラリアとオランダで、国や大学間連携のレベルでのサービスを構築しており、それに適した学内サービスを提供している。特にMonash Universityは外部サービスをよく利用している。

では、GakuNin RDMは日本のRDMをどのようにデザインしようとしているのかなと考えると、後者(オーストラリアとオランダ)のように、ナショナルレベルでのサービスによって大まかな基礎的なサービスを提供し、そのほかの部分を各機関が設計できるようにしたいのだろうなぁと。

プレプリントまわりのあれこれ

博士論文の公表義務化を整理している中で、ジャーナル投稿予定の場合、「そもそもプレプリントサーバって最近、どうなっているのだっけ?」という疑問がふとあって調べていた。

スタート

www.nii.ac.jp
概要はここから把握できる。

プレプリントサーバ

投稿前、投稿後+審査中、刊行前後なのかで状況が変わってくる。分野によるがここ最近は、投稿前の公開がわりとOKなところも多々ある。

www.biorxiv.org

Which journals allow posting of preprints prior to submission?
Most basic research journals will consider manuscripts that were posted on bioRxiv and other preprint servers prior to submission. A list of journal policies can be found on Wikipedia, as maintained by individual publishers, and SHERPA/RoMEO. Authors should consult these lists and other sources of information before posting on bioRxiv.

FQAからのリンク先に、ジャーナルごとのプレプリントポリシー一覧が作成されている。

en.wikipedia.org

最終的には投稿規定とCopyright transferがすべての根拠になるのだろうが、リストが用意されているのはプレプリントサーバっぽい。

www.ssrn.com

Is submission of a paper to SSRN tantamount to prior submissions by scholarly refereed journals?    We do not consider sharing a working version of a paper on SSRN to be prior publication- a paper posted on SSRN has not been peer reviewed or copyedited or published. Most journals share this view and will accept submissions that have been shared on SSRN- since this does not constitute a publication. A small number of journals do have a more restrictive view; we recommend that you check the policy of journals you plan to submit to if you are not sure.

博士論文の公表が義務化されて5年が経過し、この制度がプレプリントサーバのひとつとして議論が進めば、ジャーナル投稿に関する公表延期や非公表のあれこれが進みやすくなるのかなぁと。

出版社にとってのプレプリント

最近だと、今年の5月にSpringer Natureがプレプリントの共有ポリシーの更新した。

www.nature.com

www.nature.com

CCライセンスをはじめとした自由な二次利用を含めたオープン化まで認めている。刊行前(査読中)でも公開可で、投稿前であっても二重投稿とは見なさないという明記もされた。ただ、ジャーナル刊行後に、DOIやURLの追加をするのは、著者からするとプラットフォームによってはかなりの手間になりうる。そういう意味では、プレプリントサーバがジャーナルと連携していると、後追いで書誌追加などがやりやすいのだろうなぁと想像ができる。博士論文公表する機関リポジトリプレプリントサーバとみなしたとしても、そのあたりはどうするかは難しそう。

www.elsevier.com

Elsevierの場合は、プレプリント自体はどこでも公開可だが、AAMにアップデートするには、プラットフォームが「arXiv or RePEc」と限定されている。

第2回京都大学研究データマネジメントワークショップ

日時 2019/02/28(10時20分~17時00分)
会場 京都大学理学研究科セミナーハウス
http://www.media.kyoto-u.ac.jp/accms_web/event/1613.html

報告「京都大学におけるデータマネジネントの現状」
司会:元木 環先生(京都大学学術情報メディアセンター・助教
報告者:川口 朋子先生(京都大学アカデミックデータ・イノベーションユニット・研究員、家森 俊彦先生(京都大学名誉教授/アカデミックデータ・イノベーションユニット・研究員)、青木 学聡先生 (京都大学学術情報メディアセンター・准教授)

  • アンケート調査・ヒアリング調査経過報告
  • 京大データマップ初版・アンケート第2段計画等紹介
  • データマネージメントに関するルーブリック紹介

招待講演「研究データマネジメントの現状と課題」
村山 泰啓先生(国立研究開発法人情報通信研究機構・研究統括)

パネルディスカッション「京都大学における研究データマネジメントのあり方」
<前半>招待講演に対する質疑応答国立情報学研究所、情報環境機構、図書館機構での現状について話題提供
<後半>ディスカッション

後日、報告書が出るとのアナウンスがあったので、詳細はそちらに。配布資料がほぼなかったのでメモと理解ができた範囲で。
最初に梶田先生からワークショップで共有する文脈について解説があった。

www.scj.go.jp

axies.jp
「学術機関における研究データ管理に関する提言(案)」を公開予定

研究を取り巻くコンテクストが急速に変化(研究公正、オープンアクセス、オープンサイエンス)しており、これらの組織には関係者が共有可能な青写真の共有とコーディネーションを提言が求められる。そこで京都大学では、アカデミックデータ・イノベーション ユニットが発足し、これまで活動を続けている。

www.cpier.kyoto-u.ac.jp

京都大学におけるデータマネジメントの現状

川口朋子先生「アンケート調査・ヒアリング調査報告」
  • 次世代研究間競争性のための研究データに関する基礎調査
  • 京大の研究者3,375名対象
  • 2018年12月4日~:先行調査(ユニットメンバー)
  • 2018年12月21~2019年1月5日:本調査
    • 総務課経由でメールによる依頼(実際の送付先や送付時期を調査主体の葛ユニットでは確認できなかった)
    • メーリス(学際融合教育研究推進センター)
    • 京大のポータルサイトへの掲示
  • 研究データ(データセットやデータベースにしたいデータ)を持っているか?
    • 「データセット」が人に見せるような整ったものという印象を与えた?
  • 全問回答(244名)、未完了(828名)
    • 244名の内容にフォーカス
    • 回答者の所属は多い順に医学、生命科学、生物学、農学、工学…とつづく
    • 研究データの所持ありが48%
  • データの種類:多様な名前、無名のデータが存在
  • 目的や分野:目的が解析、比較、解明、データマイニングなど具体的、というより研究目的になっている
  • データの概略(分かる:119、不明:130):fasta、jpg、cad、ppt、スプレッドシート
    • データを表すキーワードに「スプレッドシート」がはいっている。内容と形式の違いを理解してもらうのたいへん。
    • 自然科学が中心。医学は多いが公開否が多い
    • 公開状況:関係者と共有(41%)、公開(11%)、公開予定なし(20%)、公開準備(11%)、公開に課題あり(4%)→ヒアリング
  • 自由記述
    • 個人での保存・管理は大変(容量、セキュリティ、コスト、クラウド希望)
      • 体制的に継続的運用が困難(人がいない)
      • 公開に議論が必要(外部との契約にかかわる、個人情報、純粋に大学の所有物とは言えないもの)
      • 公開作業する人がいない
      • 保存すべき、では人は動かない
      • 研究データの定義が異なるため回答しにくい
  • まとめ
    • データに関する認識は多様
    • 多様なデータ
    • 個人での管理はたいへん
    • 組織的・継続的な管理
      • 公開には課題や工夫が必要
      • 今後も継続的に活動
  • ヒアリング調査:2018年12月26日~2019年2月20日
    • 収集について、保管・整理について、公開について
    • 家森先生と川口先生のペアで訪問
  • ケース1:東南アジア研究
    • インタビューデータ
    • 音声はDropbox、書き起こしを依頼してプリントしファイル保存
    • ファイル
    • 論文執筆に利用、フィールドバック
    • 取り扱いは不安(インタビューイーへの配慮)、公開は限定的にしたい、全公開⇔インタビューイーへの利益にならないことは公開しない
  • ケース2:大学法人文書
    • 人文書など
    • 目録作成、データベース登録、人事データはデジタル化しない
    • 書庫、学内のホスティングサービスを利用
    • 原則公開
    • 分散所蔵されている資料群、バックアップ体制は学内サービスを利用、HDD保存、共有フォルダ
  • ケース3:中国古典語の形態素解析・依存文法解析
    • 漢籍の白文に符号を付与しデータ化
    • GitLabに登録
    • 自前でサーバを立ち上げて管理
    • 日々、作りながら公開
    • アクセスが少ないものは閉鎖すべきか検討中、公開後の取り下げの扱い
  • ケース4:学術分野ごとの研究風土や価値観の比較調査
    • 学会へアンケート調査依頼(1800名のデータ)をしウェブ実施
    • エクセル、Wordpress
    • 公開(ダウンロード)
    • 論文には使用せず
  • ケース5:地球物理学
    • 北極スヴァールバル諸島で観測したオーロラの画像データ(4秒に1枚)
    • 自分と共同研究者(他大学)に自動送信、目録なし
    • 3重のバックアップ、学内停電に被害、観測機にポータブルハードディスク
    • 論文執筆、研究チームの合意で公開、7‐8年は待つ、1日単位で公開
  • ケース6:有機化学
    • 天然、合成化合物の各種分析データ
    • エクセル
    • 個人のPCで管理、研究室の50年分の研究ノート(研究手法が変わるので今の研究には役立てられないが、質問に対して参照したことはある)を別室でストック
    • 公開はしない(研究のプライオリティが下がる)、supporting informationとして公開、立証に必要があるかどうかチェック項目がある
    • 新規性のためにデータ公開は当たり前、論文に使わないデータ(ネガティブデータ)は公開しない、一般性や普遍性がないので2-30年より前のものは使えない
  • ケース7:地域研究
    • 水質分析データ
    • 結果をExcelでまとめてデータ化しているがそこまできれいじゃない
      • エクセルに起こしてDB化
    • 教員が管理、学生が卒業前にデータをフォルダに入れる
  • 論文執筆
    • データ構造が複雑で、体系的なデータにするのは困難、管理は無理、
      • 採水する頻度、場所、分析項目、統計方法、解析手法が人によって違う
      • 解析データを公開するには注釈文が必要(大きな労力)
    • (その他)トレイのアンケート調査(回答)紙ベース(ベトナム、タイ、カンボジア
      • 教員管理で論文執筆に利用
  • ヒアリング調査のコメント(総括)
    • 研究途中でデータ整理は考えられない。目的と結果が研究の始まりと終わりで変わる
    • そのまま公開はできず、注釈文が必要になる。それは負荷(その分野を理解していないといけない)
    • 公開作業を担う人材
    • 学生への研究データ管理の教育はたいへん
  • ヒアリング調査まとめ 
  • データ管理の実態は多様
    • 目的は研究であり研究データ管理ではない
    • 公開・非公開の議論がもっと必要(段階的な管理)
  • まとめ
    • 研究データへの認識が多様で曖昧(「データ」の理解をすり合わせ)
    • 整理・保存・活用も多様、整理してないデータも多い
    • 個人・研究室でのデータ管理は負担が多い
    • 組織的・継続的な運用は検討課題
    • 公開には丁寧な議論が必要
家森俊彦先生「京都大学研究データマップ」
  • 目的:学内に存在するデータを俯瞰、公開データの所在・リンク、条件付き公開データ・非公開データの所在、データセットの分類と相関図(未完成)、検索システム(未完成)
  • 京大の構内図にデータをマッピングし、分類
  • データなのに所在をもつ不思議な図(京大の地図が頭にはっていることが前提)
  • 地図に示すとどんな分野の研究データがあるのかが浮かび上がる
  • アンケート調査からの推測
    • 医学生物農学は回答率が高い、ただし公開は難しい。グループ内での共同が必要な分野
    • 地球科学・地球環境関係も回答率たかい、公開・公開しないと研究が困難
    • 社会化学、地域関係は回答率たかい、公開はIRのみ
    • 工学は低い、実験データは体系的なデータセットとしてまとまりにくい、再利用が困難・無意味?
    • 研究所・付属施設は公開DBを持つ、共同施設としての役割
  • 要検討事項
    • グループ内での共有に適したシステムが必要
    • DB化の公開と補助
    • 室内実験データの記録と保存方法・教育
    • データ内容の情報(メタデータ)事態を秘密にしたい場合も、熾烈な競争分野はとくに
    • 論文に使用したデータの公開補助システム
    • 共同研究を促進するためのデータの条件付き公開方法
    • 大学の資産・外部評価対象としてのデータ
    • 研究所・付属施設のWDS加入促進
    • https://www.icsu-wds.org/
青木学聡先生「ルーブリックによるRDMの共通理解」
  • RDM(データを生成・収集、保管、共有、解析手法として適用、公開)はこれまでも意図せずに行ってきた側面もある
  • しかしながら、現在はは個人レベルではもはや解決できない状況に
  • 倉田敬子ら「日本の大学・研究機関における研究データの管理,保管,公開:質問紙調査に基づく現状報告
  • RDMワークショップ(第一回)
  • 回答の傾向
    • プランデータはその場かぎりで作成しがち
    • 組織化はだと自分で決めたルールでやっている
    • バックアップは難しい
    • 手順は記録してもなぜそのデータを収集したかは記録していない
    • データ公開と共有はまだい一般的ではない
    • 収集の際に合意がないと公開できない(準備段階で公開準備)
    • データは資産→正しくデータを捨てる技術が必要
    • 命名規則
  • 組織内のデータ管理体制
    • AXIESにおいて提言取りまとめ中
    • CIOトップレベルの合意
  • RDM体制構築のためのツールキット
  • 組織のためのRDMルーブリック
    • 研究データマネジメントルーブリック (research data management (RDM) rubric) の日本語訳

村山 泰啓先生「研究データマネジメントの現状と課題」

  • WSDの事務局担当
  • オープン(なんでもオープンが言い訳ではない)サイエンス
  • オープンサイエンスの議論の全体像へむけて(暫定、改訂版)
    • 政策動向
    • 近代科学の健全性
    • デジタルトランスフォーメーション
    • データを科学業績へ近づける
    • 国際学会・国際社会における規範の変化
    • オープン化できる研究データとは(現場でのデータの多様性)
      • データの多様性を読み解く
      • オンライン科学データの信頼性
      • 社会システムとして
    • そのために科学(従来)の枠組みを超えた社会投資
  • オープンサイエンス
  • データを出す・出さない、評価
  • 実践上の諸課題
    • データを捨てること・保存すること
  • 公共データのオープン化(オープンガバメント)⇔研究・科学データ共有(リサーチデータ)
    • 軍事・高度な専門性といったセンシティブなデータ
    • 汗かいた人が報われるように
  • オープンサイエンスの定義
  • 諸外国における理念の整理が進む(OECD、NIH、RCUK)
    • アジアには頑張ってほしい(by 欧州)
  • G8サミット
  • G7科学技術大臣会合(インセンティブとインフラ)
  • G7イタリア会議
  • 国内の動向
    • 戦略的開放≠フルオープン(誰でも自由に)
    • 我が国におけるオープンサイエンス推進の在り方について(2015) 
    • 統合イノベーション戦略(2018)
    • 国研データポリシー策定ガイド(2018)
    • 研究不正は強調したくない
  • そもそもデータとは?(G7科技大臣会合発表スライドより、2016年)
    • 社会と科学の相互信頼の問題
      • データを出すのに戸惑う研究サイドの不信感⇔個人情報は避けて通れない
      • 匿名性処理、出せるかたちにするプロセスをどう考えるか←コミュニティがそれを考える
      • 政治問題と絡むとむずかしい
      • アカデミックフリーダム
      • National Oceanic and Atmospheric Administrationが科学者のアウトプットは科学者のものという声明
      • 科学生産を担い手としての科学者≠研究者という考え方
    • 社会全体にとっての情報資産=研究データ
    • 科学技術の推進剤
    • 科学と社会双方にとっての有益なベストプラクティス
    • データなしにはテクノロジー次のステップに進めない
      • 80年後に今の研究データを継承するために
  • 学術のありかたを見直す必要があるの?
    • 「論文を書くために」がんばる研究者
    • 論文以外の研究活動も評価される仕組みが必要なのでは?
  • Raise standards for preclinical cancer research
    • ライフサイエンスの分野において53の論文の再現可能性を確認したが6本しか確認できなかった
    • 高IF=再現可能性高い、ではない
    • なのに10~200くらい引用されている
    • さかのぼるとあるところでさかのぼれなくなってしまう(再現可能性がないと)
  • 社会システムとしたのサイエンス
    • 印刷文化・技術中心
    • 研究実機関(大学)、出版社、保存主体(図書館)
    • 研究だけしてても社会の役に立たない(残す仕組みが必要)
    • あたらしい形の仕組みが必要
  • 図書館が学術情報の守護者になりうるのか?
    • デジタルになったら(なったからこそ)重要度が増す
  • 出版社の役割
  • 論文だけでは研究の信用は担保できなくなる
    • コミュニティでの研究情報共有
    • フラットでオープンな議論のための研究データ
    • 科学コミュニティのコンセンサス
    • 一般社会・政治的意思決定
    • (論文だけでなく)研究活動全体が将来の評価像?
    • 知の再生産活動にかかわる人全体がどう評価されるのか
      • そういう人たちはどうやって職を得るの?
      • 英国:リサーチアプトプットメトリックス
      • 研究評価にかんするサンフランシスコ宣言(DORA;SanFrancisco Declaration on Research Assessment)
      • 論文のプロセスのように研究データのプロセス(管理、収集、保管)も評価される
      • 研究業績主義が研究データ(研究活動全体)の評価がないがしろにされた側面
  • 「いい研究データ」をどう判断するの?
    • 定量的に?客観的に耐えられる?データのIFとか出ちゃうと本末転倒
    • 定性的指標とは??(サンフランシスコ宣言より)
    • 評価基準を明文化するのがグローバルスタンダードになるのなら、それをアジアも踏まえざるを得ない
    • 合理的な制度を再構築をする。日本的な(情緒)を捨てる未来
    • 指標をつくるならテストし、いい評価指標をいかに使うのかを科学者がやっていく
      • 議論をさらけ出すのは違う(評価に値するものを選んで開示。どんな情報が科学の科学たるゆえの公開情報はなにか??)
  • G7での言及。インセンティブ:評価
  • AGU Position Statement
    • データ保存は所属機関の責任である
    • そこで学術コミュニティではなく、所属機関が出てくる背景はなにか??
  • 従来のデータ共有・現状分析
    • 従来はコミュニティ内での共有(身内間で手法や文脈を共有していることが前提)
    • 近年のオープンリサーチデータとは違う(研究成果物との論文と同等の位置づけ)
      • 付帯情報、データ生成にかかわる情報の記録
      • 誰が引用・参照できる
  • データピラミッド
    • 保存しただけ、未整備、他人は利用不可
    • 整理、構造化されたデータ
    • 処理済み、他人にも使えるレベル
    • 論文とともに出版されるデータ(情報資産)
  • JAXAのデータ整備論
    • 汎用性とデータ処理の2軸
    • 非公開は保管期間を定め、期限後に見直し(廃棄も含めて検討)
    • 公開は長期保管
    • ILRS(測地分野)
      • Use of persistent Identifiers
      • IGSN
    • Cruise DOI
  • Belmont Forumプロジェクトのとりくみ
    • PARSEC(自然保護区が社会経済に及ぼす影響の多国融合研究を通じた新たなデータ共有・再利用手法の構築)
    • データを利用した発表時には特定の論文を参照する慣習があった
      • 引用と識別子が重要としそこから取り組んだ
      • 自分や分野にとってでいちばん役に立ちそうなもの箇所をみつけてそこからはじまる

パネルディスカッション

込山悠介先生「GakuNin RDM
  • 機関リポジトリ(JAIRO Cloud)で研究データが扱えるようになる
    • GakuNinRDMの公開基盤がJC
  • プロジェクト単位での管理
    • バージョン管理
    • ユーザ管理
    • ほかのサービスとのマウント
    • プロジェクトのサマリー
    • 学認と連携して共有
    • 研究証跡保存機能
    • データ公開基盤との連携(JC以外にも渡せるフォーマットでエクスポートできる)
    • アドオン
  • ロングラン実証実験
  • RDMコンサルティングサービス
青木先生
  • 研究データ保存
  • 京都大学における公正な研究活動の推進等に関する規程

‐部局・研究室レベルの取り組み

    • 工学研究科のルール(学内専用)
    • 掛谷先生の研究室の取り組み
  • 組織的な取り組み:研究データ保存サービス
    • 現在はプロトタイプ
  • ダークアーカイブECM)Enterprise Contents Management
    • 長期保存
    • 病院と医学での臨床研究データ保存(20190122~)
    • 倫理審査申請システムを経て保存(連携した)
    • 認知度がまだ低い
    • 運用側も利用側も不信
      • 何でもかんでも預かれる?本当に任せられるの?
  • 安定的な運用モデルの模索
    • 研究者の既存の手法に沿わないと合わせないといけない
    • アクセス方針(開示要求)
    • 死蔵されちゃう、バックアップでしかない
  • コンプラ
    • リスク管理
    • コストからベネフィットへ(金銭的心理的障壁を抑える)パフォーマンス向上、付加価値をつける
  • どんなデータがあるの?→アンケート調査
  • 大学のが学術コンテンツ戦略の根幹に?
山中節子氏「オープンサイエンス支援:京大図書館機構の取り組み状況」
  • 京都大学における経緯
    • OA方針(2015)
    • オープンアクセス特別委員会(研究データも対象)
  • これまでの実績としてSuppleとして図や動画したことはあるが文献中心
  • DOIを付与したいという照会があった
  • 桂図書館(仮)でのサイエンス支援
  • RCOSによるサービス

ディスカッション

原先生(東南アジア地域研究研究所)
  • データベースをつくっている
    • 各研究者が研究成果を公表したい
    • 貴重なデータをサルベージ
    • ディスクぼろくなるのでマイグレーションしてデータ化
  • いつまで?人と金の限界
    • データベースは意味を持つ
    • メタデータ必須(意味が分からなきゃ意味がない)
  • 10年後に検索できる??(キーワードが変わってしまう)

→梶田先生:FAIR原則にそったデータにするには?

村山先生
  • FAIRは言うは易く行うは難し
  • デジタルコンテンツとしていかに整備するのか-オントロジーサービス
  • データを収集した時の測定状況がわからんとそのデータは使えん
    • データジャーナル
慶応の倉田先生
  • センサーデータ、巨大データなどはデータ構造や測定方法は標準化しやすい
  • 医学や人文は標準化されていない
  • 社会科学ではサーベイ(社会調査)はICPSRで保管しデジタル化としてお金とるビジネス
    • 先月の九大で言われた「めちゃくちゃ使われるとオープンにするインセンティブが失われる」
  • 保管してたくさん集まれば価値がある
  • Googleのデータ検索に日本のデータが出てこん(クローリングの条件にあわない)
    • 標準化は研究者と機関でやるのだがいっぺんには無理
    • 研究データを生成するとこと整備する機関は別でいい
    • 政府のデータカタログの作りが現代の水準に追い付いていない
  • 経済学ではパネルデータが整備
    • 分野による
  • データの重要性は分かっているが全体を見渡せるマネジメントが欠如している
梶田先生
  • 言語の壁
  • 学術会議での議論は大切(学会を上レイヤーがいないから)
  • 学会が上位レイヤーでの議論を自主的にやってくれればいいのだけど
村上先生
  • 学術会議ではデジタル化基盤づくりからはじめる
  • みんなの足並みがそろわないと
  • 国際体制をつくれる人脈をもっているBelmont Forumプロジェクト。これを国内でできるのか
    • この点が不得手な日本人
三宅先生(京大)
  • 不得手なのはデジタルデータにしたときに立ちはだかる
  • タイピング(キーボード)と言語の16ビットが邪魔をする
    • 日本語オントロジーが整備
    • 類義語が多い日本語
    • 日本語だとデータクレンジングがしにくい(大丈夫かNC)

→梶田先生:IDでのコントロール、国際標準に沿ったID

家森先生
  • 欧米中心で動く世界
  • そういう場に非アルファベット圏外が出ていってアピールする必要がある

→梶田先生:RDMのひとたちは、RDM発展途上国にやさしいし、多様性は気にしてる

原先生
  • 言語の問題を解決するにはこういう場に人文の議論を引っ張ってくる
込山先生
  • インターオペラビリティの向上を目指しているが、あくまで輸入
  • 検索レイヤー
  • ナレッジグラフ、オープンデータが対象(IRに入っているもの)

→梶田先生:クローズなデータも含めて横断検索したいと思っている

村上先生
  • 基盤(コードやプロトコル)のところはNIIでやってもいい機運はあるの?
込山先生
  • データに関してはDOI
  • CiNiiリサーチのナレッジグラフでID付与
    • ドメインごとのIDを引き直しは考えていない
    • 一般的なPIDで規定
  • 研究データ利活用協議会?
村上先生
  • DOIの次はオントロジーや検索は?
    • 教室のIDとか
  • サービスに直結しない基盤づくりを初期の今だからこそやるの?
  • RDMの初期で何も決まっていない今だからこそ
    • 日本から発案する気はあるの?
    • ゲームメイキングはしないの?
  • 実利に結びつかない投資を
    • とうことを標準化する仕事が学協会において仕事として認められてほしい
    • (何かすでにある課題を解決するというよりかは)将来の困りごとを見据えてやる
    • 実利は予測もあり合理的な議論の下で合理的判断で先回る文化を学協会でつくる
松井先生
  • データはだれのものか?
    • 税金でつくったら国民のものという米国
    • 納税者への義務
    • 一方で日本では研究データは研究者のものという意識、所有の考え方
    • データは備品になる!?

→梶田先生:OSポリシーということも

村上先生
  • 学術会議ではOSポリシーはまで出ないと思う
松井先生
  • 今までは講座や研究室がしっかりしてたから残ってた(結果的に)
  • 残せない+ICT発達だから今、こういう議論している

→梶田先生:パラダイムが変わっている(少子化グローバル化、ICT)
→梶田先生:何を残すかどう残すか、なにをやるのかを議論

原先生
  • デジタルデータは増えている。激増
  • デジタルデータは0か1でぶっとぶので組織レベルなセキュアが必要

→梶田先生:それに加えて公開や保存に合意を得る

天野さん
  • 研究データマネジメントプランはファンダーが課すがそれに限らず大学が課してもいいかも
  • 今あるデータをどう残すか、とこれからのデータをどう残すかが戦略(DMP)
  • これからの戦略のためにDMPは超重要
    • 学術会議の議論を待たずにこれを大学レベルで考える時期にきている
    • 対ファンダーと学内用のDMPは二つあっても
村上先生
  • 自発的にデータを手放せるの?という疑問
  • ファンダーやジャーナルが言うからという外圧なら有効
    • ジャーナルが言うから→リポジトリに登録→登録時に公共物だということに合意させる→データが共有資産に(オープンサイエンス)
    • アカデミーと出版社が協力する仕掛け
  • (たとえば)オーストラリアではORCID必須
    • 学会の偉い人がトップダウンで動かした
    • コミュニティを引っ張る人がオープン化
    • 日本では状況が違うので説得には戦略が必要

研究データとDOI

少し前のニュースで千葉大学附属図書館が研究データにJaLCDOIを付与したと聞いた。
current.ndl.go.jp

さらに最近の出来事。とあるデータセットをDOI付きで公開できる自機関の仕組みはないか?という課題があって、その場でいろいろ検討したり、聞いてみたり(現時点では、機関リポジトリに対するJaLCDOIの研究データへの付与は実験段階だそう)したところ、手持ちのカードでは難しいということになった。

そのときはそれで終わったのだけど、ほかの事例としてはどんなものがあるのだろう?ということで、現時点でのメモ。

DOI登録機関の周辺情報

DataCite

https://datacite.org/dois.html
データにDOIを付与するには、DataCiteに参加するか、現メンバーのどこかと一緒に運営する必要がある。参加にかかる費用は不明。
https://datacite.org/become.html

事例:University of Southampton

library.soton.ac.uk
機関の構成員に対するサービス。学内研究者向けに説明するページ。
PUREを経由して、機関リポジトリデポジットされたデータセットを、DataCiteのアカウント(メンバーなのか協力機関としてなのか)をもつ同大学が付与するそう。

Crossref

support.crossref.org
出版社向けのページ。ただし、ここではCrossrefが提供するサービスとしては、1.出版物(論文など)の参考文献として、2.出版物とデータの関連タイプを規定する情報を、メタデータのなかに含めることができるもの。何かしらの出版物が前提となっている。

www.nature.com

このあたりのタグを追えばいいのかもしれない。

www.crossref.org

JaLC

japanlinkcenter.org
研究データへの DOI 登録ガイドライン

www.jstage.jst.go.jp

以下、DataciteなどのDOI登録機関の参加機関として、サービス対象とする国・地域・投稿者・ユーザに対して、研究データへのDOIの付与を行っている。

国・地域レベル

The Australian National Data Service (ANDS)

https://www.ands.org.au/guides/doi
データセットへの付与が可能。

Russian Agency for Digital Standardization (RADS)

rads-doi.org

出版社

Elseier (Mendeley Data)

www.elsevier.com
Mendeley Dataで研究データ管理が可能。DOI付与も可能。
www.elsevier.com

Springer Nature

www.springernature.com
こちらもデータセットに対するDOI取得が可能

国内事例

地球環境情報プラットフォーム構築推進プログラム(DIAS) 国立情報学研究所(NII)チーム

dias.ex.nii.ac.jp

その他アーカイブサービス

Zenodo

2017年5月に、DOI付与開始
current.ndl.go.jp

figshare

figshare.com

おまけ
いいなとおもった動画。ラウエ・ランジュヴァン研究所(フランス)制作。
www.youtube.com