View on GitHub

notes

miscellaneous notes

研究データ公開と研究データ管理に関する実態調査自由回答の分析

研究データ公開と研究データ管理に関する実態調査

2/18に公表された 池内有為, 林和弘「研究データ公開と研究データ管理に関する実態調査 2024:データ公開の 拡大とリポジトリ活用の深化」, NISTEP RESEARCH MATERIAL, No. 352, 文部科学省科学技 術・学術政策研究所. DOI: https://doi.org/10.15108/rm352

結果の本文はぜひ上記をみていただくとして、 Q29_自由回答CSVデータ (49 KB)  回答156件 については本文で分析がなかったので、 生成AI(copilot)にアフターコーディングさせて、 項目(コード)ごとに要約をさせてみました。コードは1つの回答に複数付与されていることがあるので、件数の合計は一致しません。 以前は、プログラムを書いたり専用のツールを使ったりする必要がありましたが、 ざっくり理解する分には、生成AIがちゃちゃっとやってくれるようになりました。

ポジティブな意見は1/3、あとは懸念や反発のようです。 若干認識が足りないための反発も見受けられますが、 内閣府や文科省などの文章をすみずみまで読んで理解している方が少ないのは事実でしょうね。

自由回答のまとめ


公開の賛同・メリット(49件): 公開データの活用は研究の進展や誤り修正に有用で、生産性向上にも資するとの評価が多い。一方で、データ分散や手続き負担が課題として残る。標準化や横断検索の強化により、より実効的なオープンサイエンスが期待されている。

分野差・データ特性の違い(40件): 分野ごとにデータ特性・公開価値が大きく異なるため、一律ルールでは対応できないとの指摘が多数。権利処理の複雑さや国際誌の要件、公開後の問い合わせ対応負担など、分野固有の課題が浮き彫りとなっている。

負担・時間・コスト(33件): 研究データ公開に伴うDMP作成や許認可手続きが大きな負担となり、研究時間を圧迫しているとの声が多い。装置公開の難しさや研究者の業務過多も重なり、公開義務化への反発が強い。オープンアクセスに関する追加手続きも負担感を増している。

データ選別・重要性判断(24件): どのデータを公開すべきかの選別基準が不明確で、研究者側の負担が増している。重要データの保存や横断検索の利便性向上が求められる一方、公開に伴う再現性確保や未利用データの扱いにも課題がある。

公的支援・資金(19件): 資金配分が競争的資金偏重のため、基盤的データ公開に必要な人材・設備確保が困難との指摘が多い。公的支援の不十分さからオープンイノベーション推進が停滞しており、継続的な財源の確保が課題となっている。

リポジトリ・基盤整備(19件): 分散したオープンデータへの横断検索や長期保全を支える基盤整備が必要。資金不足で維持できないケースが多く、リポジトリ運用の負担も課題。プラットフォーム依存や公開手続き負担の高まりから研究現場の不満も大きい。

知財・特許・企業機密(14件): 企業機密や知財保護の観点から、データ公開に慎重な意見が多い。ビジネス上不利益が予想される場合には公開しない判断も支持されている。一方で、公開可能な成果は特許と両立しながら進めるべきとの声もある。

企業・産業界の事情(14件): 企業では機密保持や競争環境からデータ公開が難しい場面が多い。研究スタンスが大学と大きく異なり、契約ベースの限定公開の必要性も指摘されている。一方で、公開可能なデータは特許などと両立しながら進めるべきとの観点もある。

評価・インセンティブ不足(13件): データ公開が業績評価に結びつかず、公開への動機が弱いという不満が多い。公的データの価値評価が不十分で、公開を進める体制も不足。研究者が軽視されているとの認識も強く、制度的なインセンティブ整備が求められている。

検索性・アクセシビリティ(13件): データが分散し検索性が低いことが研究者の大きな負担に。検索・集約基盤の整備や公開手続き支援があれば利用が進むとの声が多い。一方で公開費用や負担の増加も課題として挙がっている。

品質・再現性・査読(12件): 未更新データが誤解を生む懸念や、複数バージョンのデータが混乱を生む問題が指摘されている。再現性確保のため公開は重要だが、全データ公開は負担が大きく、未利用データの扱いにも課題。公開後の誤用リスクも意識されている。

体制・人材不足(12件): 現場の人材・予算不足により、研究データ管理や公開作業が困難との指摘が多い。データアーキビストの不足や短期的予算による体制不備が課題。研究者負担を軽減する支援体制の整備が強く求められている。

メンテナンス・長期保存(11件): 長期保存のための媒体・バックアップ体制やガイドライン不足が課題。実験データの保管・公開には物理的制約も多く、機関の支援なしでは持続不可能との懸念が強い。効率的な保存方針の明確化が望まれる。

公開への反対・義務化への反発(11件): 負担増や研究時間圧迫を理由に、義務的公開に慎重な意見が多い。セキュリティ方針や分野特性の違いも反発の理由。企業機密や知財への配慮が必要との声も強く、一律義務化は不適切との見方が支配的。

標準化・メタデータ・相互運用(8件): 分野横断でのデータ標準化が求められているが、現状は機関ごとに形式が異なりオープンデータの実効性が損なわれている。国際誌ではデータ提供が標準化しつつあり、日本でもメタデータ整備やモデル相互運用の課題が顕在化している。

教育・啓発・ガイドライン(8件): 研究データ公開に関する教育機会不足が指摘され、適切な公開・管理の運用方法に不安が残る。個人情報や輸出管理に関する理解不足も課題で、研究者への体系的な教育やガイドライン整備が求められている。

国際比較・海外動向(8件): 海外ではデータ公開が進み、専門スタッフによる公開プロセスの標準化が進展。一方、日本は分野によっては遅れが顕著で、投稿要件など国際基準への対応も課題。OASPA加盟誌を基準とした公開判断など国際動向が影響している。

先取権・スクーピング・盗用懸念(6件): データ盗用やスクーピングへの懸念が強く、公開による先取権喪失を危惧する声が多い。特に生物系など競争の激しい分野で顕著。公開後の不正利用対策や補償制度整備が求められている。

コード公開・ソフトウェア懸念(6件): コード公開で研究優位性が失われる懸念が強く、公開の心理的・実務的ハードルが高い。公開しても評価されにくい現状も課題。相互運用や可視化、フォーマット変換など技術課題も多く柔軟な公開制度が求められる。

研究不正防止・透明性(6件): 研究不正防止の観点からデータ公開は重要だが、研究者の不利益や論文発表への影響を懸念する声も多い。第三者による検証やキュレーター育成が求められ、透明性確保と研究者保護の両立が課題となっている。

法・倫理・匿名化・個人情報(4件): 匿名化や個人情報保護への理解不足が指摘され、適切な処理が行われない懸念が強い。倫理・輸出管理を含む法的側面の複雑さから、研究者教育の必要性が高まっている。個人情報を含むデータの公開には慎重な姿勢が目立つ。

装置・実験資源の公開困難(3件): 装置・設備の保管や公開には物理的・費用的制約が大きく、現実的ではないとの意見が多い。物価高騰により実験費用が圧迫される中、追加負担の発生は困難との見方が強い。

セキュリティ・安全保障(3件): データ流出や改ざん、不正アクセスへの懸念が強く、セキュリティ対策や補償制度の整備が不可欠とされる。特に企業研究や国際共同研究では知財・安全保障リスクが高く、慎重な公開判断と制度的支援が求められる。

OA費用/APC(1件): オープンアクセス費用や物価高騰による研究費圧迫が深刻。APCなど研究活動に直接使えない費用の負担増により、データ公開のための追加コストを負担する余裕がないとの声が多い。