View on GitHub

notes

miscellaneous notes

研究データの盗用についての考察

I はじめに

研究データに公開に関して、研究者から公開したデータの不正な利用について懸念を訴える声はあるが、 研究不正としての「盗用」が成立し得る場合もある。 また、たとえ利用者が研究倫理規程の直接的な適用対象外であったとしても、 CCライセンス(Creative Commons)の履行違反を問える可能性がある。 ライセンスを明確にすること、DOIのメタデータとして埋め込むことが重要であり、 この点は、データリポジトリおよび機関リポジトリにおける実装を検討する上で重要な論点である。

II データ公開に対する懸念

池内有為・林和弘「研究データ公開と研究データ管理に関する実態調査 2024:データ公開の拡大とリポジトリ活用の深化」(NISTEP RESEARCH MATERIAL No.352)では、以下のような指摘がなされている。 (DOI: https://doi.org/10.15108/rm352)

(6)データ公開に関する懸念

「86.5%の回答者が、『公開したデータを引用せずに利用される可能性』を問題であると認識していることが明らかになった。なお、データ公開経験を持つ研究者769名のうち、公開したデータを引用せずに利用されたことがあるという趣旨の記述を行っていたのは3名であった。」

(7)データ公開のネガティブな影響

「『引用せずに利用された』(3件)については、『公開したデータが利用された際に、適切な文献を引用してもらえなかった』、『自分が公開したデータセットのフォークが参照され、フォーク者との自分の仕事への言及がなされないことがある』、『研究データを先に公開して成果を横取りされかけたことがある』といった記述があった。」

これらの記述からは、実際の被害報告件数が少数である一方で、「無断利用・無引用」への不安が研究者に広く共有されていることがうかがえる。

一方、文部科学省「研究活動における不正行為への対応等に関するガイドライン」では、盗用について次のように定義している。

「③ 盗用:他の研究者のアイディア、分析・解析方法、データ、研究結果、論文又は用語を、当該研究者の了解又は適切な表示なく流用すること。」

この定義から明らかなように、研究倫理の枠組みにおいては、盗用の対象は論文本文に限定されず、研究データ、解析コード、データセットを含む。したがって、他者の研究成果を適切なクレジット表示なしに利用する行為は、原則として盗用(plagiarism)に該当すると解される。

論文に関しては、残念ながら盗用を含む研究不正の報告が後を絶たないものの、不正が発覚した場合の調査・是正・処分の仕組みは一定程度確立しているといえる。 それにもかかわらず、なぜ研究データについては、前述のような強い懸念が広く表明されるのだろうか。

その理由は、一言でいえば、研究データに関しては、権利や責任の帰属表示、ならびに利用慣行が十分に整備されておらず、不正や誤用が生じた場合に可視化・是正が困難である点にあると考えられる。その結果として、「勝手に利用されるのではないか」という不安が生じやすい状況が形成されている。

こうした課題に対する制度的・システム的な対応策として考えられるのが、ライセンスの明示とその機械可読化である。具体的には、CC BY 等のライセンス情報を DataCite DOI のメタデータに埋め込み、機関リポジトリやデータリポジトリでの公開時に適用することにより、研究データを論文と同程度の「引用・参照システム」に載せることが可能となるはずである。

また、研究データに限らず、オープンアクセス化によって、アカデミアに属さない一般利用者の利用も想定される。その場合、「研究倫理」という枠組みが、非研究者には直接適用できないのではないかという懸念がある。しかし、この点は論文においても同様であり、ライセンスという形で利用許諾条件が適切に提示されていれば、研究倫理とは別に、法的枠組みにおいて不正利用の是正を図ることは理論上可能である(実際の権利行使には高いハードルが存在することは否定できないが)。

このように、研究データ公開に対する不安の多くは、制度的な強制力や担保手段の欠如に起因している部分が大きいと考えられる。以下では、その対処策として CC ライセンスを適用する場合について検討する。

Ⅲ.CCライセンスは研究倫理ではなく「法的利用許諾」

CCライセンス(Creative Commons)は、著作権法を前提としたライセンス、すなわち法的な利用許諾である。 そのため、利用者が研究者であるか否かといった属性にかかわらず、ライセンス条件に違反した利用は、「無許諾利用」と評価され得る。

もっとも、CCライセンス違反を主張するためには、いくつかの前提条件と限界が存在する。

条件①:データに著作物性が認められるか

単なる事実、数値、観測値のみからなるデータは、著作物性が否定されやすい 一方で、データの選択、構成、整理、注釈などに創作性が認められる場合には、著作物性が肯定される可能性がある

条件②:ライセンス条件が明確に示されているか

CC BY 等のライセンス種別が明示されていること クレジット表示方法が具体的に示されていること 利用条件が曖昧な場合、紛争時の争点となりやすい

条件③:利用実態を立証できるか

当該データが利用された事実 本来求められるクレジット表示が欠如している事実 の双方を示す必要がある

一方で、限界もある。 例えば、国際的利用における管轄・準拠法の問題、 差止請求や損害賠償請求といった権利行使に要するコスト、 ──実務的には、常に法的措置が可能とは限らない といった懸念は多いにある。

加えて、論文盗用であれば原論文と比較することで比較的容易に判断できる場合も多いのに対し、 データの不適切利用は、二次解析の一部に埋もれている場合、あるいは一部のみ切り出されて利用された場合など、 利用状況の追跡が困難であるという特有の問題がある。

Ⅴ.DOIが果たす役割

DOI(Digital Object Identifier)が付与されることで、「どのデータセットが利用されたのか」を客観的に特定することが可能となる。また、DOIのメタデータにライセンス情報を機械可読な形で埋め込むことにより、クレジット欠如やライセンス違反の立証が容易になる効果が期待できる。

これはデータ作成者本人による確認にとどまらず、第三者による検証可能性を高める点でも重要である。さらに、NISTEP報告書で指摘されている、

「データ公開を正当に評価する仕組みが必要である」 「利用状況がわからない」「リンク切れ」「体制の不備」といった課題 —- についても、DOIを基盤としたシステムにより、アクセスデータの提供や永続的識別子の管理が可能となるなど、大幅な改善が期待できる。

ライセンス

License: CC BY 4.0 Copyright (c) [2026.4] [W. ONO] この作品はクリエイティブ・コモンズ 表示 4.0 国際 ライセンスの下に提供されています。