View on GitHub

notes

miscellaneous notes

図書館情報学的主題分析と生成AI

はじめに

 以前図書館的な件名、分類の付与と、その前提となるコンテンツの概念化は自動化できるかを を書きましたが、そちらは若干技術的概念よりなので、 もう少し図書館寄りな話をこちらで付け足します。 (かなりの部分を、生成AIに書かせて、それに若干手を入れたものです)

 図書館の主題分析は、 「何が書いてあるか(内容)」+「どういう資料か(形式・ジャンル)」 の両方を前提にしているので、全文を詠ませれば機械(生成AI)でも、何が書いてあるかを抽出できますが、中身(文)を詠んだだけでは、小説かノンフィクションか、はたまたスピリチュアル本かを、生成AIが判断するのはなかなな難しい、というお話です。

 例えば、「出エジプト記」は聖書という予備知識まったくなしにいくら読んでも(193)に分類できないし、小説「手紙」も熟読していくら内容が適切に要約できたとしても(913)には分類できないかもしれません。

主題分析=内容分析だけではない

図書館の主題分析は、 「何が書いてあるか(内容)」+「どういう資料か(形式・ジャンル)」 の両方を前提にしています。

そのため、

純粋な内容理解ができても、形式・ジャンル・成立背景がわからなければ、 分類記号(NDC)は確定できない、という場面が普通に起こります。

出エジプト記の例が示していること

出エジプト記はモーセが海を割るところが有名ですが、それを読んでも、 物語なのか、イスラエルの歴史なのか、神話なのか、は実はよくわかりません。

主題分析のポイント

主題分析には、少なくとも次の3層があります。

  1. 内容主題
  2. 形式主題
  3. 位置づけ主題

NDC分類は ②と③を強く重視する体系 なので、①だけでは足りない、という状況が頻発します。

人間はどのようにしているか?

 つたない私の経験では、 タイトルと、奥付と、帯と目次、ジャケットの紹介文くらいをパッと見て、 聖書を題材にした小説か、聖書自体か、スピリチュアル本か、をあたりをつけて、微妙な場合、前書きや後書きを読むはずなので、 そのあたりの情報も併せて生成AIに情報として与えられれば、形式やジャンルも生成AIにも判断可能だと思いますが、 紙の本中心の現状では、それらは生成AIが読めない、という課題があります。

 人間がどう判断しているかを分解して説明できるなら、その判断は生成AIにも原理的には可能です。問題は「説明が曖昧なまま、人間は直感でやっている」部分を、どこまで言語化できるかということになります。

人間は何を基準に「小説/ノンフィクション/スピリチュアル」を判断しているか

人間は、内容そのものよりも、著者と出版コンテクストなどのメタ情報(外在情報)の組み合わせで判断し、本文を読む前に判断がほぼ終わっています。

生成AIに「判断できない」ように見える理由

生成AIが弱いのは、本文しか与えない、出版情報・流通情報を切り落とす という実験設定の場合が多いからです。

これは人間に、作者も出版社も分からない原稿だけ渡して「これ文学か判断して」と言っているのと同じで人間でも迷います。

余談:アバウトネス

管見の範囲で、「図書館の主題分析は〈内容〉+〈形式・ジャンル〉の双方を前提とする」ことを、理論的に明示して論じているのは以下のものでした。

Ralph M. Holley & Daniel N. Joudrey, Aboutness and Conceptual Analysis: A Review. Cataloging & Classification Quarterly. Published online 2021. doi:10.1080\/01639374.2020.1856992

以下は冒頭の機械翻訳です。

図書館情報学(LIS)の実務者や学生、とりわけ新進の目録作成者、メタデータ専門家、索引作成者(以下、簡略化のため「目録作成者」と呼ぶ)にとって、「アバウトネス(aboutness)」という概念を理解することは重要である。 この用語は、リソースの主題(すなわち、トピック、テーマ、内容)および構造(すなわち、ジャンル、形式)を指す。 図書館、公文書館、その他の文化遺産・情報機関の所蔵資料に対して主題によるアクセスを提供するため、LISの専門家は主題分析を行う。 主題分析は、情報組織化プロセスの不可欠な部分であり、これはLIS分野における基礎的な機能である。主題分析プロセスは、概念分析と翻訳という2つの段階から成る。「アバウトネス」は、その両者において基本的な概念である。

面白いのは、

[これまでの]ほとんどの文献では、目録作成者が資料の「対象」を特定できることが単に前提とされている。これらの文献は、むしろ「対象」を統制語彙や分類表記に変換することに重点を置いている。

という部分です。 この指摘のとおりだとすると、「対象」=アバウトネスをどうやって特定するかを生成AIに教えることが難しい、ということになりかねません。

この論文では、概念分析の段、手法についても論じられており、それらを生成AIに適用することで、自動化にも道が開けるのではないでしょうか。

なお、 Aboutnessとは、もともと言語哲学的な概念ですが、日本には、言語学の文法理論的な導入が図られ、そこから図書館情報学にも取り入れられた概念です。

図書館情報学用語辞典 では、

アバウトネス 蓄積情報や検索質問の中で扱われている主題概念.表現されている重要概念は何かを示すものということができる.この何かの決定は,個人に依存し必ずしも客観的ではないので,アバウトネスは,著者,索引作成者,利用者など,情報や検索質問を取り扱う立場によって異なる.蓄積情報に関しては,著者アバウトネス,索引作成者アバウトネス,利用者アバウトネスに分けることができる.また,蓄積情報にはまったく関連せず,検索質問が何についてかのみを示す検索質問アバウトネスには,利用者アバウトネスと仲介者(例えば,レファレンス担当者)アバウトネスがあると考えることができる.

と説明されています。 ちなみに哲学分野では「ついて性」という訳語が使われるようです