図書館情報学的主題分析と生成AI

はじめに

　以前図書館的な件名、分類の付与と、その前提となるコンテンツの概念化は自動化できるかをを書きましたが、そちらは若干技術的概念よりなので、もう少し図書館寄りな話をこちらで付け足します。（かなりの部分を、生成AIに書かせて、それに若干手を入れたものです）

　図書館の主題分析は、「何が書いてあるか（内容）」＋「どういう資料か（形式・ジャンル）」の両方を前提にしているので、全文を詠ませれば機械（生成AI）でも、何が書いてあるかを抽出できますが、中身（文）を詠んだだけでは、小説かノンフィクションか、はたまたスピリチュアル本かを、生成AIが判断するのはなかなな難しい、というお話です。

　例えば、「出エジプト記」は聖書という予備知識まったくなしにいくら読んでも（193）に分類できないし、小説「手紙」も熟読していくら内容が適切に要約できたとしても（913）には分類できないかもしれません。

主題分析＝内容分析だけではない

図書館の主題分析は、「何が書いてあるか（内容）」＋「どういう資料か（形式・ジャンル）」の両方を前提にしています。

そのため、

純粋な内容理解ができても、形式・ジャンル・成立背景がわからなければ、分類記号（NDC）は確定できない、という場面が普通に起こります。

出エジプト記の例が示していること

出エジプト記はモーセが海を割るところが有名ですが、それを読んでも、物語なのか、イスラエルの歴史なのか、神話なのか、は実はよくわかりません。

主題分析のポイント

主題分析には、少なくとも次の3層があります。

内容主題
形式主題
位置づけ主題

NDC分類は ②と③を強く重視する体系なので、①だけでは足りない、という状況が頻発します。

人間はどのようにしているか？

　つたない私の経験では、タイトルと、奥付と、帯と目次、ジャケットの紹介文くらいをパッと見て、聖書を題材にした小説か、聖書自体か、スピリチュアル本か、をあたりをつけて、微妙な場合、前書きや後書きを読むはずなので、そのあたりの情報も併せて生成AIに情報として与えられれば、形式やジャンルも生成AIにも判断可能だと思いますが、紙の本中心の現状では、それらは生成AIが読めない、という課題があります。

　人間がどう判断しているかを分解して説明できるなら、その判断は生成AIにも原理的には可能です。問題は「説明が曖昧なまま、人間は直感でやっている」部分を、どこまで言語化できるかということになります。

人間は何を基準に「小説／ノンフィクション／スピリチュアル」を判断しているか

人間は、内容そのものよりも、著者と出版コンテクストなどのメタ情報（外在情報）の組み合わせで判断し、本文を読む前に判断がほぼ終わっています。

著者は、小説家か研究者・記者か宗教家か
出版社・レーベルは、文芸書か、新書、自己啓発／精神世界
帯・序文に何と書いてあるか

生成AIに「判断できない」ように見える理由

生成AIが弱いのは、本文しか与えない、出版情報・流通情報を切り落とすという実験設定の場合が多いからです。

これは人間に、作者も出版社も分からない原稿だけ渡して「これ文学か判断して」と言っているのと同じで人間でも迷います。

余談：アバウトネス

管見の範囲で、「図書館の主題分析は〈内容〉＋〈形式・ジャンル〉の双方を前提とする」ことを、理論的に明示して論じているのは以下のものでした。

Ralph M. Holley & Daniel N. Joudrey, Aboutness and Conceptual Analysis: A Review. Cataloging & Classification Quarterly. Published online 2021. doi:10.1080\/01639374.2020.1856992

以下は冒頭の機械翻訳です。

図書館情報学（LIS）の実務者や学生、とりわけ新進の目録作成者、メタデータ専門家、索引作成者（以下、簡略化のため「目録作成者」と呼ぶ）にとって、「アバウトネス（aboutness）」という概念を理解することは重要である。この用語は、リソースの主題（すなわち、トピック、テーマ、内容）および構造（すなわち、ジャンル、形式）を指す。図書館、公文書館、その他の文化遺産・情報機関の所蔵資料に対して主題によるアクセスを提供するため、LISの専門家は主題分析を行う。主題分析は、情報組織化プロセスの不可欠な部分であり、これはLIS分野における基礎的な機能である。主題分析プロセスは、概念分析と翻訳という2つの段階から成る。「アバウトネス」は、その両者において基本的な概念である。

面白いのは、

[これまでの]ほとんどの文献では、目録作成者が資料の「対象」を特定できることが単に前提とされている。これらの文献は、むしろ「対象」を統制語彙や分類表記に変換することに重点を置いている。

という部分です。この指摘のとおりだとすると、「対象」＝アバウトネスをどうやって特定するかを生成AIに教えることが難しい、ということになりかねません。

この論文では、概念分析の段、手法についても論じられており、それらを生成AIに適用することで、自動化にも道が開けるのではないでしょうか。

なお、 Aboutnessとは、もともと言語哲学的な概念ですが、日本には、言語学の文法理論的な導入が図られ、そこから図書館情報学にも取り入れられた概念です。

図書館情報学用語辞典では、

アバウトネス蓄積情報や検索質問の中で扱われている主題概念．表現されている重要概念は何かを示すものということができる．この何かの決定は，個人に依存し必ずしも客観的ではないので，アバウトネスは，著者，索引作成者，利用者など，情報や検索質問を取り扱う立場によって異なる．蓄積情報に関しては，著者アバウトネス，索引作成者アバウトネス，利用者アバウトネスに分けることができる．また，蓄積情報にはまったく関連せず，検索質問が何についてかのみを示す検索質問アバウトネスには，利用者アバウトネスと仲介者（例えば，レファレンス担当者）アバウトネスがあると考えることができる．

と説明されています。ちなみに哲学分野では「ついて性」という訳語が使われるようです

notes

miscellaneous notes