図書館総合展に行ってきた。〜フォーラム「図書館におけるビッグデータ活用を考える」後篇

 前の記事の続き。繰り返しますが、xiao-2が聞きとれて理解できてメモできて、かつ思い出せた範囲。項目立ては適当。

 後半のスピーカーは、SimChengHwee氏*1(IntegratedDecisionSystemsConsultancyPteLtd、以下IDSC)*2。お名前からすると中国系?の方らしいが、たいへん流暢な日本語で、通訳なしで話をされていた。

  • 導入と課題提起
    • 自分は、統計学的手法で将来予測をするコンサルティングをやっている。
    • 本日は蔵書の収集とその解決をテーマに、蔵書収集最適化解決策(以下、SMOS)の概念*3、海外事例と国内事例の紹介を行い、最後にまとめとしてSMOSのメリットを述べる。
    • 図書館の蔵書計画にあたっては色々なことを考えないといけない。たとえば資料利用率。図書館によって違う。分野によっても違う。利用の減少スピードも違う。
    • 利用されないから即棄ててよい、というものでもない。スペースや予算のこともある。総合的に扱わないと良い答えがでない。
  • 会社紹介
    • IDSCの設立は1996年。図書館の仕事は2008年から、シンガポール国立図書館で蔵書収集最適化(SMOS)を手掛けている。オーストラリアの都市でも実践したほか、日本国内でもある図書館の協力によりトライアルを実施している。
  • SMOSの概念
    • 図書館の分類ミックス*4を最適化する。今どういう本があるか。それらの回転率や利用率。
    • そうした要素と、一方ではコストやスペースの問題がある。どのようにスペースや予算を割り当て、貸出数が最大になるように棄てたり買ったりする判断をするか。
    • 単に答えが出るだけでない。市内の図書館がすべて同じ本を持つのは無駄。図書館ごとの特徴に応じたコレクション方針を立て、6角形のレーダーチャートで表すことができる。将来持って行きたい蔵書構成を赤線で、現在の蔵書構成を黄線で表示。
    • 司書は自館の資料の全体がなかなか見えない。市全体となるとさらに難しい。可視化できないと、過去のデータから将来を計画することが難しい。
    • データを使うと需要予測が可能になる。資料の分野ごとのリソースの割り当て、各タイトルの冊数、タイトルごとの貸出回数など。特に在架率、本が棚にある率の測定は難しい。これを分析で出す。
    • 何か欲しい本があるとき、在架率が低すぎると、ユーザは見つけられない可能性が大きい。今ある本を減らしたらどうなるのか?という予測ができないといけない。現状が見えるだけでは駄目。分析することで、どういう状況が最適か分かる。
    • 減らす(除籍)なら、なるべく利用されない、貸出数にダメージの少ないもの。増やす(購入)なら、貸出数増加につながるものを選ぶことができる。
    • 各図書館で購入・除籍を独自に決めていると、無駄が多い。ある図書館で廃棄した本が、実は他の図書館で欲しがっているものだったりする。ネットワーク全体で考えられると無駄がなくなる。
    • 現状の貸出冊数を知ることができる。ある本が図書館に入っていなくても、その本が借りられる回数が予測できる。「似たコレクションを持つ他館で貸出が多いのに、自館には入っていない本」というのを自動的に出せる。
    • どういう本を何冊持つべきか。必要性の高い方から、予算を回すことができる。
  • 海外での実践結果
    • 分類ミックスの最適化のみで、1-2割ほど貸出数が増加しうる。
    • Swan市は4割、Joondalup市では3-5割増加した。
  • 日本国内の図書館でのトライアル
    • いくつかのシナリオを立てて分析した。
      • ベースラインは、スペース現状維持、予算増加した場合の予測。
      • そのほかに「スペースは現状維持、予算も現状維持の場合」「予算が10%増加/減少した場合」「分類97-99の場所を交換した場合」「大分類内の中分類を最適化した場合」を想定した。
    • 想定して出てきた貸出予想数値を、実際の貸出と比較した。
    • 予算の割り当てを最適化するだけで2%貸出が増加。
    • 一方スペースを最適化すると、予算よりも増加幅が大きかった。スペースの使い方がまずいと、予算が増えても効果が薄いということが分かる。
  • 予算割り当て
    • 人間が決めると、各分野の資料数を均一にしがち。貸出数が多い分野に、さらに予算をつぎ込みたくないと考える。しかしデータに基づいて割り当てると、貸出数の多い分野に重点化。
    • 中分類を最適な場所に移転させた場合。244冊移動、688冊貸出増加。
    • 追加購入をやらないで、資料の移動だけだとどれだけ増えるか。また、逆に移動をせずに追加購入のみだとどれだけ増えるか。従来その図書館にない本を入れると、貸出がどのくらい増えるか。それぞれ数字が出た。
    • 追加購入の状況を見ると、ある程度までは予算を多く使うほど貸出が増えるが、一定の額を過ぎるとむしろ増加率が下がる。分類によって効果が違う。
  • メリット
    • 選書の効率アップ。司書が分析するよりも、自動的に最適の回答が出る。需要というのはいつも変わっている。色々なシナリオを見ながら、どのようなテーマに基づいて図書館を運営するか決められる。アウトソーシングで資料を収集するにあたって、入ってきた本が自分の図書館に相応しいものかどうか、自動的にチェックすることができる。
    • 貸出数アップ。市内に複数の図書館があり、A図書館で借りた資料がB図書館に返却された場合、それを再度B図書館に運搬するのは費用がかかる。B図書館、もしくは他の図書館でその資料が必要なら、そこの蔵書にしてしまう。また廃棄する代わりに、販売して収入にすることもできる。
      • 従来でもレポートを見たり、統計をとったりはしていた。なぜそれだけでは足りないのか。複雑なので、将来予測して、可能性分析することが欠かせない。高度な分析を使わないと足りない。この方法を使うことで、色々な可能性が考えられる。
  • 質疑
    • フロア
      • 最適化にはどういうデータを使うのか。その図書館での実績か、他の図書館のデータか。
    • Sim氏
      • 国内での実践事例から見ると、タイトルごとの使用率では足りない。というのは大体同じ本は2-3冊しか買わないし、その2-3冊も同じ年度に入ってきたものではない。
      • タイトルの下にアイテムがある。分類、タイトル、使用率などが、その本が古くなっていくとどう変化するか。
      • また、図書館のスペースがどのくらいあるか。今回スペースはあまり使わなかったが。
      • 本の厚み。これは回帰分析で予測する。各分類ごとのスペースと、紙の厚さなどから。TRCマークにはページ数情報がある。サンプルで紙の厚さを調べてページ数と掛け、本の厚さを割り出す。
      • 仕様、蔵書、スペースについては図書館からデータをもらう。
      • スペースの広さのデータはシステムでは持っていないので、図書館の協力が必要。
    • フロア
      • 利用者側の属性は使っていないのか?
    • Sim氏
      • 日本でのトライアルでは、資料の動きを見るだけで利用者の属性は見ていない。
      • シンガポールでの実践では使った。どの図書館で中国語の本が読まれるか、児童書はどういう本が親と一緒に借りられるか、どんな人が違う書架に本を戻すか。
    • フロア
      • このモデルで出した結論は、どのくらい合っているか?評価は。
    • Sim氏
      • この手法を使って2008年にシンガポールで、今後取るべき方針が示された時には、司書は「この方針は絶対間違っている」と言っていた。なぜならデータ分析からは中国語の本を英語の本より多く買うべきだという結論が出たが、それは司書の経験的な感覚と逆だったから。
      • 実際にやってみたら、正解だった。というのは、シンガポールの人口はここ数年で2倍になっている。その増えた分のほとんどが中国系。司書は常に分析をしている訳ではないので、分からなかった。細かく分析したら合っていた。実践してみたら合っていたので、2009年からシステムに組み入れた。
      • 予測のみでなく、実際の効果を見て、モデルが適切だと判断している。


 メモは以上。講師の日本語は流暢だったけれど、そもそもxiao-2はこうした分野に疎いので、うまく理解できているか若干不安な部分がある。スライドや配布資料にその分丁寧な説明が載っていたのだが、さすがに載せる訳にはいかない。結果、いつも以上にすっかすかなメモになっている。

 あとは感想。全体として、非常に興味深かった。ビッグデータという語は今年の流行りのようによく耳にするが、改めてまとまった話を聞くと、いまの技術はほんとに色々なことができるもんだなぁ、と素直に感銘を受ける。*5
 司書の経験よりもデータ分析で出した蔵書構築方針の方が的確だったというエピソードには、図書館の中の人の大多数は何かしら反論したくなることだろう。正直言って、自分も微妙な気持ちになった。しかし、以前読んだこの本や、最近読んだこの本

その数学が戦略を決める

その数学が戦略を決める

ヤバい統計学

ヤバい統計学

ビッグデータの正体 情報の産業革命が世界のすべてを変える

ビッグデータの正体 情報の産業革命が世界のすべてを変える

などを思い出すと、さもありなんと思ってしまう。データ分析によって売り上げを最大化する仕入れができるとしたら、貸出数を最大化する蔵書構築ができない訳がない。「貸出数を増やす選書」ということさえ、もはや司書の専門性とは言い切れないのかもしれない。
 ただ、提示されるシナリオのどれを選ぶかは、図書館の人が決めるしかない。「目的は貸出数の最大化…でいいの?」ということも含めて。それはフォーラム前半で紹介された様々な可能性についても同じことだ。これから絶対必要なものもあれば、必須ではないけどあると楽しいものもあり、もしかすると図書館としてこれには手を出しちゃいけないというものもあるかもしれない。それを考えて判断することは、やっぱり図書館の中の人の仕事として最後まで残るんだろう。
 最新技術の話を聞いたらSFめいた気分になってきたので、最後にこんなブログ記事を紹介。

人間から、コンピュータを引き算する未来
http://blogos.com/article/57468/

*1:SimChengHwee氏プロフィールはこちら

*2:IntegratedDecisionSystemsConsultancyPteLtd

*3:SMOSとは何の頭文字か、残念ながらよく分からなかった。2013/11/17 SMOS( Stock Mix Optimization System )の略だそうだ。id:aliliput様のブログにより補記。多謝。

*4:xiao-2は初めて聞く言葉。文脈から察すると、いわゆるNDC等の図書分類法とはあまり関係ないらしい。「蔵書構築」という語が一番イメージに合うように思う。以下同様。

*5:今回のフォーラムはNECの主催だったが、おそらく他社でも色々な取り組みを考えているだろう。数日前目にしたニュース:2013/11/13富士通、ビッグデータ分析を浜松市の30年後の姿を定める総合計画に活用