連続セミナー「みんなでつくる・ネットワーク時代の図書館の自由」第4回「図書館記録におけるパーソナルデータの取り扱いについて」に行ってきた。〜後篇

 ぐずぐずしているうちに月が替わってしまった。前の記事の続き。繰り返しますが、xiao-2が聞きとれて理解できてメモできて、かつ思い出せた範囲。項目立ては適当。後半は先生方の研究成果の紹介がメインだったが、自分のメモはどうにも頼りない。なるべく論文等にリンク張っておくことにするので、ちゃんと知りたい人はそちらを読むといい。

 中盤で*1同志社大学の佐藤翔先生が登壇。

  • 佐藤翔先生(同志社大学
    • 自分はアクセスログの解析、たとえばNDLサーチで検索を行う人の動きの調査などをしている*2。検索した後に絞り込み機能を使った人がどれだけいたか、どこの国からアクセスしているか、などがリクエスト内容から分かる。
    • アクセスログから分かることは、そんなに多くはない。利用者がどういう行動をしているかは分かる。しかしそれが誰かということはあまり分からない。利用者を特定することが望ましくないと考える立場からすると、良い部分。
    • もちろんIPアドレス、アクセス元などはある程度示している。どこの国からのアクセスかも特定するツールがある。ドメインや文字列の情報も可能。アクセス元がどこの大学かといった程度のことなら分かる。
    • しかし、個人がどこからアクセスしているかは分からないことが多い。個人で使う時には、プロバイダと契約したりスマホを使ったりしている。その場合には、通信会社がどこかということしか分からない。スマホかPCかは分かるが、それがどこの誰かは不明。
    • アクセスログで利用者の行動を調査しようとする時、アクセスしているのが本当に利用者なのかどうかの判別に一番苦労する。
    • NDLサーチでも、3分の2は人間でないものがアクセスしている。
      • 3分の1はGoogle百度*3などのサーチエンジンによるアクセス。
      • サーチエンジンというのは、機械で世界中のページを集めてきて、検索できるようにしている。絶えず色々なサイトにアクセスしては、その内容を分析している。
      • 一般的には、機械によるアクセスの割合はもっと多い。NDLサーチの場合はAPI*4があるのでやや低い。APIというのは機械のための窓口。これがないと、人間が使う画面でデータを取るので時間がかかる。
    • さらに3分の1は、人間らしきもの。プログラムか人か分からないアクセスが多い。
    • 分析は、やり方を決めれば難しくはない。一番難しいのは、どれが分析に値するログであるか判断すること。人かどうか判断するのは、プロでも誰でも難しい。
    • 大学図書館の人だと、業者から電子ジャーナルのアクセスログ統計をもらっている場合がある。これもにわかに信じてはいけない。全部有料のジャーナルだと一応信用できるが、無料のジャーナルが含まれている場合には、その数には機械によるアクセスが含まれているかもしれない。電子ジャーナル業界では、ログの扱いについてのガイドラインが決まっている。が、それも非常に効果的とは言い難い。集計のシステムによって違いが出てきてしまう*5
    • 大学図書館業界では、NIIなどで機関リポジトリの利用ログをきちんと見ようという試みがなされている。
    • アクセスログ解析には以上のような困難があるが、それをクリアして人間によるアクセスを特定すると、有益な結果が出ることがある。
    • たとえばNDLサーチの検索結果について分かったこと。
      • NDLサーチでは、絞り込み検索、詳細検索/簡易検索、拡張検索など、色々な機能を提供している。提供しっぱなしだと利用されているか分からない。機能改善のためには判断材料が欲しい。
      • 機能の利用状況を見てみたところ、NDLサーチの場合には詳細検索の割合が比較的高い。通常こうしたサービスで簡易検索と詳細検索があると、簡易の方が圧倒的に多いもの。絞り込み検索はかなり使われている。連想検索はさほどでもない。絞り込みの使い方も、ノイズが多いので絞り込むというより、ユーザが好みに合わせて使い分けている感じ。
    • アクセスログ解析により、そうした材料は得られる。が、何故そうなったかは分からない。人の行動は分かるが、理由が分からない。何を考えたか、どういう問題があったか、といったこと。補うにはインタビューなどが必要になる。
    • インタビューも難しい。相手が偏ったユーザかもしれない。
      • たとえばNDLサーチでインタフェースを変えた当初は、不評だった。しかし実際の利用件数を見ると、増えている。変えた当初に出てくる意見は玄人のものが多いが、実際の利用で圧倒的に多いのはライトユーザ。

 ここで再び原田先生にバトンタッチして、いったん休憩。ただしメモはこのまま続ける。

  • 原田先生
    • ログには色々なものがある。アクセスログ以外にも、貸出記録というものもある。貸出記録を実際に分析してみた、その限界と効果について話す。
    • ログから分かるものと分からないものがある。どう利用しようとするかが問題。
    • 分かったこともたくさんある。たとえば同じIPアドレスから何度もアクセスを受ける場合がある。大学で同じPCを共同で使っているケースなど。その場合、間にどれくらい時間をとれば違う人からのアクセスと見なせるか、といったこと。
    • 貸出記録を使った分析*6大学図書館において、学生の貸出データにつき、利用時期・傾向から、利用者と本をどのように分けられるか。同じような行動、似たデータを集めてグループ化するもの。これをクラスタ分析という。
    • 1995〜2006年の貸出数を見ると、学年が上がるにつれて貸出数が上がる。
    • 分析方法は2種類、単純集計とクロス集計。前者は単純なカウント、後者は学年ごと、年度ごとなどの数を見る。この両方の手法を組み合わせることで複雑な分析が可能になる。
    • 借りられる本のNDC別の内訳は、年によってあまり変わらない。クラスタ分析を行い、学生一人一人がいつどの本を利用したか、たとえばAさんとBさんの利用傾向がどれだけ類似しているかを見てグループ化していく。
      • これらはRというソフトウェアで処理した*7。全部で10個のグループに分かれた。もっともソフトウェアは類似度を出すだけで、それをどこで切っていくつのグループに分けるかは分析者の判断次第。弾き出された傾向の中身を元データに照らし合わせて、つながりが説明できそうなところで切る。
    • したがって結果がどのようなものかということより、その結果をどう使うかが大事。主題知識や経験が必要。
    • 大学での図書館利用において、どういうパターンがあるか。
      • たとえば、1年生のときだけ図書館をよく利用して、その後利用しないクラスタがある。一方で、4年間まんべんなく利用するクラスタ、中でも社会科学分野の利用が多いクラスタと、広いジャンルをカバーするクラスタとがある。
      • 卒業年で分けてみると、1996年と2006年のグループが大体一致する。共通するグループがある。
      • 貸出が少ない群は全体の35%。多い群は5つの類型に分けられる。レポートの時だけ使う、専門課程になったら使う、まんべんなく使うなどのパターンがある。
      • グループ化の結果を図書館の人に見せたら、「確かにそういう利用者がいる」と言われた。分析した結果を図書館員の経験・感触によって裏付けすることができる。逆に、分析をやらずに図書館員に「どんなグループがある?」と聞いても答えは出ない。グループ化したものを見せて意見を聞くと、分かる。
      • これらの利用傾向から、貸出時期が5グループ、図書ジャンルが4グループに分かれる。レポート時期など、特定の時だけ図書館に来る学生というのは一定数いる。しかし全体としては多くない。
    • こうした結果から、図書館としてどうしていこうか、この利用者にどんなサービスを提供するのが良いかということに結び付けないと意味がない。
      • たとえば一年で利用が止まってしまうタイプの利用者は、何故止まってしまうのか。どういうパターンの人が利用しなくなるか分かれば、対策ができる。たとえばインストラクションとしてレポートの書き方講習会を開く等の方法により、自分の好きな本しか読まない人を、大学での学びに転化させていく。
      • 利用される図書のジャンルは3類が多いと思っていたが、それだけでもない。むしろシラバスとの関連が深い。授業で紹介されている本や、関連した本が読まれる。これらの傾向から、どれだけ使える情報を読みとっていくか。
      • アンケート、インタビュー、シラバス分析との組み合わせも行う。こうした調査にしても、切り口を指定した調査だと効果が違う。漠然とアンケートをしても読みとれない。切り口の数を増やす、組み合わせていくことで初めて分かる。
    • 貸出記録を用いた図書推薦
      • 世の中に、リコメンド機能を持つ図書館システムは多い。
      • Amazonでは膨大な情報を持っているが、図書館だって負けていない。2005年の日本図書館協会のデータによれば、全国の公共図書館での貸出点数は約6億冊。一方2005年の出版科学研究所のデータによれば、本の販売点数は約7億。販売点数に匹敵するほどの貸出データがある。ただしAmazonと違い、ひとつの大学図書館のデータでは役に立たない。大きな公共図書館であればAmazonの売上に匹敵するので勝負できるかもしれない。
      • 一方で、貸出記録保存に抵抗を感じる人はどのくらいか。筑波大学の佐浦さんが調査している*8。利用者に貸出記録の保存の是非について聞いたところ、8割の人が容認。前提として「履歴がサービス向上に使われる」かつ「漏れない」という条件が求められている。新サービスを使ってみたいという人は半数以上。
    • 推薦には色々な方法がある。Amazonでは協調フィルタリングを利用しているといわれている。あるパターンで本を買っている人がいるとして、その人と同じパターンの買い方をしている人が買ったものと同じものを勧めると喜んでくれるだろうというもの。つまり利用者は自分と嗜好の似た人の利用したものを好むという方法。
      • 一方でコンテンツの内容に着目すると、利用者は自分が利用したものと似たものを好むという方法もある。今回の分析では前者を使った。
      • やってみたら、8冊推薦して1冊はヒット(=利用者にとって興味のある本)だった。
      • やってみたら、全然関係ない本が出てくることがある。理由は2点。
        • 1つめは、一時的目的で借りる本の存在。レポートの課題などの影響。たとえばベオウルフの授業と韓国史に関する授業をとっている学生がいて、両方の本を同時に借りたことがあると、ベオウルフの授業をとる他の学生にも韓国に関する本の推薦が出たりする。
        • 2つめは、現在の嗜好との不一致。古い貸出データだと、今とは興味が変わっていることがある。あまり興味はないが、ちょっと見てみた、というものもある。図書館だと買うよりもハードルが低いので、そういう本の利用も多い。
    • これらの成果を踏まえて、都内の大学で「分野」「時期」を属性基準にして重みづけした推薦システムをやってみた。
      • 同じ分野を多く借りていたら、その要素を「重く」判断。時期についても、古くなると重みを下げる。こうした重みづけ条件を組み合わせた。分野の重みづけだけでも良い本が増え、時期も入れるとさらに向上した。両方使うと、推薦したうち3分の2がヒット。
      • この結果を読み解くのはここから。こういう結果が出ているから即推薦すればいい、というものではない。
    • 大事なのは、使えるデータが出ているということ。貸出と購入の意味の違いを考えること。
      • 分野と時期で重みづけしたパターンだと、Amazonでのリコメンドとは違うものを提示して、それがヒットする傾向があった。
      • 貸出記録と売上履歴は同じではない。図書館で貸出するパターンとAmazonで購入するパターンは違う。図書館だと関連した本をまとめて借りていく。Amazonではカートにいっぱい入れて、その中から一番欲しいものだけを絞り込んでいく。違う選び方をされている。
      • 既に利用した本と類似の本を推薦するには図書館の記録、まったく似ていない本を推薦するにはAmazonの記録の方が適切。
      • Amazonの後追いではなく、図書館ならではの方法がありうるはず。
    • 個人情報はどこまで必要か。
      • 古い利用履歴と新しい利用履歴には、あまり関係が無い。Amazonの場合には2年前の利用記録でも効果があるが、大学図書館なら卒論時期かどうかで利用者の利用行動が大きく違う。
      • だったら、分析に使うのは同時貸出データだけでもいい。個人情報すなわちIDを取るのは、経年で利用を比較するため。3ヶ月経てば別人の利用と見なせるなら、3ヶ月ごとにIDを変えてもいいし、削除してもいい。
      • 解決策はゼロイチではなく、保存するにも、個人情報にたどりつく道を消して保存すればよい。
      • 一方で、個人情報を削除してあっても、ある本を借りた時点で特定されうるという論もある。
      • では、どこまで対策をすべきか。先に述べた指紋の話と同じ。そこまで対策をしなければならないのか、それによって引き起こされるリスクはどのくらい小さいのか。そういったことが議論されないことが問題。検討してみようという空気の醸成が大事。
    • 暗号化について
      • システムに「この本を借りた」と暗号で記録したとして、そのパスワードは誰が管理するのか。図書館員がパスワードを知っているのであれば、図書館員がその情報を見ることはできてしまう。
      • たとえば住民基本台帳カードには、公開鍵暗号が入っている。公開鍵とはどんなものか。
        • 鍵をユーザが指定して、その鍵を知っていれば中身を見られるのではなく、ユーザの指定したパスワードを公開鍵として、その公開鍵で暗号化する。それを開けられるのは、ユーザの秘密鍵だけ。
        • この仕組みを使えば、図書館システムにユーザの情報を溜めても図書館員が見ることはできない。
        • 図書館がサービス向上に使う履歴は、IDを消して、個人にたどりつかないように保存する。AさんのデータはAさんの指定した鍵で保存して、本人しか見られないようにすることも可能。
      • これが正解と言うのではない。こういうのもある、ということ。
      • 様々な手法を使うことで、ニーズをくみ取り、広がっていくことができる。
      • 重要なのは、どうするかは皆さんが決めること。図書館界として貸出履歴を保存しないと決めてもいいし、保存すると決めてもいい。
      • そのために説明できるだけのディスカッションを行い、コストとベネフィットが検討されるべき。コストもベネフィットも変化していく。どういう方法を使うとしても、世の中の変化についていけるよう進歩しなくてはならない。
      • 図書館は講習会等で、勉強していかないといけない。経験不足のためにできないというのは勿体ない。もっと話し合われるべき。
  • 質疑
    • フロア
      • 結論がどうなるにしても検討が必要、図書館人にも対応できるスキルがないといけないということか。
    • 原田先生
      • やらないという選択をするには、すごい理論武装が必要。図書館は常に予算や人員削減の圧力にさらされている。戦うことが必要。それもケンカするのではなく、淡々と事実を述べて、納得してもらうこと。
    • フロア
      • 図書館自身が利用者のためにサービス向上するという方向もあるが、一方でポイントサービスを展開する企業のように、利用者自身のためでなくビジネスとして価値を持つような方向もある。図書館がデータを残すことで、そちらの方向に流れないか。
    • 原田先生
      • 武器になるなら使えばいいと思うが、個人情報が出ていくようなやり方は駄目。図書館がサービスを提供する場合は、どう出せばフィードバックがあるか考え、充分なフィードバックがないなら出さない仕組みを作ること。
      • 一番簡単なのは契約で縛ること。あるいは、個人情報−IDと結び付かない形で保管すること。
      • 情報を外に出す/出さないという問題と、出す時にそれをどういうフォーマットにするかの2つの問題は分けるべき。出さない方はクラッキング対策と同じで、技術的な話になる。出す時にどういうフォーマットにすべきかの方は、図書館界あげて議論していくべき。
      • 「出さない」とするのは簡単だが、それでもやろうとする人がいる。出すことは何がいけないのか、説明できないといけない。
      • 出すなら出すで、正しく加工して出さないから問題になる。議論が充分になされていないと、出す=すべての情報を出す、ということになってしまう。どのくらいまで出す、という考え方が要る。ゼロかイチか、という考え方が一番外部を説得できない。
    • フロア
      • 利用者属性については自分の勤める図書館でもある程度データを取っている。分析まではしていないが。ただ、そのことと貸出履歴は結び付いていない。
    • フロア(別の人から)
      • 最近企業のポイントサービスを導入した図書館では「利用したという事実しか出さない」としているが、そもそもその事実を第三者に渡すのはいいのか。
      • そこのポイントサービスの規約を見ると、利用者のデータは参加企業にすべて出す。借りた本のタイトルまでは出さないが、分野は出す。個人の住所、名前、生年月日、などは渡すことになる。
      • 個人を特定できない利用履歴ではなく、参加企業が欲しいのは正直言ってパーソナルデータの方だと聞いたこともあるが。
    • 原田先生
      • 特定のポイントカードだけの話に矮小化すると、貸出履歴の提供という話題ではなくなる。一緒にすると図書館として大事な論点が伝わりにくい。どうやったら勝てるのか。
  • 世間がどう評価するか。いまの論調だと、パーソナルデータが問題というより図書館だけの問題だと世間に思われてしまう。貸出履歴が問題だというなら、それはどう扱うべきかの基準が必要。
    • フロア
      • 公共図書館の場合、「データは持っていない」という建前があるため、仮に利用分析に使えるデータがあったとしても表向きに出せないというジレンマがある。利用者との情報共有をどうクリアすべきか。
    • 原田先生
      • 短期的な方法と、長期的な方法がある。
      • 現在は何が問題か、利用者に伝わっていない。説明が充分でない。その時点で変えることは難しい。
      • 長期的には「こういう試みをしようと思っている」という説明をしておき、5年くらい後に、次の更新で実施する。関心のある層には届くように。
      • 短期的には、実験として実施する。その場合は加工したデータでもよい。一気には無理でも、段々やっていくのはあり。やることが肝心。
    • フロア
      • 公共図書館では、「貸出記録は保存していない」と説明してきた。しかし自館のシステムで本当に残っていないのか、分からない。見えるところにはないけれど、本当は残っているのかもしれない。残っているならリスクであり、説明が要る。図書館員の方は「残っていない」と信じていたが、いつの間にか残るようになっていた、という感じ。
    • 原田先生
      • 残る残らないという問題で言えば、ログは絶対残っている。でもファイルとして、取り出せる形では残していないところが多い。中には本当に消しているところもあるかもしれないが、それはそれでいざという時にシステムを復元するためのファイルが無いといったリスクもある。
      • どうスタートさせるか。最初は利用者に聞くことが必要。
    • フロア
      • 自分の所属する図書館で最初に貸出履歴を利用した機能を導入した際には、利用者が「おすすめリストを使う」ということを選んだ瞬間から記録が始まる仕様だった。利用者も図書館も記録の内容は見られない。その後利用者が「保存しない」という設定を選べば、その瞬間に消える。
      • 3月にシステム更新をした。それまで記録をNDCで取っていたが、著者・件名だけで取ることにした。履歴を残すと、古い履歴がいつまでも出る。設計上は「今借りている本」を返却すると、My本棚にその情報が映る。My本棚はオプトインで、利用者が「やめる」を選ぶと履歴も消える。
    • 原田先生
      • スタートポイントとしては良いのではないかと思う。
      • 抵抗がある人は当然いるので、配慮は必要。説明の話があったが、むしろ最初は「実験でやっている」と言ってしまってもいい。新しいことをオプトインで始めて、それがうまくいったらオプトアウトにする。情報は漏れないようになっている旨を説明して、それでも嫌だという人は外せる。嫌だと感じる人は絶対いる。まずは一歩踏み出すこと。
    • フロア(事務局の人?)
      • このセミナーは指針を考えていくための場。
      • 履歴は実は残っていること、それを図書館員は知らないということを事実として認めなければならない。自館のシステムではどうなっているのか、まず知ること。
      • 残っているのか、残っているのは見える形で残っているのか。見えないけれど、警察の捜査が入れば分かってしまうレベルなのか。また、履歴を活用するのに必ずしも個人情報と結び付ける必要はないこと。
      • そういったことをみんな知らずに、勝手に想像しているのは良くない。利用履歴を扱うにはどのようにすべきかということを、相談しよう。
    • 原田
      • 警察の捜査についてはちょっと違う。科学捜査の技術を持ってすれば、復元はできる。それは業者がきちんと消したものでも復元できる。この話はレベルを分けた方がいい。
      • また既に説明したように、最新の履歴だけ使うという方法もありうる。

 メモは以上。以下は感想。
 データ活用の事例を多く紹介されているため、文章で読むとデータ活用をものすごく勧めるセミナーだったように見える。しかし実際のテーマはそうではなく、一言で言うと「思考停止しないで、考えて話し合おうね」だという印象を受けた。情報技術に詳しくなく、漠然と警戒心を持っている人(たぶんxiao-2もその一人)向けに、できることとできるための技術を提示する場だったのだろう。
 そういう姿勢からか、情報技術の基本知識についても非常に噛み砕いた説明をされていた。自ら開発にも携わるような講師に、おそらくITパスポート試験程度の内容を説明していただくというのはなんだか勿体ない気もするが、ありがたい。ただ噛み砕いた説明の常として、このメモのように第三者が要約することで正確さが落ちている可能性は高く、そこは申し訳ない。
 質疑応答では講師への質問というより、感想のような発言が多かった。話す側の姿勢に応じてか、聞く側も、頭から拒否するような発言はなく、講演で提示されたことは受け止めた上で戸惑いや疑問を口にしているような雰囲気だった。講師のいう「議論し、検討してみようという空気の醸成」が、ここからできていくと良いなと思う。

*1:非常に余談だが、前の記事で「アンコ入りセミナー」と書いたら、「アンコ=かさを増すための詰め物」の意味?失礼じゃない?と指摘されてたまげた。自分のイメージはこちら(都々逸-Wikipedia)で、間に挟まる聞かせどころというつもりだったのだが、前者にとって気を悪くされた方いたらすみません。日本語難しい。

*2:こちらで発表されたものだろう:第61回日本図書館情報学会研究大会 2013年10月12日「アクセスログに基づく国立国会図書館サーチの利用状況の分析」。内容のフルテキスト等は見当たらなかったが、こちらに載っているのかもしれない:日本図書館情報学会研究大会発表論文集 第61回

*3:百度

*4:IT用語辞典:API【 Application Programming Interface 】

*5:やや異なる切り口のようだが、関連しそうな論文:CiNii 論文 -  電子リソースのアクセスログ分析(<特集>ログの活用)佐藤翔, 電子リソースのアクセスログ分析, 情報の科学と技術 63(2), 51-56, 2013-02-01

*6:たぶんこれだろう:原田隆史, 図書館の貸出履歴を用いた図書の推薦システム, ディジタル図書館 (36), 22-31, 2009

*7:ググッたらこんな便利そうなサイトが出てきた。http://mjin.doshisha.ac.jp/R/

*8:佐浦敬之, 公共図書館における利用履歴の活用に関する意識調査, 第57回日本図書館情報学会研究大会