連続セミナー「みんなでつくる・ネットワーク時代の図書館の自由」第4回「図書館記録におけるパーソナルデータの取り扱いについて」に行ってきた。〜前篇

 こういうのに行ってきた。

連続セミナー「みんなでつくる・ネットワーク時代の図書館の自由」第4回「図書館記録におけるパーソナルデータの取り扱いについて」
講師:原田隆史(同志社大学
http://www.jla.or.jp/portals/0/html/jiyu/seminar2013.html#2013-4
当日のTogetterはこちら

 参加者は20名程度。以下、例によってxiao-2が聞き取れて理解できてメモできてなおかつ覚えていた範囲のレポート。項目立ては適当。面白かったのだが、なかなかのマシンガントークだった。メモが追いつかず不正確な要約になっている可能性を先にお詫びしておく。

  • 原田隆史先生(同志社大学
    • 業務を記録化することの重要性
      • フォレンジック*1の観点からは、ログを残すことは必須。たとえば不正アクセスがあった場合、その前後でシステムが何か変わっているはず。その判断材料になるのがログで、これがなくてはならない。
      • 警察の捜査でプロファイリングというのがある。あれも頭の中で適当に想像しているのではなく、背景には膨大な知識や事項の記録がある。
      • 天気予報もそう。過去こういう状況でどうなったかというデータが膨大に蓄積されている。
      • 記録があり、それが分析されて、初めて予測・意思決定が可能になる。どんな場でも、ログがなくてはお手上げ。セキュリティ的な観点からは、記録が無いということはそれ自体罪とさえいえる。
      • プロファイリングには膨大なデータが要る。それをどう分析するかがもちろん鍵ではあるが、それも記録の蓄積があって初めてできること。それを実現できるようにすることが、管理者の役割。
      • たとえばPCが壊れたりトラブルが起きたという場合でも、原因を特定せず機械だけ交換するということはあり得ない。人に直してもらうにしても悪いやり方。たとえばウィルス感染していた場合、単純に機械を換えても仕方ない。
        • やや話が逸れるが、実際は最近のコンピュータウィルスはPCを壊したりしなくなってきている。秋葉原などで既知のウィルスを詰め合わせたものが売っていることがあるが、それを見ると、最近作られたウィルスほど目立たないものになっており、画面に何か現れるといった分かりやすい症状は出ない。
        • なぜ目立たないかというと、最近のウィルスは昔と違って愉快犯ではない。ビジネスでやっている。皆寝静まった夜中にPCがスクリーンセーバー状態でこっそり立ち上がり、アフィリエイトサイトにアクセスしてお金を得るといったことをする。それも1分1クリックくらいの目立たない頻度。
        • ビジネスでなく嫌がらせが目的のウィルスでも、普段は静かに、ばれないようにしている。そうやってたくさんのPCに潜んでいて、いざという時に嫌がらせ先にDOS攻撃したりする。
      • 話をもとに戻す。ウィルス混入でPCが壊れた場合、機械を換えても意味がない。管理者は起こったことの内容をきちんと聞いて、トラブルの前後で何が変わったか、どんなメッセージが出たか、そういった記録から読みとらなくてはいけない。
      • 今のは個人レベルの話だが、これが企業の場合であれば、組織としてどこが問題になっているか、見極めてよりよい活動につなげるべき。
      • 自分で意思決定するということが管理者のつとめ。それは一つにはトラブルなく運用するという管理者の義務であり、一つには新たなサービス展開を考えるということでもある。
      • そのために情報や記録を集めておくことが必要。野球チームにスコアラーがいるようなもの。
      • ある引越サービスでは、他のスタッフの仕事ぶりを記録するためだけのスタッフがいる。物流のような分野では、こうやって記録をとることが大事。たとえば運転手とクライアントに話を聞くといった方法では埒があかない。客観的に記録することで、業界内での優位性を保てる。
      • 図書館にはスコアラーがいない。目の前で起きていることをありのまま客観的に記録するには、かなりコストがかかる。機械化が必要。それによってコストを減らす。そのためのツールがあれば利用しない手はない。
      • アクセスログも含めたIT機器に関するログは、どんどん蓄積されている。障害検知や不正アクセスの発見に必要というセキュリティ的な観点と、新しいサービス展開や組織評価という経営的な観点の両方がある。ちなみにセキュリティという分野は、現在サービス・経営管理の一部となっている。
    • 組織にはどんなログがあるか
      • 色々なログがある。紙の伝票や報告書もログ。実際に探してみると、作られていたことさえ知らないようなログもある。特に機械が作るログに多い。たとえば図書館のウェブサイトでは、100%アクセスログが取られている。
      • 図書館の貸出記録やウェブサイトのアクセス状況、OPACの検索履歴等についても、記録していない図書館はない。
      • 仮にユーザから「消して」と要求されたとしても、本当に100%消すことはない。それはほぼ不可能。ぱっと見て触れるところのログは消していても、本当にすべて消すことはない。
        • なぜならログというのはコンピュータが故障した時、それを管理している人の身を守る唯一の手段。管理しているのはだいたい業者。「きちんと必要な管理をしていたにも関わらず、不正アクセスをされた」ということを主張するために、ログが必要。
        • 逆に本当に完全にログを消すことを要求するとしたら、業者側のリスクが非常に高くなり、引き受けてくれるところはないだろう。
      • 他にも、目に触れない記録(ログ)もある。図書館業務に限らず、業務日誌、清掃記録、新聞に載った投書なども、ある意味では記録。これらをどこまで集めて利用するかは、ログの収集・分析・確認を行うためのコストとの兼ね合いになる。
      • ログがどのくらい信頼できるかが大事。企業の業務日報などでは、最初に天気を書かせる場合がある。それ自体に意味はないが、このログを後で気象庁の記録と照会して、正しいかどうか確認する。それにより記録の信用度を測る。正しい内容のデータは後で利用しやすい。
      • ログこそ貴重な財産。ビジネスにおいては、今後のサービス展開を考えるのに欠かせない。ログがあるのに使わないというのは、経営的には罪といえる。
      • 組織の自己評価のために、外部のシンクタンクに評価してもらうことがある。しかしまずは自分たちの集めたデータをちゃんと分析しないと、外部に多額のお金をかけて頼んでも充分な効果は得られない。
    • 図書館ではどんなログが取れるか
      • 貸出記録、OPACの検索記録、ウェブページのアクセスログ大学図書館であれば入退室管理、ICタグによる図書の移動などが考えられる。
      • その中で、実際にデータとして何が得られるのか?データを取ることの意味は何か?コストはどれだけか?それによって起きる問題はないか?
      • 重要なのは、聖域を設けないということ。検討した結果「ログは利用しない」と決めてそのようにするのなら、それでもいい。
        • ただし、その場合には利用しないことの説明責任が生じる。たとえば利用にかかるコストが大きく、得られるベネフィットが少ない、とか。利用するならば、ベネフィットがコストを上回るからでなくてはいけない。
      • しかし検討さえしない、不戦敗というのが一番いけない。
      • 機械的に取れる記録と取れない記録がある。
        • たとえば館内閲覧の記録はなかなかとれない。ある大学図書館で実験したことがある。棚から抜いた本をユーザが自分で元に戻さないでブックトラックに積み上げておいてもらい、1時間おきに溜まった本をスキャン。これにより手に取って見られる本と、貸出される本との差を調べた。
      • 場合によっては、住所や、学校図書館の場合なら成績も使うことが考えられる。たとえば移動図書館の巡回先と利用の関係を見るとか。鉄道の有無との関係とか。考えられるポイントはいっぱいある。
      • そもそもどんな記録があって、どう使えるか使えないか、利用することに意味があるかないか、考えることが必要。
      • 図書館にも説明責任が求められる時代。自ら評価して、いかに意味のあることをやっているか、説明できなくてはいけない。それも感情や思い込みではいけない。第三者を納得させるにはデータによる理論武装が必要。使えるものは使っていかなくてはいけない。
    • ログにはどんなものがあるか
      • ログということばには広義と狭義がある。広義では単に「記録」の意味。狭義では、ネットワーク機器やコンピュータ、それもハードウェア/ソフトウェアそれぞれに記録されたもの。どんなファイルに誰がアクセスしたかという記録が残っている。残っている内容はそれぞれ違う。
      • たとえばPCのログは、誰がいつPCを使ってどんなことをしたか。
      • ネットワークに残るログは、流れるデータのチェック。ネットワークを介してソフトウェアにアクセスする場合、アクセス元は自分が何者であるか、相手のソフトウェアに対して必ず名乗るようになっている。
      • システムログ。ハードウェアやソフトウェアの不具合確認に不可欠。ウェブのアクセスや、電源のオン/オフ、Windowsのアップデートなどもこれに入る。
        • 機械管理の上でこのログは必ず取らなくてはいけない。基本的に残るようになっていて、取らないようにすることは非常に難しい。
        • トラブルが発生したとき、「このエラーをMicrosoftに送っていいか?」というメッセージが出ることがある。これもシステムログがあるからできること。
        • トラブル対処の最低限の情報。これがないと、何が起こったのか把握することもできない。
      • APログ。これは各ソフトウェアが記録するもの。貸出記録や検索ログなど。
      • これらをいかに切り分けるか。システムログは、たぶんなくせない。アプリケーションログを記録するかしないか、利用するかしないか。
      • 今や色々な分野でログを利用している。たとえば金融。日本版SOX法*2では、内部統制、監査、実施基準が定められており、金融機関は自分たちの活動を記録しなくてはならない。情報セキュリティと、新しいサービスのため。やり方を具体的に定めてはいないが、モニタリングが必須とされている。
      • ログ管理の必要。ログはまず取ってあることが前提としてある。使い方は各組織が決めていく。実際どのように使えるのか、そのログが業務とどうかかわっているのかということが分かるのは、その企業だけ。なので、金融庁ガイドラインの方は一般的なことしか書いていない。
    • ログの管理・利用
      • 読まないといけない本を買うと、買っただけで安心して読まないことがある。それでは意味がない。
      • ログも保管しておくだけでは意味がない。よく図書館の人に「ログを利用しているか?」と聞くと、「ログは取っています」と答えられることがある。もちろん取っていることにも意味がある。トラブル発生時の証拠としては不可欠。
      • でも、それだけだと証拠にしか使えない。使えるように保管しないと有効性は少ない。
      • ただ保管する以上に、今システムに何が起きているか?起きようとしているのか?ということを把握しなくてはいけない。トラブルという意味での問題が起きていなくても、たとえば売上が伸びていないとすれば、それ自体が問題。それが何故かを考える。
      • そういったことをログから読みとれるのは、ITの専門家ではない。読みとれるのはその業務をやっている人、図書館のログであれば図書館の人だけ。
        • たとえば来館者が増えている一方で、貸出件数も本を書架から取り出す回数も減っているとする。だとしたら、本の利用ではなく場所として利用するのに良い図書館になっているということ。逆に言えば本を利用させたいのだとしたら、今のシステムでは駄目だということ。
      • ログを集めるコスト、スキル、仕組み。大きな手間ではあるが、必須。一朝一夕で何とかすることはできない。繰り返しやってみるしかない。
        • 膨大なデータをどう小さくするか。サンプリングを上手に活用すれば、1万冊の中の3千冊だけ調べるのでもいい。
        • 統計の知識があればよいが、自分でできなくても、図書館同士でログ分析について相談しあえるような文化があればよい。「ログの保存や利用はやらない、考えなくていい」という時代が続き過ぎると、知識が図書館員に蓄積されない。スキルが育たない。
        • 最悪、仮想データでもいい。実際のデータの方がよいが、仮想でもやらないとスキルが伸ばせない。
      • なぜここまで言うかというと、情報を持っているものが勝ちという世界があるから。情報がなくては対抗できない、B29に竹やりで対抗できないようなもの。
      • 管理者が、ログを読み解くことをできなくてはいけない。あるいはできる人を育てなくてはいけない。あるいは読みとることを外注できるだけのお金を確保できなくてはいけない。
      • 取ることのできる情報は多岐にわたる。どれが本当に必要な情報か、少なくとも考えてみないといけない。
      • 多種多様なログがあちこちにある。入退館のログは図書館が持っていて、貸出データは図書館の別の課が持っているということもあり得る。集めてきて集約する必要がある。
      • 高いスキルが必要。この場合スキルとは、データを読む能力のことではなく、業務のスキル。業務上どこが良くないのか、実際現場で何が起きているのか。図書館なら図書館、学校なら学校の、現場の人のスキルが必要。
      • 自分はProject Next-L*3という活動をやっている。システムは求められれば我々が作る。その代わり現場の人には、何が問題として起きているのか、何を評価基準とするのかという話を聞かせてもらわないとやれない。
    • パーソナルデータについて
      • ここまでログの話を色々してきた。中でもセミナーのタイトルでもあるパーソナルデータは、特にセンシティブな話。
      • この件について、やるべきことは分かっている。ログ活用とセキュリティがトレードオフの関係にならざるを得ない、それは間違いない。だからこそ、どこでどのように守るかを考えないといけない。
      • 重要なのかそうでないのか。コストが高いのかそうでないか。守るための工夫がどのくらい必要か不要か。我々は、そういう話はできる。それを上回る価値があるかどうかという点だけは、管理者として考えてもらわなくてはならない。
      • ログの効果的利用もセキュリティ的な問題も、立ち向かわないと向上しない。立ち向かうと言っているのは、何もハッカーと技術を競い合えということではない。どんなリスクがどのくらいあるか、利用することの効果はどのくらいあるか、失敗したらどんなことが起きるか、リスクを低減する方法があるか、そういったことを真剣に考えることが立ち向かうこと。
      • 検討しないで決めつけることは良くない。負ける戦いをする必要はない、しかし不戦敗はだめ。
      • 勝ち目はあるのか?ある。
        • 最近Adobeで顧客情報の流出が起きた*4。ああいう事件が起こると新聞などで大きく取り上げられる。しかし、世の中に個人情報を集めている会社が何万あるのか。その中であれだけしか流出していないとも言える。
      • クレジットカード番号など、本気でリスクの高い情報を集めている会社は、どうしてもそれだけの情報が必要なサービスを提供するからやっている。一方図書館では、たとえばユーザの住所録などを外からアクセスできるところに出す必要はない。セキュリティだけ考えるなら、そうした情報の入った端末は完全にスタンドアロンにして、使う度に電源を落とすということさえありうる。もっとも、これでも人によるトラブル、たとえば館長が暴走したとかのリスクはあるけれど。
      • 図書館が管理している情報はどのくらいリスクが高いのか。確かにリスクはある。
        • しかし、それはITを使わなくても既に負っているリスクではある。
        • たとえば、貸し出された本が返却される度に指紋を拭いているのか。指紋を検出するのは、やり方によってはシステムのログを抜くより簡単。あるいは、貸出は暗室でやっているのか。対応する図書館員は利用者の顔を絶対見ないのか。そんな訳がない。そういうリスクを負っておいて、機械でやることだけ駄目、というのはありえない。
        • セキュリティの強さという問題は、機械が介入するか否かに関わらずある。リスクとコストを勘案して決めるべき。勘案した結果やらないという選択肢はあり得る。その場合には「メリットよりもコストがこれだけかかるから」と説明できなくてはいけない。
    • アクセスログ*5の読み方
      • (実際のアクセスログをスライドに表示)これが、webページにアクセスしたときシステムに残るログ。
      • 最初の4ケタの数字はIPアドレスIPアドレスとは、インターネット上のコンピュータ一台一台についた番号。4つの数字の組み合わせが与えられている。
        • 1ケタにつき1-254までの数字がとれる。4ケタなので254×254×254×254台のコンピュータまでが管理できることになる。
        • これは実はやや古い管理の仕方。というのは無駄が多い。当初は企業や大学単位で、○○大学なら○番台といったように、まとめてアドレスを与えてしまった。
        • 2013年4月には既に枯渇して、今大騒ぎになっている*6。ただ言ったとおり無駄にしている部分もあるので、新しくIPアドレスが欲しい企業以外はすぐには困らない。プロバイダから融通してもらったりもできる。これもそのうち不足するだろうということで、番号4つから番号6つで管理するやり方(IPV6)に代わっていこうとしている。
        • IPアドレスはコンピュータにとっての正式な住所。各コンピュータが情報をやりとりするときは、この住所を名乗ってアクセスする。我々が見慣れているのはアルファベットで書かれたURLだが、これは人間に分かりやすいようにしたもの。コンピュータにとっては数字のIPアドレスの方が優先。
        • コンピュータはDNS*7という仕組みを使って数字のアドレスとURLを照らし合わせる。アクセスしてきてほしいコンピュータは、DNSに名前を登録しておくと、住所を照合することができる。登録していないコンピュータというのも存在する。
        • さきほど言ったようにIPアドレスは組織単位で割り当ててあるので、何番台はこの大学、といったことが分かる。番号が分かれば、キャンパス単位、もしくはどこの組織かまで分かったりする。アクセス解析ツールなどでは、分かるところだけ見る。「ac.jp=日本の大学である」といったことなど。
      • 次に出てくるのがユーザ名。次にアクセス日時。
      • その次がリクエスト内容。相手のコンピュータに対して「何をしてくれ」と言ったか、ということ。ひとつのページにアクセスすると、htmlだけでなく、画像などのファイルも持っていく。従って、ログ一行=1アクセス、ではない。
      • 次に、サーバが返したステータス。「そのファイルはありません」であれば404とか。
      • 最後に、ユーザが使っていたブラウザの情報。どこからたどってそのページに来たか。Googleで検索したのか、どこかのリンク集から来たのか。なぜ来たかがわかる。
      • アクセスログを使った解析については、佐藤翔先生から説明します。


 …という訳で、事前広報では講師は原田先生お一人だったのだが、途中で同じ同志社大学の佐藤翔先生が登壇された。アンコ入りのセミナーとは贅沢な話。が、今日はもう眠いのでここまで。