KU-ORCAS講演会「（東）アジア研究×図書館×デジタルヒューマニティーズ」に行ってきた。〜その4

　その1、その2、その3の続き。以下はxiao-2の聞きとれた／理解できた／メモできた／覚えていた範囲でのメモ。項目立ては適当。敬称は「氏」に統一。誤記・誤解ご容赦。

京都大学人文科学研究所東アジア人文情報学研究センター　安岡孝一氏「デジタル図書館としての東アジア人文情報学研究センター」
- 東アジア人文情報学研究センター*1について
  - （建物の写真を表示）スペイン風の建築。元は図書館。
  - 戦時中は満州研究を行っていた。漢籍を多く所蔵している。
  - 1965年に東洋学文献センターができる。当時、日本学術会議により文献センター構想というものが作られ、それに京都大学から手を挙げた形*2。
  - 2000年、漢字情報研究センターとなった。この頃、自分が関わり始めた。
  - 2009年、組織改編されて東アジア人文情報学研究センターとなる。
  - 1980年代から、古典文献のデジタル化を行ってきた。現在も専用端末やテープ等が残されているが、もう読めない。
  - 2000年頃から、World Wide Webで動くDBになった。
  - 今日は6種のDBを紹介する。全体では22種類くらいのDBがあるが、長らくメンテナンスをされていないものもある。今日紹介する6つはかなりカレントなもの。
- 全国漢籍データベース*3
  - 漢籍を所蔵する77機関の連合目録。
  - 目録なので、所蔵しているかどうかという情報が出るだけ。検索するとレコードがずらっと並び、クリックすると「ここにある」と分かる。
  - 本を探すだけならOPACでいいのではないか？何故いけないかというと、漢籍の場合は本の中に本があり、その中にまた本があるという構造になっている。5段階まである。
  - 資料を探すユーザ側は下層のタイトルで探したい。一方、運用側は上層のタイトルが分からないと出納できない。この問題を克服するため、オリジナルDBを作ることになった。OPACだと、2階層くらいを越えるとうまく表現できない。
  - 当初は自学の所蔵資料だけのつもりだったが、東京大学等複数の参加館を巻き込んだ連合目録になった。
  - 同定されていないので、検索結果に同じレコードがいくつも並んでいると批判されたりする。しかし漢籍の場合は刷を見ないと、同じかどうか判断することができない。なので、まとめることはしていない。
  - 代わりに、資料1枚目の画像を見られるようにしている。システム的に全文の画像を載せるようなことはできないが、刷の違いくらいは分かる。
- 東方学デジタル図書館*4
  - 京都大学にあるデジタル図書館の中でも変わったもの。
  - 漢籍を階層構造で示す。
  - 画像には書き込みが多くなされている。ダウンロードは簡単にできる。中国から大量のダウンロードをされたこともある。
    - ダウンロードされるのは良いこと。いつか運用ができなくなっても、どこかにデータは残る。
  - ファイル名も簡単に分かるような付け方をしている。
  - PDFファイルは作っていない。画像はダウンロードできるので、欲しければ自分で作って、というスタンス。
  - 収録しているのは割と癖のある資料。綺麗な本ではない。
- 拓本文字データベース*5
  - 拓本資料は結構多い。画像でデータをとって、一文字ずつに切り離せたものを収録。切り離す部分は機械化しており、読むのは人。
  - 同じ字を画像で探せるDB。
  - 拓本は当時の文字体を伝える唯一の手段。
  - 文字の好きな人向けのDB…というつもりでいたら、意外なことに書家からのアクセスが多い。
  - このDBのツールは、IEでしか見られない。
- CHISE*6
  - 文字コードへのアンチテーゼとして作られた。漢字オントロジー *7。
  - たとえば「もんがまえの中に虫という字」と探すと、該当する字の用例が漢文の中でどこで出てくるか分かる。文字と文字の関係が分かる。
- Kanripo*8
  - GitHub *9を使って構築。漢籍の本文をどんどん入れている。四庫全書*10の画像とテキストを見られる。
  - 入れてある本文は間違っていることもある。GitHubに入っているので、各自触ることができる。フルリクエストで校訂ができる。
  - 校訂のハブとして機能。
  - 中身は単純なテキストで、マークアップ *11もない。入れると編集が大変だから。
- 古典中国語（Kanbun）コーパス*12
  - 2018年7月公開。kanripoはGitHubという外部サービスだったが、こちらは学内で動かせるようにしたもの。
  - Googleの人が考えたUniversal Dependencies*13。形態素解析。
  - データはダウンロードが可能だが、見栄えが悪すぎて客がつきにくい。ビジュアライザーを入れて、図や矢印で文章構造を表現できるようにした。
  - 動かして遊ぶことは誰でもできる。注釈をDBに反映させることは、あらかじめ決まったユーザでないと不可。
- 以上がDB紹介。
  - ご覧のとおり、内容は結構バラバラ。全国漢籍データベースは目録、東方学デジタル図書館と拓本文字データベースは画像DB。またこの2つ＋CHISEは、文字。kanripoと古典中国語コーパスはテキスト。
- 運用上の難点
  - DBのフォーマットが特殊。
    - 全国漢籍データベースは独自フォーマット。せっかくデータをばらまいても、よそで使うことができない。
    - 東方学デジタル図書館は、中のデータはJPEGやHTMLなので使おうと思えば使える。でも画面はJavascriptで作っている。
    - 拓本文字データベースは完全によそで使えない。独自のフォーマットを使っている。画像自体はJPEGだが。
    - 残り3つ（CHISE、kanripo、古典中国語コーパス）はわりと一般的。
    - 自分のやりたいことをシステムで実現しようとすると、特殊化してしまう。
- 運用側の所見
  - 研究者以外の、思ってもない人に見られている。
  - DBのアクセスパターンが変化してきている。文字を入力しないアクセスが増えている。どこかに張られたリンクをたどってきていると思われる。
  - 最近Googleがreferを示さなくなったので詳しいことはよく分からないが、人間ではなく機械的に見られている。どこかのページに画像をずらっと張り付けたりしているのかもしれない。
  - 検索型よりばらまき型という傾向。
  - 古いDBにはコアな客がついているが、永遠に運用していける訳ではない。マシンの載せ替え等もある。
  - 画像をばらまいておけば、誰かが拾ってくれる。
  - テキスト系は、既にGitHub化している。画像系もそういうふうにできるか。
  - IIIF*14にはもちろん対応していているが、ばらまかれる用のものとは言えない。あまり明確な展望はない。