KU-ORCAS講演会「(東)アジア研究×図書館×デジタルヒューマニティーズ」に行ってきた。〜その4

 その1その2その3の続き。以下はxiao-2の聞きとれた/理解できた/メモできた/覚えていた範囲でのメモ。項目立ては適当。敬称は「氏」に統一。誤記・誤解ご容赦。

  • 京都大学人文科学研究所東アジア人文情報学研究センター 安岡孝一氏「デジタル図書館としての東アジア人文情報学研究センター」
    • 東アジア人文情報学研究センター*1について
      • (建物の写真を表示)スペイン風の建築。元は図書館。
      • 戦時中は満州研究を行っていた。漢籍を多く所蔵している。
      • 1965年に東洋学文献センターができる。当時、日本学術会議により文献センター構想というものが作られ、それに京都大学から手を挙げた形*2
      • 2000年、漢字情報研究センターとなった。この頃、自分が関わり始めた。
      • 2009年、組織改編されて東アジア人文情報学研究センターとなる。
      • 1980年代から、古典文献のデジタル化を行ってきた。現在も専用端末やテープ等が残されているが、もう読めない。
      • 2000年頃から、World Wide Webで動くDBになった。
      • 今日は6種のDBを紹介する。全体では22種類くらいのDBがあるが、長らくメンテナンスをされていないものもある。今日紹介する6つはかなりカレントなもの。
    • 全国漢籍データベース*3
      • 漢籍を所蔵する77機関の連合目録。
      • 目録なので、所蔵しているかどうかという情報が出るだけ。検索するとレコードがずらっと並び、クリックすると「ここにある」と分かる。
      • 本を探すだけならOPACでいいのではないか?何故いけないかというと、漢籍の場合は本の中に本があり、その中にまた本があるという構造になっている。5段階まである。
      • 資料を探すユーザ側は下層のタイトルで探したい。一方、運用側は上層のタイトルが分からないと出納できない。この問題を克服するため、オリジナルDBを作ることになった。OPACだと、2階層くらいを越えるとうまく表現できない。
      • 当初は自学の所蔵資料だけのつもりだったが、東京大学等複数の参加館を巻き込んだ連合目録になった。
      • 同定されていないので、検索結果に同じレコードがいくつも並んでいると批判されたりする。しかし漢籍の場合は刷を見ないと、同じかどうか判断することができない。なので、まとめることはしていない。
      • 代わりに、資料1枚目の画像を見られるようにしている。システム的に全文の画像を載せるようなことはできないが、刷の違いくらいは分かる。
    • 東方学デジタル図書館*4
      • 京都大学にあるデジタル図書館の中でも変わったもの。
      • 漢籍を階層構造で示す。
      • 画像には書き込みが多くなされている。ダウンロードは簡単にできる。中国から大量のダウンロードをされたこともある。
        • ダウンロードされるのは良いこと。いつか運用ができなくなっても、どこかにデータは残る。
      • ファイル名も簡単に分かるような付け方をしている。
      • PDFファイルは作っていない。画像はダウンロードできるので、欲しければ自分で作って、というスタンス。
      • 収録しているのは割と癖のある資料。綺麗な本ではない。
    • 拓本文字データベース*5
      • 拓本資料は結構多い。画像でデータをとって、一文字ずつに切り離せたものを収録。切り離す部分は機械化しており、読むのは人。
      • 同じ字を画像で探せるDB。
      • 拓本は当時の文字体を伝える唯一の手段。
      • 文字の好きな人向けのDB…というつもりでいたら、意外なことに書家からのアクセスが多い。
      • このDBのツールは、IEでしか見られない。
    • CHISE*6
      • 文字コードへのアンチテーゼとして作られた。漢字オントロジー*7
      • たとえば「もんがまえの中に虫という字」と探すと、該当する字の用例が漢文の中でどこで出てくるか分かる。文字と文字の関係が分かる。
    • Kanripo*8
      • GitHub*9を使って構築。漢籍の本文をどんどん入れている。四庫全書*10の画像とテキストを見られる。
      • 入れてある本文は間違っていることもある。GitHubに入っているので、各自触ることができる。フルリクエストで校訂ができる。
      • 校訂のハブとして機能。
      • 中身は単純なテキストで、マークアップ*11もない。入れると編集が大変だから。
    • 古典中国語(Kanbun)コーパス*12
      • 2018年7月公開。kanripoはGitHubという外部サービスだったが、こちらは学内で動かせるようにしたもの。
      • Googleの人が考えたUniversal Dependencies*13形態素解析
      • データはダウンロードが可能だが、見栄えが悪すぎて客がつきにくい。ビジュアライザーを入れて、図や矢印で文章構造を表現できるようにした。
      • 動かして遊ぶことは誰でもできる。注釈をDBに反映させることは、あらかじめ決まったユーザでないと不可。
    • 以上がDB紹介。
      • ご覧のとおり、内容は結構バラバラ。全国漢籍データベースは目録、東方学デジタル図書館と拓本文字データベースは画像DB。またこの2つ+CHISEは、文字。kanripoと古典中国語コーパスはテキスト。
    • 運用上の難点
      • DBのフォーマットが特殊。
        • 全国漢籍データベースは独自フォーマット。せっかくデータをばらまいても、よそで使うことができない。
        • 東方学デジタル図書館は、中のデータはJPEGやHTMLなので使おうと思えば使える。でも画面はJavascriptで作っている。
        • 拓本文字データベースは完全によそで使えない。独自のフォーマットを使っている。画像自体はJPEGだが。
        • 残り3つ(CHISE、kanripo、古典中国語コーパス)はわりと一般的。
        • 自分のやりたいことをシステムで実現しようとすると、特殊化してしまう。
    • 運用側の所見
      • 研究者以外の、思ってもない人に見られている。
      • DBのアクセスパターンが変化してきている。文字を入力しないアクセスが増えている。どこかに張られたリンクをたどってきていると思われる。
      • 最近Googleがreferを示さなくなったので詳しいことはよく分からないが、人間ではなく機械的に見られている。どこかのページに画像をずらっと張り付けたりしているのかもしれない。
      • 検索型よりばらまき型という傾向。
      • 古いDBにはコアな客がついているが、永遠に運用していける訳ではない。マシンの載せ替え等もある。
      • 画像をばらまいておけば、誰かが拾ってくれる。
      • テキスト系は、既にGitHub化している。画像系もそういうふうにできるか。
      • IIIF*14にはもちろん対応していているが、ばらまかれる用のものとは言えない。あまり明確な展望はない。

 4つめのメモはここまで。次はディスカッション。…まとめるのが大変そうだから、そのうち。

*1:センター紹介|東アジア人文情報学研究センター

*2:このあたりの説明は下記に詳しい。センター改組計画の史学的観点|東アジア人文情報学研究センター

*3:全国漢籍データベース

*4:東方学デジタル図書館

*5:拓本文字データベース

*6:CHISEプロジェクト

*7:オントロジー|Wikipedia

*8:Kanripo 漢籍リポジトリ

*9:GitHub

*10:参考:『四庫全書』と関連叢書の調べ方|国立国会図書館リサーチ・ナビ

*11:マークアップ|コトバンク

*12:古典中国語(Kanbun)コーパス

*13:正直このへん自分には理解できず、涙目でググってみたら元締めっぽいサイトがヒット。Universal Dependencies ここにある説明文によると、異なる言語の間で矛盾しない文法的注釈の枠組み、かつオープンなコミュニティでもあるというものらしい。分かったような分からんような。

*14:IIIFって何?という方はこちらを参照。2016年4月28日 digitalnagasakiのブログ|今、まさに広まりつつある国際的なデジタルアーカイブの規格、IIIFのご紹介