その1、その2、その3の続き。以下はxiao-2の聞きとれた/理解できた/メモできた/覚えていた範囲でのメモ。項目立ては適当。敬称は「氏」に統一。誤記・誤解ご容赦。
- 京都大学人文科学研究所東アジア人文情報学研究センター 安岡孝一氏「デジタル図書館としての東アジア人文情報学研究センター」
- 東アジア人文情報学研究センター*1について
- (建物の写真を表示)スペイン風の建築。元は図書館。
- 戦時中は満州研究を行っていた。漢籍を多く所蔵している。
- 1965年に東洋学文献センターができる。当時、日本学術会議により文献センター構想というものが作られ、それに京都大学から手を挙げた形*2。
- 2000年、漢字情報研究センターとなった。この頃、自分が関わり始めた。
- 2009年、組織改編されて東アジア人文情報学研究センターとなる。
- 1980年代から、古典文献のデジタル化を行ってきた。現在も専用端末やテープ等が残されているが、もう読めない。
- 2000年頃から、World Wide Webで動くDBになった。
- 今日は6種のDBを紹介する。全体では22種類くらいのDBがあるが、長らくメンテナンスをされていないものもある。今日紹介する6つはかなりカレントなもの。
- 全国漢籍データベース*3
- 漢籍を所蔵する77機関の連合目録。
- 目録なので、所蔵しているかどうかという情報が出るだけ。検索するとレコードがずらっと並び、クリックすると「ここにある」と分かる。
- 本を探すだけならOPACでいいのではないか?何故いけないかというと、漢籍の場合は本の中に本があり、その中にまた本があるという構造になっている。5段階まである。
- 資料を探すユーザ側は下層のタイトルで探したい。一方、運用側は上層のタイトルが分からないと出納できない。この問題を克服するため、オリジナルDBを作ることになった。OPACだと、2階層くらいを越えるとうまく表現できない。
- 当初は自学の所蔵資料だけのつもりだったが、東京大学等複数の参加館を巻き込んだ連合目録になった。
- 同定されていないので、検索結果に同じレコードがいくつも並んでいると批判されたりする。しかし漢籍の場合は刷を見ないと、同じかどうか判断することができない。なので、まとめることはしていない。
- 代わりに、資料1枚目の画像を見られるようにしている。システム的に全文の画像を載せるようなことはできないが、刷の違いくらいは分かる。
- 東方学デジタル図書館*4
- 拓本文字データベース*5
- 拓本資料は結構多い。画像でデータをとって、一文字ずつに切り離せたものを収録。切り離す部分は機械化しており、読むのは人。
- 同じ字を画像で探せるDB。
- 拓本は当時の文字体を伝える唯一の手段。
- 文字の好きな人向けのDB…というつもりでいたら、意外なことに書家からのアクセスが多い。
- このDBのツールは、IEでしか見られない。
- CHISE*6
- Kanripo*8
- 古典中国語(Kanbun)コーパス*12
- 以上がDB紹介。
- 運用上の難点
- 運用側の所見
- 研究者以外の、思ってもない人に見られている。
- DBのアクセスパターンが変化してきている。文字を入力しないアクセスが増えている。どこかに張られたリンクをたどってきていると思われる。
- 最近Googleがreferを示さなくなったので詳しいことはよく分からないが、人間ではなく機械的に見られている。どこかのページに画像をずらっと張り付けたりしているのかもしれない。
- 検索型よりばらまき型という傾向。
- 古いDBにはコアな客がついているが、永遠に運用していける訳ではない。マシンの載せ替え等もある。
- 画像をばらまいておけば、誰かが拾ってくれる。
- テキスト系は、既にGitHub化している。画像系もそういうふうにできるか。
- IIIF*14にはもちろん対応していているが、ばらまかれる用のものとは言えない。あまり明確な展望はない。
- 東アジア人文情報学研究センター*1について
4つめのメモはここまで。次はディスカッション。…まとめるのが大変そうだから、そのうち。
*2:このあたりの説明は下記に詳しい。センター改組計画の史学的観点|東アジア人文情報学研究センター
*10:参考:『四庫全書』と関連叢書の調べ方|国立国会図書館リサーチ・ナビ
*13:正直このへん自分には理解できず、涙目でググってみたら元締めっぽいサイトがヒット。Universal Dependencies ここにある説明文によると、異なる言語の間で矛盾しない文法的注釈の枠組み、かつオープンなコミュニティでもあるというものらしい。分かったような分からんような。
*14:IIIFって何?という方はこちらを参照。2016年4月28日 digitalnagasakiのブログ|今、まさに広まりつつある国際的なデジタルアーカイブの規格、IIIFのご紹介