日本の人文学を世界にひらき、未来につなげる『人文学のためのテキストデータ構築入門』刊行!

PR TIMES

テキストデータ構築のデファクト標準として、国際的に普及しているTEIガイドライン。その初めての入門書です。

夏目漱石の書簡から、日本の古辞書や財務資料、近代の資料や、Transkribus と TEI を組み合わせた自動人名抽出の手法、漢文仏典である大正新脩大藏経まで。さまざまな取り組みから、テキストデータの構造化を学べます。

初めての日本語によるTEIガイドラインの入門書を刊行しました。『人文学のためのテキストデータ構築入門』というタイトルで、株式会社文学通信によるものです。

[画像: https://prtimes.jp/i/102220/2/resize/d102220-2-44307c983aaea97d65fb-0.jpg ]



TEI ガイドラインは、人文学のためのテキストデータ構築におけるデファクト標準として国際的に普及しており、とくに欧米先進国ではこれに準拠したテキストデータの膨大な蓄積がありますが、日本語文化圏においては諸般の事情により普及が進んでいませんでした。では日本でこれに対応しようとすると、様々な情報がWebの各所に蓄積されて点在しており、検索すれば必要な情報は大体集まる形になっていましたが、どこから始めるべきか、どこまで確認・習得すれば実用しても問題ないのか、そもそも実用とはどういうことなのか、といったことがなかなかうまく把握できない状態でした。

本書は、そのような状況に対して、最初にどこから始めればいいのか、どこまで深く取り組めばどの程度の有用性が出てくるのか、といった、TEI ガイドラインの総体的な把握の仕方について1冊のまとまった単行本という形で提示すべく用意されたものです。

第1部 概説編では、人文学におけるテキストデータの作成と活用に関する基本的な考え方と、人文学、なかでもテキスト研究において国際的な共通言語を志向する形となっている TEI ガイドラインをめぐるこれまでの歴史と葛藤など、その取り組みとしての全体像を把握するための章が提供されています。

第2部 実践編では、まず、テキストデータを手書き文書から作成するための Handwriting Text Recognition(HTR)における最先端のソフトウェアの一つである Transkribusの使い方のガイドと、それに加えて、実際の活用例が示されています。続いて、作成されたテキストデータを構造化するための基本的な手法についてTEIガイドラインに準拠する手法の解説が掲載されています。ここでは、かつてオックスフォード大学のデジタル・ヒューマニティーズ(DH)を支え、現在はニューカッスル大学で中世英文学と DH の上級講師を務める James Cummings 氏がかつて作成した教材を、その基本的な枠組みを活かしつつ、日本語資料やその特性にあわせて改編したものが実践演習として提供されています。用意された資料のマークアップを通じて、TEI ガイドラインに従ってテキストデータを構造的に構築していく際に必要となるパソコン操作のための効率的な手技と、人文学研究を前提としたデータ作成に際しての現代的なコンピューティングにおける基礎的な考え方の両方を習得できるようになっています。この教材で用いられているのは夏目漱石の書簡のデジタル画像です。漢字仮名交じりの合略仮名も含む筆致のテキストを、その筆致の特徴を活かしつつ利便性も高める形で構造化しようとするなら、様々な要素に配慮しながらマークアップをする必要があります。あくまでもチュートリアルであり、十全な成果が得られるものであるとまでは言えないものの、これを通じて人文学研究におけるテキストデータ構造化の基礎を習得できると思います。

またここでは、構造化されたテキストを、その構造に基づいて活用するための簡単なチュートリアルも用意されています。ここでは、XML エディタの機能を活用する方法や、XSLT という言語で簡単にテキストを変換、処理する手法などを実践的に習得できるようになっています。

第3部 事例編は、様々な資料に対して TEI ガイドラインを適用した場合の事例研究の紹介です。日本の古辞書や財務資料、近代の資料や、Transkribus と TEI を組み合わせた自動人名抽出の手法など、様々なものが紹介されており、さらにデータを可視化する技術の事例紹介もあります。ここで、TEI を適用したことによりどのような方向で研究プロジェクトが発展可能なのか、というヒントを得ることができるでしょう。

第4部 事例編は、漢文仏典である大正新脩大藏経を構造化する取り組みであるSAT TEI化研究会による大規模マークアップを前提とした試行とその成果についての紹介です。

本書にはコラムが各所に配されており、実際にマークアップを行うに際しての考え方や、世界各地の TEI 準拠の事例紹介、それに加えて、著作権法改正に基づいて Google Books のようなサイトを作るための基本的な考え方などが紹介されています。それぞれに有益な情報として活用できる局面があるかもしれません。

本書を通じて、多くの読者は物足りなさを感じると思います。それは、テキストの構造化には様々な考え方があり、本書はそのうちのごく一部を扱っているだけに過ぎないからです。むしろ、より広く深い事例を扱う応用編が必要であり、そのような事例自体もより多く必要であることが、本書の刊行によって明らかになるということでもあります。つまり、この本は、あくまでも、ここから続く長い道のりの第一歩として位置づけられるものです。

本書がもたらし得るものは、TEI ガイドラインを利用したテキストデータの構造化に具体的に取り組めるようになるための入口でしかありません。日本語文化圏でこの入口が整えられたことにより、日本の人文学における多様な取組みやその成果が様々な意味で世界に開かれ、そして未来につながっていくことを期待し刊行いたします。

刊行は文学通信(〒114-0001 東京都北区東十条1-18-1 東十条ビル1-101)。
https://bungaku-report.com/

【目次】

はじめに:人文学のためのテキストデータ構築●永崎研宣

本書の読み方

第1部 概説編

第1章 人文学のためのテキストデータの構築とは●永崎研宣
第2章 日本におけるテキストデータ構築の歴史●永崎研宣

COLUMN 1  TEIガイドラインで自分の資料を作り始めるには●永崎研宣

第2部 実践編

第1章 Transkribusによる手書きテキスト資料の自動翻刻●宮川 創
第2章 Transkribus実践レポート:100年分のフランス語議事録翻刻プロジェクト●小風綾乃
第3章 TEIガイドラインとは●永崎研宣
第4章 実践演習:漱石書簡を用いたTEIによるテキスト構造化入門●原作:James Cummings・翻案:永崎研宣
第5章 利活用演習:TEI準拠テキストの活用方法●永崎研宣
COLUMN 2  TEI協会 東アジア/日本語分科会の活動●永崎研宣

第3部 事例編:テキストデータ構築の最新事情1.

[古辞書から最低限の共通要素を取り出す]
第1章 日本古辞書のTEI符号化 ●岡田一祐
[日記および日程表のテキストデータを再構築して公開する]
第2章 TEIを用いた『渋沢栄一伝記資料』テキストデータの再構築:「渋沢栄一ダイアリー」公開まで●金 甫榮・井上さやか
[財務史料の原史料へのアクセスと計算可能性を確保する]
第3章  TEIとRDFを用いた財務史料の構造化:古代日本・近世スペイン・近代イギリスを事例に●小風尚樹
[TEI/XMLファイルを作成した後のプロセス]
第4章 TEIデータの可視化方法と事例紹介●中村 覚
[プログラミングなしに人名を自動抽出するための道を拓く]
第5章 Transkribusを用いたTEIの人名タグ付きテキストの機械学習による自動人名抽出:ジャアファル・ブン・イドリース・カッターニー『目録』を例に●石田友梨

COLUMN 3  TEIにおけるセマンティック記述と●小川 潤

第4部 事例編:テキストデータ構築の最新事情2.

[マークアップの方針をどう立てるか]
第1章 大正新修大蔵経TEI化に関する概略●渡邉要一郎
[研究成果をマークアップする意義や今後の課題]
第2章 日本仏教における研究成果のマークアップ:日本天台の文献研究に着目して●矢島正豊
[禅語録のマークアップの作業方針を検討する]
第3章 禅籍の構造とTEIマークアップ:T2591義雲和尚語録を例として●佐久間祐惟
[比較検討をするための内容に沿った段落区分を考える]
第4章 大正新修大蔵経テキストのTEI構造化における「私的パラグラフ」の設定●井野雅文
[規格自身の限界に直面したときは規格の拡張によって克服する]
第5章 『續一切経音義』を通じた外字と割注の課題●王 一凡
[特殊な事情をもったテキストをマークアップするための準備]
第6章 知識グラフを表現する:『愚禿鈔』のマークアップを例として●左藤仁宏
[蓄積してきたTEIマークアップのノウハウを生かす方法]
第7章 大正新脩大蔵経TEI化作業の中国古典籍への援用●片倉峻平
COLUMN 4  著作権法改正で Google Booksのような検索サイトを作れるようになる?●南 亮一

あとがき●大向一輝・永崎研宣

タグ索引(用語編・XML編)
用語解説
編者&執筆者一覧

TEI活用の事例紹介(1)~(6)●永崎研宣

企業プレスリリース詳細へ
PR TIMESトップへ
記事提供元:タビリス