言語グリッドオントロジーの検討状況と研究課題
林 良彦
大阪大学大学院言語文化研究科
本章では,”言語グリッドオントロジー”の現在までの検討状況について述べ,今後の研究課題と進め方を示す.”言語グリッドオントロジー”とは,言語グリッドにおける言語サービスに関するオントロジーのことを指す.
6.1 言語資源と言語サービス
今日では,Web上において,言語に関する様々なサービスが利用可能となってきている.その代表的な例が機械翻訳サービスであり,辞書アクセスサービスもそのカテゴリとして考えることができる.すでに前章において指摘されているように,これらの言語サービスには,アクセシビリティの問題,ユーザビリティの問題が存在する.言語グリッドは,このような問題を解決しようとするものである.
本節では,まず言語資源(language resource)と言語サービス(language service)との関係について整理しておく.言語資源という言葉の意味の意味する範囲については,大きく次の2つの立場が存在する.
- 辞書やコーパスなどの静的なデータオブジェクトを言語資源と考える立場.例えば,(Wittenburg, 2000)では,言語資源とは人間のコミュニケーション行動の記録(records),記述(description)がコーパスや辞書・オントロジーとして抽象化されたデータベースであると定義している[68].
- (Liberman, 1997)に紹介されているように,静的なデータオブジェクトだけでなく,各種のツールや標準規格なども総合して言語資源として広くとらえる立場[62].Klein(2004)は,言語学的資源(linguistic resource)のクラス階層を提示するなかで,言語資源(NL-Resource)の下位クラスとして,静的な言語資源(NL-StaticResource)と処理資源(NL-ProcessingResource)の二つを定義している[61].
一般には,後者の立場で言語資源という言葉が用いられることが多いと思われるが,本検討においては,どのような特性を持つ資源を議論しているかを明確にするため前者の立場に立ち,辞書やコーパスなどの静的なデータオブジェクトを指すものに限定して言語資源という言葉を用いる.一方で,翻訳や書き換えなどの処理(入力に対して何らかの変換を施して出力を得る)を言語処理機能と呼ぶ.また,明示的・非明示的に言語資源を利用し,言語に関する何らかのサービスを提供するものを一括して言語サービスと呼ぶ.
本章の引き続く節の構成は以下のとおりである.6.2節では,言語グリッドオントロジーの検討を進めるにあたって留意すべき点をまとめ,その最上位階層の構成案を示す.3.3節では,特に辞書アクセスサービスに焦点を置き,辞書アクセスサービスのベースとなる辞書言語資源について,その統一的なデータモデルの必要性について論じ,モデルの基本的な考え方と骨格となる部分,また,実際の辞書エントリに対するモデリングの例を提示する.最後に,6.4節では,今後の研究課題とその進め方について述べる.
6.2 言語グリッドオントロジーの検討
言語グリッドにおいて,言語サービスの連携を促進するためには,相互運用性(interoperability)を確保・促進する必要があり,このために,個々の言語サービスに対して適切なメタ記述(meta-description,または,メタデータ; metadata)を与える必要がある.このようなメタ記述は,人間のユーザ,ソフトウェアエージェントの双方にとって了解可能なオントロジーに基づいている必要がある.Buietlaar(2003)は,”ontology-based metadata”という表現を用いている[50].Webサービスに関するオントロジーを記述するためのマークアップ言語としてOWL-S (OWL-S, 2003)が提案されているが,その仕様がフィックスされるのは今しばらく先のことと考えられるので,現状においては,言語サービスのメタ記述やオントロジーに関しての基本的な考え方を整理しておくことが重要である[64].
図6-1に言語グリッドオントロジーの最上位階層の構成案を示す.”言語サービス”は,入力の言語表現に対して何らかの処理を施して出力の言語表現を得る”言語処理サービス”と,静的な言語資源に対して,そのある部分を検索し,適切な形式で利用者に提供する”言語資源アクセスサービス”に大別される.
前者の言語処理サービスは,入出力の言語が異なる”翻訳サービス”と,これらの言語が同一である”書き換えサービス”に分類される.前章で議論された言語グリッドの二つの軸(水平型/垂直型)に関連していえば,翻訳処理サービスは複数の「標準言語」の間の橋渡しを主目的とするため水平型言語グリッドに関連する.一方,書き換え処理サービスは,異なるコミュニティ間の「コミュニティ言語」の変換に用いられる可能性があるため,主に垂直型言語グリッドに関連する.もちろん,この2つの機能を複合させて,異なる言語による異なるコミュニティ間のコミュニケーションを支援する言語処理サービスも将来的には実現されることが期待される.
もう一方の言語資源アクセスサービスは,アクセスの対象となる言語資源のタイプによって下位分類される.図に示すように,現状では”辞書アクセスサービス”と”コーパスアクセスサービス”に分類している.ただし,これは暫定的なものであり,例えば今後の検討にともない,対訳用例集などの言語資源へのアクセスを独立したクラスとして設定する可能性がある.さらには,いわゆるWebサーチエンジンを介して検索・アクセス可能なWeb情報空間をコーパス(の特殊なサブクラス)とみなすことも可能であろう.
 図6-1 言語グリッドオントロジーの最上位階層の構成
このようなオントロジーの最上位階層と現在の言語サービスの状況を対照してみると,翻訳サービスと辞書アクセスサービスに関しては一般ユーザからも利用可能なサービスが数多く提供されてきている4.これに対して,書き換えサービスは今後の書き換え(言い換え)技術(乾, 2004)の進展・普及に待つところが大きいと考えられる[71].また,翻訳が言語を転換するという普遍的な目的に基づくのに対し,書き換えの場合は何らかの絞られた目的に即したものであることが通常であり,一般に公開されるサービスとして実現されない可能性も大きい.一方,コーパスアクセスサービスについては,言語グリッドのエンドユーザがそれを直接利用するというケースは(少なくとも当面は)少ないと考えられる.以上より,まず検討の対象とするべきは,翻訳サービスと辞書アクセスサービスであると考える.
これらの2つのタイプの言語サービスの特性をみると,現状で提供されている翻訳サービスの全てが(コミュニティ言語と対照される意味での)標準言語を対象としたものであり,原言語の言語表現を目的言語の言語表現に変換するという機能を果たす.よって,メタ記述として一義的に重要なのは原言語と目的言語の指定であり,これに付随して,入出力の文字列の文字エンコーディング形式などを指定することになろう.また,特定の部分の訳語指定や処理の各ステップで生じる多義の扱いなどをより細かく制御可能である場合は,これらに関する記述を行うことになる.このためには,実際にどのような翻訳制御がどの翻訳ツールにおいて利用可能であるか,あるいは,今後の翻訳ツールで実現されうるかを検討した上で必要な語彙を定めることになる.
一方,辞書アクセスサービスの場合は,対象とする辞書のタイプによって得られる情報内容が異なる.また,辞書アクセスサービスが利用する個々の辞書言語資源によって,データ形式も異なったものとなる.すなわち,辞書アクセスサービスのオントロジーを詳細化するためには,世の中に辞書と呼ばれるものにはどのようなタイプのものがあり,それらの辞書エントリが持つ情報構造はどのようなものであるかを整理しておく必要があり,これに基づいて,辞書の抽象的なデータモデル(あるいは,メタデータモデル)を考え,このモデルに基づいて各々の辞書言語資源を表現していくことが必要となる.
6.3 辞書データモデルの提案
図6-2は,言語グリッドにおける辞書アクセスサービスの構造を模式化したものである.エンドユーザは,個々の辞書アクセスサービスをオリジナルな形のWeb上のサービスとして利用することもあれば,言語グリッドを介して複合的な辞書アクセスサービスを利用すること可能である.図においては,複合的な辞書アクセスサービスを●で図式化している.
atomicな辞書アクセスサービスは,通常1つの辞書言語資源に基づいて構成されており,例えばWeb上の検索・アクセスサービスとしてエンドユーザに提供される.一方,これを言語グリッド側からみると,これら個々の辞書アクセスサービスには,メタ記述が付与されており,このメタ記述には,辞書アクセスサービスの入出力を規定するAPI的な情報と,辞書言語資源のタイプや情報構造を示すセマンティックな情報が含まれなければならない.言語グリッド上でプランニングを行うソフトウェアエージェント,または,人間のユーザは,このメタ記述を参照して,適切なatomicな辞書アクセスサービスを選択し,これらを組み合わせることにより,複合的(composite)な辞書アクセスサービスを構成する.
 図6-2 辞書アクセスサービスの構造
辞書データモデルへの要求条件
そこで,言語グリッドにおける辞書データモデルを検討する際の要求条件を検討する.まず,言語グリッドにおいて辞書言語資源を利用するのは,人間のユーザである.そのため,自然言語処理のための辞書に収録されているような形式化された記述(例えば,動詞の格フレーム情報やそれに付随する選択制限情報)の優先順位は(少なくとも当面は)低く,テキストによる語の意味・概念の定義・説明や,対訳語,使用例などのほうが重要である.すなわち,第一の要件は,このような範囲の辞書情報を単純かつ明確に表現できることにある.
次に,言語グリッドにおいて利用可能な言語資源は多様であればあるほど望ましく,その意味でより多くの辞書言語資源を表現できる必要がある.そのため,辞書言語資源に関するセマンティックなメタ記述は,なるべく多くのタイプの様々な辞書の事例をカバーできるような抽象的なデータモデルに基づいていることが望まれる.
さらに,辞書データモデルは,言語グリッドの成長に追随できるものである必要がある.すなわち,ある辞書言語資源を新たに追加するのが容易である必要がある.特に後述するように,言語資源の複合的な利用にともなって動的に関係付けられる新たな関係性を表現できることが重要である.
本検討と非常に近い問題を扱っているものとして,LMF (Lexical Markup Framework) (Francopoulo, 2006)があるが,そのISOにおけるworking document (ISO 24613, 2005)では,上記の要件とほぼ呼応するように,データモデルのfundamental principlesとして,simplicity and clarity, universal expressiveness, scalability の3つを提示している[60, 55].
辞書のタイプ
日本語の「辞書」という単語に対応する英単語には様々なものがあるが,言語学や自然言語処理の分野で良く使われるものとして,”dictionary”と”lexicon”の2つがある.これらの語の区別のされ方は様々であるが,Wilks (1996)は,前者を人間用の語彙知識を納めた物理的な印刷物,後者を自然言語処理などのコンピュータ処理で用いられる形式化されたエントリの集合であるとしている[67].本検討においてもこの使い分けに準拠するが,前者については印刷物に限らず電子データも含めて考える.すなわち,表現媒体に関わらず人間用の辞書をdictionary,自然言語処理用の辞書をlexiconとする.
人間用の辞書(dictionary)は,伝統的には印刷媒体により実現されてきたが,最近ではCD-ROMなどの媒体を用いて電子データとしてパソコンなどで利用できたり5,すでに述べたように Web上の辞書アクセスサービスとして利用可能になっている.このような形態の辞書を特に機械可読辞書(MRD; Machine Readable Dictionary)と呼ぶことがある.LDOCE (Longman Dictionary Of Contemporary English) やCOBUILD (Collins COBUILD English Dictionary) といった英語辞典のほかに,Web上のポータルサイトなどで検索・アクセスサービスが提供されている辞書もこのカテゴリに分類される.図6-3に英和辞典サービスの検索例,図6-4 に国語辞典サービスの検索例を示す6.
 図6-3 英和辞典の検索例 (検索語: bank)
 図6-4 国語辞典の検索例 (検索語: 銀行)
一方,自然言語処理用の辞書(lexicon)は機械翻訳などのシステムの一部として組み込まれており,その辞書内容が公開されているものは少ないが,日本語・英語の間の機械翻訳をターゲットとした日本語語彙大系 (池原,1997)や,EDR電子化辞書 (EDR, 2001)などが自然言語処理の研究に用いられている[70, 52].海外では,標準的な英語の語彙データベースとして広く利用されているWordNet (Fellbaum, 1998) (Princeton WordNet,またはPWNと書くことがある)が広く普及しており,Princeton WordNetの考え方をヨーロッパの諸言語へ多言語展開したEuroWordNet (Vossen, 2004)も広く知られている[53, 66].
Hirst (2003) は,上記の両者を表す包括的な語として”lexicon” を用いており,辞書とは「単語の利用に関する知識が付加された単語のリスト」であるとしている[57].単語の利用についての知識,すなわち,語彙のエントリに記載される情報としては,綴り(spelling),発音(sound),文法的振る舞い(grammatical behavior),意味(meaning),利用法(use),他の語との関係(relation with other words)を挙げている.これらの情報は,いずれも重要な情報であるが,言語グリッドにおける利用シーンを考えれば,人間が直接のユーザであることから,意味(語義,概念)に基づく異言語での対応関係(対訳)や定義・説明,使用例が重要であると考えられる.
上記のような情報を収録した国語辞典,英語辞典,対訳辞書といったタイプの多くのMRDが利用可能となってきている一方で,自然言語処理用の辞書言語資源においては,Princeton WordNetやEDR電子化辞書のような概念を体系的に整理した辞書(以下では,CCL: Computational Concept Lexicon)が整備されてきている.よって,これらの異なるタイプの辞書言語資源を結びつけることにより,意味(語義・概念)レベルでの辞書の活用が可能となると考えられる.本検討においては, CCLとして特にPrinceton WordNetとEDR辞書を念頭におく.
図6-5 にPrinceton WordNetの基本構造を示す.辞書の構造の中心となるのは,語彙概念 (lexical concept)7である.一つの語彙概念は,ある文脈において交換可能な,すなわち,同じ意味を持つ単語語形 (word form) の集合であるsynsetにより規定される.例えば,「銀行」の意味での語形”bank”が属する語彙概念(これはWordNetにおいては”bank”の一番目の語義に相当する)におけるsynsetは,{depository financial institution, bank, banking concern, banking company} という語集合により規定される.語彙概念の間には,語彙概念間に概念的な上位-下位の包含関係(hypernymy-hyponymy), 全体-部分(holonymy-meronymy), 反意(antonymy)といった意味概念関係(semantic/conceptual relation)が設定される.例えば,上記の”bank”の上位概念は,{financial institution, financial organization, financial organization} というsynsetで規定され,日本語ではほぼ「金融機関」に概念に相当する.
 図6-5 PWNの基本構造
EDR電子化辞書は,日本語単語辞書,英語単語辞書,日英対訳辞書,英日対訳辞書,概念辞書のから構成される8.本検討においては,これらのサブ辞書からなるEDR辞書の体系を1つの辞書情報空間として扱う.図6-6 にEDR辞書の基本構造を示す.
 図6-6 EDR辞書の基本構造
EDR辞書においては言語に依存しない(あるいは,日本語,英語にまたがる唯一の)概念体系の存在を前提としており,ある概念とそれに対応する日本語や英語の単語の情報や訳語を辞書に収録している.すなわち,同一の意味を持つ各辞書のエントリは,同一の概念識別子を持つ.実際,例えば日本語単語辞書については,「日本語単語辞書の基本的な役割は,日本語単語と概念の対応関係を記述し,この対応関係が成り立つときの文法的特性を与えることである」(EDR 2001)と定義している.他の辞書についても同様の記述がある.また,概念辞書中には,概念識別子で特定される概念ノードが作る概念体系が格納される.概念関係には,上位-下位関係(概念体系辞書と呼ばれるデータに記述される)と,それ以外の関係(概念記述辞書と呼ばれるデータに記述される)が規定されている.本検討では,当面,上位-下位関係を検討範囲とする.
辞書データモデルの基本的な考え方
前述のような動機のもと,MRDとCCLを統一的に表現するための抽象的辞書データモデルの検討を行った (Hayashi, 2006)[56].検討においては,語彙論(lexicology),辞書学(lexicography)の知見を参考にしながら,既存の辞書言語資源の情報項目・情報構造を調査した.その結果,モデルの基本的な考え方として「Princeton WordNet に準拠する9」こととした.これは以下のような考察による.
- 人間用の辞書とPWNの対応 (語義と語彙概念):人間用の辞書においては,見出し語に対する情報項目は,まず語義により分類されて表示される.国語辞典や英語辞典においては,見出し語の持つ語義 (word sense) ごとに説明が行われる.また,対訳辞書においては,見出し語の語義に応じて訳語が提示される.ここで,ある語義とは語の持つ一つの意味のことである.一方,語彙概念とは,具体的なある語形(word form)として表象された概念である.よって,以上の語義と語彙概念の関係から,語義ごとに記述された辞書情報は,ある語彙概念に対する情報であるとみなしてよい.また,人間用の辞書においては,⇒や⇔といった記号を用いることで,関連語や反意語のエントリを示している場合がある.これも基本的には,見出し語に対するある語義について付与された情報であるから,語彙概念間の意味概念関係を示す情報であるとみなすことができる.よってこれらは,Princeton WordNetにおける語彙概念間の関係と同類の関係であるとみなすことができる.
- EDR辞書構造とPrinceton WordNetの対応: EDR辞書においては,一つの概念ノードに対しては,IDとなる概念識別子のほか,概念見出し,概念説明が日本語・英語によって与えられる(概念見出し辞書と呼ばれるデータに記述される). EDR辞書では,「概念を自然言語や形式言語によって定義したり,他の基本的な概念の組み合わせに還元する立場はとらない」(EDR 2001, p.4-2)としており,概念見出しについては,「概念の意味内容に近い意味を表す単語を併記することで,人間にとっての理解を助けることを目的として概念見出しが設けられている」(EDR 2001, p.4-2)としている.一方で,「その概念を代表するにふさわしい単語見出しが記述される」との記述(EDR 2001, p.2-10)もあり,これは,語彙概念の考え方に相当する.ある辞書におけるある見出し語に対するレコードは,その見出し語の持つ意味に対応した概念識別子を持つので,概念ノードに対する概念見出しと,この概念ノードに関係付けられた各辞書レコードにおける単語見出しの和集合によって,その概念ノードに対するsynsetとみなすことができる.このように考えると,概念間の関係も(関係の種別の詳細を除けば)Princeton WordNetと,少なくとも形式的には同一に扱うことができる.ただし,EDRでは全ての概念ノードに対して概念見出しが付与されているとは限らない点がPWNとは異なっており注意が必要である.すなわち,EDRにおいては,synsetが空集合という概念ノードが存在する10.
辞書データモデルの概要
提案する辞書データモデルの概要を図6-7に例示する.言語グリッド全体の辞書に関する情報空間は,言語グリッドにおいて利用可能なそれぞれの辞書言語資源に対応する辞書空間の集合である.図6-7の例においては,4つの辞書空間(日本語辞書,日英対訳辞書,Princeton WordNet,EDR辞書)が示されている.真ん中に表示されているのがPrinceton WordNetに対応する辞書空間であり,その他の辞書に対応する辞書空間は簡略化して示している.各辞書空間は,その辞書言語資源の全体に関わるメタ記述(図中では紺色のボックスで表現)と,辞書の内容情報を表現するグラフ構造によって規定される.
[メタ記述]
メタ記述として収録すべき主な情報として,以下のようなものが挙げられる.なおLMFにおいても,ほぼ同様のトップレベルの構造が提案されており(Francopoulo, 2006),Lexical Informationと呼ばれるクラスがメタ情報を格納するものとされている[55].
- 辞書ID: 言語グリッドのモデル空間において有効な辞書IDを定める.IDのデータ形式を定める必要があるが,URIを用いるのが妥当と考えられる.
- 辞書種別: 辞書の種別を表現する文字列のリストとする.辞書の種別を規定する語彙の体系は別途定める必要がある.(例:日本語単語,日英対訳,など)
- 辞書領域: 辞書が対象とするドメインを表現する文字列のリストとする.ドメインを規定する語彙の体系は別途定める必要がある.(例:汎用,コンピュータ科学など)
- 見出し語の言語: 辞書における見出し語の言語をRFC-3066の形式で指定する.
- 情報内容のデフォルト言語: 辞書における情報内容が記述されるデフォルトの言語をRFC-3066形式で指定する.なお,これらの情報内容がここで指定されるデフォルト言語と異なる言語で記述される場合は,インスタンスに言語名が記述されるものとする.
- 文字エンコーディング: 辞書において主に用いられる文字エンコーディングの形式をIANA登録のエンコーディング名で指定する.
- 意味概念関係の一覧: 辞書において用いられる意味概念関係名をリストする.関係名は制限のない文字列である.
- その他の情報:辞書の作成者,公開者,利用条件等について規定する必要があるが,Dublin-Coreの語彙が利用できる (Bird, 2003)であろう[49].
 図6-7 辞書データモデルの概要
MRDに属する辞書言語資源においては,その内容情報は辞書エントリのリニアな集合としての実体を有しているが,本データモデルにおいては,MRDもCCLも以下に説明するようなノードとリンクによるグラフ構造として統一的に表現される.
[ノード]
ノードのクラスとしては,以下の3つを設ける.
- 見出し形ノード lemma node (図中では青色): いわゆる単語語形(word form)の見出し形(lemma)に対応するノードである.ここで,語形とは,基本的には,単語の表記と品詞により定まるものとするが,特に日本語のような同一の表記に対して異なるよみ・発音が対応する言語に関しては,単語のよみもユニークな語形を定める要素とする.見出し形ノードは,その語形が有する語義に対応して1つ以上の語義ノードへのリンクを持つ.
- 語義ノード sense node (図中では緑色): MRDにおいては,その基本的な情報構造が語義によって規定されているのが通常である.語義ノードは,MRDにおける各語義に対応した情報を格納するためのノードである.当面の言語グリッドにおける適用において重要な情報には,テキストによる語義の説明(gloss),用例(usage example)がある.さらに対象辞書が和英辞書のような対訳辞書である場合,目的言語における訳語や用例が格納される.なお,対象の辞書がWordNetのようなCCLである場合,1つの語義ノードは,ある見出し形ノードと概念ノードを結ぶだけの役割を担い,語義ノードと概念ノードの対応は1対1である.
- 概念ノード concept node (図中では橙色): 概念ノードは,CCLにおけるある語彙概念の情報を格納するものである.すなわち,同義語集合(synset),テキストによる概念の説明・定義(gloss),用例(usage example)が格納される.また,他の概念ノードへの意味概念関係に対応するリンクを格納する.意味概念関係については,基本的にはPrinceton WordNetに準拠する.
LMFにおいては,formとsense という2階層のアプローチをとっている.前者のformというクラスが本検討におけるlemma に相当し,LMFではformのサブクラスとして原形(lemmatized form)と変化形(inflected form)の二つが定義されている.本検討においては,変化形というクラスを特別に設けていない.これは,ほとんどの辞書エントリが原形を見出し語としているだろうという見通しによる.また,後者のsenseは,本検討におけるsenseと同様のクラスである.LMFでは本検討における概念(concept)のクラスを別に設けることはせず,全て語義(sense)のクラスで扱っている.このあたりは,今後議論を深めていくべき点であろう.
上記においては,主に意味的な情報を人間のユーザが利用するという観点からノードに関して検討した.意味的情報以外に通常の辞書に記載されていて,言語グリッドの文脈においても有効性が見込まれる情報として,以下のような項目がある.これらを上記の3つのどのクラスのノードに格納すべきかについては,さらに検討を要する.例えば,同一の語形に異なる語義が存在する場合の語源の情報を見出し形ノードに格納してよい場合と,語義,あるいは概念ノードに区分して格納すべき場合があると考えられる.
- 語源 (etymology) に関する解説:人間用の辞書において自然言語文で記述される.言語処理の観点からの利用は考えにくいので,まずは文字列として格納することで十分と考えられる.異文化コラボレーションなどの場面で理解や学習の補助に使われる可能性はあるだろう.
- 音韻論 (phonology) に関する情報:IPA発音記号により記述される発音やアクセントなどの情報や人間用の辞書においては,実際の発音の音声データが収録されている場合もある.語源解説と同様に,当面はそのままの形式で格納することで十分と考えられるが,異文化コラボレーションなどの場面で理解や学習の補助に有効に活用できる可能性はあるであろう.
- 形態論 (morphology) や文法 (grammar) に関する情報:ハイフン位置 (hyphenation),語の屈折や活用 (inflection),派生 (derivation) に関する情報,語構成に関する情報,語の連接性 (adjacency) に関する情報などは言語処理システムにおいても必要なものであるが,通常は言語処理システム自身がこのような情報を通常は有しているため,人間による利用を考えた情報の格納を検討すべきである.
- 格フレーム (case frame),態 (voice, diarthesis) などの統語・意味構造 (syntactic/semantic structure)に関する情報:後述するFrameNet (Fillmore, 2003)などの動詞の統語・意味論に関する言語知識に関するプロジェクトで構築されている情報である.どのように言語グリッド辞書オントロジーに取り込むか,または,リンクを張るかについて,いずれ検討していく必要があるだろう[54].
[リンク]
言語グリッドの初期時点では,各オリジナルの辞書言語資源における基本的な関係がリンクとして表現される.MRDにおける主要なリンクは,見出し形ノードを語義ノードへ結びつけるリンクである.リンクのラベルとしては,辞書エントリにおける語義番号を付与する.CCLにおいては,これに加え,語義ノード(単なる中継の機能のみを果たす)から概念ノード(実質的な情報を持つ)へのリンク,概念ノード間のリンクが存在する.後者のリンクは意味概念関係を表すものであるので,そのラベルとして意味概念関係名を持つ.
言語グリッドにおいて,複数の辞書サービスを連携させていくためには,語形の間のマッチングや,語義のマッチング11といったマッチング処理が必要となる.これらの処理の結果として,言語グリッドの初期時点においては明らかではなかった辞書エントリ間の関係が動的に抽出されてくることが期待される.これらの関係は,言語間の概念の異なりなどの要因により,たとえマッチング処理が完全であったとしても完全に正しくないと予想される.一方でこれらの関係は,複数の辞書言語資源を連携させる有益な関係であるため,結果を保存しておき,ある時点で永続化12する(perpetualize)ことも視野に入れるべきである.このような,動的に見出されるリンク(図6-7においては点線によって示されている)は,異なる辞書空間を結ぶものであり,それが結ぶノードのクラスによって以下のように特徴付けられる.
- 見出し形ノード-見出し形ノードlemma-lemma: 同一言語内で語形に関する情報が一致すると判定されれば,見出し形ノード間に等価関係を表すリンクを付与することが可能となる.たとえば,同一言語における異なる単言語辞書間のエントリをこのリンクで結ぶことが考えられる.また,いわゆる派生関係(derivation)も見出し形ノード間の関係として記述することができると考えられる.日本語における代表的な派生関係の例としては,名詞-サ変名詞(“研究”と”研究する”)や名詞と形容動詞(“安心”と”安心な”)などがあげられ,これらはMRDにおいてもその関係が明示的に表示されていることが多い.なお,PWNにおいても”derivational”という関係が名詞(noun)に属するsynsetと動詞(verb)に属するsynsetとの間に設定されている.派生関係を語形のレベルに設定するのか,概念(synset)のレベルに設定すべきなのかは,さらなる検討を要すると思われる.
- 語義ノード-語義ノードsense-sense: 一般に,単言語辞書内において,互いに同義(あるいは類義)な語形がそれぞれ独立したエントリを持つのが普通である.そのため,それらの語義ノード間に等価(あるいは類義)関係を表すリンクを付与することが考えられる.ただし,想定される言語グリッドにおける適用においては,このようなマッチングを行う契機が与えられるとは考えられない.あり得るケースは,ある言語(例:英語)をブリッジとして2つの言語(例:日本語とアラビア語)を結びつけるような場合である.この場合,和英辞書における語義ノードを適切なEnglish-Arabic辞書の語義ノードへとリンクすることなる.Hirst (2003)は,このような異言語間の同義(類義)関係を「言語を越えた準同義語」 (cross-language near synonym) と呼んでいる13[57].
- 語義/概念ノード-概念ノード sense/concept-concept: MRDにおける語義ノードは,少なくとも同一言語において,望むべくは異なる言語において,ある語彙概念と対応していることが期待され,その場合,CCLにおいて対応する概念ノードが見出されることになる.また,異なるCCLの間(例えば,PWNとEDR)で概念ノード間の対応関係が見出される場合は,概念ノード間に同義(類義)関係のリンクを設定することなる.
なお現在のところLMFにおいては,意味概念的な関係は核となるモデル(core model)ではなく,拡張(extension)として扱っている.また,本検討でいうところの動的なリンクについては考慮していないと思われる.
 図6-8 辞書モデル化の例
図6-8 に,辞書エントリのモデル化の例を示す.図では,4つの辞書言語資源における”bank”,「銀行」に関する情報がグラフ構造として表現されている.図において,見出し形ノードは,’表記/品詞/よみ’の三つ組みにより規定される.また,語義・概念ノードにおいては,[]により同義語集合(synset)を,{}によりテキストによる概念の説明・定義(gloss)を略記している.用例については,記述を省略している.また,言語による区切りをセミコロンで区分(前が英語,後が日本語)して示している.さらに,適切な言語処理によって動的に付与される可能性のあるノード間の関係を点線によるリンクにより表示している.
このように,本データモデルを用いることにより,言語グリッドにおいても利用される可能性の高いMRD,CCLを適切に表現できると同時に,それらの間の情報の関連性も表現することが可能であり,使われるほど情報が蓄積されていくという言語グリッドの成長に自然に対応することが可能であると考える.もちろん,実際にこれを実現するためには,オントロジーの形式的かつ詳細な定義を与え,それをWeb上で実現する必要がある.ここでは,セマンティックWebの技術が大きな役割を果たす.
以上,ノード間のリンク間の関係について,辞書言語資源に固有な静的なリンク,辞書言語資源の複合的な利用に伴う動的なリンクの双方について検討した.特に,動的な関係のリストを定めることは慎重に行う必要があり,今後の課題である.その際には,EuroWordNet (Vossen, 2004)において,各国語のwordnetにおける概念ノードから,多言語を結ぶ骨格となるILI (Interlingual Language Index)へリンクにおける意味概念関係が参考となると考えている[66].EuroWordNetにおけるILIへの意味概念関係を表6-1 に示す.
表6-1 EuroWordNetにおける意味概念関係 
6.4 研究課題とその進め方
以上,言語グリッドオントロジー(=言語グリッドにおける言語サービスのオントロジー)に関して,特に辞書データモデルを中心に現在までの検討状況について述べた.本節では,今後の研究課題と進め方について述べる.
- オントロジーの詳細化:本資料で示したのは,言語グリッドオントロジーの骨格部分のさらに一部分についての基本的な考え方である.今後,オントロジーがカバーする範囲を拡大すること,さらに,辞書データモデルに関する部分に関しては,様々な言語学的・辞書学的な観点からの検討を深め,抽象メタモデルとしての質を高めていく必要がある.辞書データモデルに関連して特に言語的な観点から問題となるのは,複数の語要素からなる複合語(MWE; multi word expression) や用例の扱いである.想定される言語グリッドの利用状況において,これらの表現の利用価値は高いと考えられるので,重要な課題となる.
- 国際的なアクティビティとの連携:言語資源に関連する領域においては,主にヨーロッパにおいて,多くはEUファンディングのプロジェクトに関連して,各国の連携による検討の積み重ねや標準化へ向けた動向が長年にわたって行われている14.これらの中で最近の動向として特に注目しておくべきなのは,EAGLESからMILE (Calzolari, 2002) への長い検討をベースに最近ISO(TC 37/SC 4)で標準化が議論されているLMF (ISO 24613)である[51].提案する辞書データモデルはLMFの考え方と整合する部分が多いが,今後の詳細化においては,整合性の問題を十分に意識しておく必要がある.ヨーロッパ中心のこれらのアクティビティは主に自然言語処理のための言語資源をターゲットにしているが,人間による利用に重きを置く我々のプロジェクトと良い意味での補完関係を築けるよう連携していきたいと考えている.
- 言語グリッドにおける実装と評価:提案するオントロジーは,単にペーパー上の仕様にとどまらず,RDF/S,OWL,OWL-SといったセマンティックWebの領域において提案されている表現形式に則って形式化・実装され,実際に多くの有用な言語資源が利用可能な状況が作られる必要がある.この課程においては,オントロジーやメタデータの標準化の類以外にも,言語資源の知的所有権やプライシングの問題などの深刻な課題が存在する.特に,本検討でも扱ったような複合サービスの結果として生じる二次的な価値(辞書間を結ぶ動的なリンクなど)をどのように扱うかという問題が解決される必要があろう.また,実際に多くの言語資源が容易に利用可能になるためには,以下に示す2つの技術課題を解決する必要がある.
- ラッパープログラムの効率的な生成:ある辞書言語資源があったとき,EDR辞書やPrinceton WordNetのように辞書のソースデータが入手できれば,例えばRDFなどのデータ形式に基づき,辞書のデータモデルと直接に対応する形式でデータベース化することが可能(WordNet Task Force, 2004)であり,言語グリッド側からの呼び出しに適した辞書アクセスサービス(API)を比較的容易に提供することができる[69].また,印刷イメージに対応したMRDのソースデータが入手可能である場合は,複雑な辞書エントリ情報のパージングが必要となるが,上記とほぼ同様にして辞書アクセスサービス化することができる.これに対し,すでに実例をみたような,Web上のどこかで提供される辞書検索・アクセスサービスを言語グリッド上の辞書アクセスサービスとして利用しようとすれば,検索サービスCGIのクエリシンタックスに従った検索要求を送信し,通常HTML言語によりマークアップされる検索結果から,辞書データモデルに適合する情報項目を抽出することが必要となる.すなわち,いわゆるラッパープログラムを個々に準備することが必要になる.ラッパープログラムの自動生成については,主にAIやデータ工学の分野で研究されてきたが,言語グリッドの文脈からは,例示に基づくプログラミング(Programming by Demonstration) (Bauer, 2000)や,スキーマに基づくラッパー生成(Scheme-Guided Wrapper Generation) (Meng, 2002)が有用ではないかと考える[48, 63].すなわち,辞書データモデルがサービスの背景に存在するデータスキーマに相当するため,これに導かれる形で,いくつかの辞書エントリ例に人間が注釈付けを行う(demonstration)ことにより,ラッパーを効率的に生成できると考えられる.このイメージを図6-9 に示す.この課題の推進においては,このような関連技術と言語資源に関する技術・蓄積を有する研究機関との連携を考慮したい.
 図6-9 ラッパー生成のイメージ
- 「繋ぐ」言語処理の実現:複数の辞書言語資源を図6-8 に例を示したように連携させるためには,異なる辞書や場合によっては異なる言語間の辞書エントリ情報を繋ぐことが必要となる.この時にキーとなるべきは,語義・概念である.語義・概念は,synsetにより規定され,glossにより説明され,概念体系中である位置を占めるため,これらの情報を利用して語義・概念のマッチングを行うことになる.また,対象の辞書言語資源だけで情報が不足する場合は,他の辞書の情報,コーパスやWeb上のテキストを用いることも必要となる.このような課題に関連する自然言語処理における課題は,語義解消問題(word sense disambiguation) (Ide, 1998)と呼ばれる.言語グリッドのプロジェクトは,自然言語処理の研究自体は行わないので,NICT自然言語グループなどの研究グループの協力を仰いでいく必要がある[59].
4例えば,http://homepage2.nifty.com/m_kamada/l_translation.htm には,様々な翻訳サービス,辞書アクセスサービスへのリンク,入力フォームが用意されている.
5実態としては,電子データが先にあり,これにより印刷媒体による辞書が製作されていることがほとんどであろう.
6いずれも,ポータルサイトgooの辞書検索サービス(http://dictionary.goo.ne.jp/)による.この辞書サービスは,国語辞典:大辞林,和英・英和辞典:EXCEED辞典(いずれも三省堂)に基づいている.
7語彙化された概念(lexicalized concept)と呼ばれる場合もある.
8ここでは,共起辞書と専門語辞書を除外して考える.
9EuroWordNetにおいても,各国語のwordnet(注: 一般名詞として用いるときはcapitalizeしない) は,PWNの考え方を採用しつつ,英語を対象とするPWNとは異なる各国語の語彙概念の体系を構築している.
10最新版のEDR概念辞書を調査した結果では,全ての概念ノード数は419,570であり,このうち8,386ノード(全体の約2%)が概念見出し(日英語のいずれも)持たなかった.これらが全て,語彙化されない(語彙化できない)概念であるのかについては詳細な検討が必要かと思われる.なお,参考までに,日英語双方の概念見出しを持つ概念ノードの数は38,806ノード(全体の約9%)であり,実態としては,言語に依存した概念ノードが多くあるのではないかと推測される.
11本稿では,その内容については論じないが,異なった辞書エントリ間を結びつけるために,ある種の言語処理が必要になる.例えば,EDRにおける概念ノードをPWNにおいて対応すると考えられる概念ノードと関係付けるためには,例えば,synsetやglossのオーバラップや概念体系における近傍の構造の類似性を用いて,類似する概念を表すノード探索する(Utiyama, 1997)必要がある[65].
12永続化の方法論の詳細は,ここでの議論の範囲外である.
13ただし,TLの語に直接に対応する訳語がない場合,説明的な表現が与えられていることがある.このような場合は,cross-language synonym というよりは,言語を異にする注釈 (cross-language gloss)として扱うべきかもしれない.異言語間の対応においては,「訳語」と注釈との境界はグレイである.
14参考資料「言語資源関連プロジェクトA-to-Z」に主要なプロジェクトや規格案などについての調査結果を示す.
参考文献
- Bauer, M., Degler, D., Paul, G., and Meyer, M. (2000). Programming by Demonstration for Information Agents. Communications of the ACM, Vol.43, No.3, pp.98-103.
- Bird, S., and Simons, G. (2003). Extending Dublin Core Metadata to Support the Description and Discovery of Language Resources. Computing and the Humanities, Vol. 37, pp.375-388.
- Buitelaar, P., Declerck, T., Calzolari, N., and Lenci, A. (2003). Language Resources and the Semantic Web. In Proceedings of ELSNET/ENABLER workshop.
- Calzolari, N., Zampolli, A., and Lenci, A. (2002). Towards a Standard for Multilingual Lexical Entry: The EAGLES/ISLE Initiative. In Proceedings of CICLing 2002. pp.264-279.
- EDR日本電子化辞書研究所. (2001). EDR電子化辞書 2.0版 使用説明書. 株式会社 日本電子化辞書研究所.
- Fellbaum, C. (Eds.) (1998). WordNet: An Electronic Lexical Database. The MIT Press.
- Fillmore, C. et al. (2003). Background to FrameNet. International Journal of Lexicography, Vol.16, No.3. pp.235-250.
- Francopoulo, G., George, M., Calzolari, N., Monachini, M., Bel, N., Pet, M., and Soria, C. (2006). Lexical Markup Framework (LMF). In Proceedings of the Fifth International Conference on Language Resources and Evaluation (LREC 2006). To appear.
- Hayashi, Y., and Ishida, T. (2006). A Dictionary Model for Unifying Machine Readable Dictionaries and Computational Concept Lexicons. In Proceedings of 5th International Conference on Language Resources and Evaluation (LREC 2006). To appear.
- Hirst, G. (2003). Ontology and the Lexicon. In Staab, S. and Studer, R. (Eds.) Handbook on Ontologies in Information Systems, Springer, Berlin.
- Ishida, T. (2006). Language Grid: An Infrastructure for Intercultural Collaboration. IEEE/IPSJ Symposium on Applications and the Internet (SAINT-06), pp.96-100.
- Ide, N., and Veronis, J. (1998). Word Sense Disambiguation: The State of the Art. Computational Linguistics, Vol.24, No.1, pp.1-40.
- ISO 24613. (2005). Language Resource Management – Lexical markup framework (LMF). Working document: ISO/TC 37/SC 4 N130 Rev.7.
- Klein, E., and Potter, S. (2004). An Ontology for NLP Services. In LREC 2004 Workshop on “A Registry of Linguistic Data Categories within an Integrated Language Resource Repository Area”.
- Liberman, M., and Cole. R. (1997). A Language Resources Primer. available at http://www.ldc.upenn.edu/myl/LR_background.html
- Meng, X., Lu, H., Wang, H., and Gu, M. (2002). SG-WRAP: A Schema-Guided Wrapper Generator. In Proceedings of the 18th International Conference on Data Engineering (ICDE’02). pp.331-332.
- The OWL Services Coalition. (2003). OWL-S: Semantic Markup for Web Services. available at http://www.daml.org/services/owl-s/1.0/owl-s.html
- Utiyama, K., and Hasida, K. (1997). Bottom-up Alignment of Ontologies. In Proceedings of IJCAI-97 Workshop on Ontologies and Multilingual NLP. pp.35-40.
- Vossen P. (2004). EuroWordNet: A Multilingual Database of Autonomous and Language-Specific Wordnets Connected via an Inter-Lingual Index. International Journal of Lexicography Vol.17, No.2, pp.161-173.
- Wilks, Y., Brian M. S., and Louise M. G. (1996). Electric words: dictionaries, computers, and meanings. Cambridge, MA: MIT Press.
- Wittenburg, P., Broeder, D., and Sloman, B. (2000). Meta-Description for Language Resources, EAGLES/ISLE A Proposal for a Meta Description Standard for Language Resources. available at http://www.mpi.nl/ISLE/documents/papers/white_paper_11.pdf
- Wordnet Task Force. (2004). Wordnet in RDFS and OWL. W3C Editor’s Draft. http://www.w3.org/2001/sw/BestPractices/WNET/wordnet-sw-20040713.html
- 池原 悟, 宮崎正弘, 白井 諭, 横尾昭男, 中岩浩巳, 小倉健太郎, 大山芳史, 林 良彦. (1997). 日本語語彙大系.岩波書店.
- 乾 健太郎, 藤田 篤. (2004). 言い換え技術に関する研究動向. 自然言語処理, Vol. 11, No. 5, pp. 151-198.
|