教員情報
|
|
マツダ ケンジロウ
MATSUDA Kenjiro
松田 謙次郎 所属 文学部 英語学科 文学研究科 言語科学専攻 文学研究科 国語国文学専攻 職種 教授 |
|
言語種別 | 日本語 |
発行・発表の年月 | 2021/07 |
形態種別 | 研究論文(大学,研究機関等紀要) |
査読 | 査読あり |
標題 | 新漢字と旧漢字が混在したテキストからの短単位形態素の抽出について |
執筆形態 | 単著 |
掲載誌名 | 国立国語研究所論集 |
掲載区分 | 国内 |
出版社・発行元 | 国立国語研究所 |
巻・号・頁 | 21,123-132頁 |
総ページ数 | 10 |
概要 | 旧字体と新字体の混在するテキストは,形態素解析において誤解析の原因となることが多く,その対策としては形態素解析辞書の記載に異体字を加える方法,そして予め漢字を新字体に置換しておく方法,また複数の辞書を使い分けるといった方法が考えられる。本稿では字体置換6通りと,辞書の使い分け3通りを掛け合わせた18組の組み合わせで國/国,會/会,關/関3対の旧/新字体の対を含んだテキストの形態素解析を行うことで,目的とする漢字を含む形態素がどれほど正確に切り出せるのかを検討した。データとして第1~10回までの国会会議録を用いた。結果は,漢字置換で隣接する漢字が旧字体の場合に旧字体に置換し,隣接しない場合は新字体とするという置換法と,すべてについて近代文語UniDicを用いるか,1949年の当用漢字字体表告示を境として,それ以前では近代文語UniDicを用い,それ以後では現代語書き言葉UniDicを用いる方法が,もっとも正確に当該漢字を含む短単位形態素を切り出せるというものであった。 |
DOI | info:doi/10.15084/00003440 |
ISSN | 2186-1358 |
PermalinkURL | http://doi.org/10.15084/00003440 |