言語学入門

言語学入門 斎藤純男 著 三省堂 ISBN 978-4-385-36421-6

はじめに

自然言語処理をするにあたり、言語学の基礎を勉強する。 この本は言語学を広く扱っており、それぞれの分野の基本が記されている。

  • 音声・音韻
  • 構造 (文法)
  • 意味
    • 意味論
    • 語用論
  • 変化 (歴史言語学・比較言語学・言語地理学)
  • 変異 (社会言語学)
  • 記録 (文字論) について書かれているが、興味のある構造 (文法) と意味の章のみノートを取る。

言語学とは

  • 一般言語学 : 人間の言語としての共通の特徴を解明するもの
  • 個別言語学 : ある言語特有の特徴を解明するもの

スイスの言語学者 フェルディナン・ド・ソシュール は langage (ランガージュ), langue (ラング), parole (パロール) の3つを区別した。

  • langage : 「人間は言葉を持っている」 といった場合の「言葉」。すなわち、言語能力や言語活動一般。
  • langue : langage がそれぞれの社会において実現された、日本語とかフランス語とかいった言語体系としての言葉。
  • parole : 言語体系である langue に基づいて実際に発せられた具体的な音連続。

フェルディナン・ド・ソシュール は統合関係・連合関係という概念も提唱した。 「今日 はやく 行く」という文を例にとると、 統合関係は「今日・はやく・行く」という要素同士の関係を、 連合関係は「今日・明日・来週」といった要素同士の関係を指す。 統合関係にある要素は構造 (structure) をなし、連合関係にある要素は体系(systeml) をなす。

構造 (文法)

  • 形態論 (morphology) : 語の構造を扱う。
  • 統語論 (syntax) : 文の仕組みを探る。
  • 文章論 : 文章の成り立ちを考察する。ヨーロッパではテキスト言語学アメリカでは談話分析 (discource analysis)、日本では文章談話研究と呼ばれることもある。

形態論

語の定義は意外と曖昧である。 ただ、文中で独立して現れることができる何らかの要素が認められているので、 曖昧な部分を残しながらも「語」という用語が使われている。

「食べさせられたがらなかった」は面白い例として使えそうなので、覚えておくこと。

形態素

形態素とは、意味を持つ最小の言語単位のこと。

形態素には、自由形態素・拘束形態素クランベリー形態素の3種類がある。 自由形態素は「本」「馬」「食べ-」のようにそれだけで語を形声することができるもの、 拘束形態素は「-る」[-させ-]「-病」のように他の形態素と結合して現れないものを指す。 クランベリー形態は、単独では意味を持たないもので、 cranberry の cran のことである。

語彙素

ある1つの概念のこと。 「やま」「ヤマネコ」「頭が痛い(困ったの意)」は、どれも1つの語彙素である。 しかし、「ヤマネコ」は2つの形態素を持つし、「頭が痛い」は3つの語を持つ。

全体として

書き言葉だと区別がつかないが、話し言葉だとアクセントやイントネーションで区別が付くことがある。 また、仕草も含めて文法機能を果たすこともある。

* は非文を表す。

メモ

経路探索問題

NLP において ビタビアルゴリズム が紹介されることがあるが、 経路探索問題についてもう少し広く記述するべきだと思う。 A* の一部でええやん。

(参照) 自然言語処理、黒橋禎夫, p40, p62

構文の表現

依存構造表現と句構造表現がある 歴史的に、依存構造表現は日本語の解析で提案され、句構造表現は英語圏で提案されたらしい。 依存構造表現は形容節の並列性が視覚的に分かるが、記法によっては原文の語順が分からなくなる。 句構造表現では逆になる。

(参照) 自然言語処理、黒橋禎夫, 7章 構文の解析(1) pp83-93