2020-02-02

言語学入門

本

言語学入門斎藤純男著三省堂 ISBN 978-4-385-36421-6

はじめに

自然言語処理をするにあたり、言語学の基礎を勉強する。この本は言語学を広く扱っており、それぞれの分野の基本が記されている。

音声・音韻
構造 (文法)
- 形態論
- 統語論
- 文章・談話
意味
- 意味論
- 語用論
変化 (歴史言語学・比較言語学・言語地理学)
変異 (社会言語学)
記録 (文字論) について書かれているが、興味のある構造 (文法) と意味の章のみノートを取る。

言語学とは

一般言語学 : 人間の言語としての共通の特徴を解明するもの
個別言語学 : ある言語特有の特徴を解明するもの

スイスの言語学者フェルディナン・ド・ソシュールは langage (ランガージュ), langue (ラング), parole (パロール) の3つを区別した。

langage : 「人間は言葉を持っている」といった場合の「言葉」。すなわち、言語能力や言語活動一般。
langue : langage がそれぞれの社会において実現された、日本語とかフランス語とかいった言語体系としての言葉。
parole : 言語体系である langue に基づいて実際に発せられた具体的な音連続。

フェルディナン・ド・ソシュールは統合関係・連合関係という概念も提唱した。「今日はやく行く」という文を例にとると、統合関係は「今日・はやく・行く」という要素同士の関係を、連合関係は「今日・明日・来週」といった要素同士の関係を指す。統合関係にある要素は構造 (structure) をなし、連合関係にある要素は体系(systeml) をなす。

構造 (文法)

形態論 (morphology) : 語の構造を扱う。
統語論 (syntax) : 文の仕組みを探る。
文章論 : 文章の成り立ちを考察する。ヨーロッパではテキスト言語学、アメリカでは談話分析 (discource analysis)、日本では文章談話研究と呼ばれることもある。

形態論

語

語の定義は意外と曖昧である。ただ、文中で独立して現れることができる何らかの要素が認められているので、曖昧な部分を残しながらも「語」という用語が使われている。

「食べさせられたがらなかった」は面白い例として使えそうなので、覚えておくこと。

形態素

形態素とは、意味を持つ最小の言語単位のこと。

形態素には、自由形態素・拘束形態素・クランベリー形態素の3種類がある。自由形態素は「本」「馬」「食べ-」のようにそれだけで語を形声することができるもの、拘束形態素は「-る」[-させ-]「-病」のように他の形態素と結合して現れないものを指す。クランベリー形態は、単独では意味を持たないもので、 cranberry の cran のことである。

語彙素

ある1つの概念のこと。「やま」「ヤマネコ」「頭が痛い(困ったの意)」は、どれも1つの語彙素である。しかし、「ヤマネコ」は2つの形態素を持つし、「頭が痛い」は3つの語を持つ。

全体として

書き言葉だと区別がつかないが、話し言葉だとアクセントやイントネーションで区別が付くことがある。また、仕草も含めて文法機能を果たすこともある。

* は非文を表す。

メモ

経路探索問題

NLP においてビタビアルゴリズムが紹介されることがあるが、経路探索問題についてもう少し広く記述するべきだと思う。 A* の一部でええやん。

(参照) 自然言語処理、黒橋禎夫, p40, p62

構文の表現

依存構造表現と句構造表現がある歴史的に、依存構造表現は日本語の解析で提案され、句構造表現は英語圏で提案されたらしい。依存構造表現は形容節の並列性が視覚的に分かるが、記法によっては原文の語順が分からなくなる。句構造表現では逆になる。

(参照) 自然言語処理、黒橋禎夫, 7章構文の解析(1) pp83-93

2020-01-26

2値分類 gradient boosting regression tree

GBRT で、2値分類問題を解くとき、回帰木の分割終了条件に疑問がある。

残差の符号が1種類になったとき、分割を終了するべきか？

実験して試したい。

2020-01-24

3値分類問題の決定木勾配ブースティング

new

2-classification は Gradient Boosting Regression Tree (GBRT) で解ける。 3-classification になると、 1 vs rest になると思うが、これは予測モデルが複数出力されてダサい。

そもそも 2-classification が回帰で解けるのは、クラスA を y=1, クラスB を y=-1 に割り当てているからである。ここでは、これをyの割り当てと呼ぶことにする。 yの割り当てに必要な要件を考える。

データ集合が与えられたときに、その集合の不純度を計算できること。
データ集合が与えられたときに、y の予測値を計算できること
真値と予測値が与えられたときに、残差を計算できること

要件1. データ集合が与えられたときに、その集合の不純度を計算できること。真値が y_i のとき、 \[ \sum_i(y_i - \bar{y}) \] と計算されることが多い。ここで、 $ \bar{y} $ は平均値である。

要件2. データ集合が与えられたときに、y の予測値を計算できること y の予測値は、データ集合の平均値を採用することが多い。

要件3. 真値と予測値が与えられたときに、残差を計算できること 2-classification のときは、対数損失を使うことが多い。

さて、ここで 2-classification のときの yの割り当てを変更する。 y=(a, b) s.t. a+b=1 とする。これで、先のyの割り当てと一致するように、要件 1-3 を構築したい。それができれば、 3-classification のときに、 y=(a, b, c) s.t. a+b+c = 1 と自然に拡張できると思う。

TODO

old

2-classification は Gradient Boosting Regression Tree (GBRT) で解ける。 3-classification になると、 1 vs rest になると思うが、これは予測モデルが複数出力されてダサい。そもそも 2-classification が回帰で解けるのは、数直線上で点 P で分割した領域 F_1, F_(-1) のそれぞれで不純度を計算できるからである。もう少し具体的にすると、クラスA を y=1, クラスBを y=0 に当てたとき、y を実数にして残差を考える。これの見方を変えて、クラスAの軸を d_1, クラスBの軸を d_2 として、 d_1 座標を a, d_2 座標を b とする。そして、 y = (a, b) s.t. a + b = 1 と割り当てて、これを予測する問題だと捉え直す。このとき、もともと考えていた数直線は d_1, d_2 の2軸の直交座標空間における、点P_1=(1,0) 点P_2=(0,1) を結んだ線としてみなせる。点Pで直線を分割すると、P_1 から P までの領域 F_1 と P_2 から P までの領域 F_2 に分かれる。ここで、F_i は P よりも P_i に近い点集合で構成される。また、F_i の不純度は F_i に含まれるデータ集合の中点を M_i としたとき、各データ点から M_i までの距離の2乗和として定義されることが多い。

さて、これを 3-classification に拡張したい。つまり、d_1, d_2, d_3 の3軸の直交空間における P_1=(1,0,0), P_2=(0,1,0), P_3=(0,0,1), で作られる三角形を点Pで分割することを考える。領域 F_i は点 P よりも点 P_i に近い点集合で構成され、 F_i の不純度は各データ点から中点までの距離の2乗和で定義できる。

f:id:readleaf:20200124204345p:plain

追記

残差は大きくなることもあるので、三角形の内部にデータ点が存在するとは限らない

2020-01-22

情報幾何学の基礎

本

情報幾何学の基礎藤原彰夫 ISBN978-4-434-20881-2

序

情報幾何学は、確率分布からなる空間の幾何学的性質の探求に源を発する

第0章準備

陰関数定理

C¹ 級関数とは、微分可能かつ $ f'(x) $が連続

(参考) C1級関数,Cn級関数などの意味と具体例 | 高校数学の美しい物語

2020-01-22

LCL (少ない計算量でHBMを模倣したモデル)

論文

Language Acquisition and Probabilistic Models: keeping it simple

Aline Villavicencio, Marco Idiart, Robert Berwick, Igor Malioutov

概要

HBM (Hierarchical Bayesian Models) って

言語獲得のモデルとして使われることが多いけど、計算量が多い。

そこで、HBMはデータ量が少ないあいだは事前分布に、

データが増えるに従いMLE (maximum likelihood estimation)に近づく性質に着目し、

HBMに変わる計算量の少ないモデル LCL (linear competition learning) を提案する。

問題

draft

動詞が与えられた時に、

dod (a direct object dative)
pd (prepositional dative)
both

を分類する問題

アイテム

baker paradox

bibtex

@inproceedings{villavicencio2013language,
  title={Language acquisition and probabilistic models: keeping it simple},
  author={Villavicencio, Aline and Idiart, Marco and Berwick, Robert C and Malioutov, Igor},
  booktitle={Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)},
  pages={1321--1330},
  year={2013}
}

2020-01-15

このブログについて

このブログでは、私の読んだ技術書・論文のメモを残していきます。

記述テスト

Online Latex Equation Editor - Sciweavers 数式オンラインエディター
font: Modern, size 24

$\sum_i^n=1^n x = y^3 + z_2$

def hoge():
    echo hoge

print(5)