読者です 読者をやめる 読者になる 読者になる

ゲーム×研究

ゲームに学術的な部分を組み込みたい(人生の目標)

確率分布について読んでみた

こんにちは,今日はコロナ社から出版されている自然言語シリーズの自然言語のための機械学習入門を読んでみました

はじめに

 自分は学生時代に統計学機械学習について学んで研究もしていましたが,改めて読むと理論の理解がまだまだだとわかりました.そこで今回は基礎の基礎となる確率分布を解説したいと思います.

二項分布

 多項分布は以下数式になります.コイントスのような二つの事象をn回行ったときにx回ある事象が起きた確率を表しています.コイントスで言うと,表である確率がp,裏である確率が(1-p)のような形です.注意してほしいのは行った試行そのもではなく,回数による確率を扱っていることです.

{ \displaystyle
P(x;p,n) = {}_n C _x p^x (1-p)^{n-x} 
}

多項分布

 先ほどの二項分布では二つの事象でしたが,それを複数に拡張したものです.事象は一度に一つしか起きないためm個の事象の確率は

{ \displaystyle
\sum_{i}^{m} p(i)=1
}

のような性質を持ちます.多項分布では起きる順番は考慮されずないため,n回の試行で各事象が起こる回数を

{\displaystyle
 k_1,k_2,...k_m }

とすると,多項分布は以下のようになります.

{\displaystyle
\frac{n!}{\prod_{i} k_i} \prod_{i} p(i)^{k_i}
}

 たとえば,10回試行して,yesが2回,noが3回,cancelが5回出会った場合上記は以下のようになります.

{\displaystyle
\frac{10!}{2!3!5!} { {p_{yes}}^2 {p_{no}}^3 {p_{cancel}}^5 }
}

ポアソン分布

 これまではデータから分布を考えましたが,ポアソン分布は数式からどのようなものが表現できるか考えるようです.数式は以下のようになる

{\displaystyle
P(x;λ) = \frac{λ^x}{x!}e^{-λ}
}

 ポアソン分布は整数を確率変数とするため,0~∞の範囲で値を取るため計算のしやすさが利点となります.そして,分布自体は多項分布と似ています

連続確率変数

 上記では離散的な確率分布を見ました.自然言語処理では離散分布を扱うことが多いですが,現実空間をモデル化する場合連続値として見る必要があるため,連続確率分布を学ぶことは重要です.ここでは,いくつか連続確率分布について簡単に紹介したいと思います.また,連続確率分布では,確率の分布を関数ととらえ,確率密度関数と呼んでいます.確率値として用いる場合は,確率密度関数pをある範囲で積分する必要があります.

正規分布

 正規分布ガウス分布とも呼ばれ,最もよく使われます.ある研究ではすべての確率的事象は正規分布に従うとも言われています.正規分布確率密度関数は分布の平均mと分散σを用いて以下のように表現されます.

{\displaystyle
p(x;m,σ) = \frac{1}{\sqrt{2\piσ^2}}exp(-\frac{(x-m)^2}{aσ^2})
}

多次元の正規分布を求める場合xの要素毎の平均や分散,xの要素同士の関係などを考慮する必要があります.

ディクレ分布

 ディクレ分布は以下のようなの確率密度関数で,トピックモデルの構築などにも使われます.

{\displaystyle
p({\bf x};α) = \frac{1}{\int \prod_{i} x_i^{α_i-1} d{\bf x}} \prod_{i} x_i^{α_i-1}
}

 以下のような性質を持つことから,確率が0,1など極端なものになりにくい特性があります.この特性は離散分布である多項分布と同様であるため,多項分布の連続化として使われることがあるようです.

{\displaystyle
\sum_{i} x_i = 1
}

まとめ

 確率分布はある事象が起こる確率を数式で表すことができます.上で上げた例は離散的な確率分布でした.自然言語処理では単語の確率が出現する確率といったように,離散的な確率が多く存在するため,離散確率分布を学ぶことは重要になります.ですが,トピックモデルを代表とする近年の自然言語処理の技術において連続確率分布を用いることも増えたため,学習しておいても損はないと思います.
 

トピックモデルについて読んでみた

 こんにちは,これから仕入れた知識のOUTPUT場所としてここを使わせていただきたいと思います.記事としてのクオリティはこれからですが,だんだんド抑止行きたいと思います.

 今日は岩波データサイエンスVer2を読んでみました.主に読んだのはトピックモデルです.

トピックモデルってなあに

 
トピックモデルは最近(といっても学術的にはかなり前)よく自然言語処理で用いられる技術です.簡単に言うとたくさんの単語からジャンルのようなものを自動的に作成するという技術です.これができるとニュースジャンルの自動振り分けとか,自作メモの意味による自動ラベル付けなどができます.

トピックって?

 トピックモデルは先ほどジャンルの自動作成といいました.ジャンルとはニュースで言うと,経済,科学,政治といったものです.これに対してトピックとは文章から自動的に生成されるものになります.トピックモデルはこの自動生成にたけたモデルになるのです.具体的にトピックモデルでは”野球”みたいな単語を受け取ってそれに対するトピックを一個”トピック番号1”のように割り当てることができます.しかし,”野球授業”とした場合,トピックは複数考えられます.スポーツなのか教育なのかこれに対処する方法もあります.

複数のトピック

 複数のトピックに対応するには,その単語のトピックを確率で表現します.例えば”野球授業”なら スポーツ:教育 = 0.4:0.6のような形です.このように複数トピックを確率的に割り当てる技術を潜在的ディクレ分配法(LDA)といいます.こうすることでより単語に対して分布の詳細度が高まります.この分析を文章内のすべての単語に行うことで,その文章のトピックの傾向を見ることもできます.

まとめ

 トピックモデルでは自動的に単語のトピックをまとめ上げる機能があることを話しました.これは自然言語処理の中で発展してきましたが,分析に用いるデータは何でもよく,人の性格の分類などにも使えるようです.また,モデルに性別や人の情報を埋め込むことである文章と人を関連付けたり,逆に誰かがある主張を読んで賛成する確率などを求めることもできるようです.これには,理想点トピックモデルと言う技術が関わっているようです.このように様々な事象と統計的にまとめ上げ,”意味”となるものを抽出できる物がトピックモデルとなります.

研究について

僕は大学院生です。

最近は研究とサークルに忙しい毎日を送っています。
研究は楽しいのですがあまりやりたいとは思えません。
今日も朝起きてやる気が起きず12時まで寝ていました。

今回は、なんでこんなにやる気が出ないのか考えてみました。
また、結論はなくこれからこうしようかなという考えで終わっています。

研究を楽しもうと思っている

なんでも楽しいほうがいい。僕はそう思っていました。研究をするうえでも自分のやりたいことを自分のタイミングで、自分がやりたい場所で行うことが一番と思っていました。

ですが最近はそれが重荷になっているのかなと感じています。自分で決めているのだからやれて当然。やれて当然のものをやることに魅力を感じないのかもしれません。

研究の仕方

今までも、カフェや図書館など今までいろいろと集中できるところ探してきました。それは、研究室にいっても集中できないと思っていたからです。周りに集中力をそぐものがある。遠いなどの理由からです。ですが、自由に時間を使ってカフェなどで研究をしていても集中力が続いている気がするだけで実は実働時間はそんなに多くはありません。僕はやった気になっていたのかもしれません。

研究室の存在

今僕が思っていることは研究室で研究をすることは心の整理であるということです。時間通りに行って、時間通りに終わる。行ってしまえば時間内に行わないといけない。自由にやっていた時には感じることのなかった制限です。しかし、制限がなければその分遊んでしまう。またいつかやればいいんじゃないかと思ってしまう。研究室というのはそんな時間の制限のなかで終わりを感じさせてくれる存在なのかもしれません。

これから

研究を楽しむことは大事です。ですが、研究の過程を楽しむのではなくて、研究の結果を楽しむことが大事だということに気づきました。そして、僕は制限された時間の中で結果を出すことに向いているのかもしれません。

とりあえず今から研究室行こうかな。。。

ブログ開始

ブログ開始

 今日から書いていきたいと思います。始めた理由は自分の考えや学んだことをまとめていこうと思ったからです。なのでブログの内容には賛否いろいろあるかもしれませんが自己成長の助けになったらなあと思います。

主なトピック

 プログラミング

 ゲーム作成

 国際関係

 ボランティア

 コミュニケーション

 などなど。。。