Hierarchical Geographical Modeling of User Locations from Social Media Posts (WWW2013)を読んだ
論文のpdfはここ
概要
TwitterやFacebook,FoursquareやGoogle+などのソーシャルネットワークサービスによってロケーションセンサーやジオタグが安価に利用可能になっている.この論文は地理情報とメッセージ内容の生成モデルを提案する.
既往研究のように予め定義(たとえばメッシュなどで)することをせず,本研究のモデルは自動的にコンテンツ上の階層構造と地理的位置情報上のサイズと位置上の階層構造を推論する.これによりかなり精度が向上した(過去のベストな結果よりも40%以上エラーが減少した)
この結果は新しい統計モデル nested Chinese Restrant Franchise (nCRF)を提案することで達成した.多くの統計的構造はユーザー間でシェアされている.つまり,各ユーザーは興味と場所において自分自身の分布を持っている.nCRFを用いることによって,次のような影響を捉えることができる.
- ツイートに対するトピックモデルを与える
- 場所固有のトピックを得る
- 場所の潜在的な分布を推論する
- トピックと場所の階層モデルを与える
- 上記のモデル内のトピックとロケーションに関するパーソナライズドされた選好を推論する.
以上より,ユーザーのツイートから正確に位置を推測することができたり,地理的な言語モデルを詳細に推定することができる.
Key Contribution
Chinese Restrant Process
- ノンパラベイズの典型的な構成要素はディリクレ過程である.
- 任意の測度からドローされたobservationsの離散分布がつくれる.
- はDPからのドローを表し,はbase measure周辺でのドローの分散をコントロールしている.
- はそれ自体が無限要素の分布である.
- 次にとなるパラメータをドローする.
- ディリクレ過程混合モデル(DPM)は観測データ点をからドローする()ことによって前述の生成過程に拡張する.
- ディリクレ過程のよくあるメタファーはChinese Restaurantである.各データ点は無限にテーブルがある中華料理店の客であり,最初はすべてのテーブルは空だが,人気に応じて客はテーブルを選択していく.その確率は
ここで,は客の選択,はテーブルに座っている現在の客の数,は現時点でのすべての客の数.
Franchises and Hierarchies
- 階層モデルをつくるための重要な構成要素は階層ディリクレ分布(HDP)
- はパラメータ
- これはまず,からをドローし,reference measureとして使うことで測度を得る.
- すべてのランダム測度を統合するために,Chinese Restaurant Franchise (CRF)
- これは各レストランがテーブルの集合を持っているが,同じ混合集合をシェアしている
- レストランkの客はテー部酢に座っている客の数に応じた確率で存在するテーブルに座ることもできるし,確率で新しいテーブルを始め,グローバルな分布から料理を選ぶこともできる.
- このグローバルな分布において,料理(mixture)は全てのレストランで使われている割合に応じて選択されるが,に比例した確率で新しいglobal dishが選ばれることもある.
The Nested Chinese Restaurant Process
- CRPsやCRFsによって単一のmixture (topic)から文書のようなオブジェクトを生成できる
- でも,トピック間の関連は与えられない
- この問題に対して,nested Chinese Restaurant Process (nCRP)が提案
- nCRPだとツリーの子のトピックをより一般化したものが親のトピックになるような木構造
The Nested Chinese Restaurant Franchise Processの基本的な考え
- 名前はCRFとnCRPから借りてきた
- nCRFは個人ごとに同じ階層構造上での個人ごとの分布をもつ
- ツリー構造上のノンパラメトリックモデル
- 各ユーザーは自分自身のツリーを持っているが,ツリー内のノード集合とその構造(親-子構造)はすべてのユーザー間でシェアしている
- nCRPを各ユーザー間で関連づける
- 図を引用していいのかわからんので引用しないがFigure 1がわかりやすい
- user によるツイートによる経路を生成したいとする
- 数式で簡単に書く
- をツリー内のノード,をノードのツリー内でのレベル,を子,を親とする.
- はノードで子が選ばれた数,
Generating Microblogs
- Tree distribution
- nCRF
- Hierarchical location model
- Generic topics
- Location specific language model
- ,
- Location specific mix of topics
- ,
- User specific tree distribution
- ここらでまとめるの力尽きたけど,アルゴリズムや実験などのsectionも当然あり
感想
トピックモデル自体,詳しくないどころか,ちゃんと理解してないのだけど,この論文のやりたいことはわかるし,おもしろい.あとはこの手の計算がどれくらい大変なのかとかを皮膚感覚でわかっていないので,ちょっとそのあたりは自由研究としてやってみたい.