東日本大震災ビッグデータWS project 311に参加する その6
とりあえず作業記録を残すことを目的に.
首都圏における帰宅困難者のモデリング その3
位置情報付きのtweetリスト作成プロジェクトによって作成された位置情報付きtweetを用いて,分析を行うこととする.このtweet群から@y_benjoさんによって首都圏に含まれる位置座標であり,tweet日時が2011/3/11 14:00 - 2011/3/12 10:00で,かつ利用者が20人以上のクライアントからpostされたtweetのみを抽出した.この抽出した24737ツイートのユーザーidを抽出した結果,ユニークなユーザーid数は5281である.
この中で,"帰", "歩", "バス", "電車", "駅", "命令", "指示", "ホテル", "泊", "渋滞"のいずれかの単語が含まれているtweetのユーザーidを抽出した.このユーザーid数は3062である.このユーザーidのユーザーたちは震災当日から翌日にかけて,自身の行動履歴についてつぶやいている可能性が高い.そこで,前後の文脈も参考にするために,このユニークidのツイートのうち,2011-03-11と2011-03-12のツイートを抽出した.そのツイート数は170,722ツイートであり,一人当たり55.75ツイートである.
この3062人,170,722ツイートをもとに,当日の帰宅行動データのデータセットの作成を行う.今回は目視・手作業で110名のデータをつくって推定を行った.とか,そのへんはこのレポートに書いた.どうやって3062名分のデータをつくるのかについては様々な人に要相談.
中間報告会
ひどい発表をしてきたので,割愛.
とはいえ,NLPな人,データマイニングな人とのモチベーションの違いなどは確認できたので良かった.いろいろとコラボできれば良い.「ブログでURLの分析されてた方ですよね」とか言われて死んだ.全然そっち手が付けられてません...やりたい構想としては同一twitterアカウントがつぶやいているURL間にはリンクが張られているとして,まずURL間の関係性をネットワーク化,当然URL間のリンクにはつぶやいている人数について重み付けをつける,んでもってそのネットワーク構造でなんらかのクラスタリングを行って,URLのジャンル分けをできれば良いです.というか,こんな手法既にいっぱいありそうなので,詳しい方どなたかちゃっちゃとやってくださいまし.そこから何が出てくるのかというとアレなように見えますが,まずは動的なURLと静的なURL,今回の震災の複数以上の災害の分類をした方がよいのかと思っています.