東日本大震災ビッグデータWS project 311に参加する その7
首都圏における帰宅困難者のモデリング その4
いろいろ空き時間をみつけてはhogehogeしております.さてさて,最終発表も近いですし,ここいらで今回のWSで提供されたデータの性質についてもう一度振り返っておきたいと思います.今回のWSのタイトルは"東日本大震災ビッグデータWS"です.それに対して,○○GB程度じゃビッグデータじゃないやんけ…などの揶揄が聞こえてきますが,そこを突っ込むのはやめておきましょう.WS用にデータを小さくしているだけですし.
こんなこと,僕が言うまでもなく,皆さん気付いておられるはずですが,おそらく近年流行りのビッグデータというものはデータがビッグなことではなくて,(膨大な)ログデータということを言いたいのだと思います.今回提供されたデータはJCC, Twitter, 朝日新聞社, Google, ゼンリンデータコム, 本田技研工業, NHK, レスキューナウどの企業に提供されたデータも各企業が今回のためにアンケート調査を行ったり,個別の調査を行ったデータではなく,ログデータであります.もちろん今回のWSのために加工などの手間をかけていただいたと思いますが,基本は自動的に排出されるデータです.
それと比べて,調査データはどうでしょうか.たとえば,国勢調査の個票データはデータ量で言えば,そこそこビッグです(あくまでそこそこですよ).でも,国勢調査のことをビッグデータだと言っている人はあまり聞きません.もちろん個票データが手に入らないというのも大きいかもしれませんが.同じくサンプリングされた社会経済調査データもビッグデータとは言いません.データ量も少ないですしね.では,分析者の観点から見たこのあたりの社会経済調査とビッグデータと呼ばれるもののデータの性質の違いは何かというと,ストレートに聞きたいことを聞いてるかどうかの一点に尽きると思います.
たとえば,今回の被災地の人たちに対して,3.11から半年後や1年後に生活がどう変化したのか(元に戻ったのか)について知りたいとしましょう.「変化・元に戻る」の定義も曖昧ですから,簡単のために今回は月収が昨年の同月に比べて何%なのか,で表すことにします.最もストレートな方法は手間はかかりますが,被災地の人たちにアンケート調査などを行い,正確な値を把握することだと思います.それに対して,今回のWSは膨大なログデータからログデータの傾向を明らかにするだけでなく,その外側も明らかにできないかな?(具体的に言えば月収が昨年比でどれくらいになったのかを明らかにできないか?)そのきっかけが見つからないかな?というのがモチベーションなのではと個人的には思っています.(捉え方は人それぞれです)
猫も杓子もSNSだのビッグデータだのクラウド(最近聞きませんね)だの言う時代ですが,twitter/SNSを使ってもいない人の方がtwitterデータに異常なまでの魅力を感じているような感じを受けます.もちろんtwitterデータの解析は面白いですし,なんかビジネスに使えるかもしれないし,手軽に低コストで分析可能なデータをゲットできるかもしれないのですが,おっさん達の間でのとりあえずtwitterじゃー!という感じがどうにも腑に落ちません.僕が先日,「診断メーカーうざいですね」的な書き方をしたら,twitterを利用している人たちにとっては「あるあるwww」なわけですが,twitterを利用していない人にとっては何のことだかわかりません.twitterでビジネスおっさん(TBO)はtwitterではみんながそのとき思ったこと,感じたこと,商品に対する印象,その日起こった出来事に対してつぶやいていると思っているからビジネスになると思っているのかもしれませんが,そういうつぶやきだけではなく,TBOにとってはどうでもいい膨大なごみが含まれているわけです.アニメキャラブヒーとかね.そんなわけで,TBOにはいい加減そろそろ目が覚めてもらいたい!と願うわけであります.
あー全然話ずれた.閑話休題.
なので,個人的にはログデータからそのログの外側の実行動まで明らかにしたいってのがあるわけです.
「Tweetデータから行動データをつくる」
そこで,今回は@y_benjoさんと野良分析チームというアホみたいな名前をつけて分析をしているわけですが,「twitterのtweetの分析」ではなくて,「twitterのtweet→実行動データの生成→実行動データの分析」をしたいってのが僕のアプローチです.(@y_benjoさんのアプローチはまた異なるはずです)
そして「twitterのtweetから実行動データの生成」ってことが大変難しいなぁというのが正直な印象です.もちろんあれほどの震災でしたから,首都圏での人々は平常時に比べて様々なつぶやきをしました.しかし,それでも帰宅を開始した時刻,帰宅時刻,帰宅時の交通手段,利用した鉄道路線や駅,バス路線,かかった所要時間や費用について100%つぶやいているひとはなかなかいません.また,いたとしても「今から帰ります.私の現在地は××で,自宅は○○にあり,今から△駅から□□路線を使って,2時間かけて860円支払って帰りたいと思います」などとつぶやく人はいません.あるのは「帰宅開始」「渋谷駅なう」「自由が丘」「横浜」「コンビニ寄った」「帰宅」みたいなtweetの仕方ですし,(これでもいい方だ),「電車混んでる」「家ついた」とかだと勤務地や自宅の位置が大雑把にすら観測することができません.これはそもそもtwitterがそういう用途で利用するためのものではないのですから当然です.
なのだけれど,そういうの知りたいときにもちろんバイアスがかかっている(サンプリングが偏っている)のは受け止めた上で,アンケートとか配らなくてもだいたいわかると嬉しいよねーとも思うわけです.そしたら既存の社会経済調査データで利用されてきた分析手法もある程度は用いることが可能だと思うし,そこからわかる知見って結構あると思うのですよね.
てなわけで,無理矢理,tweetデータから行動データを作成しました.作成の仕方はtweet内に含まれている単語から大雑把に判断するというありえないほどナイーブな仕組みですが,そこらへんの改良は後ほどやればいいのでは?という感じです.まずはログデータから分析しやすいデータセットを作成して,既存の方法論に持ち込むってことがしたかったのです.でtweetデータとそこでのジオタグから帰宅交通手段,出発地や到着地,平時での徒歩での所要時間,平時での鉄道の所要時間や費用,乗り換え回数などを無理矢理つくりました.この手の分析に対するジオタグの使いづらさはやはりどうしようもないですね….出発地と到着地のどちらかが欠けているなんてことはざらです.それでも2000人程度にアンケートをばらまいた,くらいのデータセットはつくることができました.(しかし,これくらい大雑把な分析ならばあえてジオタグを使わずに地名からジオコーディングしても良い気がしました)それで,結果はこちらに載せました.うむー.まだまだ考えることあるなぁ.難しい….
twitterの分析を生業にしている方はこの「実行動データの生成」ってのはある程度の精度が担保されていれば良い商売道具になると思いますよ.(「書き手の属性推定」や「評判分析」とは異なる研究テーマだと自分は思っています)