東日本大震災ビッグデータWS project 311に参加する その3

昨日に引き続き,がんばって更新.だいぶやりたいことに近づいて来た感じがする.

twitterによるURL共有情報の分析 その3

昨日の続きで大分類は作成できそうな見通しが立ってきた.今度は各URLの特性,つまり単純な引用回数だけでなく,その引用のされ方の時間的特性を見ていくことにする.
今回は昨日の分類の中から

  1. [Ustream][報道情報]であるNHKustream放送
  2. [Google][生存確認・連絡]であるGoogle Person Finder
  3. [まとめ・キュレーション][被災地支援]であるok guideの【被災地での給水・炊き出し・物資情報共有 #takidashi 】
  4. [ネットメディア][デマ関連]である秒刊サンデーの「拡散希望」には注意!Twitterに広まるデマを見抜く方法

の4つを取り上げてみよう.

URL処理としてはこれまで正規表現で抽出したURLをpythonのurllib2でひたすら展開して短縮URL名寄せを上位10,000件まで終えたデータを用いて,今回取り上げた4つのURLと紐付けされた短縮URLを含むツイートを元データから抽出し,1時間ごとに集計したものを表示する.

NHKUstream http://www.ustream.tv/channel/nhk-gtv

初出は3/11 21時.細かな経緯は忘れたが,広島の中学生が許可を取らずにNHKの放送をそのままUstreamに放映し,それを知った@NHK_PRさんが私の独断で許可する,後で責任を取るという発言をした後に,NHK局内で正式に放映をすることを決めたという流れであったように思う.このときは本当にネットとTVは歩み寄るのではと期待したのだが….一番大きなピークは3/12 17時にある.原因を細かく見ていないが,夕方のニュースでURLを放映したか,影響力のある個人がつぶやいたかのどちらかではないか.

しかし,一番のNHK Ustreamの特徴はこの生存時間の長さである.それだけ震災時に重宝され,また何度も言及され続けたURLであるといえよう.

Google Person Finder http://japan.person-finder.appspot.com/?lang=ja

Google Person Finderの初出は3/11 16時台.かなり初動が早かったように覚えている.ピークは3/11 17時台.携帯電話が不通気味になった首都圏を中心に重宝されたのではないか.Person Finderがどれだけ利用されたか,みたいな結果ってどこかにまとめられてるんでしたっけ?もしかしたら,以下URLに記述があるかもしれない.
http://www.google.org/crisisresponse/kiroku311/

その後は大きく減少して,3日目以降はだいぶ言及が減っている.ただtwitter上の言及が減っているだけで,googleは当時トップページからリンクも貼っており,ネットユーザーにとっては共通情報に既になっていたため,わざわざtwitterで言及しなかった可能性もある.利用のされ方はアクセス解析などからなされるべきであり,ここでは「twitter上で誰かに伝えたい!」という情報ではなくなったことのみ示されている.

ok guideの被災地での給水・炊き出し・物資情報共有 http://okguide.okwave.jp/guides/40782

3つ目はOKガイドによる被災地での給水・炊き出し情報である.初出は3/12 23時台.そこから3/13にかけて大きなピークを作り,14をすぎて沈静化している.このURLは被災地向けの情報であり,携帯向けアドレスと思われるURLにtouchが含まれるものもあったが,今回はカウントしていない.このURLの生存時間はほぼ2日と言えるだろう.

このあとは別の給水・炊き出し情報と統合されたなどの流れがあったのかもしれない.これも細かく見ていく必要があるだろう.しかし,NHKUstream,person finderとは異なる傾向であることは時系列変化から読み取ることができる.

秒刊サンデーのTwitterに広まるデマを見抜く方法 http://www.yukawanet.com/archives/3598689.html


4つ目はtwitterでの拡散希望によるデマを見抜く方法として話題になったURLである.初出は3/12 15時.当時流れていたデマ情報をまとめるとともに,安易な拡散希望のRTをやめようと呼びかけた内容である.

このURL急激に尖ったピークを瞬間的に持った後にすぐに消えてしまった.当時の浮き足だった雰囲気に対して冷静になることを促した内容であるにもかかわらず,その後ほぼ言及されずにこのあともデマが(おそらく)流れ続けたことだろう.なんともやるせない.

考察まとめ

自分でグラフ化してみて,思った以上に各URLで傾向が異なることが見て取ることができた.特にNHKの生存時間の長さ,秒刊サンデーの短さは特筆に値するだろう.なんでこの4つを選んだのかということにあまり深い理由はないので,別にうまくいった結果のみ載せているのではなく,ただめんどくさいからこの4つしかやってないだけである.穿った見方で変な解釈はしないでね.災害時伝言板のURLなども分析しようかと思ったが,震災当日にピークをもち,そのあと急激に減少することは容易に想像できたのでやってない.一昨日,昨日に載せたURL,またその他のURL何でも同様の分析にかけることができるので,気になるURLがあればご連絡ください.

この生存時間の長さはおそらくそのコンテンツによって説明可能であると思われる.そのために分類のアノテーションを行いたいわけだが.一方で有用な情報であるのにもかかわらずすぐに死んでしまったURL,早く消えるべきデマ情報なのに延々と流れ続けたURLもあっただろう.このあたりの制御方策にまで踏み込めて議論できれば良いなぁと思う.たとえば有用な情報である場合は国・自治体などの公式アカウント,NHK_PRなどの準公的な機関による公式アカウントが広める,Googleなどが震災時特別ページに有用なサイトをまとめておくなどが簡単には考えられるかな.

あと,以下のURLに載っている今回のプロジェクトのうち,"位置情報付きのtweetリスト作成プロジェクト"に参加します.Rubyの使い方わかんないんですが,twitterapi叩きに参加して自分も分析しようと思います.Ruby詳しい方,赤子状態なので教えてください.
https://sites.google.com/site/prj311/project

あとは某氏も参加したとのことなので,いい感じにコラボできれば….