東日本大震災ビッグデータWS project 311に参加する その2
twitterによるURL共有情報の分析 その2
昨日に引き続き,URL共有情報の分析を行う.データ概要は昨日参照.tweet内に含まれるURLの総数は28,601,436,unique数(種類)は名寄せ前で8,312,928.
第一段階として,名寄せ前の出現頻度の多い上位500のみを対象として名寄せを行う.本当はすべての名寄せを行いたいが,pythonのurllib2.urlopen().geturl()を用いるとリクエストにどうしても時間がかかってしまい,処理時間が膨大になってしまうので,まずは上位500に絞って傾向を見ることで,分類軸を考えることにする.(名寄せの方法の良い方法なにかありませんかね…?昨日に突然,bit.lyさんからイケメンな提案がされていたので,bit.lyはそのデータとすりあわせればなんとかなるかもしれない.まだ見てないけど.)
※追記:
というアドバイスを@jnakanoからもらったので,その方針で考えてみる.
出現上位500のURL総数は4,965,842で全URLの17.3%である.参考のため,出現上位10,000のURL総数は11,271,029(全URLの39.4%),出現上位100,000のURL総数は15,986,720(全URLの55.9%)である.
分類はとりあえず雰囲気で以下のように分類.また,名寄せ後は前回とランキングが大きく変化していた.たとえばperson finderが3位,SAVE JAPANが4位になるなど.しかし,その辺の変化は今回は割愛.特徴的なのはtwitpicなどの画像投稿サイト,Ustream,Google関連(person finderや避難所名簿共有サービス ,google mapのマッシュアップなど)が多いことか.twitterユーザーなのでこの傾向は当然なのかもしれない.意外な健闘としてブログやキュレーションサービスが強い点がある.相対的にマスメディアは弱いように思えるが,記事ごとのurlがリンクされることが多いので,上位500には入らなくても,もっと下位から集計すれば大きくなる可能性は十分にある(おそらくyoutubeも同様).報道機関に頼らない直接情報としては東京電力,国・自治体だが,それほど割合としては多くない.やはり加工された情報を求める傾向にあるのだろう.その他は分類できなかったものも一部含まれるが,大半はスパム.
category | freq | percentage |
---|---|---|
画像投稿(Twitpic, フォト蔵,ついっぷるなど) | 630474 | 12.70 |
Ustream | 588111 | 11.84 |
Google関連(Person Finder, 避難所名簿共有サービスなど) | 321441 | 6.47 |
通信会社系(docomo, au, softbank, willcomなどの災害時伝言板) | 284032 | 5.72 |
ブログ | 181575 | 3.66 |
まとめ・キュレーション系(NAVERまとめ,togetter,All aboutなど) | 158924 | 3.20 |
被災地支援(SAVE JAPANなど) | 155967 | 3.14 |
避難所・炊き出し | 152362 | 3.07 |
新聞メディア | 138960 | 2.80 |
東京電力 | 127097 | 2.56 |
義援金(T-site,ユニセフ,Yahoo,google, 4gamerなど) | 106054 | 2.14 |
NHK | 104913 | 2.11 |
診断メーカー | 94462 | 1.90 |
計画停電 | 87242 | 1.76 |
Youtube | 77460 | 1.56 |
pray for japan | 67324 | 1.36 |
国・自治体 | 56917 | 1.15 |
医療 | 56857 | 1.14 |
ネットメディア(GIGAZINE,Yahoo! news,秒刊サンデーなど) | 47748 | 0.96 |
海外メディア(NY times, daily mail, CNN, ABCなど) | 41832 | 0.84 |
ニコニコ動画(ニコニコ生放送.ustとまとめるべきかも) | 39590 | 0.80 |
原発・放射線 | 37850 | 0.76 |
アプリ(iphoneアプリ.災害伝言板アプリなど) | 29760 | 0.60 |
交通(ジョルダン,JR東など) | 28460 | 0.57 |
radiko | 12922 | 0.26 |
気象・津波 | 5733 | 0.12 |
その他 | 1331775 | 26.82 |
全部載せても仕方ないのだが,ブログや個人ページ,ネットメディアなどのURLを載せてみる.2chまとめがブログとまとめに分かれて入っていたりするので分類は適当….
ブログ,まとめ・キュレーション,ネットメディア
現地を見てきた,震災時に気をつけること,感動系の話などが多いですね.これも時系列でみていくとおもしろそうです.
原発・放射能,計画停電
このあたりは昔からあったweb siteが引用される,計画停電用に新たなsiteがつくられる,などの動きがあります.
rank | url | freq |
---|---|---|
49 | http://club.pep.ne.jp/~tsunoda/housyasen.html | 19148 |
150 | http://trustrad.sixcore.jp/risk_comparison.html | 8312 |
242 | http://www.iam-t.jp/HIRAI/pageall.html | 5385 |
264 | http://park18.wakwak.com/~weather/geiger_index.html | 5005 |
rank | url | freq |
27 | http://setsuden.tumblr.com/ | 31006 |
50 | http://keikakuteiden.com/ | 18913 |
76 | http://machi.userlocal.jp/teiden/ | 14674 |
120 | http://www.toto.co.jp/News/dansui_teiden/ | 9792 |
172 | http://noveliba.jp/teiden/ | 7576 |
247 | http://setsuden.yahoo.co.jp/ | 5281 |
画像投稿
リンクが切れているものもありますが,当時よく見かけたなぁという画像があります.デマもありますね.
診断メーカー
圧倒的じゃないか,我が軍は!!!
rank | url | freq |
---|---|---|
64 | http://shindanmaker.com/95986 | 15693 |
95 | http://shindanmaker.com/92217 | 11842 |
108 | http://shindanmaker.com/96052 | 10532 |
126 | http://shindanmaker.com/97039 | 9309 |
184 | http://shindanmaker.com/22767 | 7105 |
208 | http://shindanmaker.com/76756 | 5975 |
210 | http://shindanmaker.com/84096 | 5920 |
239 | http://shindanmaker.com/95981 | 5410 |
241 | http://shindanmaker.com/90903 | 5386 |
255 | http://shindanmaker.com/50479 | 5124 |
325 | http://shindanmaker.com/66678 | 4180 |
342 | http://shindanmaker.com/73821 | 4014 |
347 | http://shindanmaker.com/68199 | 3972 |
診断メーカーをオチにしてしまって診断メーカーの中の人に申し訳ないと思いつつ,いやいや,スパムに分類してないんだから愛があるだろ!と思わざるを得ません.今回の分類を行うために名寄せ後のURLにアクセスしまくったのですが,スパムが多すぎて大変心が折れました.こんなにスパムを踏まされたのは初めてです.研究室でいきなりエロサイトに繋がったときの私の心情を140字以内で述べよ.
冗談はさておき,今回の震災は有史以来最も記録(ログ)が残った震災と言われています.twitpicの多さがそれを端的に表しています.どうしてもバズるtwitpicはおもしろ画像や感動画像に偏りがちですが,被災地で撮られた生の写真もまた,過去の震災に比べて膨大になっているはずです.そのあたりにうまくアタックできればいいですね.
震災当初,被災地ビューアーというtwitpicをクロールして被災地の画像を集めまくって震災直後から復興するまでの全過程を自然に集めるようなweb siteをつくろうかと思いましたが,D論書かなきゃいかんかったり,時間がなかったり,スキルがなかったり,やる気がなかったりで頓挫してしまいました.これも今からでも間に合うかもしれないので,スキルのある方と組んでできればいいなと思います.
昨日のオフィスアワーには参加できなかったですが,google hangoutで見て(聞いていた)限り,大変盛り上がっている様子で羨ましくもありました.ついでにtwitterの緯度経度座標もapi叩けば取得できるという話もあったみたいで,夢が広がりんぐです.本日は本格的な基礎集計のための基礎的な分類作成という感じですね.相変わらず大きな方針はまだ決まってないのですが,twitterの緯度経度が使えると,ちょっと面白いことができるかも.