「アイドルに関するデータ収集〜分析:1.1TwitterデータからDD度の可視化」
彼はこの春からアイドルオタクになったそうで、業界的にめちゃめちゃ忙しい年度末をアイドルパワーで乗り切ってくださいました。仕事がしんどいときでも笑顔でアイドルのことを語ってくれるので、アイドルに救われるっていうのはこういうことを指すのだなぁと思いました。
さて、彼の分析結果、まだ途中だと思いますけれど、これを見てコメントです。
各アカウントのフォロワー直近500人をとってきているとのことですが、これは少なくとも時期をランダムにするか、もっと量を増やすべきだと思いました。twitterのデータは、ボットやスパムアカウントの影響をどうやって排除するかというところがいつも難しくて、直近500だとその影響が大きく出てしまうのではないかという懸念があります。収集数を増やせばその影響は減りますし、時期をランダムにしても同様の効果が出ると思います。一方で、twitter apiの制約もあると思いますから、そのあたりで妥協しなければならないところもあると思うのですが。
AKB系とハロプロ系で様相が全く異なるのは、記事にもあるとおりタレントさんご本人のアカウントの影響が大きい気がします。グループのファンなのか、タレントさん個人のファンなのかというところで、ファン心理が違うのかもしれません。また、分析者本人がハロプロファンなので、AKB系のファンの動向がよくわかっていないのも、これから補強すべき所なのだろうと思います。
データ分析をするときは、その業界なりその市場に対する深い理解と愛情が必要になります。それなしには市場のメカニズムを想像することなどできません。この現象は、こうなんじゃないか、ああなんじゃないか、と、様々な想像を巡らせて、仮説を作り、検証する、の繰り返しです。一方で、あまりに深入りしすぎて森が見えなくなってしまってもダメなのが難しいところ。主観が入りすぎると、仮説が恣意的になりすぎます。そのシステムに愛情を持ちつつ、一歩引いて客観的に仮説を想像するのが、データサイエンティストのポジションです。
最後に、共起関係のネットワークを見るポイント。
共起ネットワークは、実は繋がっているところを見ていてもあまり面白くないんですね。これは、繋がっていないところを見るべきなんです。なぜここは繋がっていないのかを考えると、いろんな仮説が出てきます。例えば記事中の図を見ると(これはまだ途中の画像なのでこの先変わるかもしれませんが、ひとまず今の段階で見ると)、NMBとHKTのつながりが非常に薄い。これはなぜか。また、ネットワークの外側にあるのはJKT, BNKに加えて、momowgp、つまりももクロが外側にいて、他とのつながりが薄い。JKTとBNKは両方とも海外にあるので、共通のユーザーがいないことの意味がなんとなくわかりますが、momowgpは国内で、かつフォロワー数もそこそこ多いにもかかわらず、孤立しているのはなぜか。このあたりに仮説の種がありそうです。