読者です 読者をやめる 読者になる 読者になる

noriaki blog はてな出張所

主に技術や読んだ書籍、考えたことなどを書くブログ。技術系ブログは http://blog.noriaki.me

Gunosyは多くのユーザに同じ記事を配信しているのか検証してみた

データマイニング 考え方

f:id:uchiuchiyama:20130506111715p:plain

Gunosyに対する批判の一部を検証してみた

Gunosyについて、色んな意見が飛び出しているようなので、簡単ですがデータを見てみました。こういうときは冷静にデータを見てみるのが良いでしょう。あくまでもデータの羅列なので個人的にどう思っているかは表明していないです。

検証した部分

検証したのは、批判における以下の部分。

つまり、Gunosyの50〜60%のユーザーは、自分と全く同じ記事を読んでいるわけだ。

これで「一人ひとりの好みに応じて配信してます」というのはさすがにキビシイw

Gunosyのレコメンドエンジンの仕組み解説 - ベンチャー・アンダーグラウンド

また、これに対するGunosy側の所感から以下の部分。

実際にGunosyを使っている友人の方がいれば見比べてみてほしいのですが、配信されている記事が25記事とも同じであるというGunosyユーザー様はほとんど存在しません。

Gunosy blog - ここ最近のGunosy関連の批判についての所感

つまり、配信されている記事がユーザ毎に同じなのか、重複している記事はどのくらいあるのか、という部分について、少数ながらデータを集めて見てみました。

検証方法

全てのデータが手に入る訳ではないのでサンプリングして分析しています。

検証の方針としては、ランダムにピックアップしたGunosyユーザの特定の日の配信記事リストから、記事URLを使って重複をカウントします (※配信記事リストの掲載位置は加味せず、リストに含まれるか否かだけを見ています)。 このとき、重複記事数が著しく多かったり、ユーザ間の重複率が批判の通りなのかを検証します。

Gunosyユーザのサンプリング

Gunosyユーザをサンプリングする方法は、簡易的ですがGoogle検索で「site:gunosy.com」を検索した上位100件の検索結果から、ユーザを抽出しました。ランダム性はGoogleの検索に依存するので少し微妙ですが他に利用出来るGunosyユーザ一覧も無いため、今回はこれを利用します。

結果として65人のユーザが抽出できました。

なお、今回はGoogle Custom Search APIを利用しましたが、再現可能なコードは技術系のメインブログに後ほど載せようと思います。

追記:再現可能なコードを「コード解説:Gunosyは多くのユーザに同じ記事を配信しているのか検証してみた | noriaki blog」に公開しました。

配信された記事一覧

昨日 (2013/05/05) に配信された記事の一覧を、Gunosyにアクセスして抽出しました。

結果として249記事が抽出できました。

これは、Gonosyサイトをスクレイピングしました。ユーザサンプリングと同様に後ほどコードを公開します。

追記:再現可能なコードを「コード解説:Gunosyは多くのユーザに同じ記事を配信しているのか検証してみた | noriaki blog」に公開しました。

結果

f:id:uchiuchiyama:20130506111715p:plain

これが横軸を記事、縦軸を重複配信数としてプロットした図です。

多くのユーザに同じ記事が配信されているのか

正確な計算はしていませんが、一般的なジップ分布(あるいは冪乗則)に従うように見えますので、全ユーザ(ほとんどのユーザ)に同じ記事が配信されているということは無さそうです。

最も重複している記事は46人に配信されており、全65人のうち約71%です。具体的には個人メディア雑感 - Market Hackでした。これもジップの法則から考えると、70%以上の人に配信される記事もあり得ると考えられます。

重複して配信されている記事はどのくらいあるのか

重複配信数が2以上(つまり複数ユーザに重複配信されている)記事は163記事(65%)で、一人のユーザにしか配信されていない記事は86記事(35%)でした。

その他の批判点

  1. GunosyがGunosyを批判する記事を配信しなかった
  2. はてブのホットエントリー記事が配信記事の大半を占める

他にも上記のような批判があるようです。(1)はGunosy blogで回答されていますね。

(2)のはてブのホットエントリーとの重複具合は、ホットエントリー記事一覧データがあれば検証可能です ね。5/5用なので5/4のホットエントリー記事一覧データがあれば検証できますが、だれか提供してもらえませんかね。また、Gunosyユーザのサンプリング方法も微妙なので、Gunosyさんからユーザ一覧(公開になっているユーザ名)などもらえるともう少し検証できるかもしれません。

参考URL

スポンサード

(c)2014-2016 Noriaki Uchiyama
※ここで書いているものは私個人のものであり、特に明示しない限り所属する企業や団体には一切関係ありません