Prev 2009.11 Next
S M T W T F S
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30          
 
スポンサード リンク
広告
Others
  • RSS1.0
  • RSS2.0
  • atom0.3
  • valid XHTML1.0
  • valid CSS2
  • Credit
Today: Yesterday: Total: Online:
  • BookMark
  • Category
  • Archives
  • Main
  • Search
  • Comment
  • TrackBack
  • Gallery
  • Login

カテゴリー ウェブNovember 05, 2009

Twitterのつぶやき検索を考察する ID:1257376867 このエントリーを含むはてなブックマーク



Googleなど検索大手が、Twitterをはじめとするリアルタイム・ウェブを検索対象にする方法論を探っている。

Googleによれば、Twitterの結果は既にインデックス済みであり、あとはそれをどうランキング付けるかを模索中らしい。

通常のウェブページであれば、「たくさんの被リンクがあるページは価値が高い」という、あのPageRank方式が基本的なアルゴリズムになる(もちろん今ではもっと複雑なアルゴリズムを採用しているそうだが)。

しかしTwitterでは、つぶやきは基本的に垂れ流されるものであり、ReTweetなどによって一時的に「引用」はされても、ウェブページのように恒久的にリンク関係が成り立つという程の関係はない。そもそもReTweetはどんどん「伝搬」していく性質の為、オリジナルソースを見つけるのが困難な時もある。

今日はこの辺の事について、徒然と考察してみようと思う。

Twitterを検索対象にする場合、いくつかのシナリオが考えられると思う。

まず、その140字という情報量の少なさから考えて、単一のつぶやきを検索対象として検索するというケースは、割と少ないのではないかと思う。つまり、どこかに「目的とピッタリ合致するつぶやき」があるというよりも、ある目的にそって検索した結果、いくつかのつぶやきのリストが得られ、そこから世の中の動向を把握するとか、そういう目的での検索の方が多くなるのではないだろうか。

そうなってくると、重要なのは個々のランキングというよりも、全体像の把握ということになる。つまり、つぶやき内容の数値化と、その統計である。

つぶやき内容の数値化とは、主になんだろうか。検索キーワードとの関連性はもちろんあるだろうが、それ以外にあり得るのは、

・発言者の「感情」(主に「positive(好き)」か「negative(嫌い)」か)
・発言者の「興味の度合い」(メッセージが長ければ、それだけ興味の度合いが強いと言えるのでは?など)
・同一発言者が連続して同じ話題を何度もつぶやく、あるクラスタ内で同じ話題が連鎖的に起こる、等の、つぶやきの強度。
・同じ人が、そのキーワードについて長期的につぶやいているのか、短期的につぶやいているだけなのか、という、時事性。
・関連するウェブ・インデックス。
・その話題の中心となる主な人物と、その相関。

ぱっと思いつくだけでも割とたくさんある。

これらの数値化は、何らかのアルゴリズムを使えばそれなりに行えるはずだが、実際にはノイズが多すぎて、意味のある結果が出せないのかもしれない。

もしそうなった場合、考えられる方法の一つが、いわゆる「人力インデックス」。つまり、人による評価システムの導入だ。

もっとも分かりやすいのが、現在既に存在するfavorites機能をランク付けに利用する方法だろう。しかし、favoritesはフォロワー数のバイアスが強く出てしまう為、単純にそれを評価値として適用すると、一部の人気tweeterの発言ばかりが検索結果に表れることになりかねない。場合によっては、fav数をフォロワー数で割る、というような処置も必要かもしれない(もちろんそれだけでは逆にフォロワー数が少ないtweeterが有利になってしまうので、fav数の絶対数も重み付けには必要だろうが)。

また、他に考えられるのは、「つぶやきの手動グルーピング」である。
既に書いた通り、リアルタイムウェブの検索では、個々のつぶやきではなく全体としての統計が重要になると考えられる。

すると、どうやって関連性のあるつぶやきをグルーピングするかという事が重要になってくるのだが、単純にキーワードだけで抽出すると、やはりノイズが多すぎる事になるだろう。ある程度の会話の流れが存在するのであれば、やはりそれらはまとめて扱うべきだが、それを自動的に抽出するのはなかなか難しいような気がする。

となると、例えば、twitterのまとめサイトのような「いくつかのつぶやきを時系列にまとめて1ページ上に表示する」機能を、twitter自身、またはGoogleなどが用意すれば、その結果は検索に多いに活用できるのではないだろうか?

似たような別のアプローチとして、発言内容を後からグルーピングするのではなく、先に「場所」を作ってそこへつぶやきを集めようという試みもある。例えばそれはa tiny threadのようなものである。

しかし、a tiny threadは、twitterの文化とは微妙にそぐわないようにも感じる。
twitterの文化とは、個々が好き勝手に発言することで、その会話の流れが全体としておぼろげな「意味」を持ち始める所にあるように思う。

そこで現れる「意味」は、個々人が購読しているタイムラインによって異なり、人それぞれ受け取り方が違ってくる。なので、グルーピングは人の数だけあってよいし、それは発言された「後」に行われるべきではないかと感じる。

と、まぁ今日のところはこんな感じで。

思いつくままにいろいろと考えた事をメモ代わりに書いてみたが、書き始めた頃に漠然と思っていた以上に、リアルタイム・ウェブの検索というのは可能性を秘めているように思う。この分野で日本から面白いサービスが出ると良いな、と思う。

【追記】
「いくつかのシナリオがあると思う」と書いておきながら、一つしか書いてなかったので(笑)追記。

上記で書いたのは、つぶやき全体の統計・傾向を検索するケースだった。もうひとつは、「単一のつぶやき」を検索対象とするケースだ。既に書いた通り、140字という制限の為、そこに非常に重要なコンテンツがある、というケースは恐らく少ない。それよりも、「一体誰がこの話題の最初の発言者なのか」とか、「どういう発言がこのフレーム合戦の発端となったのか」というような、「ソース検索」は需要の一つとしてあり得るのではないだろうか。

そういう意味でも、twitterにおいて「コンテキスト(文脈)」の抽出は重要なように思う。
— posted by chikura @ 08:21AM | LinkMe | Comment(0) | TrackBack(0)

ツッコミをどうぞ。名前とURLはオプションです。

Comment Form
名前:   URL: 文字色: cookie?
アイコンクリックで絵文字挿入
:)
:D
8-)
;-)
:P
:o
:(
(TT)
):T
(--)
(++!)

←メールアドレスを入力しておくと新たなコメントがついた際に通知します:
        
あわせて読みたい