« マンガにツッコんでみた | Main | 『憲法九条を世界遺産に』を読んでみた »

ロングテールとゼロと正規分布

【あらまし】 Web2.0系の話題でよく言及されるロングテールはインチキじゃね?という件についてアレコレ語ってみた。
【キーワード】 [ロングテール][正規分布]

ボーっとfinalventの日記を読んでたらこんな記述↓があってズラズラっとリンクが並んでました。


■べき分布、正規分布メモ 09:59

 直感的にはロングテール現象の数学(統計学)的な説明は実は冗談なのではないかとqうぇrちゅいおp


で、リンク先の複数エントリをツラツラと読んでみたんですけど、うーん、「ロングテール」現象ってそんな風に語られていたのか!という驚きがまずありました。

悪徳商法?支店のエントリにはこんなこと↓が書いてあって、オイラは「?」となるわけですよ。


つまり、逆に変換していくと、ロングテールの法則を支配しているのは、正規分布だったということになる!!素晴らしい。

え?もともとそうなんじゃないの?って思ったんですけど。「逆に変換」ってのが全然わかってないですけど。

うーんと、オイラの理解(誤解?)について書く前に一応世間では「ロングテール」というのはどういう風に語られているのかチェックしてみますか。


『80対20の法則を覆す ロングテールの法則』という本があります。ロングテールはWeb2.0をめぐるキーワードの1つですが、このキーワードを説明するのに、上の本のタイトルのように「80対20の法則を覆す」といった形で説明されることがよくあります。

引用はDESIGN IT! w/LOVEから。

なんかよくわからんのですけど「80対20」というのがパレートの法則というものらしい。2割のものが8割を占める...みたいなヤツですね。2割の商品が全売上の8割を占めるとかそんな感じで。

あー、でもそれだと「ロングテール」が否定しようとした対象に「正規分布」は全然関係しないような気がするけど。そもそも「ロングテール」っていうのはこの「パレートの法則」を覆すというものとして出て来たらしい。どう覆すのか?というとどうやら2割8割の比率が変わるという話らしい。


 Web2.0を語るキーワードの1つに「ロングテール」がありますが、この言葉を巡っては多くの誤解があります。その誤解の1つはロングテールが従来の80:20の法則を覆すものだということです。

 これに関しては、Long Tailの提唱者Chris Andersonが最初に示したAmazonが売上の57%を上位10万以下の商品からあげているという衝撃的な報告から端を発しています。しかしその後、Chris Anderson自身がブログでこの数値を36%から20%後半へと下方修正しています(参考:A methodology for estimating Amazon's Long Tail sales)。 57%から20%後半となると数字的には大きな違いがあり、「さんざん煽っておいてなんだ」と批難の声も上がっているようですが、問題の本質としてはその割合が何対何になっているかということではありません。もともとパレートの法則と対比して語られることもあるロングテールですが、実際にはパレートの法則の1バリエーションでしかありません。ここにそもそもの誤解が存在するのです。


引用はMarkeZineから。

よくわからんけど、「ロングテール」と「パレートの法則」は同じものなので一方が他方を否定するようなものではないらしい。そしてこれらは「べき分布」というのとも同じものらしい。

じゃあ「正規分布」の話はどこで出てくるのかというと、ビジネス(?)とかの場では従来は「正規分布」モデルを使うのが普通だったけど、でもそれって実体と違うよね?とかいう話になってるようなんですよ。

なんか「今までの常識を覆す!」とか「新しい!」とか言ったときに色んなものがゴッチャになったんじゃないかと。

つまり新しい「ロングテール」という考えが従来の古い(統計上の?)考えを覆す!と言ったときに「パレートの法則」も「正規分布」もゴッチャにして否定したと考えている人々がいる...ってことなんですかね。全くよくわかりませんが。

えーと、で、ここいらでオイラの理解(誤解?)する「ロングテール」についてちょっと書いてみましょうかね。

っとその前に...というか「べき分布」がそこら中に存在するという話の中で「自然言語」の話も出て来てますので、それについて触れるあたりから斬り込みますか。


ベキ分布は、他にも地震のエネルギーや音楽CDの売上、企業の所得の分布などに見られると言われています。また、一見、ランダムな分布になると思われるWebのネットワークにおける被リンク数の分布や自然言語の単語の利用状況がベキ分布を示すことも、『新ネットワーク思考―世界のしくみを読み解く』でスケールフリー・ネットワークについて紹介しているアルバート・ラズロ・バラバシらの研究によってもわかっています。

引用は一つ前と同じくMarkeZineの棚橋弘季先生の記事から。

「自然言語の単語の利用状況」って書いてますね。これは確かにそうなんですけど、これについては留保も必要なんですよ。このあたりを糸口にして話をしてみますか。

「語」にまつわる定義は色々面倒なんですけど、ここでは簡単のためになんとなく「単語」という用語を使っておきます。で、個々の単語の使用頻度を実際の有限なコーパス(←コーパスもまともに定義すると面倒になるので、なんとなく実際に使用されたテキストを膨大に集積したものということにしておいてください)について調査すると確かに「べき分布」っぽいカタチになることが知られています。

つまり2割8割というような値とは限りませんが、少数の単語type(単語の種類)が単語token(実際に使用された単語)全体の大部分を占めるような感じになります。

もうちょっとアレな感じで書きますと、たくさん使用される(tokenが多い)単語typeはちょっとしかなく、ちょっとしか使われない(tokenが少ない)単語typeはたくさん存在する、という感じです。

これを適当にグラフにすると「ロングテール」っぽくなります。

ただオイラが見慣れているのは一般によくあるロングテールのグラフと縦軸横軸が違います。縦軸にtype数、横軸にtoken数となっているのが多いです。右端の方に出てくるのがtoken数が多くてtype数が少ないものになります。商品で言えばバカ売れする少数の商品みたいな感じで。そんで左端にはtoken数が少なくてtype数が多いものが位置します。商品で言えば売れない多数の商品みたいな感じ。

ロングテールのグラフではこの縦と横が入れ替わっていて、右端にtoken数が少なくてtype数が多いもの(売れない多数の商品)がきて左端にtoken数が多くてtype数が少ないもの(バカ売れする少数の商品)がきます。ま、こう書かないと右端がシッポに見えないですからな。

ただ、「正規分布」との関係を見るときにはオイラが見慣れている方のグラフで見た方がわかりやすいような気がします。

えーっとですね、上で引用した棚橋先生の記事では「自然言語の単語の利用状況」が「べき分布(=ロングテール)」になると書いているわけですが、これはもっと諄くいうと「自然言語の単語の有限な利用状況」ではそうだ、ってことなんですよ。「有限」なサンプルではそうだ、ってことなんですな。「無限」だったらどうなるか?はわかってないのですけど。

ただ結構有力な説として「無限」だったら「正規分布」になるというのはあります。出現するtoken数が異常に多い極少数の単語typeがあって、token数もそこそこなtypeがそこそこ数あって、token数が異常に少ない極少数の単語typeが存在する...というようなモデルが予測されています。

そんじゃ、実際のサンプルと違うのになんでそんなことが予想できるのかというと、有限なサンプルの規模を変えるとhapaxが新たにどんどん出てくるからなんですな。えーと、hapaxっていうのは使用頻度が一回の単語のことです。

つまり規模の小さい有限サンプルで単語使用状況を調べるとhapaxがたくさん出てくると。でもサンプルの規模を大きくしてやると小さいサンプルでhapaxだったやつが複数回出現したり、新しいhapaxが出現してきたりするわけですよ。

これは簡単な原理の話でして、出現率が1/10000の単語と1/10000000の単語があったときにサンプルコーパスの単語token総数が100語程度だった場合、前者も後者も出現数はおそらく0回でしょう。でもサンプルtoken数が100000ぐらいだったら前者は複数回出てくるのに対して後者は全く出て来ない(かhapax)というような差が生じてくると予想できます。

うまく説明できてない臭いですけど、「自然言語の利用状況」を調べるためのサンプルが大規模になればなるほどhapaxとか0回出現だったものの差異が顕在化するってことなんですよ。ま、この差異の顕在化っていうのはhapax領域(Large Number of Rare Evants...略してLNRE領域)だけじゃなくて全体的に出てくると考えても良いのではないかとも思いますけど。

なんつーのでしょうね、潜在的な自然言語の無限な利用状況では「正規分布」になるはずのところが有限なサンプルのもとではどうしても「べき分布」的な現象として表れてしまっている、ってことですかね。

このモデル(?)を当てはめて、左端(よくあるロングテールのグラフでは右端)に固まっている(あるいは出現さえしていない)ヤツを一緒くたにしてはいかんのではないか、というか大規模なサンプルを取ればその中の差異が顕在化するんじゃないか、こういうことが商品販売なんかでもいえるんじゃないか?というのがオイラの理解する「ロングテール」だったんですけどね。

「売れない商品」として一緒くたにしていたもの中に小売規模がでかくなればそれなりに売れるものも混じっていたということがわかってきたというか。その売り上げは案外バカにならないというか。その意味で世間で誤解(?)されている「パレートの法則」の比率を緩やかなカタチに変化させるものともいえるのではないかな、と。

消費者の購買意欲(?)みたいなものが理論的には「正規分布」をしていて、でも有限な販売能力や品揃えの小売店での実際の売買データでは「べき分布」的に振る舞ってしまうと。でも小売店の規模をものすごくでかくして、なおかつ検索なんかで見つけやすくすると「正規分布」に近づこうとする力(?)が働いて「売れない」とされていたものの中にある「そこそこ売れる」ものが炙りだされて来るってことなんじゃないかと。

あと「ロングテール」にはもともと一瞬で爆発的に売れるわけではないけどずーっとながーく売れて行くもの、みたいな意味もあったんじゃなかったでしたっけ?自信ないけど。

で、そういう場合でも従来のような各地に多数存在する似たり寄ったりの品揃えの小規模書店でしか書籍を取り扱っていなかった場合には激しく売れる商品以外はいつまでたっても売り上げ0でしかなかったと思うのですけど、アマゾンの様なカタチで莫大な品揃え(自然言語でいえば超巨大コーパス)が可能になれば「そこそこ売れる」ものが適当な時間経過すると「そこそこ売れる」結果になるのではないかと。

ま、そんな感じで。

ええと、オマケの参考文献。英語と数学が得意なカタはBaayenを、そうでない英語がアレなカタは影浦峡先生の著書も合わせて読むと幸せになれるかもしれません。不幸になるかもしれませんが(笑?)。

☆「Word Frequency Distributions

☆「計量情報学―図書館/言語研究への応用

|

« マンガにツッコんでみた | Main | 『憲法九条を世界遺産に』を読んでみた »

TrackBack

TrackBack URL for this entry:
http://app.cocolog-nifty.com/t/trackback/51548/12213490

Listed below are links to weblogs that reference ロングテールとゼロと正規分布:

» 自動で!無料で!被リンクが増殖! [大学受験レスキュー]
被リンクがSEO対策に非常に効果があるのは周知のとおり!被リンクが増えるだけで記事のないブログでも検索TOPにくることもあります。その被リンクを相互リンクではなく一方的にうけるサービスがありました!無料ですので是非ご... [Read More]

Tracked on October 26, 2006 at 01:34 AM

» 被リンクを増やすことの危険性 [ブログアフィリエイトで日給8万円]
相互リンクだろうがナチュラルリンク(一方的リンク)であろうが被リンクを急激に増やすことは、実はそれだけでスパムとして認定される可能性があります。 [Read More]

Tracked on November 09, 2006 at 10:11 AM

« マンガにツッコんでみた | Main | 『憲法九条を世界遺産に』を読んでみた »