図:ウィキペディアのページ(https://www.wikipedia.org/から引用)
ウィキという不特定多数の人がウェブコンテンツを編集できるシステムは1995年からあるらしいが,自分がそれ知ったのは,たぶん2000年を越えてからだった。ウィキのシステムを使って,世界中のボランティアが参加して編集できるオープンで多言語のフリー百科事典であるウィキペディアがスタートしたのは2001年だった。
現時点での各言語版のWikipediaで100万記事以上あるのは,19言語だ。1. 英語,2. セブアノ語(フィリピンの一方言),3. ドイツ語,4. フランス語,5. スウェーデン語,6. オランダ語,7. スペイン語, 8. ロシア語と続く。中国語は12位,日本語は13位,朝鮮語は23位である。総言語数は361,総記事数は6700万である。
ChatGPTに相談して,主要言語(英,独,仏,伊,中,日,韓)の記事に対する平均長を求めてもらった。記事のデータ量はWikitextというマークアップ言語の全体で計られる(APIでも取得可)。また,各言語ごとにデータバックアップの統計があるので,Wikitextの圧縮後総データ量はわかる(日本語の例,jawiki-latest-pages-articles-multistream.xml.bz2 をみればよい。)。
その結果は以下のようになっていた。
言語 記事数 圧縮後 展開後推定 平均日本語 約150万 4.73GB 約25GB 約17kB/記事英語 約717万 26.2GB 約131GB 約18kB/記事フランス語 約275万 7.11GB 約36GB 約13kB/記事ドイツ語 約312万 8.10GB 約41GB 約13kB/記事イタリア語 約197万 4.35GB 約22GB 約11kB/記事中国語 約153万 3.47GB 約17GB 約11kB/記事韓国語 約74万 1.35GB 約6.8GB 約9kB/記事
あれっ?自分の(物理学関係の記事をみての)印象は,日本語版は英語版よりかなり中身が薄い(1記事あたりの分量が少ない)ものが多いというもので,意外な結果だった。そこで,Geminiにその理由を聞いてみた。
1.英語は1文字1byteだか,日本語(UTF-8)は1文字3byteなので,同じファイル容量のうちのテキスト部分では,日本語の文字数は1/3になってしまう。
2.英語版は出典が多いが,1文字1byteなので,全体の容量増への影響は少ない。このため出典部分の見栄えの効果でより内容が充実して見える。
3.英語版は格差が激しい「ピラミッド型」である。数百万規模のボット製「数行だけの記事(地名・生物等)」が平均値を強烈に引き下げる。その結果,トップ層(物理学など)がどれほど巨大でも、全体平均は18kB程度に落ち着く。
一方,日本語版は中堅層が厚い「寸胴(ずんどう)型」であり,英語版ほどの「大量の超短文記事」が少なく,平均値の底上げが起きている。トップ層の記事が英語版より薄くても,裾野が広すぎないため,平均値で見ると英語版と同水準に見える。
ということであった。
0 件のコメント:
コメントを投稿