2026年4月30日木曜日

物理学者(2)

物理学者(1)Wikipedia からの続き


図:Wikipedia文字数の比較(英語版,6言語版平均と日本語版)


日本語版Wikipediaの物理学者の項目について考えようとしている。この領域で自分が感じている「英語版や他言語版に比べて日本語版の記事の内容が薄いのではないか」という問題をより具体的に検証してみた。その方法は次の通りである。

(1) 日本語版Wikipediaに記事がある代表的な物理学者を選ぶ。ここでは1940年より前に生まれた人を137名選んだ。ChatGPT,Gemini,Claude,Deepseek,Qwen などに参考意見を仰ぎつつ,最終的には自分の主観で決めている。人名と生年のリストを作って,name.txtに保存する。
(2) 人名とその生年を入力すると,日本語ja版Wikipediaの記事のリンクから,他の6言語版のWikipediaの対応人名記事を探す。6言語とは,英語en,フランス語,ドイツ語de,イタリア語it,中国語zh,韓国語koである。
(3) これから,各言語版記事ページのマークアップ言語サイズであるWikidata値を求め,さらに,本文の文字数推定値*を求めて,いずれかを出力する。その形式は,人名(日本語),生年(西暦年4桁),ja値,en値,fr値,de値,it値,zh値,ko値,平均値である。バイブコーディングによりそのようなpythonコードをChatGPT Thinking に作ってもらう。なお,Wikidata値か文字数推定値かはコマンドラインオプションのbytes または chars でスイッチする。
(4) (1) のname.txtを読み込んで,(3) のpythonプログラムを順に適用し,その結果を result_xxx.csv に保存するシェルスクリプトを同じくChatGPT Thinkingに作ってもらった。
(5) この結果得られた137行の文字数推定値データを,6言語平均値で降順にソートして,横軸に人名番号,縦軸にその人名記事ページの,英語(紫),6言語平均値(水色)と日本語(橙)の値をExcel面グラフで作成したものが,上記の図である。日本語記事の英語換算文字数ja*は,6言語平均の52%,英語の27%となっていて,この領域の日本語版Wikipedia記事の内容が薄いことが確認された

*注:各ページのマークアップ言語Wikidataから,文字数推定値を求める際には,テンプレート,注釈・出典,メディア・カテゴリ,HTMLタグ・コメント,Wiki記法などを取り除き,リンクや空白を平滑化した上で,残りの文字数をカウントしている。

  name no en av ja*  ja*/av ja*/en
ガリレオ・ガリレイ166421615832263837%34%
アルベルト・アインシュタイン286700609653250953%37%
ニコラ・テスラ356698475981048622%18%
アイザック・ニュートン484501469082007343%24%
ロバート・オッペンハイマー578045456983037366%39%
オットー・ハーン6648153710116044%2%
レオンハルト・オイラー73833035416691320%18%
リチャード・ファインマン856560315541538949%27%
ロバート・フック937468303681854061%49%
ジョン・フォン・ノイマン1093504299491829561%20%
ヴェルナー・ハイゼンベルク115502629830402914%7%
アンリ・ポアンカレ124530728950401114%9%
マリー・キュリー13406212850837860133%93%
エンリコ・フェルミ144505525790433017%10%
マイケル・ファラデー1531297244811443859%46%
ルートヴィッヒ・ボルツマン162280524480597224%26%
マックス・プランク1734893243442242492%64%
ピエール=シモン・ラプラス185388924344242210%4%
ニールス・ボーア194456323062579725%13%
リゼ・マイトナー2054727225982226899%41%
クリスティアーン・ホイヘンス21548802212017128%3%
ジェームズ・クラーク・マクスウェル223554321729513124%14%
ウィリアム・トムソン234447820093486124%11%
ニコラ・レオナール・サディ・カルノー2422200196491497776%67%
エットーレ・マヨラナ2514385188891115159%78%
ジョゼフ=ルイ・ラグランジュ263185518365237313%7%
ジャン・ペラン279928154877765%8%
マックス・ボルン283257715190166311%5%
ポール・ディラック293566414997683346%19%
アーネスト・ラザフォード302074714259512736%25%
呉健雄314330813967290421%7%
ヘルマン・フォン・ヘルムホルツ321655813867219216%13%
ヘルマン・ワイル331850613721779057%42%
ロジャー・ペンローズ342576813654616645%24%
ヴィルヘルム・レントゲン351032213620590443%57%
ヴォルフガング・パウリ361623513225761758%47%
デヴィッド・ボーム3725348128191256598%50%
エルヴィン・シュレーディンガー382512612803511840%20%
ウィラード・ギブズ394540212415750060%17%
ヴェラ・ルービン402048412266287823%14%
アーノルド・ゾンマーフェルト41237391214510238%4%
レフ・ランダウ421472912083441637%30%
ルイ・ド・ブロイ431917512028424535%22%
ウィリアム・ショックレー44260731127313072116%50%
アブダス・サラム454383911158120111%3%
ハンス・ベーテ463506511073241922%7%
ジェームズ・チャドウィック47328841086319725182%60%
ジョン・アーチボルト・ホイーラー482364810844257624%11%
レオ・シラード49321491069634566323%108%
ユージン・ウィグナー502332810516199819%9%
チャンドラセカール・ラマン5146081103497147%2%
ヘンドリック・ローレンツ521425810016563656%40%
ジョン・クラーク・スレイター533233599648028%2%
ジェームズ・プレスコット・ジュール54145049879780179%54%
アンドレ=マリ・アンペール55105319767399341%38%
フリーマン・ダイソン56282049731531655%19%
ウィリアム・ローワン・ハミルトン57204379607155316%8%
楊振寧58159749400205522%13%
アーネスト・ローレンス59337109317408544%12%
ヴァルター・ボーテ60199509199134815%7%
トーマス・ヤング61169638855196722%12%
ハインリヒ・ヘルツ621814287769110104%50%
ジョージ・ガモフ63230038692230427%10%
オリヴァー・ヘヴィサイド6420328849113447158%66%
ルイス・アルバレス65270208376316538%12%
スブラマニアン・チャンドラセカール66228628289189623%8%
マックス・フォン・ラウエ6719110820715077184%79%
アルバート・マイケルソン68203227836600277%30%
ポール・エーレンフェスト6912994776111887153%91%
カール・シュヴァルツシルト70135817669146419%11%
イジドール・イザーク・ラービ7127567764617221225%62%
ゲオルク・オーム7286207570479663%56%
ジョゼフ・ジョン・トムソン732161575679048120%42%
フィリップ・レーナルト74115787514618482%53%
ピーター・デバイ75225037252140119%6%
ニコライ・ボゴリューボフ7623010721991713%4%
ピエール・キュリー7791897155461765%50%
マリア・ゲッパート=メイヤー78128856891173525%13%
ルドルフ・パイエルス79240576878133319%6%
ヴァルター・ゲルラッハ8087446517645199%74%
アーサー・コンプトン8119446651311290173%58%
ロバート・ミリカン821947565038126125%42%
パスクアル・ヨルダン83856664915679%7%
エミリオ・セグレ84197046334144623%7%
ハンス・クリスティアン・エルステッド8596896268387862%40%
スティーヴン・ワインバーグ86167096053324754%19%
ジュリアン・シュウィンガー87148555733150226%10%
ジョン・バーディーン88185915604311656%17%
ヒュー・エヴェレット3世891363755149412171%69%
マレー・ゲルマン90129545509271549%21%
サティエンドラ・ボース9113808545164112%5%
グスタフ・キルヒホフ9269955411133125%19%
ウィリアム・ローレンス・ブラッグ931750053596378119%36%
ルドルフ・クラウジウス94526653115998113%114%
ウォルター・ブラッテン9512438504756611%5%
ピーター・ヒッグス96148244841203742%14%
湯川秀樹974739481811304235%239%
李政道98104024766163134%16%
ヴァルター・ハイトラー9911535474763713%6%
ラルフ・クローニッヒ100980247415960126%61%
ヨハネス・ファン・デル・ワールス101124904701261456%21%
ヘルマン・ミンコフスキー10265014597247054%38%
ウィリアム・ヘンリー・ブラッグ1031490044824666104%31%
アンリ・ベクレル10495484392153935%16%
ジョン・ウィリアム・ストラット105798943085104118%64%
ジョン・スチュワート・ベル106132364254101624%8%
オットー・ロベルト・フリッシュ107762841224903119%64%
ピーター・ゼーマン108599338644133107%69%
ラルス・オンサーガー109106053811105028%10%
オットー・シュテルン1103883375393425%24%
ヘイケ・カメルリング・オネス111831337146373172%77%
セオドア・メイマン11211420362888824%8%
ジェームズ・ジーンズ11382543617109630%13%
ピョートル・カピッツァ11479713495207259%26%
チャールズ・タウンズ1151075833977242213%67%
フェリックス・ブロッホ11667273380153946%23%
シェルドン・グラショー11766073226182357%28%
ヴィルヘルム・ヴィーン11842063185241676%57%
朝永振一郎119494231286523209%132%
ネヴィル・モット1209288292391831%10%
フィリップ・アンダーソン12185572842156855%18%
フリッツ・ロンドン1225337249464726%12%
ジョージ・ウーレンベック123648524852884116%44%
レオン・クーパー12469392354114849%17%
エドワード・ミルズ・パーセル12542092327213892%51%
ウラジーミル・フォック1262962224864429%22%
ルドルフ・メスバウアー12738332248161872%42%
ヴィクター・ワイスコフ128555822212534114%46%
ヘンリク・アンソニー・クラマース1293556220197344%27%
カール・デイヴィッド・アンダーソン130399621482709126%68%
サミュエル・ゴーズミット1315771201371135%12%
ウィリアム・ファウラー1325146200792546%18%
ジョン・ヘンリー・ポインティング1334273198272036%17%
ジョン・ロバート・シュリーファー134519119752383121%46%
クリスチャン・メラー13521661963136970%63%
オスカル・クライン13631321853129870%41%
ヨハネス・リュードベリ1373295182960533%18%
 平均文字数 2210111576598652%27%


日本語記事の英語換算文字数
推定文字数を直接比較すると,日本語と英語の担う情報量の差が考慮されていないことになる。そこで,英語版のWilhelm Lenzとこれを直訳した日本語版のヴィルヘルム・レンツのwikitextからChatGPTが導いた推定文字数を較べる。これらは同じ情報を担っているはずだ。英語版=2600字,日本語版=1750字,∴2600/1850=1.4 。そこで,日本語版文字数jaを1.4倍したものを英語と比較すべき英語換算文字数ja*として比較している

0 件のコメント:

コメントを投稿