2023年1月10日火曜日

登録チャンネル(2)

登録チャンネル (1)からの続き

前回の確認から2年ほど経ったので,現在の状況をまとめておく。日本語でユーチュラに登録されているチャンネル数の合計は55,000ほどである。このうち自分が登録しているのは440チャンネル(0.5%のオーダー)だ。

よく見るチャンネル:
鈴木貫太郎,散財小説ドリキン,瀬戸弘司,シンギュラリティサロン,街録Ch,
ジョーブログ,バイオリンはじめちゃんねる,哲学系ゆーちゅーばーじゅんちゃん
たまに見るチャンネル:
うどんそば大阪奈良,小飼弾の論弾,一月万冊,ほんタメ,
ポリタスTV,菅野完,Nezumi,ワタナベカズマサ,カズチャンネル,
予備校のノリで学ぶ「大学の数学・物理」,吉田製作所,見守あらた,
コジコジのオタク文化情報局,イチケン,よめ子,ちゅんちゅんTV

これらのチャンネルの登録者数や再生回数は,ユーチュラのサイトで調べることができる。登録者数5000位(約15万人レベル)までにランクインしたのは次の通り(中田敦彦のYouTube大学*は参考値)。

26 中田敦彦のYouTube大学*
people 501万人, play_circle_filled 12億6472万3228回, videocam 869本
195 ジョーブログ【CRAZY CHALLENGER】
people 188万人, play_circle_filled 6億4883万5468回, videocam 604本
198 カズチャンネル/Kazu Channel
people 186万人, play_circle_filled 10億1321万3347回, videocam 2863本
252 瀬戸弘司 / Koji Seto
people 167万人, play_circle_filled 9億6055万6499回, videocam 2164本
508 吉田製作所
people 108万人, play_circle_filled 5億2620万5708回, videocam 507本
528 街録ch〜あなたの人生、教えて下さい〜
people 104万人, play_circle_filled 4億6366万5759回, videocam 968本
590 予備校のノリで学ぶ「大学の数学・物理」
people 95万9000人, play_circle_filled 2億1987万1703回, videocam 776本
1045 うどんそば 大阪 奈良 Udonsoba
people 62万9000人, play_circle_filled 1億9410万3175回, videocam 113本
1061 よめ子
people 61万9000人, play_circle_filled 6879万1176回, videocam 72本
2301 イチケン / ICHIKEN
people 33万人, play_circle_filled 4448万6016回, videocam 144本
2561 ワタナベカズマサ
people 29万7000人, play_circle_filled 1億1261万9616回, videocam 1721本
3141 一月万冊
people 25万人, play_circle_filled 2億380万9963回, videocam 3942本

2年前と比べて,よく見るようになったのが街録chである。後者はフリーディレクターの三谷三四郎(1987-)が2020年3月からはじめた街頭インタビューチャンネルだ。最初のころは,危険なタイトルのアングラチャンネルといった雰囲気だったが,登録者1万人を越え東野幸治にインタビューしたあたりから,メジャーなタレントも出演するようになり登録者数も100万人を超えた。

そこでは,インタビューイの思わぬ素顔に接することがある。最近では茂木健一郎だ。SONY CSLの脳科学者ということで,マスコミによく顔を出しているが,脳科学者というタイトルで売り出している人はほとんど怪しいことが多い。さらに,SNSでの権力寄りの発言がめだつころからなんだかなぁと見ていた。

しかし,茂木健一郎は東大の物理から理論生物物理で博士号をとっていて,自分の立ち位置についても十分客観的に把握していた。彼のクオリアの理論はよくわからないが,最近までの人工知能の動向についても十分専門家としての知識を持っている人だった。

なお,YouTubeに関する統計情報はこのサイトで見られる

2023年1月9日月曜日

国語の教科書

今年の成人の日は1月9日である。いつのまにか成人年齢の定義がかわり,成人の日も1月15日ではなくなってしまった。社会もこれに適応できていないので,成人の日の式典は20歳が対象になっているところが多い。これまたなんだかなぁ案件だ。

劇作家の鴻上尚史(1958-)が時事通信から「成人の日によせて」という原稿を依頼された。ところが,書いた文章に「体言止めが美しい*」といった理由で20ヶ所以上の直しが入ったので,編集者と決裂したらしい。

そこで,彼はTwitterにこの原文を公開して,若者に届けてようとしている。主旨は「自分で考えるな」といわれてきた高校生に,これからは「自分の頭で考えよ」というメッセージを送るものだった。

Twitterでは多くの人がその内容に賛同を表明していた。ただ,書評家で文学賞メッタ斬り豊崎由美(1961-)が一点だけコメントしていた。
〈僕達は、国語の授業でずっと「退屈な本ほど価値がある」と思い込まされてきました〉。僕はそうかもしれませんが、〈僕達〉と括るのはやめてほしい。わたしは国語の教科書で素晴らしい作家と大勢出会ってきました。
それは確かにそうだ。現代国語の教科書でいまでも記憶に残っているものはいくつかある。舞姫,山月記,こころなどの定番に加えて,一番真剣に授業に集中していたのは,志賀直哉の城の崎にてかもしれない。あと,中学生の教科書にあった平頭銛の話平田森三の発明)も印象的だった。

詩歌では次のとおり。国語の授業がすべて退屈だったわけではなかった。
与謝蕪村
 春の海ひねむすのたりのたりかな
 菜の花や月は東に日は西に
安西冬衛
 てふてふが一匹韃靼海峡を渡って行った
三好達治
 太郎を眠らせ,太郎の屋根に雪ふりつむ
 次郎を眠らせ,次郎の屋根に雪ふりつむ
*注:外岡秀俊の「伝わる文章が書ける」作文の技術 名文記者が教える65のコツ によれば,25 体言止めは使わない,なのだけれど。文字数制限の厳しい環境で生息してきた編集者にとっては,鴻上のていねいな口語表現がいやだったのだろう。それにしても言葉のプロにこれほどの直しを求めるとは如何にという意見も多数あり。

2023年1月8日日曜日

MacのOCR

だいぶ以前,MacでOCRを使いたいと思ったことがあった。散々探し回ったけれどなかなか適当なアプリケーションがなくてそのままになっていた。

ふと気がつくとMacでOCRできるコマンドがころがっていた。Tesseractというものだ。homebrewでインストールしてみると,すでに導入済みだ。あれ?いつ入れたっけ。覚えていないので再インストールし,ついでに日本語セットもインストールした。

brew install tesseract
brew install tesseract-lang
tesseract --list-langs | grep jpn
jpn
jpn_vert
tesseract test.png test.txt -l jpn+jpn_vert


tesseractでOCRを体験しようにあるような例を一通り試してみたところうまくいっている。横書きと縦書きの混合文も大丈夫だけれど,日本語と英語が混じっている場合,わずかに狂いが生じる場合もありそうだ。また,手書き文字はやはりうまくいかない。これが実用的かどうかはちょっと未知数。

しかし,そもそも何をOCRしようと思っていたのかを忘れてしまっている老人だった。

あっ,思い出した(というかblogを検索して見つけた,こういうときのために毎日ログをとっているわけだ)。WHOのCOVID関係のデータがpdfになっていて,そこからテキストデータを取り出したかったのだ。しかし,これは,pdftotextで解決済みだった(久々のPerl 2020.3.18)。


2023年1月7日土曜日

はぐれ惑星

NHKのコズミック フロントで,はぐれ惑星(自由浮遊惑星)を取り上げていた。

番組は阪大の住貴宏さんによる重力マイクロレンズ法の説明からから始まる。太陽系の外に存在している太陽系外惑星探索方法としては,次のようなものがある。(1) パルサータイミング法:パルサーの回りを枠背卯が回ることによるパルサー周期の変化による。(2) 視線速度法:ドップラー効果による恒星=惑星系の重心の回りをまわる恒星の視線方向の波長の変化による。(3) トランジット法:恒星の前を横切る惑星による恒星の光度変化による。(4) 重力マイクロレンズ法:遠方の天体(銀河・銀河団)の前を横切る恒星=惑星系の重力レンズ効果による天体の光度変化の微細構造による。(5) 直接撮像法:惑星が恒星から遠くにあって熱放射する場合。

もっともよく用いられるトランジット法は,惑星が大きく,恒星に近い場合にに有効であるが,重力マイクロレンズ法は,恒星から比較的遠くて小さな惑星について用いられる。現在までに,5300個ほどの系外惑星が発見されている。

重力マイクロレンズ法の結果から,惑星が恒星よりも存在している比率がはるかに高く,銀河系の恒星1個につき,恒星から0.5~10au離れた位置に平均で惑星を1.6個持つ事が推定された(Wikipedia 惑星系)。天の川銀河には2000-4000億の恒星があるので,恒星の回りを公転する惑星の数は数千億個ということになる。

さらに,惑星系の誕生期や恒星の終焉期にはじき飛ばされる惑星が,自由浮遊惑星として銀河系内を公転することになる。その浮遊惑星の数は恒星の数の2倍程度と評価されているらしく,これも数千個程度存在する。これは,住さんを含む国際共同チームが重力マイクロレンズ法を用いて最初のはぐれ惑星(Rogue Planet)を発見したことからきている。

さて,これについて,ChatGPTの見解を尋ねてみた。
Q:天の川銀河系にある恒星の総数,惑星の総数,自由浮遊惑星(はぐれ惑星)の総数を教えてください。

A:天の川銀河系には、恒星の総数が約100億個、惑星の総数が数百億個と言われています。また、自由浮遊惑星(はぐれ惑星)の総数は、まだ正確には分かっていませんが、数十億個と推定されています。

天の川銀河系は、銀河系の1つで、地球が属する銀河系です。銀河系は、恒星、惑星、小惑星、彗星、星雲などが含まれる天体系で、その大きさは広大です。天の川銀河系は、その中でも比較的小さい銀河系であり、銀河系全体に比べると、恒星や惑星の数が少なめです。
ChatGPTの天文学の知識もどうやら十分ではなかったようだ。しかし,平均的な人間に比べればまともな回答だ。その辺の高校生や大学生に聞いてもこうは答えられない。


図:Wikipedia Rogue Planet の説明を入力したときの DiffusionBee の出力


2023年1月6日金曜日

新聞も消える

本屋が消えるからの続き

本屋の話題では,比較のため新聞発行部数のグラフを示した。12月に日本新聞協会が最新データを出したことでこれがまた記事になっていた。例えば,「1年で200万部減「新聞離れ」は止まらず 「一般紙」は15年後に消える勢い」などだ。

外岡秀俊(1953-2021)は同じ1953年生まれだ。札幌南高校から東大法学部に進み朝日新聞に入社した。在学中に書いた北帰行は石川啄木をテーマとした小説で文藝賞を受賞した。出版早々に読了して強い印象を受けた小説だ。てっきり彼は作家の道へ進むのものと思ったところ,朝日新聞に入社して編集局長までなったことに二度驚いたものだ。

彼が残した最後の論考が,「敗因」から探る新聞の未来,縮小か大胆なDXで再生か(Journalism 2022年1月号)だ。そこで指摘されていたのは日本の新聞社の敗因だ。それは,成功体験からの脱却ができなかったということにつきる。2000年に入ってからのDXに転換する最後のチャンス(当時はDXというキーワードはなかった)をみすみすと逃してしまった。

新聞やテレビの報道機能が縮小していくとして(すでにジャーナリズムの崩壊は進んでいる),外岡秀俊が最後に述べていたメディアの機能は誰がどのようにして維持していくのだろうか。あるいは民主主義が既存メディアと一蓮托生で終焉を迎えるのかもしれない。
SNSの時代が,この先どう変容するか,予見することはできない。だが,埋もれた事実を果断・公正に報道し,誤りがあればお詫(わ)びと訂正を出して品質を担保し,分断の時代に広い言論のフォーラムを提供するというこれまでのメディアの機能と役割は,どのような時代でも,欠かせない民主主義のインフラであり続けるだろう。


図:日本新聞協会のデータから(亀松太郎氏の作図を引用)


2023年1月5日木曜日

小鍛冶 

正月に孫の世話をするのはたいへんだ。

バーバもカーカもお節料理の準備で手一杯なので,ジージにもその順が回ってくる。そんなときは,NHKの教育テレビ(Eテレ)が神様だ。普段はおかあさんといっしょとかピタゴラスイッチを見せている。元旦のEテレは,新春能狂言 能「小鍛冶 白頭」をやっていたので,5歳と2歳はテレビにかじりついて見ていた。

謡曲「小鍛冶五番目物)」のストーリーは次のとおり(精選版日本国語大辞典から引用)。
三条の小鍛冶宗近は剣を打てとの勅命を受けるが相鎚あいづちの者がいないので当惑し,稲荷明神に祈誓に行く。すると童子が現われ,力を貸し与えようといって消える。宗近が用意を整えると,稲荷明神が現われて相鎚をつとめ,名剣小狐丸ができあがる。

稲荷明神が頭に狐の型をつけていた。何も知らないジージは,頭にネコがいるというと,すーちゃんは違うよと。イヌだ。うぅうん。キツネかなというと,そうだよとやっとOKが出た。すーちゃんは何でキツネだとわかったのだろう。


図:小鍛冶のシテの頭のキツネ(銕仙会から引用)

小鍛冶のワキの三条宗近は,平安時代の刀工である。京都の三条通りに住んでいたことからその名がついているが,現在では若草山の麓に三條小鎩治宗近の店がある。

追伸:ChatGPTにクイズを出してみたところ,正解したのだが,後半の説明はウソだった。

Q:能の小鍛冶のシテの頭についている動物は次のどれでしょう。(1) イヌ,(2) ウサギ,(3) キツネ,(4) ネコ の中から選んでください

A:(3) キツネが正解です。能の小鍛冶のシテの頭には、キツネの形をした帽子がついています。能の小鍛冶は、日本の伝統的な芸能の一つで、演者が鎧を着て、剣や槍などの武器を使いながら、模擬戦や舞踏を演じるものです。能の小鍛冶のシテは、その中でも特に重要な役割を担う演者で、能の小鍛冶を指導する役割を担っています

2023年1月1日日曜日

(冬休み 7)

「春の兆しを素手で掬う*」 (ChatGPT 2022)

*ChatGPTが生成した俳句,新年を指定したもの。もうひといきか。

2022年12月31日土曜日

(冬休み 6)

「降る雪を追いかけぬが花*」 (ChatGPT 2022)

*ChatGPTが生成した俳句,大晦日を指定したもの。

2022年12月30日金曜日

(冬休み 5)

「鳥は霜の木をさまよう熊は森をさまよい歩く*」 (ChatGPT 2022)

*ChatGPTが生成した俳句,冬の動物を指定したら,「鳥」と「熊」を提案してきた。

2022年12月29日木曜日

(冬休み 4)

「霜柱に霜降り霜降りに霜柱雪降りでつつまれる*」 (ChatGPT 2022)

*ChatGPTが生成した俳句,冬の植物を指定したら,「霜柱」と「霜降り」を提案してきた。

2022年12月28日水曜日

(冬休み 3)

「風に吹かれながら歩いている*」 (<竹内景子> 1930-)

*ChatGPTが生成した俳句,仮想世界の日本の代表的女性俳人のもう一人が<竹内景子>だ

2022年12月27日火曜日

(冬休み 2)

「人は石を投げる太陽は花を咲かせる*」 (<高野和子> 1950-)

*ChatGPTが生成した俳句,仮想世界の日本の代表的女性俳人の一人が<高野和子>らしい

2022年12月26日月曜日

(冬休み 1)

「月よりも白い白い花に雪が降る*」 (<松尾芭蕉> 2022)

*ChatGPTが生成した冬の俳句,仮想世界の日本でも<松尾芭蕉>は歴史上最も有名な俳人らしい

2022年12月25日日曜日

四色問題


四色定理の証明といえば,コンピュータを駆使して2000個の配位集合を虱潰しに調べたことで長年の課題が初めて証明された問題として有名である(1976 Appel, Haken)。

コンピュータに頼らない証明ができないので,なんとなくモヤモヤ感が抜けないと同時に,証明に関する既成の観念を変えた例としてもよくあげられる。深層学習による大規模言語モデルに基づいた物理法則の発見でも同じような固定観念の変更が求められているといわれることもあった。

その四色定理の新しい証明がarxivに登場した。"A non-constructive proof of the Four Colour Theorem"というもので,わずか7ページの論文だ。「このアプローチでは,特定の写像の集合に対する生成関数の特異点解析と,Tutteによる平面写像とその彩色多項式に関する列挙的・漸近的研究が用いられている」

Twitterでは,素人衆の期待の声が多いのだけれど,プロからは厳しい声が上がっているような雰囲気もチラチラ見え隠れしていた。どうなることやら。



写真:一松信の四色問題(ブルーバックス1983年版から引用)

2022年12月24日土曜日

第二次量子革命

arxiv.orgに1000ページを超えるレポートがあった。タイトルは,Understanding Quantum Technologiesで,著者は,Olivier Ezrattyというソフトウェアエンジニアで,量子技術関連のコンサルタントらしい。怪しさ満点。

量子力学的粒子の多体系集団を扱えるようになったのが,1947年からの第一次量子革命であり,トランジスター,レーザー,太陽電池,発光ダイオードなどの技術を指している。2018年からの第二次量子革命は,単一量子のレベルまで含んで重ね合わせとエンタングルメントを扱えるようになったものであり,量子計算,量子通信,量子暗号,量子測定などの技術を指している。

まあ,だいたいそんなものかもしれない。2025年はハイゼンベルクがヘルゴランドで量子力学の基本的関係式を思いついてから100年目にあたるので,大阪万博ではなくてこちらの方で盛り上がることになるのではないかと予想していたけれど。日本は米国に忖度しすぎて武器購入大盤振る舞いと科学技術放擲大作戦の真っ最中となってしまった。

PCR検査を否定するような非合理的政策がまかりとおり,新しいパラダイムでベンチャーによって開発が促進される新薬の承認スケジュールからどんどん取り残される中,選択と集中の旗をかかげ続けたまま学者集団をディスり続けるこの国の将来っていったい何なのだろうか。


図:第一次&第二次量子革命(Understanding Quantum Technologiesから引用)

2022年12月23日金曜日

NDLデジタルコレクション

個人送信(2)からの続き

国立国会図書館(NDL)のデジタルコレクションが12月21日にリニューアルされた。

プレスリリースによれば次のような内容である。
(1)所蔵資料をデジタル化した 「デジタル化資料」約 311 万点と収集した「電子書籍・電子雑誌等」約 150 万点を検索・閲覧・視聴できる・・・下表との関係が不明・・・
(2)全文検索できる資料が5万点から247万点に増えた。
(3)閲覧画面の改善・・・改善余地がまだあるような・・・
(4)画像検索の実現
(5)シングルサインオンの実現

前回と比較してどのあたりが増えたのかがいま一つはっきりしない。ちゃんと内訳を記録しておけばよかった。全文検索の有り無しはこのデータのままではわからない。

表:NDLデジタルコレクションの内訳(公開,登録者限定,館内限定)
 公開登録者館内小計
電子書籍・電子雑誌1,228,0870218,1281,446,215
雑  誌16,901825,998525,0421,367,941
図  書362,523560,466387,6231,310,612
博士論文15,929125,420123,322264,671
日本占領関係資料70,805029,963100,768
古典籍資料82,10717,235799,349
録音・映像関係資料6,008048,43454,442
歴史的音源6,001042,73148,732
プランゲ文庫016,01728,45944,476
官  報20,9800020,980
憲政資料10,86501,72312,588
他機関デジタル化資料3251,0338832,241
地  図4101,3051,346
パッケージ系電子出版物00338338
特殊デジタルコレクション197045242
     
合  計1,820,7691,546,1691,408,0034,774,941



2022年12月22日木曜日

ウルトラQ

ウルトラQは,円谷プロダクションによる空想特撮テレビシリーズの第1弾として1966年1月から7月にかけて放映された。この武田薬品提供枠では,月光仮面(1958-1959),豹(ジャガー)の眼(1959-1960),隠密剣士(1962-1965)なども見ていた。月光仮面やジャガーの眼は自分がまだ幼稚園のころだ。小学生のころ,風呂敷被って月光仮面ごっこをしている絵日記を書いた記憶や真っ赤なサタンの爪が印象的だった絵本を読んだ記憶もある。

ウルトラQは,当時の中学1年生にとって丁度手ごろなSFドラマだった。アウター・リミッツなどもうすこし高級で怖いものもたまに見る機会があったけれど,民放のチャンネルが限られている田舎町にはなかなか文化の香りが届かない。その後,ウルトラマン(1966.7-1967.4),ウルトラセブン(1967.10-1968.9)ときて中学生を卒業することになる。

高校になると,この枠は桜木健一・吉沢京子・近藤正臣の柔道一直線(1969.6-1971.4)になってしまう。柔道が得意でピアノもひける同級生の上出君が,若き日の近藤正臣がピアノの上を跳ね回って演奏するシーンに感心していたのが印象的だった。なんだったのだろう。


さて,「ウルトラQとウルトラマンの関係について」とChatGPTに日本語で尋ねてみると,次のような残念な答しか返ってこなかった。
「ウルトラQ」は、1966年から1967年にかけて放送された「ウルトラマン」シリーズの第1作です。この番組は、地球を守るために、人間から姿を変えた異星人が、異星生命体との戦いを繰り広げるという内容です。
ところで,ChatGPTは,英語では十分訓練されていて日本語に比べてずっとマシな答えを返すという話だ。そこで,英語で尋ねてみた。
Please explain the story of Ultra Q which is the TV program in Japan mid 1960's
答えをDeepLで翻訳すると次の通りだった。だいぶマシなのである。
「ウルトラQ」は、1966年1月2日から7月3日まで日本で放送されたサイエンスフィクションテレビシリーズです。ウルトラシリーズの最初の作品であり、その後に多くの他の特撮番組や映画が加わることになりました。

番組は、奇妙な現象を調査する科学者やジャーナリストたちを描いており、彼らは様々な怪物や宇宙生物と出会います。主人公は写真家としてチームに加わる若い女性、江戸川ゆり子です。彼らは世界中を旅し、チームのリーダーである岩本教授が備える技術的に先進的な車両や武器を活用しながら、奇妙で危険な状況に遭遇します。

「ウルトラQ」は日本で人気を博し、いくつかの続編シリーズを生んでいます。その中でも「ウルトラマン」は文化的現象となり、今でも最も有名な特撮番組の一つとして知られています。日本のサイエンスフィクションの代表的作品とされ、特撮ジャンルに長く影響を与えています。
岩本教授というのはちょっと余計だが,かなり適確な回答が返ってきた。


写真:ウルトラQのタイトル(円谷プロから引用)

2022年12月21日水曜日

ブラックボックス

東京大学の情報理工学研究科に設置された情報理工学教育研究センターにある7部門のうち,次世代知能科学研究部門につながるのが次世代知能科学研究センターである。ここに部局をこえた関連分野の研究者を集めているが,固有スタッフはほとんどいないのかもしれない。

次世代知能科学研究センターがオンラインの連続シンポジウムを開催していて,その第11回が「共進化する物理学と人工知能の現在」というテーマだった。樺島祥介,大槻東巳,小林研介,村尾美緒,橋本幸士というメンバーで,2時間40分(20分×5+60分)の内容がYouTubeで公開されている。

物理学の分野でも,深層学習(DL)=AI に関連した研究は最近さかんに行われている。その典型的な例が,物質の実験データをディープニューラルネット(DNN)に学習させた上で,任意の物質における物理量をシュレーディンガー方程式を解かずに予測するというものだ。

ニューラルネットワークの万能近似定理によって,ニューラルネットワークは任意の関数を表現することが可能だということがわかっている。その意味では,このブラックボックスが正しい理論値を与えるのはよいとして,それは科学的な説明になっているのかというわけだ。シンポジウムではこの点を巡るやりとりがあった。

それは,科学的な説明とは何か,わかるとは何かという問題に発展する。物理屋は現象をできるだけ少数の簡単な方程式で表わすことができるとうれしいかもしれない。しかし,農業の分野でも医学でもあるいは工場の生産現場でも,科学的な説明のないブラックボックス的な技術が成功している例は枚挙にいとまない。つまり,物理屋の見方は特殊なのでないかというわけだ。

コンピュータの発達によって,解析的な解が求まらない微分方程式でも,計算機を使えば任意精度で確実に解を得ることができるようになり,微分方程式を解くという概念が変わってしまった。同じように,理論だとかわかるということの意味が変わりつつあるのかもしれない。


2022年12月20日火曜日

mecab-neologd(3)

mecab-neologd(2)からの続き

とりあえず,最新単語を含む形態素解析のmecab-ipadic-neologdが使えるようになった。次の課題は,これをpython プログラムの中から使えるようにすることだ。これは事例がたくさんころがっていたので,そのまま写経してみた。

2018年,Qiitaにsudo5in5kさんが書いた,mecab + NEologd + python3 で形態素解析という記事があるのでそのまま使える。import MeCab のCが小文字のtypoになっているところでつまづいた。その後,辞書ディレクトリを自分の環境に合わせて指定したところ,青空文庫の人間失格のテキストファイルをとってきて,無事に形態素分解した結果が出力された。

そこで,入出力ファイルをコマンドラインで指定し,任意のテキストファイルを変換できるように数行だけ修正したのが以下のコードである(ほぼsudo5in5kさんのもの)。

#!/opt/homebrew/bin/python3


# usage: aozora.py infile outfile

# infile is taken from https://www.aozora.gr.jp -> txt download


import MeCab

import re

import sys


infile = sys.argv[1]

outfile = sys.argv[2]


bindata = open(infile, 'rb').read()

textdata = bindata.decode('shift_jis')


# 青空文庫のための固有処理

textdata = re.split(r'\-{5,}', textdata)[2]

textdata = re.split(r'底本:', textdata)[0]

textdata = textdata.strip()


# 人によっては以下のパスは異なるので確認してね

mecab = MeCab.Tagger('-d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd')

mecab.parse('')  # バグ対処

results = []

lines = textdata.split("\r\n")

for line in lines:

    r = []

    # 学習に使わない表現の削除処理

    s = line

    s = s.replace("|", "")

    s = re.sub(r'《.+?》', "", s)

    s = re.sub(r'[.+?]', '', s)

    # Mecab

    node = mecab.parseToNode(s)

    while node:

        # 単語を取得

        if node.feature.split(",")[6] == '*':

            word = node.surface

        else:

            word = node.feature.split(",")[6]


        # 品詞を取得

        part = node.feature.split(",")[0]


        if part in ["名詞", "形容詞", "動詞", "記号"]:

            r.append(word)

        node = node.next

    rl = (" ".join(r)).strip()

    results.append(rl)


# write to a file

with open(outfile, 'w', encoding='utf-8') as wf:

    wf.write("\n".join(results))

2022年12月19日月曜日

mecab-neologd(2)

mecab-neologd(1)からの続き

朝起きてから気を取り直して再開。エラーメッセージに /usr/local でのインストールが前提だという説明があったこと,/Users/koshi/src にあった install というrubyスクリプトを実行していたことが気になっていた。

そこで,installをinstall-old に変えて参照しないようにした上で,/usr/local にgitから引っ張ってきたファイルを置き,ルート権限でインストールしてみたらエラーが消えていた。

cd /usr/local
sudo git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
sudo ./bin/install-mecab-ipadic-neologd -n -a
yes

[install-mecab-ipadic-NEologd] : OK. Let's install mecab-ipadic-NEologd.

[install-mecab-ipadic-NEologd] : Start..

[install-mecab-ipadic-NEologd] : /opt/homebrew/lib/mecab/dic isn't current user's directory

[install-mecab-ipadic-NEologd] : Sudo make install to /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd

make[1]: Nothing to be done for `install-exec-am'.

/bin/sh ./mkinstalldirs /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd

 /usr/bin/install -c -m 644 ./matrix.bin /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/matrix.bin

 /usr/bin/install -c -m 644 ./char.bin /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/char.bin

 /usr/bin/install -c -m 644 ./sys.dic /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/sys.dic

 /usr/bin/install -c -m 644 ./unk.dic /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/unk.dic

 /usr/bin/install -c -m 644 ./left-id.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/left-id.def

 /usr/bin/install -c -m 644 ./right-id.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/right-id.def

 /usr/bin/install -c -m 644 ./rewrite.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/rewrite.def

 /usr/bin/install -c -m 644 ./pos-id.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/pos-id.def

 /usr/bin/install -c -m 644 ./dicrc /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/dicrc


[install-mecab-ipadic-NEologd] : Install completed.

[install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd' as a value of '-d' option of MeCab.

[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.

Usage:

    $ mecab -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd ...


[install-mecab-ipadic-NEologd] : Finish..

[install-mecab-ipadic-NEologd] : Finish..


実行するには,辞書を上記下線部のように指定すればよかった。

最新辞書(ipadic-neologd)を使った場合:
koshi@mba2020 mecab-ipadic-neologd % mecab -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載
記号,括弧開,*,*,*,*,『,『,『
鬼滅の刃 名詞,固有名詞,一般,*,*,*,鬼滅の刃,キメツノヤイバ,キメツノヤイバ
記号,括弧閉,*,*,*,*,』,』,』
助詞,係助詞,*,*,*,*,は,ハ,ワ
記号,読点,*,*,*,*,、,、,、
吾峠呼世晴 名詞,固有名詞,一般,*,*,*,吾峠呼世晴,ゴトウゲコヨハル,ゴトーゲコヨハル
による 助詞,格助詞,連語,*,*,*,による,ニヨル,ニヨル
日本の漫画 名詞,固有名詞,一般,*,*,*,日本の漫画,ニホンノマンガ,ニホンノマンガ
作品 名詞,一般,*,*,*,*,作品,サクヒン,サクヒン
記号,句点,*,*,*,*,。,。,。
記号,括弧開,*,*,*,*,『,『,『
週刊少年ジャンプ 名詞,固有名詞,一般,*,*,*,週刊少年ジャンプ,シュウカンショウネンジャンプ,シューカンショーネンジャンプ
記号,括弧閉,*,*,*,*,』,』,』
にて 助詞,格助詞,一般,*,*,*,にて,ニテ,ニテ
2016年 名詞,固有名詞,一般,*,*,*,2016年,ニセンジュウロクネン,ニセンジュウロクネン
11号 名詞,固有名詞,地域,一般,*,*,11号,ジュウイチゴウ,ジュウイチゴー
から 助詞,格助詞,一般,*,*,*,から,カラ,カラ
2020年 名詞,固有名詞,一般,*,*,*,2020年,ニセンニジュウネン,ニセンニジュウネン
24号 名詞,固有名詞,地域,一般,*,*,24号,ニジュウヨンゴウ,ニジュウヨンゴー
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
連載 名詞,サ変接続,*,*,*,*,連載,レンサイ,レンサイ
EOS
旧辞書(ipa-dic)を使った場合
koshi@mba2020 mecab-ipadic-neologd % mecab
『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載
記号,括弧開,*,*,*,*,『,『,『
名詞,一般,*,*,*,*,鬼,オニ,オニ
名詞,一般,*,*,*,*,滅,メツ,メツ
助詞,連体化,*,*,*,*,の,ノ,ノ
名詞,一般,*,*,*,*,刃,ハ,ハ
記号,括弧閉,*,*,*,*,』,』,』
助詞,係助詞,*,*,*,*,は,ハ,ワ
記号,読点,*,*,*,*,、,、,、
名詞,一般,*,*,*,*,吾,ワレ,ワレ
名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ
名詞,一般,*,*,*,*,呼,コ,コ
名詞,一般,*,*,*,*,世,ヨ,ヨ
名詞,一般,*,*,*,*,晴,ハレ,ハレ
による 助詞,格助詞,連語,*,*,*,による,ニヨル,ニヨル
日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポン
助詞,連体化,*,*,*,*,の,ノ,ノ
漫画 名詞,一般,*,*,*,*,漫画,マンガ,マンガ
作品 名詞,一般,*,*,*,*,作品,サクヒン,サクヒン
記号,句点,*,*,*,*,。,。,。
記号,括弧開,*,*,*,*,『,『,『
週刊 名詞,一般,*,*,*,*,週刊,シュウカン,シューカン
少年ジャンプ 名詞,固有名詞,一般,*,*,*,少年ジャンプ,ショウネンジャンプ,ショーネンジャンプ
記号,括弧閉,*,*,*,*,』,』,』
にて 助詞,格助詞,一般,*,*,*,にて,ニテ,ニテ
2016 名詞,数,*,*,*,*,*
名詞,接尾,助数詞,*,*,*,年,ネン,ネン
11 名詞,数,*,*,*,*,*
名詞,接尾,一般,*,*,*,号,ゴウ,ゴー
から 助詞,格助詞,一般,*,*,*,から,カラ,カラ
2020 名詞,数,*,*,*,*,*
名詞,接尾,助数詞,*,*,*,年,ネン,ネン
24 名詞,数,*,*,*,*,*
名詞,接尾,一般,*,*,*,号,ゴウ,ゴー
まで 助詞,副助詞,*,*,*,*,まで,マデ,マデ
連載 名詞,サ変接続,*,*,*,*,連載,レンサイ,レンサイ
EOS

2022年12月18日日曜日

mecab-neologd(1)

形態素解析のmecabの辞書にはいくつかあるが,ipa-dicを使っている。ところで,これでは最新の固有名詞などには対応できない。それを解決するため,多数のWeb上の言語資源から得た新語を追加することでカスタマイズしたのが, MeCab 用のシステム辞書mecab-ipadic-neologd である。

早速インストールを試みたのだけれど,残念ながら失敗してしまった。
xcode-select --install
brew install libiconv
brew install mecab mecab-ipadic git curl xz
cd /opt/homebrew
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
cd mecab-ipadic-neologd
./bin/install-mecab-ipadic-neologd -n
yes
ここでつまづいてしまった。
/Users/koshi/src/install:68:in `initialize': undefined method `split' for nil:NilClass (NoMethodError)
from /Users/koshi/src/install:77:in `new'
from /Users/koshi/src/install:77:in `macos_version'
from /Users/koshi/src/install:120:in `<main>'

いくつかの参考資料では問題なくここは通過するらしいのだけど・・・。installはrubyで書かれていて,これが解っていないのでちょっと厳しいわけだ。

2022年12月17日土曜日

外される安全装置

新聞やテレビのニュースは,ほとんど国の広報のようになっていて,旧世代の我々はゆっくりと確実に洗脳され続けている。これらの古いメディアではニュースを見ないという若者達もインターネット空間の空気によって間接的にその影響を受けている。場合によっては,エコーチェンバー効果によって増幅されているかもしれない。その結果,世論調査では2/3が防衛力強化賛成となる。

2020年の10月に前菅政権が日本学術会議会員の任命拒否問題が引き起こしてからもう2年以上になる。学術会議会員は3年ごとに半期改選だから,そろそろ次の選考プロセスが始まる。このタイミングで12月6日に内閣府は,日本学術会議の在り方についての方針を打ち出してきた。その肝は問題となった会員選考過程に手を突っ込むことだ。
会員等以外による推薦などの第三者の参画など,高い透明性の下で厳格 な選考プロセスが運用されるよう改革を進めるとともに,国の機関である ことも踏まえ,選考・推薦及び内閣総理大臣による任命が適正かつ円滑に行 われるよう必要な措置を講じる

という素性の解らない第三者機関を使って,アカデミーの独立性を露骨に侵害しようとしている。津田大介ポリタスTVのゲストとして呼ばれた隠岐さや香は,なぜここまでこだわるのかがわからないといっていた。そうなのである。軍事研究を進めることがねらいだとしても,日本学術会議などは別に大きな支障にはならない。内閣府に別に拵えた総合科学技術・イノベーション会議を使えば,なんでもできるはずである。

あえていえば,安倍晋三=清和会右翼の思い込みによる学者に対するルサンチマンぐらいしか考えられない。日本学術会議に手を突っ込みたがっていたのは清和会的な右派勢力だ。それが,防衛費倍増の財源を巡る清和会と岸田政権の綱引きにからんで話がややこしくなっている。

隠岐さや香が,日本社会のいろいろな分野で安全装置が外されつつあるといっていた。その一番が,ロシアのウクライナ侵攻を奇貨とした防衛費のGDP1%枠の撤廃であり,集団的安全保障の名のもと米国の軍事システムに完全に組み込まれることだった。

社会保障制度を守るために導入するといわれた消費税は,法人税減税のために使われた。さらに, 年金積立金管理運用独立行政法人(GPIF)が惜しげもなく株に資金を投じはじめ,株価の上昇を支えて,日本の階層分化を推し進めてきた。

一方,電通にしっぽを握られて機能不全に陥ったマスコミは沈黙を続け,泥まみれの東京五輪や大阪万博の後押しをしてきた。それらの総仕上げが,安倍殺傷事件による統一教会の悪行の再確認だったかもしれないが,それすらも押し流すように軍拡の合唱が始まっている。そう,統一教会の資金還流が疑われる北朝鮮ミサイル開発の脅威は既に十分に宣伝していて,世論形成に大きく寄与することになる。

[1]日本学術会議改革問題をめぐって(ポリタスTV)

2022年12月16日金曜日

すべての本をデジタルに

本は消えるか?からの続き

トランプ時代の米国が,TPPから離脱するということで,著作権を70年延長するというのが避けられたかと一瞬気を許した2016年,「環太平洋パートナーシップ協定の締結に伴う関係法律の整備に関する法律案」が成立し著作権法も改悪されてしまった。青空文庫への影響も多大だ。

一方,著作権の例外規定によって著作物が自由に使える場合として,2019年改正ではAI による深層学習や情報解析に対応する条文が追加された。その延長線上で,これまでに人類が著した全ての本をデジタル化して大規模言語モデルに投入する場合にどの程度の情報量になるのかを考えてみよう。

Wikipediaには,Books published per country per year というデータがあった。年度にばらつきが在るものの,全世界では1年に220万冊(米国28万,中国21万,英国19万,日本14万など)という数字がある。そこで,世界人口と一年当たりの本の出版冊数が比例すると仮定する。その比例定数は,3×10^-4 冊/人となる。世界人口は1920年に20億人,2020年に80億人とすれば,この100年間の延べ人口・年は,(80+20)*100/2=5000億人・年なので,この100年の総出版冊数は1.5億冊と評価できる。

もし,それらの本が1冊100ページで1ページあたり1kBの文字情報があれば,1冊あたり100kBの情報量となる。これを先ほどの総出版冊数にかけると 1.5×10^13 byte = 15 TBだ。本以外の出版物や内部文書のことを考慮しても,100TBもあれば人類がこれまでに生産してきたすべての文字情報は格納できてしまう。画像も含めれば1-2桁増えるかもしれない。

2050年には世界人口90億になって,先ほどの延べ人口が2500億人・年分追加になる。つまり,これまでの結果を1.5倍すればよいので,25TBもあれば,シンギュラリティまでに人間が書いた本をすべて持ち運べるの。デジタル端末の容量を1000倍になればそれが可能になる(クラウドにおけば今でも可能だけれど)。


図:本が消えるイメージ(DiffusionBeeによる)

P. S. 話題爆発中のAI「ChatGPT」の仕組みにせまる!によれば,ChatGPTのパラメタは1750億であり,入力したコーパス量は570GBにのぼるらしい。そのコーパスをつくるために,インターネット空間でクロールした素データの量は45TBらしい。これはたぶんすごいゴミの山なので,先ほどの相対的にまともな100TBとは比べ物にならないだろう。

2022年12月15日木曜日

本は消えるか?

本屋が消えるからの続き

日本の書店数が減少を続け,2045年にはなくなりそうだという話だったが,それは本の購買ルートが書店からアマゾンなどのオンラインサービスに変わっているだけで,本自体はこれまでのように売れていると考えてよいのだろうか。

そこで,日本の出版物の販売額を調べてみた。出版科学研究所は,出版物の取り次ぎ商社大手のトーハン(旧名:東京出版販売株式会社)が1956年に設立し,その後,公共性を担保するために,社団法人全国出版協会に委譲されたものだ。日本の出版業界の売り上げは1996年まで上り調子できたが,消費税の5%への増税を契機に減少の一途をたどっている。それが,次の図の日本の出版販売額の推移でわかる。


図:日本の出版販売額の推移(出版科学研究所から引用)

この25年の雑誌と書籍の販売額の減少傾向を外挿すると(−580億円/年),シンギュラリティの2045年にゼロになる。もっとも,書籍だけをみればあと40年の猶予があるし,電子書籍が急に立ち上がっているので,心配することはないのかもしれない。このデータからも,従来のような書店が消えゆくことは間違いない。

では,図書館はどうなるのだろうか。あの忌まわしいCCC(ツタヤ)に侵食されない公共施設としての矜持を保つことができれば,これまでに蓄積された書籍のアーカイブとして,あるいは電子書籍に対応することで,さらには最新の仮想空間へのアクセスポイントとして生き延びてほしい。

2022年12月14日水曜日

本屋が消える

日経の夕刊の社会面に,「書店のない市町村26%に 店舗10年で3割減 文化発信の場,消失に懸念」という記事があった。出版文化産業振興財団の調査なのだが,そのもとになっているのは,日本出版インフラセンターのデータらしい。

書店ゼロの市町村の割合のワースト3は,沖縄県(56.1%),長野県(51.9%),奈良県(51.3%)だ。確かにまわりの書店がどんどん減っているという実感と一致している。近くに残された書店の一つ,近鉄八木店6階の丸善ジュンク堂が最近改装されてかなり広くなったという話だった。しかし実際には,従来の書店の主要部が拡張された文房具コーナーに置き換わってしまい,児童書部分が少し広くなっただけ。なお,人口1万人当たりの書店数ベスト3は,石川県(1.34),福井県(1.30),香川県(1.16)だ(全国平均は,0.78)。

その日本出版インフラセンターのデータによれば,日本の書店の総店舗数は,2011年に17,000あったものが,2021年に12,000と10年で5000軒減った。このペースが続けば,2045年に日本の書店数は0になる。なお,新聞の発行部数は1997年に5770万部でピークアウトし,つるべ落としの勢いで減少中である。こちらも2045年には0になりそうだ。自分の娘達も紙の新聞は購読していない。そんなわけで,2045年のシンギュラリティは,活字文化の消滅を包含することになる。


図1:書店数と総坪数(ガベージニュースから引用)
店舗当たりの坪数は増加し新設店舗の大型化が進む


図2:新聞発行部数(ガーベージニュースから引用)


2022年12月13日火曜日

未来をあきらめない(3)

未来をあきらめない(2)からの続き

登大遊さんのこの一年ほどの講演リストがある。未来をあきらめない(1)で紹介した「テクノロジーマップ、技術カタログの在り方について」を除くと,そのほとんどのテーマは共通だった。そのテーマというのは,次の問い,日本にはOS・クラウド・通信・セキュリティ等のプラットフォーム技術や産業を自ら生み出せる ICT 人材がいない。どうすれば育成できるのか?というものだ。

結論は,登さん自身の特筆すべき技術的能力とそれに基づく体験からくる洞察によるものだ。それは,自律的なコンピュータ・ネットワークの実験環境を自力で勝手に構築しようと
することを黙認し,その環境の上で彼らが自由に技術開発できるようにすれば,自然に人材が育ち,技術が生まれる,とまとめられる。

講演では,(1) 自律的なコンピュータ・プログラミング環境の重要性,(2)  自律的なネットワーク環境の重要性,について彼が切り開いてきた道をたっぷりの写真とともに紹介している。そのスローガンは,超正統派「おもしろ・いんちき開発手法」が重要,というものだ。

人の作ったクラウドやセキュリティソリューションやインターネットシステムを使うICT技術者ではなく,それらを新しく創り出そうと開発する人材の育成が必要だと呼びかけている。実際に彼は,筑波大学の客員教授として,医学課程の学生として,ソフトイーサ株式会社の代表取締役として,IPAのサイバー技術研究室長として,NTT東日本の特殊局員として,けしからんものに対して日夜戦い続けている。


図:登大遊さんのフリーイラスト