On a Thread of the Web: 言語

ラベル言語の投稿を表示しています。すべての投稿を表示

2022年7月29日金曜日

ネーミングライツ（１）

公共施設などの「名前」＝命名権（ネーミングライツ）を売るのが流行っている。

大阪教育大学が，エスカレータの命名権をSKY株式会社に売った。国立大学の施設では，ホールや教室などの事例が多いが，エスカレーターは全国初めてとのこと。それはそうだろう，全長120ｍクラスのエスカレータがあちこちの大学にあるという話は聞いたことがない。

大阪教育大学ではすでに，附属図書館のまなびのひろばが，東京書籍 Edu Studioとなっているので，2例目となる。

日本の命名権導入施設一覧によれば，かなりの数の公共施設がネーミング・ライツを売っている。大学でも同様だ。3〜5年程度の契約で，年間100万円〜あたりが相場だ。一般のスポーツ施設や公共施設と違って，当該大学の固定された学生が見るだけだ。どこまで宣伝効果があるのかはちょっと疑問だ。

でも，もしそれが成立するのならば，すべての教室や研究室に名前をつけるとか，扉に日替わりで広告を出すようにすれば，1件/1ヶ月10万円としても毎月1000万円オーダーの収入が見込まれる。そのうち大学の中は広告媒体で汚染されまくることになるかもしれない。椎名誠のアドバードの世界はこうやって現実の未来に実現するのか。

いっそのこと大学ホームページもアフィリエイトで埋めたらどうか。あるいは，通学時の関係者には大学おそろいのTシャツを着せて，そこに宣伝を入れるという手もある。附属学校園も含めれば，教職員・児童生徒学生総数が1万人なのでこちらのほうが効果的かもしれない。

あるいは，キャンパス名称を売り出したほうがよいかもしれない。柏原キャンパス改め，柏原ケニスキャンパスとか，天王寺キャンパス改め，天王寺啓林館キャンパスとか。あるいはいっそのこと，大阪教育内田洋行大学にしたらどうか。

写真：スカイエスカレーターの頂上部（撮影 2022.7.28）

P. S. 失礼しました。大阪教育大学のホームページを確認してみたところ，すでに広告枠が販売されていた。Recruit 就活スーツの選び方とあったので，学生課とか生協による解説記事かとおもいきや，おもいきり民間企業のページにさらわれてしまった。

2022年6月28日火曜日

みんなの自動翻訳

DeepL翻訳からの続き

自動翻訳はDeepLで間に合ってます。といいたいところなのだが，一番の問題は，韓国語がないところかもしれない。無料版なので，1回に5000字までという制限はあるけれど，いまのところ，英文ニュース記事を読む際の支援ツールとして使っているので，それほど問題ではない。

情報通信研究機構（NICT）のみんなの自動翻訳@TexTraもなかなかよいという噂が伝わってきたので試してみた。韓国語も訳せるので韓国ドラマを安心してみることができる・・・というわけにはいかない。多機能なのを表に出しすぎているので，ちょっと使いにくい印象がある。Safariではデフォルトの表示が必ずしも整っていないのも気になる。

ユーザインタフェイスはそうだとして，実際に訳文を比較するとどうなるだろうか。

原文（WikipediaのQuantum THermodynamicsから）
Quantum thermodynamics[1][2] is the study of the relations between two independent physical theories: thermodynamics and quantum mechanics. The two independent theories address the physical phenomena of light and matter. In 1905, Albert Einstein argued that the requirement of consistency between thermodynamics and electromagnetism[3] leads to the conclusion that light is quantized obtaining the relation
E=h\nu . This paper is the dawn of quantum theory. In a few decades quantum theory became established with an independent set of rules.[4] Currently quantum thermodynamics addresses the emergence of thermodynamic laws from quantum mechanics. It differs from quantum statistical mechanics in the emphasis on dynamical processes out of equilibrium. In addition, there is a quest for the theory to be relevant for a single individual quantum system.

TexTra
量子熱力学[1][2]は、熱力学と量子力学という2つの独立した物理理論の間の関係を研究する学問です。2つの独立した理論は、光と物質の物理現象を扱っています。1905年にアルバート・アインシュタインは、熱力学と電磁気学の一貫性が必要であると[3]、光はその関係を得て量子化されるという結論が導かれると論じました。E=h\nu。
この論文は量子論の夜明けです。数十年のうちに、量子論は独立した規則によって確立されました。[4]現在、量子熱力学は量子力学からの熱力学法則の出現を取り上げています。量子統計力学とは異なり、平衡から外れた動的過程に重点が置かれています。さらに、単一の個々の量子系に関連する理論を探求しています。

DeepL
量子熱力学[1][2]は、熱力学と量子力学という2つの独立した物理理論の関係を研究する学問である。2つの独立した理論は、光と物質という物理現象を扱っている。1905年、アルバート・アインシュタインは、熱力学と電磁気学の整合性[3]が必要であることから、光は量子化され、次の関係式が成り立つと主張した。E=h</nu。
この論文は、量子論の黎明期を告げるものです。現在、量子熱力学は、量子力学から熱力学的法則を生み出すことを目的としています[4]。量子統計力学との違いは、平衡状態から外れた動的な過程に重点を置いている点です。さらに、単一の個々の量子系に関連する理論の探求がある。

こうして，比べるとDeepLもやや微妙なところがあるが，訳文は全体としてややこなれている。まあ一長一短というところかもしれない。みんなで使えばより精度は高くなると思うが，まだまだ知名度が低いし，あまり宣伝もしていないようだ。

［１］みんなの自動翻訳＠KI（個人版）（川村インターナショナル・プロの個人翻訳者向け商用利用可能ライセンス）

［２］みんなの自動翻訳　質問・要望一覧

2022年6月4日土曜日

NDL Ngram Viewer

NDLラボは国立国会図書館の実験的サービスを提供するサイトである。

そこで，NDL Ngram Viewerが5月から公開されている。国立国会図書館デジタルコレクションでインターネット公開されている資料のうち，著作権保護期間が満了した図書資料約28万点のOCRテキストデータから集計した，約8.3億種類の単語及びフレーズを使って，ある単語やフレーズが年代別にどのくらい使われているかを可視化するアプリケーションだ。

複数の単語を／で並べて入力すると１つのグラフでこれらを比較することができる。横軸は年代だが，著作権保護期間満了という条件があるため，明治から戦後しばらくまでの間は有効だが，それを外れると例外的な点しかでてこない。正規表現が使えるのでかなり凝った処理ができそうだ。

グラフの横軸が年代で，縦軸に単語の出現頻度あるいは出現確率が出てくる。出現確率は，総N-gram数を分母にと書いてあったので？？となった。N-gramというと，昔，全文検索エンジンを勉強していたときにでてきた記憶がある。単語のかわりに文字を単位とし，N文字の並びの出現頻度を使って全文検索を実現するものだ。単語の区切りにとらわれず，すべての文字の並びを切り出して処理していた。総N-gram数というと膨大な数にならないか。

説明をよく読んでみると，「全文テキストデータに対して異体字等の丸め処理を行った後，NormalモードのKuromojiで形態素解析を行い，形態素gramで1gramから5gramまでの総出現頻度が4以上の単語及びフレーズを集計しています」とあった。そういうことね，文字ではなく形態素解析で品詞分解したものを使うのか，しかも 1≦N≦5 なので，これならば適当な数に収まる。

さっそく，「代数学/幾何学/解析学/統計学」や「宇宙/原子/原子核/素粒子」などで調べてみた。「力学/電磁気学/熱力学/統計力学」として力学は使えないことに気付く。なぜならば形態素解析では，熱力学も統計力学も熱+力学，統計+力学に分解されるので，ここからも力学のヒットが生じてしまうからだ。うーん・・・。これは仕方ないのかもしれない。

図：Ngram Viewerの出力（電磁気学/熱力学/統計力学/量子力学）

上段は総Ngram数に対する相対確率，下段は出現頻度の絶対値

2022年6月1日水曜日

タテ型コンテンツ

NHKのクローズアップ現代でタテ型コンテンツ（動画／漫画）が流行しているという話題。

その前にひとこと。地方版も含めて最近のNHKニュースの訂正頻度がとても多くなってきた。毎日のようにお詫びしている。それに加えて政治ニュースの軽重の付け方や恣意的な報道内容の表現のレトリックにより，ほとんど政府広報のようだといわれている・・・

・・・NHKの質的低下がひどいという前振りのつもりが，感情に任せて話がそれてしまった。そのクローズアップ現代で，桑子キャスターが平然として「固定概念」という識者コメントの言葉をそのまま伝えていた。固定観念または既成概念が正しい。

もちろん，言葉は移り変わるものであり，最近の若い人達が固定概念という言葉を使うのは耳にすることがあるので，100%おかしいとはいえない。それにしても，NHKという日本の言語表現基準の中心にあるべき組織で，言葉への感度が落ちているのだろうことが想像され，さきほどの政治的偏向と併せて残念な話なのだった。

さて本題は，YouTubeのようなPCに対応したヨコ型コンテンツより，TikTocのようなスマートフォンと親和性の高いタテ型コンテンツの方が最近注目を集めやすくなっている。スマートフォン上の漫画も，従来のような横スライドでなく，縦スライドでコマ移動するものが増えている。このようなタテ型コンテンツの方が，視聴者への主観的な訴求力が高いという結論だった。

パソコンでも昔，日本電気のPC-100という縦型ディスプレイとマウスから構成された日本版Alto（AppleのMacintoshのルーツ）が，1983年に発売されている。大阪駅前第１ビルのNECショールームで始めた見たときは，なかなかカッコよかった。残念ながら，その後主流になったのはスタンダートな横型ディスプレイのPC-9800シリーズのほうであった。

写真：NECのPC-100（Wikipediaより引用）

P. S. NECの大阪 Bit-INN かと思ったが，それはやはり日本橋にあった。C&Cプラザ的なものだったのだろうか。

2022年4月16日土曜日

にほんごであそぼ

4月のNHKの番組改編では例年より大幅なものとなった。その中でも，Eテレのにほんごであそぼの評判が極めて悪かったので，録画を飛ばし飛ばしちょっとだけチェックしてみた。

うーん，頭にポットをつけたお姉さんが，百発百中の説明というかゲームに無駄な時間を費やすだけで時間が過ぎてゆく。部分的に以前のフレーバーが残っているものの，伝統芸能のかけらもなく，貴重だった織太夫，清介，勘十郎の文楽のコーナーも見当たらなかった。

1979年に福音館書店から出版された「にほんご」は，安野光雅，大岡信，谷川俊太郎，松居直によって，小学校低学年の国語の教科書に代わるものとしてデザインされた労作だった。子供が小学校にあがるまで，ふとんの中でよく読んだものだ。そのフレーバーやコンセプトがふんだんに盛り込まれたのが，NHKの「にほんごであそぼ」だったが，番組改編で大変残念なことにそれが失われてしまった。

NHKはニュース系がひどくても，Eテレがあるからと我慢していた。この調子だと本当に全部がダメになりそうで怖い。まあ，あの優等生的で擬似中立主義的な総体による隠れた洗脳が問題だというのであれば，Eテレの優良番組だってどうなのよということかもしれないが。

写真：福音館のにほんごの書影（福音館書店から引用）

2022年4月11日月曜日

Wordle（８）

Wordle（７）からの続き

Wordle支援プログラム word.py を改良して，出現しない文字を含む単語をとり除く処理を１行加えた。第3引数に出現しない文字を連結して並べたものを与える。

# usage: warp.py w.txt a.b.c def

import sys
import re

f = open(sys.argv[1], 'r')
datalist = f.readlines()
arg1 = sys.argv[2]
arg2 = sys.argv[3]

for data in datalist:
if(re.search(r'\d* '+arg1, data) != None):
if(re.search('['+arg2+']', data) == None):
print(data, end="")

f.close()

2022年4月10日日曜日

Wordle（７）

Wordle（６）からの続き

wiki-5.txtは，WIkipediaデータセットのWikiText-103 word から5文字単語を取り出したものだった。これに対して，n-gramの出現頻度を，1-gram， 2-gram， 3-gramに対して求めるpythonプログラム ngrm.py を作る。1-gramはアルファベット1文字，2-gramは連続するアルファベット2文字，3-gramは連続するアルファベット3文字を表している。

ngrm.pyの出力結果は , を区切り文字として，出現回数とn-gramパターンの組なので，sort で区切り文字を , 数値として解釈した逆順をリダイレクトして適当なファイルに格納すると，1-gramから3-gramまで混ぜた出現頻度順のファイルが出来上がる。

# usage: ngrm.py wiki-5.txt | sort -n -r -t , >! alphabet

import sys

a=[0 for i in range(26)]
b=[[0 for i in range(26)] for j in range(26)]
c=[[[0 for i in range(26)] for j in range(26)] for k in range(26)]

def n_gram(target, n):
return [ target[idx:idx + n] for idx in range(len(target) -n + 1) ]

f = open(sys.argv[1], 'r')
datalist = f.readlines()

for data in datalist:
for l in range(5):
x = data[l]
i = ord(x) - 97
a[i] = a[i] + 1
if l in range(4):
y = data[l+1]
j = ord(y) - 97
b[i][j] = b[i][j] + 1
if l in range(3):
z = data[l+2]
k = ord(z) -97
c[i][j][k] = c[i][j][k] + 1

for i in range(26):
if a[i] > 49:
print(a[i],",",chr(i + 97))

for l in range(26*26):
i = l // 26
j = l % 26
if b[i][j] > 49:
print(b[i][j],",",chr(i+97)+chr(j+97))

for l in range(26*26*26):
i = l // (26*26)
j = (l // 26) % 26
k = l % 26
if c[i][j][k] > 49:
print(c[i][j][k],",",chr(i+97)+chr(j+97)+chr(k+97))

f.close()

wiki-5.txtにおけるベスト50は次のとおりであった（数字は出現数）。

5730707 , e
4092848 , r
3965317 , a
3759319 , t
3424032 , s
3108801 , o
3068296 , i
2603632 , h
2600893 , l
2398537 , n
1734820 , d
1574948 , c
1501211 , u
1291809 , w
1195832 , m
1086248 , g
1076779 , er
964115 , f
962898 , th
882193 , b
801081 , p
746024 , te
729576 , y
674447 , he
651813 , ou
636278 , st
604734 , ar
563176 , hi
559096 , re
556926 , v
556020 , or
533535 , in
521374 , k
521197 , es
519713 , ch
518219 , ir
514744 , al
514410 , wh
493762 , the
473288 , ea
427832 , le
417701 , ic
412433 , whi
412193 , an
409812 , il
384013 , la
372098 , at
369592 , se
364056 , ed
362684 , ter

2022年4月9日土曜日

Wordle（６）

Wordle（５）からの続き　

Wordleを解くための支援プログラムを次のようなものとする。「5文字単語のデータベースを用意して，ワイルドカードを含む与えられた候補にマッチする単語を全て選び出して表示する」。perlでプログラムを組みたいところだったが，pythonの練習をすることにした。

5文字単語データベースとしては，前回示した WikiText-103 word Level からwords.shで処理したものを用いる。その後は，久々の python プログラミングなので，よちよち歩きながら試行錯誤する。

(1) コマンドラインの引数は，sysモジュールをimportすれば，sys.argv[n]でアクセスできる。sys.argv[0]はpythonスクリプト名，sys.argv[1] 以下で複数の引数を受け渡す。

(2) ファイルのオープンとクローズの方法は記載の通り。第1引数は先に求めてある5文字単語データファイル名である。

(3) テキストファイルを1行づつ分割して読み込むには，datalist=f.readlines() などとするとその結果のリストが得られる。

(4) perlのようにdatalistから1行づつ取り出して処理をするのが，for data in datalist: である。

(5) 正規表現によるマッチングには，re モジュールをimportしたうえで，re.search(r'正規表現' , 原データ) という形式による。これが Noneでなければマッチしていることになる。

(6) 第2引数で入力する5文字のワイルドカードをピリオド（. ）にしておけばそのまま正規表現として使えてるので便利である。

(7) データファイルは，wc -l で生成しているので，頭に頻度を表した数桁の数字が空白を区切りに付加されているため，'\d* '+arg としている。文字列の結合には，プラス（+）演算子を用いる。

(8) print文で余分の改行を削除するには，end="" をつければよい。

# usage: word.py w.txt a.b.c
import sys
import re

f = open(sys.argv[1], 'r')
datalist = f.readlines()
arg = sys.argv[2]

for data in datalist:
# print(arg, data, re.search(r'\d* '+arg, data))
if(re.search(r'\d* '+arg, data) != None):
print(data, end="")

f.close()

2022年4月8日金曜日

Wordle（５）

Wordle（４）からの続き

前回の復習：英文のテキストデータセットと単語の文字数 n が与えられたとする。文字数がnの単語を1行とした一時ファイルを作る。大文字は小文字に変換している。次に，wc -l によって一時ファイルの行数＝n文字単語数を出力したものを並べたファイルを作る。また，上記の wc -l の前にsort | uniq フィルターをかけてユニークな n文字単語数についても同様のファイルを作る。これが，前回のwords.shプログラムのアルゴリズムだった。

具体例として，最初は手元にある数冊の英書の数千ページ（80MB）のpdfファイルからユニークにソートされた5文字単語（3万4千語）を抽出したものでテストした。もう少し大きなデータがないかと，オープンコーパスを色々探してみたが，なかなか適当なものがない。

最終的に，Wikipediaの記事を使ったデータセットにたどり着いた。多言語のWIki-40Bが前処理済で良さげだったが，TensorFlowを使えという指示が面倒であり，英語データで340万ページ2GBは大きすぎる。WikiText-103 Word Levelの方は，圧縮後181MBでそのままダウンロードできそうなので，こちらを使うことにした。

WikiText-103 Word Levelの解凍後のテキストデータは539MBあった。これをwords.shにかけると，1-20文字の単語（うちユニークな語）が約8300万語（約21万語），このうち5文字の単語（うちユニークな語）が約960万語（約2万4千語）であった。

WikiText-103 Word Level における，n文字単語（うちユニークな語）の出現頻度を下図に示す（オレンジが総語数の出現頻度，ブルーがユニーク語数の出現頻度）。n文字単語の出現ピークはn=3にあって約20%，ユニークなn文字単語の出現ピークはn=7にあって，約16%となった。5文字単語の場合は，ともに約11%となっている。

図：WikiText-103 Word Levelにおける単語出現頻度（横軸は文字数）

2022年3月30日水曜日

Wordle（４）

Wordle（３）からの続き

Wordleをやっていると，そもそも英語の文章で出てくる単語のうち5文字である確率はどんなものか，また，最もよく出現するのは何文字の単語なのか，などなどが気になるようになった。

これを調べるために，与えられたテキストファイルやpdfファイルから単語を切り出して，その文字数の分布を調べるためのシェルスクリプトを作ってみた。

case \$3 in
"txt")
echo "txt";
;;
"pdf")
echo "pdf";
pdftotext \$2.pdf;
;;
*)
echo "undefined";
;;
esac

for ((i=1 ; i<=\$1 ; i++))
do
perl -nse 'while (/\b[a-z]{\$num}\b/ig) {print "\$&\n";}' -- -num=\$i \$2.txt | tr A-Z a-z > tmp.txt
cat tmp.txt | wc -l >> \$2-\s1.txt;
cat tmp.txt | sort | uniq | wc -l >> \$2-\s2.txt;
rm tmp.txt
done

昨日のスクリプトを少しだけ修正すればよかったが，ポイントは，シェルスクリプト中の反復の記述法である。繰り返し変数は$をつけて，perlのワンライナーに受け渡すことができた。あとはこれを使って実験してみれば良いのだが，それはまた次回のお楽しみ。

2022年3月29日火曜日

Wordle（３）

Wordle（２）からの続き

Wordleは英語の勉強になる。簡単な5文字の英単語でも知らないものがたくさんあって，自分の語彙力はやはり10歳並みだということが確かめられる。そのため，辞書の助けがないと5-6回で答えに辿り着くことは出来ない。

巷には，Wordle Word Finderなどというツールも登場しているが，これでは英語学習の役には立たない。それでも，5文字の英単語のリストを収集したいという目的のために，次のようなツールを作った。与えられたテキストファイルあるいはpdfやhtmlファイルをテキストに変換したものから，perlのワンライナーで n 文字の単語を切り出すものだ。

pandocは汎用の文書型変換ツールだけれど，pdfやhtmlからテキストを取り出すという想定がない。あくまでも整形された文書変換ツールだからだ。そこでテキストファイルの取り出しには，pdftotextやtextutilなどのコマンドに任せることにした。また，シェルスクリプトの引数はperlのワンライナーにそのまま送れないので， -- -perl_var=\$shell_varとして，perlの中で\$perl_varによって引用することになる。

#! /bin/zsh
# usage: word.sh 5 sample pdf (tst, txt, pdf, html)
# output sample-5.txt

case \$3 in
"tst")
pwd;
ls -al \$1.txt;
ls -al \$2.*;
;;
"txt")
echo "txt";
perl -nse 'while (/\b[a-z]{\$num}\b/ig) {print "\$&\n";}' -- -num=\$1 \$2.txt | tr A-Z a-z > \$2-\$1.txt;
;;
"pdf")
echo "pdf";
pdftotext \$2.pdf;
perl -nse 'while (/\b[a-z]{\$num}\b/ig) {print "\$&\n";}' -- -num=\$1 \$2.txt | tr A-Z a-z > \$2-\$1.txt;
;;
"html")
echo "html";
textutil -convert txt \$2.html;
perl -nse 'while (/\b[a-z]{\$num}\b/ig) {print "\$&\n";}' -- -num=\$1 \$2.txt | tr A-Z a-z > \$2-\$1.txt;
;;
*)
echo "undefined"
;;
esac

2022年3月5日土曜日

Wordle（２）

Wordle（１）からの続き

Wordleは5文字の英単語をあてるゲームだった。日本語でもできるのではと調べてみると，いくつか紹介されていた。アルファベットは26文字に限定されるので，単語成立条件を問わなければ5回でほぼすべての文字が含まれるかどうかが判定できる。しかし，日本語のかなでは，濁音，半濁音，拗音，撥音などもあるため，約80文字くらい必要である。したがって，16回≈3倍ほどの手間をかける必要があることになる。

（１）WORDLE ja（aseruneko）：入力するのが辞書にない言葉でもかまわない。試行回数にも制限がない。ということでゲームとしてのおもしろさに欠けるかもしれない。

（２）ことのはたんご（大西力登）：試行回数は10回までで，外来語も含まれる。辞書が弱いと感じたが，作者はそのあたりも考えた上で1万語の辞書を用いている。noteに詳しい経緯があるのがありがたい。

（３）ことばであそぼう（Desmond Lee）：4文字で試行回数は12回にしてある。これも辞書が弱い。ただ，回数が少ない分，ヒントモードを加えることで日本語化した場合の難点を回避する作戦か。

（４）漢字ル（大坪弘尚）：四字熟語版である。部首の共通点が指摘されるようになっている。漢字変換入力のインターフェースがちょっと気になる。試したところいきなりホールインワンになってしまった。

日本語のかなの出現頻度表はあるが，あまり絞り込みの役には立たない。支援ツールとしては，精選版日本国語大辞典を使ったが，これだけではちょっと難しい。○○から始まる、○○で終わる言葉一覧とか，ことばさあちとかあるにはあるがどんなものだろうか。

ことのはたんご第43回 5/10
　　　⬜⬜⬜⬜⬜ 20426
　　　⬜⬜⬜⬜🟩 1476
　　　⬜⬜⬜🟨🟩 40
　　　⬜🟨⬜⬜🟩 29
　　　🟩🟩🟩🟩🟩 1

　　　図：ことのはたんごの実行例

2022年3月4日金曜日

Wordle（１）

最近，Twitterで流行るもの。緑色と黄色と灰色の四角形が5列×(〜5,6)行並んだ図のようなものをよく見かけるようになった。Wordleとあるので調べたところ，NewYork Timesについているオンラインゲームらしい。1回終ると何時間か待たされるので，1日に1回程度遊べるような気がする。

　　　Wordle 258 4/6
　　　🟨🟨⬜⬜🟨
　　　🟨🟨🟨🟨⬜
　　　🟩⬜🟨🟨🟩
　　　🟩🟩🟩🟩🟩

図：Wordleのtwitter出力の例

ワードル（Wordle）のルールは簡単である。アルファベット5文字の英単語を当てればよいのだ。ゲーム名は，Redditのソフトウェアエンジニアだった開発者のJosh Wardleの名前から来ているのか。

最初はノーヒントなので適当な5文字を入れる。ただし，辞書にあるような英単語でなければならない。正解の単語と同じ位置に同じ文字がある部分がグリーンで示される。この文字は確定だ。正解の単語に含まれてはいるが，位置が間違った文字は黄色で示される。次の推測では，この文字は別の位置に動かさなければならない。正解の単語に含まれていない文字は灰色で示される。これは次回以降の候補からは排除される。

この条件の元に，次の推測候補となる単語を考える。すると新しい判定結果が得られるので，この情報に基づいて修正する。正解にたどり着くまでこれを繰り返せばよい。ベイズ推定の精神ですね。

問題の鍵は，自分が持っている英単語のボキャブラリー数にあり，5文字で辞書に載っている単語をどれだけ準備できるかが重要だ。前に試したボキャブラリのテストで，自分には英語圏の10歳児並のボキャブラリーしかないことがわかっていたので，ここはちょっとチートを使うことにした。

bestwordlistのサイトでは，任意の文字数の英単語のリストを得ることができる。さらに，その単語の先頭の文字，末尾の文字，含まれる複数の文字などを指定することができるので，このゲームの目的にはまさにぴったりなのである。

戦略としては，まず出現頻度の高い文字（晴耕雨読より）から攻略することが考えられる。1文字の出現確率は，{E} → 13%，{T, A, O, N, I, R, S, H} → 9%〜6%，{D, L, U, C, M} → 4%〜3%，{P, F, Y, W, G, B, V} → 2%〜1%，{K, X, J, Q, Z} → 0.5%〜0.1%となっている。また，2文字の出現頻度準のリストは，{TH, HE, IN, ER, AN, RE, ED, ON, ES, ST, EN, AT, TO, NT, HA, ND, OU, EA, NG, AS, OR, TI, IS, ET, IT, AR, TE, SE, HI, OF}である。

これらを利用して頻度が高い単語から攻めるのがよいと思われる。

2022年1月23日日曜日

柳宗悦

柳宗悦（1889-1961）の民藝のアクセント問題で，日本民芸館に本人が民藝を発音する音源があるということだった。それならば YouTube にもあるのではないかと探してみると，NHKラジオアーカイブス〜声でつづる昭和人物史が見つかった。

この番組は，NHKの過去のアーカイブから政治家や実業家，文化人などの肉声が含まれるものを取り上げてその人となりや考えを紹介するものだ。柳宗悦の後編は，1959年10月の日本民藝協会での挨拶だった。彼が病気で入退院を繰り返して出席できなかったため，録音での挨拶が披露されたために記録に残っている。柳宗良の声には張りがあって気力も十分な話しぶりだった。番組は，宇田川清江（1935-）アナウンサーとノンフィクション作家・評論家の保阪正康の解説で進行する。

柳宗悦は，民藝が単独で出てくる箇所では，はっきりとミ‾ン_ゲ_イと発音している。しかし，宇田川も保阪もミ_ン‾ゲ‾イ‾なのであった。NHKが監修しているはずだけれど。

柳宗悦の父の柳楢悦（1832-1891）は，海軍少将・貴族院議員・測量学者であり，日本数学会の前身の東京数学会社を神田浩平（1830-1898）と共に設立している。なお，柳宗悦の母，楢悦の後妻の勝子は嘉納治五郎（1860-1938）の次姉である。

柳宗悦の妻の柳兼子（1892-1984）はかつては「声楽の神様」と称されるクラシックの声楽家であり，85歳まで公式のリサイタルを続けていた。長男の柳宗理（1915-2011）は戦後日本のインダストリアルデザイナーの草分けであり，金沢美術工芸大学の教授を務めた。このため，金沢美術工芸大学には，柳宗理記念デザイン研究所が設けられている。

2022年1月21日金曜日

民藝

NHKの「かわ善い民藝　いとお菓子」の録画を見ているのを聞いていたら，「ミ‾ン_ゲ_イ_」というアクセントが飛び込んできた。夫婦揃ってゲゲゲの鬼太郎になってしまった。おかしいやろ。民藝は「ミ_ン_ゲ_イ_」という平板なアクセントのはずだ。

調べてみると，広辞苑無料検索という名前の統合検索サイトにあるNHK日本語発音アクセント辞典の例があった。はい，「ミ_ン‾ゲ‾イ‾」であり，ミにアクセントはなかった。いったいどうなっているのかと少しあたってみると・・・

2013年にYahoo 知恵袋ですでに問題になっていた。「今日のNHKで民芸のミンの方にアクセントが強い発音をナレーターが発音していましたが，どうなんでしょう。ミンゲイすべて平なアクセントが普通ではないでしょうか？」。これに対する回答は，「NHK発音アクセント辞典では，低高高高（平板というアクセント）しか載っていません。長いことアクセントに関わっていますが，頭高の「民芸」は聞いたことがなく，多数派も断然平板だと思います」であった。

一方，2018年に鞍田崇は次のように語っている。「たしかにアクセント辞典には平板に発音すると書かれています。でも，「民藝」という言葉を作った柳宗悦らに始まる民藝運動の関係者は「みん↗︎げい」と発音されることが多く，実際当の柳自身そのように言っていました。駒場の日本民藝館には彼の肉声録音が残されていて，そこでは，「みん→げい」ではなく「みん」にアクセントを置いています」。で，その後全国に普及する過程で平板化されたのでどちらでもよいとしている。

実際，YouTubeの最近のものでは，「ミ‾ン_ゲ_イ_」が多いような気がする。うーん，もやもやが晴れない。

なお，NHKといえば，昼のニュースでシドニー・ポアチエが亡くなったことを報じた際，アナウンサーが「シ‾ド_ニ_ー・ポ_ア‾チ‾エ‾」と発音したのでびっくりたまげた。おかしいやろ。「シ‾ド‾ニ‾ー・ポ_ア‾チ_エ_」くらいじゃないのか。

2022年1月14日金曜日

公用文（２）

「公用文作成の考え方（建議）」を踏まえた，内閣からの指示文書はまだこれからということだろう。高等学校の「現代の国語」が実用文にこだわるのならば，半分はこれをやったらどうか。

そこで（どこで？），文章校正ツールに，公用文作成に特化したものがないか調べてみた。マーケティングの観点からは，公用文に特化するメリットがないので，そうしたものはなかった。有料の文章校正ツールの中では，文賢がめだった。クラウド型のアプリだが，SafariではだめでChromeのダウンロードが必要。

また，一太郎でおなじみジャストシステムのJust Right!6というソフトウェアは，4.5万円程度。なお，ATOK Passportプレミアムを契約していれば，クラウド型のATOKクラウドチェッカーが利用できる。

無料版の文章校正ツールとしては，PRUV（プルーフ）とEnnoがある。前者は登録なしで400字，ユーザー登録すれば無料で2万字までの文書を扱える。後者は，ユーザ登録不要であり明示的な字数制限はない。非公開の文書，顧客取引先の文書，試験問題・模範解答，個人情報を含む文書を入れるなとしている。Ennoの作者による「日本語エラーチェックサイトenno.jpを作った理由」が公開されている。

［１］現代仮名遣い（昭和61年）
https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/naikaku/gendaikana/index.html
［２］公用文における漢字使用等について（平成22年）
https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/naikaku/kanji/index.html
https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/sanko/koyobun/pdf/kunrei.pdf
［３］常用漢字表（平成22年）
https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kijun/naikaku/pdf/joyokanjihyo_20101130.pdf
［４］法令における漢字使用等について（平成22年）
https://www.clb.go.jp/files/topics/3485_ext_29_0.pdf
［５］表外漢字字体表（平成12年）
https://www.bunka.go.jp/kokugo_nihongo/sisaku/joho/joho/kakuki/22/tosin03/index.html
［６］公用文等における日本人の姓名のローマ字表記について（令和元年）
https://www.kantei.go.jp/jp/singi/seimei_romaji/pdf/moshiawase.pdf

2022年1月13日木曜日

公用文（１）

「公用文作成の考え方」について（建議）という文書が，1月7日に文部科学省の文化審議会から出ている。各省庁の審議会は，所管大臣からの諮問を受けて答申するのが普通だと思っていたので，建議という言葉が新鮮だった。

法的根拠は何かを調べてみた。文部科学省設置法の第13条で外局としての文化庁を置くこと，第20条で文化庁に文化審議会を置くこと，第21条の3項と4項で，旧国語審議会（現国語分科会）に対応する業務が規定されている。

三　文部科学大臣又は文化庁長官の諮問に応じて国語の改善及びその普及に関する事項を調査審議すること。
四　前号に規定する事項に関し、文部科学大臣、関係各大臣又は文化庁長官に意見を述べること。

したがって，前者が諮問に対する答申，後者が建議だと考えられる（建議：① 意見を役所、上位の人、機関などに申し述べること。また、その意見。建白。（小学館日本国語大辞典より））。

公用文作成の考え方は6ページほどにまとめられているが，これに対する解説があるので，全体では36ページのpdfファイルとして公開されている。これまでは，昭和26年（1951年）に文部省の国語審議会の建議「公用文作成の要領」が，昭和27年4月に内閣から「公文書改善の趣旨徹底について」として各省庁次官宛てに出されていた。

1952年の要領では，「句読点は，横書きでは「，」および「。」を用いる。」となっていたものが，2022年の考え方では，「句読点に「。」（マル）読点には「、」（テン）を用いることを原則とする。横書きでは読点に「，」（コンマ）を用いてもよい。」になった。

Wikipediaの公用文作成の要領をみるとこれはなかなか面倒な話がたくさんあるものと想像される。

［１］公用文の書き方資料集三訂版（文化庁，1960）

［２］公用文の書き表し方の基準資料集

2021年12月16日木曜日

現代の国語（２）

現代の国語（１）からの続き

「現代の国語」の教科書を巡って，何やらややこしいことになっている。

先の学習指導要領の改定で設けられた「現代の国語（２単位）」では，論理的な文章や実務的な文章を扱うが，文学的な文章は扱わず，これは「言語文化（２単位）」の方に委ねられるとされた。というわけで（これが良いかどうかは別として），現代の国語の教科書には「文学作品」は登場しないものと思われていた。

ところが，第一学習社が検定に提出した４種類の現代の国語の教科書のうちの「現代の国語」では，羅生門（芥川龍之介），砂に埋もれたル・コルビュジェ（原田マハ），夢十夜（夏目漱石），鏡（村上春樹），城の崎にて（志賀直哉）の５つの文学作品が取り上げられ，文学のしるべというコラムまであった。

他社の現代の国語の教科書では，文学作品を掲載したものは全くなかったので，これが物議を醸すこととなった。

8月13日：一般社団法人教科書協会が「現代の国語」の検定について文部科学省の見解を明らかにするよう要望する。

8月24日：文部科学大臣（萩生田光一）が，教科用図書検定調査審議会に，第一学習社の現代の国語の問題を踏まえて，今後の高等学校「現代の国語」の検定における小説の取扱いに関する考え方を示すよう検討依頼する。

8月24日：教科用図書検定調査審議会が，「高等学校「現代の国語」の教科書の検定においては、小説教材を扱うことについて、学習指導要領の趣旨に照らし、より一層厳正な審査を行うこととする。」という回答を返す（はやい）。

8月25日：文部科学省初等中等教育局教科書課・教育課程課が，都道府県などの高等学校の設置者の教科書担当部署に，高等学校「現代の国語」に関する教科書検定の考え方についてという説明を送る。

9月27日：文部科学省初等中等教育局教科書課・教育課程課が，都道府県などの高等学校の設置者の教科書担当部署に，高等学校「現代の国語」における指導上の留意事項についてというダメおしの文書を送る。

1 学習指導要領上、「読むこと」の教材として小説等の文学的な文章を取り扱うことはできないこと。
2 「読むこと」以外の領域の教材として小説等の文学的な文章を取り扱う場合であっても、〔知識及び技能〕の指導事項との関連を図りつつ、当該領域の指導事項を身に付けさせるためにどのような言語活動を設定することが適当か、という観点から、当該領域に関する指導の配当時間も考慮して、当該教材の適切な取扱い方を検討する必要があること。
3 上記2の適切な取扱いについて、あくまで設定した言語活動を行うために必要な範囲で当該教材を読むことが想定され得るものであり、当該教材を読む活動が中心となるような取扱いは不適切であること。
4 なお、もとより小説等の文学的な文章を取り扱うことが想定されている「言語文化」において、「読むこと」の近代以降の文章に関する指導に20単位時間程度を配当することとされていること。

12月8日：文部科学省が2022年度の高校１年生が使う教科書の採択結果を発表し，科目「現代の国語（２単位）」では，第一学習社が16.9%（19.6万冊）のシェアでトップになった（東京都のデータ）。現場では，昔のタイプの文学こみの教科書が支持されたということだ。

まあ，教科書検定に失敗しているというのか，学習指導要領の改定に失敗しているというのかなんといいましょうか・・・

P. S. 高校のとき，全く得意ではなかったが，一番好きで授業に集中していたのが，現代国語だった。山月記，舞姫，城の崎にて，こころなどが掲載されていて，真剣に先生の話を聞いていた。１年がみーちゃん美谷先生で，２年が小浦場先生，３年が普神先生だった，多分。

2021年12月15日水曜日

現代の国語（１）

夏井いつきからの続き

夏井いつきの俳句チャンネルを最初の方から順番に見て学習している。助詞の使い方ひとつで句の意味が大きく変わることなど，文法にしたがって論理的に説明している回が面白い。

高等学校の教科の国語は，必履修科目の「現代の国語（２単位）」，「言語文化（２単位）」と，選択科目の「論理国語（２単位）」，「文学国語（２単位）」，「国語表現（２単位）」，「古典探究（２単位）」から成り立っている。

学習指導要領には現代の国語について次のような記述がある。

ア論理的な文章や実用的な文章を読み，本文や資料を引用しながら，自分の意見や考えを論述する活動。

「ここでの論理的な文章とは，現代の社会生活に必要とされる，説明文，論説文や解説文，評論文，意見文や批評文などのことである。一方，実用的な文章とは，一般的には，実社会において，具体的な何かの目的やねらいを達するために書かれた文章のことであり，新聞や広報誌など報道や広報の文章，案内，紹介，連絡，依頼などの文章や手紙のほか，会議や裁判などの記録，報告書，説明書，企画書，提案書などの実務的な文章，法令文，キャッチフレーズ，宣伝の文章などがある。また，インターネット上の様々な文章や電子メールの多くも，実務的な文章の一種と考えることができる。論理的な文章も実用的な文章も，小説，物語，詩，短歌，俳句などの文学的な文章を除いた文章である」

「これまでの国語は文学作品偏重であり，それが若者の言語能力の低下を招く」のだという，「野党は批判ばかりしている」と同じレベルの印象論によって，現代の国語が作られた。これを根拠に文学ディスの人が盛んに発言している。

俳句の分析の方がよっぽど論理的思考力を高めるのだと，夏井いつきとその息子の家藤正人の話を聞いていて思う。夏井いつきや家藤正人の声は聞き取りやすく，内容をわかりやすく丁寧に伝える能力が高い。つまり，言葉を扱う技術に優れているということなのだ。

2020年12月18日金曜日

ボキャブラリ

英語のボキャブラリサイズのテストがあったので，覗いてみたところ，日本語もある。ほんとかなと思って試してみると，同義語と反義語の２種類が繰り返し４択式で出てくる問題だった。英語のほうも試してみたところ，10歳児程度であった。かなり難しかったのよ。

図１　英語ボキャブラリサイズテストの結果

図２　日本語ボキャブラリサイズテストの結果

登録: 投稿 (Atom)