ラベル アプリケーション の投稿を表示しています。 すべての投稿を表示
ラベル アプリケーション の投稿を表示しています。 すべての投稿を表示

2024年4月7日日曜日

たぬき

滋賀県といえば,琵琶湖。琵琶湖の回りに少しだけ陸地がくっついていて,そこに人が住んでいるというのが普通の滋賀県のイメージだ。ちがう?ところが,地図をみると琵琶湖はそれほど大きくなくて,南東側に大きな面積の土地が拡がっている。その中心の甲賀市は,2004年の平成の大合併で信楽町や甲賀町など5町が統合してできた。

さて信楽といえば,信楽焼のたぬきの置物だ。最近ゲットした情報によれば,どうやら滋賀県にある家の95%には,信楽焼のたぬきが置いてあるらしい。しらんけど。そこで比較のため,奈良県における朝の散歩の途中で,どのくらいたぬきに遭遇するかを確かめてみた。

結構多いぞ。50分の間に13件くらい発見した。たぶんこちらに移住してきた隠れ滋賀県民に違いない。これを皆さんにお知らせしようとすると,13枚の写真から1枚の写真を作る必要がでてきてしまった。たぬきの置物ごときに10枚以上の写真データを使うのはもったいないからだ。

さっそく,ChatGPTに聞いて見ると正しい答えを得ることができた。やはり,小学校ではプログラミングの授業は不要である。むしろ正しい日本語で問いを立てられるようになることや,様々なアプリケーションによるマルチメディア情報処理過程の具体的イメージをよく知ることの方がよほど大事だ。ブラックボックス化された手順を知る必要はそこまでないのでは。
Q:koshix
写真データがHEIC形式で15ファイルあります。これを,jpgに変換して,5×3の並びにした1枚のjpgファイルに変換したいのです。imagemagikはインストール済みです。具体的なコマンドを教えてください。

A:ChatGPT
以下の手順に従って、15個のHEIC形式の写真ファイルをjpgに変換して、5×3の並びにした1枚のjpgファイルに変換するコマンドを示します。

まず、HEIC形式のファイルをjpgに変換します。
magick mogrify -format jpg *.HEIC
次に、変換されたjpgファイルを5×3の並びにします。
magick montage -tile 5x3 -geometry +0+0 *.jpg output.jpg
これらのコマンドを順番に実行すると、15個のHEICファイルがjpgに変換され、5×3の並びにされた1枚のjpgファイルが生成されます。

その結果が次のファイルである。 


写真:朝の散歩で出会った13たぬき(撮影 2024.4.7)

P. S. 同じ質問を,GeminiとClaudeとPerplexityに投げてみたところ,先の2つはダメ。Perplexityは,縦一列のファイルが出力された。これに関してはChatGPTの勝ち。

2024年1月8日月曜日

GO

大阪・関西万博2025の際に,大阪でライドシェアを実現しようと吉村が動いている。背後に菅義偉や河野太郎がいるので,どう考えても怪しいということになってしまう。地域ごとのタクシー事業者との合理的な棲み分けや調整さえうまく図られればよいのだろうが,複雑に絡み合った利権の縺れた糸を解きほぐすのはそう簡単ではなさそうだ。

世界的には,ライドシェアといえばUberであり,サンフランシスコでドリキンが普通に使っているのを見ていると,いつかはそれがあたりまえの風景になっていくのかもしれない。

日本では,まだライドシェアが法的に認められていないので,Uberは大都市に特化したタクシー配車サービスのUber Taxiの展開にとどまっている。一方タクシー配車アプリは昔からちらほらiPhoneで見かけたけれど,使ったことはなかった。

この度,なら歴史芸術文化村MINAMI(吉田南)のコンサートがあるというので,孫の風葉ちゃんたちと一緒に,タクシー配車サービスに挑戦することになった。日本で最も普及しているスマートフォンのタクシー配車アプリが,GOである。10万台が登録されているということで,単純計算すると1万人当たり8台になるので,天理市だと50台以上は利用可能になるはずだった。

ところで,GOアプリに登録してタクシーを呼び出してみると,タクシーの姿はあって,4-12分で来るというメッセージは出るのだけれどいっこうに来る気配がない。仕方がないので地元の天理タクシーに直接電話してきてもらう。

天理タクシーにはタブレットがついていて,GOサービスが使えそうな雰囲気がある。運転手さんに聞いて見ると,支払いはGOで可能なのだけれど,このあたりではGOでの配車予約はできないとのことだった(どの程度確かなことかはよくわからない)。とりあえず,GOアプリとNFC接続することで,QRコードスキャン無しで支払うことができた。


写真:GOアプリのアイコン(AppStoreから引用)

2023年11月8日水曜日

レジカート

近所のマーケットに行ったら,レジカートなるものが導入されていた。

新しもの好きなので,早速トライアルしてみた。セルフレジは使ったことがある。重さを検知していて待たされたり,やり直しになったりと,一見便利そうなのだけど実際には店員さんが入力したほうが早く終る。

レジカートは普段のカートより大きめで,タブレットサイズの入力チェック画面とがっちりしたバーコードスキャナーがついている。使い方は特に教わる必要もなくスイスイと入力できる。なかなかいいぞ。キーウィ6個パックをカゴに入れたところで,隣に半値の4個パックがあった。早速前者を取り消したが,これも問題なくできた。スキャンしてカゴに入れた商品はタブレット画面で確認できるし,総額も常にわかって便利だ。

問題は,プリペイドカードで払う必要があることだけれど,これもアプリに切り替わりつつある。いいような悪いような。ICOCAもiPhoneにしているので,何かのときに困るような気もする。とりあえず,チャージしてレジカート専用窓口に並んだところ,対応のお姉さんが一瞬でチェックして通過することができた。

設備投資にはコストがかかりそうだし,レジカートがかさ張るのが問題かもしれないが,労働人材不足の折り,さらにこの手のシステムの普及は進むのだろう。


写真:はじめてのレジカート(撮影 2023.11.6)


2023年6月28日水曜日

モバイルICOCA

ついこの間,ICOCAからスマートICOCAに引っ越したばかりなのに,もうモバイルICOCAがiPhoneに対応してしまった。

Suicaは以前からモバイル対応だったのでうらやましかったが,ICOCAも3月のAndroid端末に続いてようやくiOSまで順番が回ってきた。夕方のニュースで見かけて早速トライしたら皆が殺到していた。少しだけ待たされたが,案内行列に並んでいたらしばらくしてOKとの通知があった。

iOSのウォレットを開いて,追加の+メニューから交通系カードを選ぶと,トップにICOCAがでてきたので,SMART ICOCAカードを取り出してiPhoneをかざすだけだ。情報の転送が必要だからだろうか,普通のICカードでの読み取りに比べるとちょっと時間がかかる。

ICOCAアプリのインストールに誘導されたので,こちらもインストールしたけれど,役割分担が今一よくわかっていない。とにかく,ICOCAアプリは使えるようになり待望のオンラインチャージも可能になった。チャージ上限は2万円というのも確認できた。ところで,旧のモバイルICOCAカードのほうはそのまま使えるのだろうか。WESTER アプリで残高確認すると,一応残っているのだ。どういうこと?

検索してもあまり要領を得ない。世界はどんどん複雑になっていって,年寄りはついていくのが大変になる。これに新幹線のスマートEXを組み合わせて使うことになったらどうしようかと思うのだけれど,もう東京に通うこともなくなったので,心配御無用であった。


写真:引き続き使えるのかどうかよくわからなくなった SMART ICOCA

追伸:JRおでかけネットをちゃんと読むと,移行後のICOCAは使えなくなるので破棄せよとのことだった。

推察:夕方にApple Payの障害で,モバイルSUICAが使えなくなっていた。たぶん,アクセスが集中したICOCAのせいではないかと睨んでいるのだがどうだろう。

付録:モバイルICOCAはAndroid用の名前であって iPhoneのそれは ICOCA  Pay らしい。

2023年1月31日火曜日

形態素解析

コンピュータによる自然言語処理のアルゴリズムで第一に取り上げられるのが形態素解析である。品詞情報がならんだ辞書をもちいて,原文を形態素(品詞情報付き)に分解できる。

これを実現するソフトウェアとしては,大学等で開発されたいくつかのフリーソフトが有名だった。Juman / Juman++ChaSenKAKASIMeCab(工藤拓),SudachiKuromoji(atilica),janome(打田智子)などである。MeCabがポピュラーなのだけれど今となっては少し古いのかもしれない。これまで,MeCabになじんできたので,Juman++出力形式はやや違和感がある。

さて,しばらく前に,mecab-neologdというMeCabの最新辞書を導入した。それでもたりない場合は,ユーザ辞書を定義して使うことになるのでチャレンジしてみる。その前に,システム辞書をipadicからipadic-neologdに変更してみた。
vi /opt/homebrew/etc/mecabrc
configuration file の dicdir の修正:
; dicdir =  /opt/homebrew/lib/mecab/dic/ipadic
dicdir = /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
次に,「ユーザ辞書登録をやり直す」にしたがって,ユーザ辞書を使えるようにしてみた。
cd /opt/homebrew/lib/mecab/dic
vi userdic.csv
cat userdic.csv

行政組織,,,1000,名詞,一般,*,*,*,*,行政組織,ギョウセイソシキ,ギョウセイソシキ

出発点,,,5000,名詞,一般,*,*,*,*,出発点,シュッパツテン,シュッパツテン

95%信頼区間,,,5000,名詞,一般,*,*,*,*,95%信頼区間,キュウジュウゴパーセントシンライクカン,キュージューゴパーセントシンライクカン

/opt/homebrew/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd -u userdic.dic -f utf-8 -t utf-8 userdic.csv
mecab -u /opt/homebrew/lib/mecab/dic/userdic.dic

これで使えるようになる。ユーザ辞書のcsvファイルの構造は次のようになっている。
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
左右の文脈IDは空欄でよいらしい。またコスト値を推定する方法についてはもう少し調べる必要がある。

2023年1月21日土曜日

DeepL Wirte

DeepL翻訳からの続き

ニューラル機械翻訳ツールのDeepL翻訳にはずいぶんお世話になっている。無料版だと5000字までの英文は一括で翻訳できるので,ちょっとした記事はたいていDeepLにかけている。DeepLがダウンロードを奨めてきたので,最近は,ダウンロードしたmacOS版のアプリケーションを立ち上げるようにした。

重要な文書の場合は,確認しないとときどき抜けやエラーがあるとはいえ,昔のgoogle翻訳などに比べれば圧倒的に自然な訳文がでてくる。難をいえば,29言語に対応しながら韓国語が含まれていないことだ(*)。そんなときは,これも優秀なPapago(Naver)を使えばよい。

本ブログのイントロを英訳してみたけれど,3年前より大分良くなったような気がする。

It has been 100 years since Ryunosuke Akutagawa published "The Spider's Thread. In the fall festival of my senior year of high school, the theme of our class costume parade was "The Spider's Thread. I cut out a piece of bamboo from the neighborhood for the Buddha's Paradise Tower and painted a picture of the flames and smoke of hell. It was the time when I was a hell wraith following Kandata and swarming around the spider's thread (the red rope of the mountain climbing club).


さて,そのDeepLが最近,DeepL Writeという文章校正(改善)ツールを出して話題になっている。今のところ,英語(イギリス),英語(アメリカ),ドイツ語のみの対応だ。これも早速試してみよう。

大阪教育大学のホームページの英語版の冒頭の紹介文を例にとってみた。

原文:
Osaka Kyoiku University (OKU), which was founded in May 1874 as a teacher training school, boasts over 140 years history and tradition. The current number of undergraduate and graduate students totals approximately 4,400, with another over 5,000 students matriculated in affiliated schools. Among Japanese universities, OKU is a one of the leading producers of qualified teachers and a leading large-scale college of education.

 The main campus of OKU was established in the Kongo Ikoma Kisen National Park, in Kashiwara City, Osaka. This campus is approximately 670,000 square meters in area. In addition, OKU also has a campus in Tennoji, in central Osaka.

 The university’s programs are designed to meet the high educational standards of a comprehensive teacher training university. OKU is made up 11 affiliated schools, including primary, secondary, and special needs education that are located in three areas of metropolitan Osaka: Tennoji, Hirano, and Ikeda city.

DeepL Writeによる改善:英語(アメリカ)
Osaka Kyoiku University (OKU), founded in May 1874 as a teacher training college, has over 140 years of history and tradition. The current number of undergraduate and graduate students is approximately 4,400, with more than 5,000 students enrolled in affiliated schools. Among Japanese universities, OKU is one of the leading producers of qualified teachers and a leading large-scale college of education.

 OKU's main campus was established in the Kongo Ikoma Kisen National Park in Kashiwara City, Osaka. This campus covers an area of approximately 670,000 square meters. OKU also has a campus in Tennoji, in the center of Osaka.

 The university's programs are designed to meet the high educational standards of a comprehensive teacher training university. OKU consists of 11 affiliated schools, including elementary, secondary, and special education, located in three areas of the Osaka metropolitan area: Tennoji, Hirano, and Ikeda City.


(1) 1行目のteacher training school は師範学校のことなので,colledgeでなくてもよい。

(2) 附属学校の収容定員が5000人が,matriculateになっていたが,これはenrolledが妥当か。

(3) 大阪の中央部が,in central Osaka から in the center of Osakaに。

(4) primary school がelementary schoolに。

(5) 大阪都市圏が,metropolitan Osaka から the Osaka metropolitan area に。

図:DeepLのロゴ(DeepLから引用)

*注:1/27/2023 DeepLは韓国語に対応した。31言語とはどれのことかな?(イタリア語,インドネシア語,ウクライナ語,エストニア語,オランダ語,ギリシャ語,スウェーデン語,スペイン語,スロバキア語,スロベニア語,チェコ語,デンマーク語,ドイツ語,トルコ語,ノルウェー語,ハンガリー語,フィンランド語,フランス語,ブルガリア語,ポーランド語,ポルトガル語,ラトビア語,リトアニア語,ルーマニア語,ロシア語,英語,韓国語,中国語,日本語)


2023年1月8日日曜日

MacのOCR

だいぶ以前,MacでOCRを使いたいと思ったことがあった。散々探し回ったけれどなかなか適当なアプリケーションがなくてそのままになっていた。

ふと気がつくとMacでOCRできるコマンドがころがっていた。Tesseractというものだ。homebrewでインストールしてみると,すでに導入済みだ。あれ?いつ入れたっけ。覚えていないので再インストールし,ついでに日本語セットもインストールした。

brew install tesseract
brew install tesseract-lang
tesseract --list-langs | grep jpn
jpn
jpn_vert
tesseract test.png test.txt -l jpn+jpn_vert


tesseractでOCRを体験しようにあるような例を一通り試してみたところうまくいっている。横書きと縦書きの混合文も大丈夫だけれど,日本語と英語が混じっている場合,わずかに狂いが生じる場合もありそうだ。また,手書き文字はやはりうまくいかない。これが実用的かどうかはちょっと未知数。

しかし,そもそも何をOCRしようと思っていたのかを忘れてしまっている老人だった。

あっ,思い出した(というかblogを検索して見つけた,こういうときのために毎日ログをとっているわけだ)。WHOのCOVID関係のデータがpdfになっていて,そこからテキストデータを取り出したかったのだ。しかし,これは,pdftotextで解決済みだった(久々のPerl 2020.3.18)。


2022年12月8日木曜日

Whisper

ChatGPT(6)からの続き

人工知能関連システムを次々と産み出している非営利団体のOpenAIが最近試験公開してあっという間にユーザ100万人を集めた大規模言語モデルに基づく対話システムChatGPT(GPT-3.5)についてこれまで毎日書いてきた。ギリアのファウンダー・顧問であるプログラマー清水亮画像生成AI(4)参照)が,BUSINESS INSIDER に"チャットできるAI、ChatGPTが「そこまですごくない」理由。見えてしまった限界"という記事を書いていた。ちょっと逆張り気味だけれど,AIに関連するプログラマーからみればそうなのかもしれない。

そのOpenAIが出しているWhisperという音声認識システムをフリーで提供していた。日本語にも対応しているようなので早速インストールしてみた。

pip3 install git+https://github.com/openai/whisper.git 
brew install ffmpeg
pip3 install setuptools-rust
whisper japanese.wav --language Japanese


ffmpegとrustはインストール済みだったので,不要だ。例文の音声ファイルとしては,子供プログラムマーから借用する。
$ whisper voice2.wav --language Japanese
/opt/homebrew/lib/python3.10/site-packages/whisper/transcribe.py:70: UserWarning: FP16 is not supported on CPU; using FP32 instead
  warnings.warn("FP16 is not supported on CPU; using FP32 instead")
[00:00.000 --> 00:03.680] 次はやや長めの音声ファイルを試してみます。
[00:03.680 --> 00:09.480] スピーチリコグニションではさまざまな音声認識エンジンをサポートしているようです。
[00:09.480 --> 00:17.800] この動画ではGoogleスピーチリコグニションの音声認識エンジンを使って音声ファイルを文字起こししてみています。
[00:17.800 --> 00:23.000] プログラムのコード時代は少なくてもこれだけのことができてしまうのですね。
[00:23.000 --> 00:32.640] まだ知らない方はキットハブ、非公開してくださっているサンプルコードな動参行にしながらいろいろと試してみてください。
5.8MBの33秒の音声ファイルで210文字くらいものが90秒で文字起しできた。もうちょっと速いといいのだが。

P. S. ホームディレクトリを眺めていたら,test.mp3とtest.mp3.txtとtest.mp3.vttという3つのファイルが並んでいた。あれ?これはWhisperの出力ファイルだろう。テキストファイルの中身は1行の英文。タイムスタンプから9/23に作成したファイルだとわかったので,メモ(Appleのアプリケーション)の内容を振り返ってみた。なんのことはない9/23にWhisperをインストールしていた。そのことをすっかり忘れてしまって,今日再インストールしたというわけだ。前回から進歩したのは日本語音声で試したということだけか。うーん,記憶機能の経年劣化が進んでいる。


[閑話休題]

2018年12月8日に「真珠湾攻撃から77年」の記事でこのブログをスタートしてから4周年を迎えた。その1周年は「12月8日(Blogger 1周年)」であり,この時の全期間ページビュー(PV)は4867だった。統計情報によれば,現在の全期間PVが4.63万,過去12ヶ月PVが1.40万である。ということで,2019年:0.49万PV=13pv/d,2020年:1.42万PV=39pv/d,2021年:1.31万PV=36pv/d,2022年:1.40万PV=38pv/dとなる。

過去12ヶ月間のアクセスランキングでは,(1) 丸山レクチャー(2022.3.01,  184 PV),(2) 米山保三郎(2019.11.16,  70/195 PV),(3) 献灯史:多和田葉子(2019.1.13,  66/94 PV),(4) TikZの円弧(2021.3.12,  57/205 PV),(5) 世界計量記念日(2019.5.20,  43/78 PV)であった。最近のものはあまり出ていなくて,アクセス数は順調に減っている。


図:koshix.blogspot.com のPVの推移(2018.12-2022.18)

目的は,惚け防止と軽い認知症になったときに記憶を辿るためなので,まあよしとしよう。


2022年9月14日水曜日

COCOAの行方

COCOAログチェッカーからの続き

河野太郎デジタル大臣は,9月13日の記者会見で,厚生労働省が開発した新型コロナウイルス接触確認アプリ(COCOA)が近々サービス停止になると表明した。

自分がCOCOAをインストールして800日余り経過した。幸いなことにこれまで接触の報告はなかった。COCOAは当初から,そしてその途中でも散々ケチがついてしまったボロボロのシステムだった。4000万件ダウンロードされ,それなりの役目は果たす可能性はあったかもしれないが,本当に意味があったかどうかは検証されていない。

それにしても,せっかく開発した貴重なシステムをすべて水に流してしまうのか。確かに,コロナウイルス感染者の全数把握をやめた段階でMy HER-SYSが使えなくなるのであれば,連動してCOCOAからの陽性登録ができなくなるというロジックはわからなくもない。しかしながら,一端でき上がったシステムを簡単にチャラにしてしまうということに何の躊躇もないことに吃驚する。京大OCWの件と同じマインドがトップに染みついているわけだ。

デジタル庁がその管轄下に置きたがっているこの国のデータベースや情報システムの多くが利権を駆動力として立ち上がり,中抜きを重ねて一定の利益が回収できれば,伊勢神宮の式年遷宮のごとく新しく立て替えることに向かっていく。これが我が国のDXの本質のように見えてしまう自分の心は黒く染まっているのでしょうか。

P. S. なんで厚生労働省のシステムの話に,河野太郎が真っ先に口を突っ込んでいるの?


図:COCOAのアイコン(App Storeから引用)



図:COCOAの業務の流れ(東京新聞 2021/2/20 から引用)


[2]接触アプリCOCOAからの教訓(楠正憲)

2022年9月7日水曜日

教育ダッシュボード

教育データ標準からの続き

豊福晋平さんが,ダッシュボードという言葉をちらっと口走っていた。何のことかと調べてみた。

ダッシュボードとは,自動車は飛行機の計器盤のことであり,システムの刻々と変化する状態を一目で把握できるもののことだ。これをメタファーとしたビジネス管理ツールが登場して進化していくことになる。

それをさらに学校教育の分野に転用したものが,教育ダッシュボードである。以前は学習カルテや学習ポートフォリオというコンセプトで,個人ごとの学習記録をデジタル化して集約しよう流れがあった。

実のところ,大阪教育大学に導入された電子ポートフォリオは,学生の学びの様子を把握して指導することにはほとんど役立たなかった。それは,大学評価のための実績(エビデンス)を作文するというその一点だけで価値がある取り組みだった。いまはどうか知りませんが。

そのダッシュボードの活用例を探していて,真っ先に飛び込んで来たのが大阪市の取り組みだ。大阪市における次世代学校 支援事業の中心にあるのがダッシュボードで,校務系データと学習系データを組み合わせて分析した結果を一画面に可視化するというものだ。説明は,生活指導系の事例に重きが置かれていた。

それを真似たのが,東京都だ。東京都教育委員会と慶應義塾大学SFC研究所との教育ダッシュボード開発に伴う共同研究に関する協定が締結されている。これに関する情報が請求によって公開されていた。あらら,中室牧子じゃないか。非認知情報アンケートとあれやこれやを結びつけようとしていた。

共通するのは,成績などの定量化が可能な従来型の情報ではなく,生活態度や非学習行動など把握しにくい部分を可視化しようというものだ。まあ,保健室を訪れた回数はわかるわね。

2022年8月3日水曜日

イチカ

天理市デジタル地域通貨イチカ」が8月1日からスタートした。 

各戸には案内が送付されるということだったが,ようやく届いた。MilaboPrairieというアプリを使ったもので,さっそく登録してみると,愛媛県西条市と奈良県天理市が選択肢としてでてきたので,このアプリを使ったものとしては全国で1-2例目になる。

地域通貨アプリは他にもあるが,chiicaが9市町村で導入されている。regionPAYは大阪のキャンペーンで利用された例が1件あるだけで,現在は利用が停止されてる。全国の地域通貨のリストがあったが,2017年で更新が止まっていた。

天理市のデジタル地域通貨では,3000ポイント(=3000円分)が各市民に付与されて,10月31日まで有効となっている。コロナ禍に対する生活支援と地元消費喚起が目的であり,ボランティア活動や健康増進活動ともリンクさせるようだ。

なお,スマートフォンの利用が難しい高齢者などの場合は,紙のクーポン券が発行されている。


図:天理市イチカのページから引用

2022年7月15日金曜日

iPhoneの隠しコマンド

 iPhoneの裏コマンドというページにいきあたった。犬は毎日散歩しているので棒にぶつかりっぱなしだ。だから平均移動速度は極端に遅くなる。

iPhoneの電話アプリで,一連の番号を入力すると機能が発現するというものだ。電話番号として,*3001#12345#* を入力すると,接続されている回線業者のネットワークの情報が見える。

試してみると,上記のWebページとは表示が異なったが,いろいろと情報が出てくる。が,素人にはあまり御利益はなかった。ということは,他にもあるのではないかと検索したら,iPhoneの隠しコマンド集というのがあった。

■【注意事項】隠しコマンドは説明書にも書かれておらず、アップル社が公式に公表しているものではないので、何か不利益な事があっても自己責任・自己解決ということを忘れないでください。また、全てのiPhoneの型番で再現する保証はありませんので事前にご了承ください。

それはそうです。なので眺めるだけにしておく。 


写真:iPhoneの画面キャプチャー(右上のリストから詳細情報に入る)

2022年6月28日火曜日

みんなの自動翻訳

DeepL翻訳からの続き

自動翻訳はDeepLで間に合ってます。といいたいところなのだが,一番の問題は,韓国語がないところかもしれない。無料版なので,1回に5000字までという制限はあるけれど,いまのところ,英文ニュース記事を読む際の支援ツールとして使っているので,それほど問題ではない。

情報通信研究機構(NICT)のみんなの自動翻訳@TexTraもなかなかよいという噂が伝わってきたので試してみた。韓国語も訳せるので韓国ドラマを安心してみることができる・・・というわけにはいかない。多機能なのを表に出しすぎているので,ちょっと使いにくい印象がある。Safariではデフォルトの表示が必ずしも整っていないのも気になる。

ユーザインタフェイスはそうだとして,実際に訳文を比較するとどうなるだろうか。

原文(WikipediaのQuantum THermodynamicsから)

Quantum thermodynamics[1][2] is the study of the relations between two independent physical theories: thermodynamics and quantum mechanics. The two independent theories address the physical phenomena of light and matter. In 1905, Albert Einstein argued that the requirement of consistency between thermodynamics and electromagnetism[3] leads to the conclusion that light is quantized obtaining the relation 

E=h\nu . This paper is the dawn of quantum theory. In a few decades quantum theory became established with an independent set of rules.[4] Currently quantum thermodynamics addresses the emergence of thermodynamic laws from quantum mechanics. It differs from quantum statistical mechanics in the emphasis on dynamical processes out of equilibrium. In addition, there is a quest for the theory to be relevant for a single individual quantum system.

TexTra

量子熱力学[1][2]は、熱力学と量子力学という2つの独立した物理理論の間の関係を研究する学問です。2つの独立した理論は、光と物質の物理現象を扱っています。1905年にアルバート・アインシュタインは、熱力学と電磁気学の一貫性が必要であると[3]、光はその関係を得て量子化されるという結論が導かれると論じました。E=h\nu。

この論文は量子論の夜明けです。数十年のうちに、量子論は独立した規則によって確立されました。[4]現在、量子熱力学は量子力学からの熱力学法則の出現を取り上げています。量子統計力学とは異なり、平衡から外れた動的過程に重点が置かれています。さらに、単一の個々の量子系に関連する理論を探求しています。

DeepL

量子熱力学[1][2]は、熱力学と量子力学という2つの独立した物理理論の関係を研究する学問である。2つの独立した理論は、光と物質という物理現象を扱っている。1905年、アルバート・アインシュタインは、熱力学と電磁気学の整合性[3]が必要であることから、光は量子化され、次の関係式が成り立つと主張した。E=h</nu。

この論文は、量子論の黎明期を告げるものです。現在、量子熱力学は、量子力学から熱力学的法則を生み出すことを目的としています[4]。量子統計力学との違いは、平衡状態から外れた動的な過程に重点を置いている点です。さらに、単一の個々の量子系に関連する理論の探求がある。

こうして,比べるとDeepLもやや微妙なところがあるが,訳文は全体としてややこなれている。まあ一長一短というところかもしれない。みんなで使えばより精度は高くなると思うが,まだまだ知名度が低いし,あまり宣伝もしていないようだ。

 [1]みんなの自動翻訳@KI(個人版)(川村インターナショナル・プロの個人翻訳者向け商用利用可能ライセンス)

[2]みんなの自動翻訳 質問・要望一覧

2022年3月24日木曜日

pandoc(3)

pandoc(2)からの続き

引き続き,markdown ファイル の活用例として,プレゼンテーション用のスライド作成に取り掛かる。見本(英文)は簡単に見つかって実行できたものの,日本語対応が面倒だと書いてある。あれこれ探してみても,出発点が RStudioの R Markdownというものが多いのだ。結局,日本語Markdownからスライド資料を作成する(Rcmdnk's Blog 2015)とBeamerスライドをMarkdownで簡単に作成(Tomokazu NOMURA's Web Page)を参考にした。

% kpsewhich beamerthemeSingapore.sty

% /usr/local/texlive/2021/texmf-dist/tex/latex/beamer/beamerthemeSingapore.sty

beamerのテーマファイルを上記のkpsewhichコマンド探し,これを編集して末尾に, \usepackage{luatexja} を加えることで日本語対応するということだった。設定ファイルに直接手を入れるのは気が進まないが,元のmarkdownファイルの1ページ目の yaml ヘッダで定義すれば十分であり,styファイルの修正は不要だった。その結果,次のコマンドで memo.md から memo.pdf というbeamerによるプレゼンテーションスライドが生成される。

pandoc -t beamer -o memo.pdf memo.md --pdf-engine=lualatex

memo.mdの1ページ目の yaml ヘッダは次のとおりであり,スライドの改ページは --- である。

---
title: "MarkdownからBeamer"
subtitle: "Pandocで変換"
author: "大阪教育大学 越桐國雄"
date: 2022/03/24
output:
beamer_presentation:
keep_tex: yes
latex_engine: lualatex
header-includes:
- \usepackage{bookmark}
- \usepackage{luatexja}
- \usetheme{Singapore}
---


図:mdファイルから生成したbeamerスライド

2022年3月23日水曜日

pandoc(2)

pandoc(1)からの続き

とりあえず,markdown ファイルから pdf ファイルが生成できるようになった。tex ファイルや html ファイルも生成できるので,その手順をまとめてみる。

(1) tex ファイルの場合

pandoc -s test.md -o test.tex

このtexファイルに対して,ドキュメントクラスを日本語対応に変更する。すなわち,\documentclass[]{article} → \documentclass[]{ltjarticle}として,コマンドラインから,lualatex test.tex とすれば,test.pdf が得られる。

置き換えを perl のワンライナーで実行すれば,シェルスクリプトに落とし込むことができる。

perl -pi -e 's/{article}/{ltjarticle}/' test.tex

(2) htmlファイルの場合

pandoc -s test.md -o test.html --mathml

pandoc -s test.md -o test.html --mathjax

どちらでもよいのだが,数式のまわりのhtmlは,mathjaxの方が少しだけスッキリしているかもしれない。

そこで,これらを zsh のスクリプトとしてまとめたものが次である。md.sh input option とすればよい。optionには{pdf, tex, html}のいずれかが入る。入力ファイルは input.md であり,拡張子より前の部分を引数に取ればよい。以下は md.sh の内容である。

#! /bin/zsh
case \$2 in
  "pdf")
    echo "pdf";
    iconv -f UTF-8-MAC -t UTF-8 \$1.md | pandoc -f markdown -o \$1.pdf -V documentclass=ltjarticle --pdf-engine=lualatex
  ;;
  "tex")
    echo "tex";
    pandoc -s \$1.md -o \$1.tex;
    perl -pi -e 's/{article}/{ltjarticle}/' \$1.tex
  ;;
  "html")
    echo "html";
    pandoc -s \$1.md -o \$1.html --mathjax
  ;;
*)
  echo "undefined"
  ;;
esac

2022年3月22日火曜日

pandoc(1)

マークダウン(2)からの続き

マークダウンの使い方をみていると,コマンドラインベースで各種のドキュメントを相互に変換することができる,pandocとの相性が良いらしい。ということで,pandoc をインストールしようとしたら,すでに homebrew で導入済みだった。念のために,brew reinstall pandocで,pandoc 2.17.1.1が入った。

変換できるファイルの種類のカテゴリーは,次のように多岐に渡る。Lightweight markup (.md),HTML (.html),Ebooks (.epub),Documentation,Roff,TeX (.tex),XML,Outline,Word processor (.docx), Interactive notebook (.ipynb),Page layout,Wiki markup (MediaWiki),Slide show (beamer),Data (.csv),Custom,PDF (.pdf)

厄介なことにマークダウンに関しては微妙に異なった方言が存在するのでなんだか意図した結果が出てこないと思っていたが,記法のミスだった。(1) 見出し,(2) 箇条書き,(3) 番号付き箇条書き,(4) 書体,(5) コード,(6) 数式,(7) 表,(8) 画像,(9) リンク,(10) 脚注 などが概ね機能している。見出しのレベルがまだはっきりわからない。番号付きリストの半角空白は3個にした。

iconv -f UTF-8-MAC -t UTF-8 test.md | pandoc -f markdown -o test.pdf -V documentclass=ltjarticle --pdf-engine=lualatex

上記が,macOS での pandoc の使用例である。入力ファイルは test.md,出力ファイルは test.pdf である。pdf 出力のためには lualatex を通す必要があることと,ファイルは標準の(macOS標準ではなく)UTF-8 形式にしておく必要があるのでiconvで漢字変換したものをpandocに食わせている(pdfファイルで濁点が分離してしまうのを防ぐらしい)。

.zshrcにパスを通して,md2pdf.sh という実行可能なシェルスクリプトを作ったので,引数を1つ指定すると,md2pdf.sh test1 のようにmdファイルからpdfファイルが生成できるようになった。

以下が,マークダウンファイル,test1.md の内容である。

# 見出し1(Title)
ここが段落の文章になる改行しても無視される 
空行があるためこの文章は第二段落となる

## 見出し2(Chapter)
これでは
あれでは

### 見出し3(Section)

#### 見出し4(Subsection)

- リストA
- リストB
  - 子リストB-a
    - 孫リストB-a-a
- リストC

- リストの文章1です。

  行の頭に半角スペースが二つあるので,
  リストの内部要素です。

- リストの文章2です。

行の頭に半角スペースがないので新しい段落です。

1. 番号付きリスト A
   1. 番号付き子リスト A-a
   1. 番号付き子リスト A-b
      1. 番号付き孫リスト A-b-α
      1. 番号付き孫リスト A-b-β
      1. 番号付き孫リスト A-b-γ
   1. 番号付き子リスト A-c
1. 番号付きリスト B

*italic* **bold** ***italic+bold***

\`inline_code\`

\`\`\`
display style code block
function test(a,b) {
return a+b;
}
\`\`\`
\$\int_{-\infty}^\infty e^{-\alpha x^2}dx = \sqrt{\frac{\pi}{\alpha}}\$

\$\$
\int_{-\infty}^\infty e^{-\alpha x^2}dx = \sqrt{\frac{\pi}{\alpha}}
\$\$

|項目1|項目2|項目3|
|---|---|---|
|りんご| 10円| 3個|
|みかん| 50円|10個|
|いちご| |売り切れ|
|バナナ|100円| 2本|

[リンク先 https://pandoc.org/ をクリック](https://pandoc.org/)

画像![ALT これはアイコンです](sample.png)も表示させられます。

Markdown エディタ NowType は Ito によって作られ た。 [^1]

NowTypeにおいては、次のような入力支援を行います。

[^1]: Atsushi M. Ito, プラズマ・核融合学会誌, vol. X, No. Y, 2020.

2022年3月20日日曜日

マークダウン(2)

 マークダウン(1)からの続き

markdownを使うためのエディタとして何がいいのかを調べてみた。【2022年版】Markdown(マークダウン)エディタ厳選まとめなど色々ある。

一つは,Visual Code StudioAtom などの高機能プログラム開発用ソースコードエディタである。元々日常的に使っているのであればこれで良いのだけれど,このためだけに大掛かりな道具立てを持ってくるのは,ちょっと本末転倒な感じがして,markdown の簡素さと相容れない。

そうなると,ウェブアプリとかローカルアプリになる。Boostnote,Joplin,Bear,Quiverなどを眺めてみたけれど,どれも面倒な印象だ。その中では,有償ではあるが Typoraがデザインもすっきりしていて相対的にマシなように感じた。$14.99なのでそれほど高額ではない。とりあえず,3週間は無料でお試しできるので導入してみた。

一通りのことはできるが,inlineの数式ができない。調べてみると,環境設定に1つチェックをすればOKなので,これでほぼ目的は達成できそうだ。使い込んではいないので,もう少し様子を見ることに。

そうこうしていたら,なんのことはない,Jupyter notebookに Code モードとMarkdown モードがあることがわかった。モードを切り替えてみれば,簡単な数式入力は問題なかった。これでいいのだ。最も,その先のことや pdf 出力のことを考えると,Typoraの方が良いかもしれない。


図:Typoraの購入画面 (3端末で使えるよ)

2022年3月19日土曜日

マークダウン(1)

湯川諭さんの 統計力学の本を読んでいたら,カノニカル集団の章で,ラプラス逆変換の式が重要なポイントとして出てきた。フーリエ変換は教えているけれど,ラプラス変換の方は長い間ご無沙汰だったので,復習することにした。

YouTubeで探してみると,量子アニーリングで有名な大関真之さんの授業動画が見つかった。これについての紹介は別にするとして,その中でマークダウン(markdown)への言及があり,数式も使えるよということだった。

Githubを見ていると,コードのドキュメントは必ずmarkdownで書かれたファイル(readme.mdなど)だったので,存在は知っていたが,数式が扱えることまでは知らなかった。そこで,ちょっと試してみるべく色々探してみた。なんだかどこかで見たような・・・うーん・・・なかなか思い出せなかったが,Wikiにおけるマークアップ構文と同じ類ではないか。

昔,本家のMediaWikiはデータベースが必要で重すぎたので,PukiWiki(PHPベース)やFSWiki(Perlベース)などの軽量Wikiを自分のサーバにインストールしてあれこれ試用していた時代があった。特にFSWikiが軽くてよかった。


図:なつかしのFSWikiのトップ(右上)画面

[1]日本Markdownユーザ会

[2]新入生のためのMD(マークダウン)入門(矢根真二)

2022年3月18日金曜日

pdfファイルの結合

(以下はMac環境でのお話)

作業していると,複数のpdfファイルを結合する必要が生ずることが多い。例えば,プレビューを使って左側にサムネールを表示させると,任意のポイントに別のpdfファイルをドラッグ&ドロップして1つのファイルに結合することができる。この方法では,ファイル数が増えページ数が多くなると面倒だし上手くいかないことも多い。

そこで,これまでは,Autometerが内部で使っているpythonスクリプトである join.py をコマンドラインに引っ張り出して使ってきた。 "/System/Library/Automator/Combine PDF Pages.action/Contents/Resources/join.py"により,~/join.py -o x.pdf ~/Downloads/y-*.pdf などとしていた。

これが,この度のOSアップグレードで使えなくなってしまった。python2.7系列が存在しない。python3になっている。スクリプトのヘッダを#! /usr/bin/python3とするだけでいけるかと思ったが,そんな甘くはなくて,エラーだらけになってしまう。

そこで,別解を探してみたが,これがなかなか面倒だった。

(1) ImageMagickのconvertを用いると良いという話があった。ImageMagickをhomebrewで再インストールすると,convertが使えるようになった。試してみると直ぐに結果が出たので,これで解決と思ったら,結合前のpdfファイルに比べ,結合後のものは画像が荒すぎる。確かに上の参考リンク先にもこのことが書いてある。そこで,dpiを400とか300にして試したところ,処理時間やファイルサイズが10倍以上になってしまって使えない。

(2) pdf 結合 コマンドラインで探してみると,popplerというpdfレンダリングライブラリに,pdfファイルを複数結合するコマンドである,pdfuniteというのがあるということだ。これも早速インストールして実行してみると,エラーが出て進めない。

(3) さらに他のものをということで検索すると,pdftkというコマンドが見つかった。brew install pdftkではヒットしないので,brew search pdftkとすると,pdftk-javaが出てきたので,これをインストールしたところ,pdftkコマンドが使えるようになった。使い方の例は次の通り。pdftk input?.pdf cat output out.pdf である。outputという指示を加えることを忘れないようにしよう。ファイルサイズも問題なしだ。これでとりあえず問題は解決か。

2022年1月22日土曜日

COCOAログチェッカー

 2020年の7月に厚生労働省の接触確認アプリCOCOAをインストールして568日目になる。COCOAは2020年の6月19日にリリースされており,現在までに2400万件ダウンロードされた。最初からアプリのトラブルが続き,開発の責任問題などを巡りゴタゴタしたことから普及が進まず,現時点でも全国民の20%程度というなさけない状況だ。

登録された陽性者と1m以内の距離に15分間以上の接触をしたというアラームは,まだあがってきたことがない。COCOAには,さらに詳しい接触通知ログ情報が14日間分,スマートフォンに記録される仕組みがある。このログを解析するツールが,COCOAログチェッカーというウェブアプリだ。

iOSの場合は設定に「接触通知」という項目があり,その中の「接触チェックの記録」に過去14日間の接触ログデータが格納されている。その一番下にある「接触チェックの記録を書き出す」がある。これを選んでコピーボタンを押すとログデータがクリップボードに保存される。そこで,先ほどのCOCOAログチェッカーの入力欄にこれをペーストしてチェックボタンを押せばOKだ。

早速やってみると,自分の場合,3件の新規陽性登録者が近くにいた記録が確認された。昨日は天王寺キャンパスの夜間の対面授業(次回はオンラインにする)があったので大阪に出たのだった。近鉄,上本町,地下鉄,天王寺地下街,大阪教育大学,天王寺駅などと16:00から21:30まで周回してきたので危ない危ない。15分以上は接触していないのでまあ大丈夫だとは思う。COCOAの普及率が20%だったから,一度大阪に出ただけで(先週は大学入学共通テストのため休講だから),この5倍の15人の陽性者と接触したことになる。


図:COCOAログチェッカーの画面