芥川龍之介が「蜘蛛の糸」を発表して百年。高二の秋の文化祭,クラスの仮装行列のテーマが 蜘蛛の糸だった。お釈迦様の極楽タワーの竹を近所から切り出し,地獄の焔と煙の絵を描いた。犍陀多に続いて蜘蛛の糸(登山部の赤いザイル)に群がる地獄の亡者だったころ。
2024年8月10日土曜日
世界の解像度(1)
2024年7月23日火曜日
Japhalbet
Q(mazzo):現在の日本語をベースにして、表記文字はアルファベットのみを使った新しい言語の仕様を考えて。非ネイティブが使いやすく、覚えやすく、日本語話者も再学習が容易なものとするA(Claude 3.5 Sonnet):新しい日本語ベースの言語の仕様を考案しました。この言語をJaphalbet(ジャファルベット)と呼ぶことにします。以下に主な特徴を示します:1.文字体系:・アルファベットのみを使用・長音は母音を重ねて表現 (例: aa, ee, oo)・撥音は「n」で表現・促音は子音を重ねて表現2.文法:・基本的な語順はSVO(主語-動詞-目的語)に変更・助詞は省略し、語順で文法関係を表現・時制は動詞の後に付加語を追加 (例: -ta for過去, -ru for現在/未来)3.発音:・日本語の発音規則を基本とするが、「つ」は「tu」、「ふ」は「fu」と表記4.語彙:・日本語の語彙を基本とするが、複雑な漢語は簡略化・外来語はそのまま使用可能
Q(koshix):現在の日本語をベースにして、表記文字はアルファベットのみを使った新しい言語の仕様を考えて。非ネイティブが使いやすく、覚えやすく、日本語話者も再学習が容易なものとするA(Claude 3.5 Sonnet):アルファベットのみを使用した日本語ベースの新言語仕様1.アルファベットと発音標準的な26文字のラテンアルファベットを使用発音は日本語の音声規則に従う長音は母音を重ねて表記(aa, ii, uu, ee, oo)2.基本文法主語-目的語-動詞(SOV)の語順(日本語と同様)文法機能を示す助詞(日本語から簡略化):「wa」:主題を表す「ga」:主語を表す「o」:直接目的語を表す「ni」:間接目的語や方向を表す「de」:動作の場所を表す文法的性別なし冠詞なし(a, an, the に相当するものがない)3.動詞動詞の語幹 + 時制/相マーカー現在/未来形:動詞の語幹 + 「ru」過去形:動詞の語幹 + 「ta」進行形:動詞の語幹 + 「teiru」丁寧形:動詞の語幹に「ru」の代わりに「masu」を付ける4.形容詞i形容詞:「i」で終わる(日本語と同様)na形容詞:名詞を修飾する際に「na」を付ける5.代名詞簡略化された代名詞セット:「watashi」(私)「anata」(あなた)「kare」(彼)「kanojo」(彼女)「sore」(それ)6.数字アラビア数字(0-9)を使用助数詞は簡略化し、数を減らす7.文構造日本語と同様に主題卓越型文脈が明確な場合は主語の省略可能8.語彙日本語の単語をベースに、ローマ字で表記現代的な概念には適宜英語からの借用語を使用9.敬語簡略化された敬語システム:「san」:一般的な丁寧さを表す「sama」:高い敬意を表す10.句読点標準的な英語の句読点を使用例文:"Watashi wa kinoo toshokan de hon o yomimashita."(私は昨日図書館で本を読みました。)
2024年6月21日金曜日
状況認識:次の10年
Q(koshix):https://situational-awareness.ai の内容を日本語で私にわかるように説明してください。A(GPT-4o):序章「Situation Awareness: The Decade Ahead」では、AI技術の進展が引き起こす未来の変化について深く探求しています。特にサンフランシスコがこの変化の中心地となることが予測されています。著者は、過去数年間のAIの進歩が予測可能であったことを指摘し、今後の数年間も同様に予測できる可能性が高いと主張します。AI技術の急速な発展と、それに伴う社会的影響について、具体的なデータと予測を交えながら解説しています。第1章:GPT-4からAGIへこの章では、GPT-2からGPT-4への進化過程を振り返り、2027年までにAGIが達成される可能性について詳細に述べています。著者は、計算能力の向上、アルゴリズムの効率化、そして「アンホブリング」と呼ばれるAIの能力解放がAGIの達成に寄与すると説明しています。これらの要素が組み合わさることで、AIの知能は現在の高校生レベルから大きく飛躍し、2027年までに人間レベルの知能に達する可能性が高いと予測しています。第2章:AGIから超知能へAGIが人間の知能を超え、超知能に進化する過程とその影響について詳述しています。数百万のAGIがAI研究を自動化し、アルゴリズムの進歩を急速に進めることで、短期間で人間レベルから超人レベルのAIシステムへの移行が可能となります。超知能がもたらす力と危険性についても深く掘り下げ、その影響の大きさと社会に与える可能性のある変化について議論しています。第3章:課題技術資本の加速AI技術の急速な発展に伴い、GPUやデータセンターへの大規模な投資が必要です。特にアメリカでは、電力生産が数十パーセント増加し、数百万人のGPUが稼働することが見込まれています。この産業動員は、AIの発展を支えるための重要なステップとなります。セキュリティの確保AGIの開発と実装に伴うセキュリティ問題は重大です。現在、多くのAI研究所はセキュリティを軽視しており、国家レベルの脅威に対処するための対策が急務となっています。AGIの機密情報を保護し、悪意ある国家や組織からの攻撃を防ぐための具体的な戦略が必要です。超整合性超知能を安全に制御するための技術的課題は未解決です。急速な知能爆発の中で制御を失うリスクがあり、失敗すれば壊滅的な結果を招く可能性があります。超知能の整合性を保つための技術的および倫理的な問題について詳細に議論されています。自由世界の存続超知能が経済的および軍事的な優位性をもたらす中、中国との競争が激化しています。自由世界がその優位性を維持しつつ、自己破壊を回避できるかが重要な課題となっています。自由世界の存続とAI競争における戦略的な対策についても深く掘り下げられています。第4章:プロジェクトAGIへの競争が激化する中で、国家安全保障が関与するAGIプロジェクトの出現が予測されます。2027年から2028年にかけて、米国政府がAGIプロジェクトを主導し、スタートアップ企業では対処できない超知能の管理に取り組むことが期待されています。この章では、政府の役割とその影響について詳細に考察されています。第5章:終わりにこれらの予測が正しい場合、私たちが直面する未来について考察します。超知能の出現がもたらす可能性のあるシナリオと、それに伴う社会的、経済的影響について議論し、これからの対策の必要性を強調しています。最終的には、これらの技術的進歩が人類にどのような影響を与えるか、そして私たちがどのように対応すべきかについての洞察を提供しています。Q(koshix):
https://situational-awareness.ai の 第5章の結論をより具体的に示してください。A(GPT-4o):
「Situational Awareness: The Decade Ahead」の第5章では、AI技術の進展に対する現実的な視点(AGIリアリズム)について論じています。著者は、AGIが国家安全保障の問題であり、特にアメリカがリードする必要があると強調します。アメリカがAGIの開発と管理を主導しないと、権威主義的な国家が先行するリスクが高いからです。著者は、現在のAI技術の進歩は、単なるシリコンバレーの技術ブームではなく、世界を劇的に変える可能性があると述べています。特に2020年代の終わりまでに、スーパーインテリジェンスが現れると予測しています。この技術の進展は、新しい世界秩序をもたらす可能性があり、その過程で発生するリスクとチャンスについても触れています。AGIリアリズムの核心は次の三点です:最終的に、著者はAI技術の進展が私たちに与える重みと、その未来についての深い洞察を共有しています。この進展は、少数の人々の手に委ねられており、これからの数年間が非常に重要であると述べています。
- 国家安全保障としてのスーパーインテリジェンス:これまでで最も強力な兵器となり、これに関わる者にとって最も重要な仕事となる。
- アメリカのリーダーシップ:自由の灯火を保つためには、アメリカがAGIのリーダーシップを取る必要がある。これはAIクラスターの建設とセキュリティの強化を含む。
- 失敗のリスク管理:スーパーインテリジェンスのリスクは現実的であり、これを管理するためには真剣な取り組みが必要。
現代のレオ・シラードか。なんだか,原爆開発をルーズベルトに進言させた件を想起させる。もっとも,このたびは開発の次にくる軍事管理の勧めになってしまっているようだ。これならば,OpenAIが握っているほうがまだましか。
問題は,インターネット等を経由した社会システム基盤のコンピュータネットワークシステムへの介入とAGIが結びついたときに深刻になる。人類全体が,その生命維持機構をクラッキングされてしまうことだ。電力制御,通信制御,生産制御,金融制御,医療制御,軍事制御などをのっとられてしまうとき(一番は核ミサイルシステム?),どうするかということだ。
[1]LLMの現状〜国家の最重要プロジェクトレベルで取り組むべき(松田語録)
2024年3月3日日曜日
「自分の考え」(あるいは課題発見力の重要性)
「自分の考え」(あるいは課題発見力の重要性)というのは「問いと答えのセット」のことであり,いかに適切な問いを立てそれに答えるか,が「自分の考え」の実体である。「自分の考え」は,問いにおいて,あるいは,答えにおいて,同じ世界を生きる他者のそれらと共通する部分を持っているだろう。人々に共通する問いに対して十分に納得のできる答えを用意すること,あるいは,人々が潜在的に感じていて言語化できなかった問いを発掘して磨き上げ,それに対して十分に推敲された適切な解答を提示しようとする態度が,人々の信頼や関心を集めることになる。「会話」は,このような潜在的な問いと答え,あるいは,顕在的な問いと答えが編み込まれたストリームとして存在する。繰り返される問いと答えに感情の絵の具が塗られたタペストリーとしての会話。「自分が考える」ということは「問いと答えのセット」の往還を持続することであり,その適応範囲を拡げながら問いや答えの質を高めるためにも,他者との「問いと答えの交換」は不可欠なものである。常に問いを準備せよ,常に答えを準備せよ,それは対話の中で次のステップへと歩みを進めることを可能にする。大学の将来像については,それを巡る問いと答えの膨大な集積の中に解決を探るしかない。しかし,自然現象とは異なり,社会的な制度として,人為的な境界条件の制約を課されていることから,問いは問いたりえず,答えは答えたりえない場合も少なからず存在している。あらかじめ答えが限定された問いを自らに強制され,あたかも自発的にその答えを発見したかのように擬制されるケースは列挙に事欠かない。「問いと答えのセット」を既存の知識と論理の中で延長し拡大しようというのが哲学「問いと答えのセット」を対象操作的な実験や観測により発見しようというのが科学「問いと答えのセット」を主体と環境との相互作用の中で表現しようというのが芸術言語化されない「自分の考え」=「問いと答えのセット」も世界には存在している言語で表現された「問いと答え」からは捨象されて見えるかもしれないが,すべての問いと答えには,その問いや答えが発せられた時空(世界)における,時間(歴史)と空間(構造)と情報(主体)のラベルが貼られているのであって,それによって問いの意味も文脈も相互作用もすべてが規定されてくることになる。従来であればマスコミや知的権威などの,あるいは最近であればインターネットメディアで増幅された「他者」によって発せられる仮想の問いと仮想の答えに毎日さらされている私たちは自らの問いと答えを作り出す力が衰えている。「他者」の問いに「他者」が答えることを学ぶ(まねする)。
2024年3月2日土曜日
デジタル化と「考える力」の喪失
手書き(アナログ)かタイプ(デジタル)かというのは本質ではない。一方で,思考過程における身体性の意味を押さえる必要がある。「身体化された心の人類学的解明」ウェブやスマホのSNSに没入して,他者の言葉の断片とその連鎖の中を漂うとき,自分は他者の言葉で考えている。それらをなぞることで,疑似的に「自分」の考えを紡いでいる。いや,「自分で考える」ということも,本質的にはこれと替わらないのかもしれない。既存の言葉と概念を材料として,自分で積み木を組み上げる作業が「考える」ということ。DNAプールから長い年月をかけて「試行」を繰返し,その環境や相互作用の中で最適化を進めるプロセスと類似している「思考」の過程。言葉と概念の並び替えと繋ぎ替えが,考えることの本質だとするとき,デジタル化は何を奪うことになるのだろうか。言葉と概念のストックを自分の脳の中から,インターネット空間に拡大し,リンクの作業を既存のリンクで代替する。「本を読む」ことや「論文を読む」ことは,他人の思考過程を追試することであった。それは「自分で考える」ための練習でもあったわけだが,そのような完成した思考過程の成果の学習ではなく,思考のためのトレーニングあるいは非トレーニングがデジタル化された情報空間で展開される。アナログ情報空間とデジタル情報空間の差異は何か。我々はどの空間に生息しているのか。重なり合う2つの宇宙の狭間で,乗り移りを図る知性体のありようは,小松左京のSF短編で示された,宇宙からの脱出の実体を表現しているのかもしれない言葉を紡ぐ,音を紡ぐ,色と形を紡ぐ,論理を紡ぐ,身体運動を紡ぐ,すべてが考えるということであり,そこに,身体性が・・・
2023年12月15日金曜日
Duolingo
2023年12月14日木曜日
棒
10年に 1回 〜 10回3年に 1回 〜 30回1年に 1回 〜 100回年に 4回 〜 300回月に 1回 〜 1000回週に 1回 〜 4000回3日に 1回 〜 1万回1日に 1回 〜 3万回1日に 3回 〜 10万回
Q(私):日本人が一日に書く漢字の数は400字程度です。一生には,1000万字程度の漢字を書くことになるでしょう。このうち,「棒」という漢字を書く回数は何回程度だと推定されますか?A(Claude):はい、ご指摘の通り、日本人が一生のうちに書く漢字はおよそ1000万字とされています。このうち、「棒」という漢字が何回含まれるかを推定するため、次のように考えます。日本語の漢字使用頻度データによると、「棒」の出現頻度は0.0026%,1000万字の0.0026%は2600字。したがって、一生のうちに書く漢字1000万字のなかで、「棒」という漢字が含まれる頻度はおよそ2600回と推定されます。
2023年6月8日木曜日
会話行動に関する調査
2023年3月23日木曜日
「これは個人的な意見ですが…」
Q:組織における制度化された会議の場で,あるいは打ち合わせ等での意見交換の場で,「これは個人的な意見ですが・・・」と前置きされる発言がでることがしばしばあります。この表現は何を意味していて,どういう機能を果たしているのか,いくつかの類型に分けて整理しながらの説明をお願いします。A:この「これは個人的な意見ですが・・・」という表現は、主に以下の機能を果たしていると考えられます。様々な類型に分けて整理してみました。1.責任の回避:この表現を使うことで、発言者は自分の意見が組織やチームの意見として捉えられることを避けることができます。これにより、意見が受け入れられなかった場合や問題が生じた場合でも、発言者個人への責任を最小限に抑えることができるでしょう。2.柔らかい意見の表現:この表現を使うことで、発言者は自分の意見を他者に押し付けることなく、柔らかく提案できます。これは、対立や摩擦を避けるために役立ちますし、他者が意見に対してオープンである可能性を高めるでしょう。3.オープンな議論の促進:「これは個人的な意見ですが」は、発言者が自分の意見に対して完全に自信がないことを示唆する場合もあります。この表現を使うことで、他者に対して意見についてのフィードバックや異なる視点を提供する機会を与えることができます。4.エキスパートでない立場からの意見提供:発言者がその分野の専門家ではない場合や、十分な情報を持っていない場合に、この表現を使うことがあります。この場合、発言者は意見を提供しつつも、自分がエキスパートでないことを明示し、他者からの補足や訂正を歓迎する態度を示すことができます。5.異なる意見や視点の提示:組織内で既存の意見や方針に対して異なる視点を持っている場合、発言者は「これは個人的な意見ですが」と前置きすることで、新たなアイデアや視点を提案しやすくなります。これにより、組織全体の意見や方針の多様性を促進することができるでしょう。総じて、「これは個人的な意見ですが」という表現は、意見交換の場において多様な意見を尊重し、続けてオープンな議論を促進するための有用な表現です。この表現を使用することで、以下のような効果も期待できます。6.階層を超えた意見の提案:組織内で階層が存在する場合、「これは個人的な意見ですが」という表現を使うことで、上層部に対して意見を提案しやすくなることがあります。この表現は、自分の意見が組織全体に適用されるべきだと主張しているわけではないことを示しているため、上層部に対して敬意を払いつつ、意見の提案が可能になります。7.時間をかけて意見を検討する余地の提供:「これは個人的な意見ですが」という表現を用いることで、他者に対して即座に意見を評価し、決定を下すことを求めない空気を醸成できます。これにより、意見がじっくりと検討される可能性が高まるでしょう。8.チームのコミュニケーションを円滑にする:この表現は、チーム内での意見の対立を和らげ、より建設的なコミュニケーションを促す役割を果たします。相手に対して敬意を示し、意見の違いを受け入れやすくすることで、チーム全体の関係を強化する効果があります。これらの類型に分けられる機能を通じて、「これは個人的な意見ですが」という表現は、組織内での意見交換や会議の場をより有意義で生産的なものにする助けとなります。発言者はこの表現を用いることで、自分の意見を適切な形で伝えることができ、他者とのコミュニケーションを円滑に進めることができるでしょう。
Q:このような表現は日本以外の国でも見られるのでしょうか。A:「これは個人的な意見ですが」という表現に相当するものは、日本以外の国でも見られます。異なる言語や文化においても、同様の表現が使われることがあります。以下にいくつかの例を挙げます。英語圏:「In my opinion...」(私の意見では…)、「I personally think...」(個人的には思うんですが…)、「Just my two cents...」(たった2セントの価値しかないかもしれませんが…)などの表現が使われます。スペイン語圏:「En mi opinión...」(私の意見では…)、「Personalmente pienso que...」(個人的には思いますが…)などの表現が使われます。中国語圏:「我个人认为...」(私個人としては思いますが…)、「在我看来...」(私の見解では…)などの表現が使われます。ドイツ語圏:「Meiner Meinung nach...」(私の意見では…)、「Ich persönlich denke, dass...」(個人的には思うんですが…)などの表現が使われます。これらの表現は、日本語での「これは個人的な意見ですが」と同様に、意見交換や会議の場において、発言者が自分の意見を柔らかく提案し、他者との対立を避けることを目的として使用されます。ただし、国や文化によっては、このような表現が一般的であったり、逆にあまり使われなかったりすることもあるため、異文化間でのコミュニケーションの際には注意が必要です。
2023年3月12日日曜日
幽霊漢字
今日,第1回AIアートグランプリの発表があった。主催がドスパラ(サードウェーブ)で事務局が清水亮さんのMEMEPLEXだ。
279件の応募作品から,17作品が第一次選考を通過した。そのうち12作品が佳作であり,第2次選考を通過した5作品から,グランプリ1作品と準グランプリ4作品が選ばれた。なんと,グランプリは,backspace.fmでお馴染の松尾公也さんの「Desperado by 妻音源とりちゃん[AI]」だ。
これまでも亡くなった妻のとりちゃんの音源を作ってきたが,AIによって画像イメージも生成した上に,自分の歌声をとりちゃんの声に変換できるようになった。さらに3次元化にもチャレンジしているらしい。自分の声やテキストもAI化して残る未来を想定している。
最近,テクノエッジを運営するテクノコアに入社した松尾さんは,MacUserの初代編集長で,有料メールマガジンMacWIREも立ち上げている。ドリキン,西川善治と3人で毎週流しているbackspace.fmの話が面白い。
さて,AIアートグランプリで印象に残ったのは,カラス=ヨーロッパ中世の防疫マスクで登場した機能美Pさんの作品だ。急遽作られた審査員特別賞も受書した。AIグランプリなのにAIは2%しか使っていないというメタコンセプトの「そんな話を彁は喰った」がその作品だ。そのタイトルに登場する漢字「彁(か・せい)」は幽霊漢字とよばれている。
1978年に通商産業省が制定したJIS C 6226(後のJIS X 0208)では,いわゆるJIS第1・第2水準漢字として6349字が規定された。このとき典拠は次の4つの漢字表だ。
1. 標準コード用漢字表(試案): 情報処理学会漢字コード委員会(1971年)
2. 国土行政区画総覧: 国土地理協会(1972年)
3. 日本生命収容人名漢字: 日本生命(1973年、現存せず)
4. 行政情報処理用基本漢字: 行政管理庁(1975年)
この中に,音義・使用例の不明な文字があることが指摘され,辞書類に収録されながら実用例のない単語を意味する「幽霊語」をもじって「幽霊文字」と呼ばれるようになった(WIkipedia 幽霊文字から抜粋引用)。
また知らなかった事実に出会うことになる。犬も歩けば棒に当たる。
P. S. AIアートグランプリはNHKニュースでも取り上げられて,松尾さんがインタビューに答えていた。
[1]「松尾PはなぜAIアートグランプリで優勝できたのか?!」(第1965話 shi3z & drikinの#AIドリフト)
[2]第一回AIアートグランプリを受賞したので自分の作品解説とファイナリスト作品への感想。そしてその先(CloseBox)(松尾公也)
[3]第1回 AI Art GrandPrix が素晴らしかった件(白井暁彦)
2023年2月25日土曜日
한글(ハングル)
韓国ドラマを見るのが習慣化しているので,ハングルや韓国・朝鮮語の勉強をしておく必要がある。doulingoで毎日少しづつ学んでいるが,なかなかおもしろい。
ハングルは,1443年に李氏朝鮮第4代国王の世宗大王が,訓民正音(朝: 훈민정음,略称: 正音)の名で公布した表音文字だ。日本の表音文字のカタカナやひらがなと異なり,陰陽五行思想の創成原理に基づいたものであり,理論的で美しいし学びやすい。macOSのHangulローマ字入力(HNC)を使うと,簡単に入力することもできる。
韓国ドラマでは漢字はほとんど出てこない。漢字復活論があると耳にしたので,Bing Chatに聞いてみると次のようなことだった。知らんけど。
漢字の利用を進めるようにという意見や、韓国政府の施策についてですね。漢字復活論は、保守新聞や学術界、保護者などが主導しています12。彼らは、漢字は文化や歴史の伝承に重要であり、また外国語学習や知的活動にも有益だと主張しています13。一方で、漢字廃止論は、ハングルだけで十分であり、漢字は民族主義や反日感情に基づいて排除されるべきだと言っています3。
韓国政府はこの問題に対して消極的な姿勢をとっており、「教えろとも教えるなとも言わない」という態度を示しています4。しかし、2019年から小学校の教材に漢字を一部復活させる方針を打ち出しました52。これは、多くの韓国人が漢字の必要性を認識し始めたことや、中国との経済関係の強化などが背景にあると考えられます56。
基本子音(14)うち激音(4):
ㄱ (g), ㄴ (n), ㄷ (d), ㄹ (r, l), ㅁ (m), ㅂ (b), ㅅ (s),
ㅇ (ng: x), ㅈ (j), ㅊ (ch: c), ㅋ (k), ㅌ (t), ㅍ (p), ㅎ (h)
重子音=濃音(5):
ㅋ (kk: G), ㄸ (dd: D), ㅃ (pp:B), ㅆ (ss: S), ㅉ (jj: J)
基本母音(10):
ㅣ (yi: i), ㅏ (a), ㅑ (ya, ia), ㅗ (o), ㅛ (yo, io),
ㅡ (eu: w), ㅓ (eo: e), ㅕ (yeo: ye, yie), ㅜ (u), ㅠ (yu),
重母音(11):
ㅐ (ae: ay, ai), ㅒ (yae: iai, iay, yai, yay)
ㅔ (e: ei, ey), ㅖ (ye: yei, yey) , ㅢ (wi: wi)
ㅘ (wa: oa), ㅙ (wae: oai, oay), ㅚ (oe: oi, oy)
ㅝ (wo: ue), ㅞ (we: uei, uey), ㅟ (ui: ui, uy)
終声パッチムの音価(7):
앙 (ang); 안 (an); 암 (am); 알 (ar); 악 앜 앆 (ag)
앋 앝 앗 았 앚 앛 앟 (ad); 압 앞 (ab)
2023年2月2日木曜日
ChatGPTの近況(2)
・最低1,000文字(約150~250ワード)が必要である。・分類器は必ずしも正確ではなく,AIが生成したテキストと人間が書いたテキストの両方を誤って分類することがある。・AIが生成したテキストは,分類器を回避するために簡単に編集できる。・分類器は,主に大人が書いた英語のコンテンツで学習したため,子供が書いたテキストや英語でないテキストでは間違う可能性が高い。(つまり日本語には対応していない)
2023年1月31日火曜日
形態素解析
vi /opt/homebrew/etc/mecabrcconfiguration file の dicdir の修正:; dicdir = /opt/homebrew/lib/mecab/dic/ipadicdicdir = /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
cd /opt/homebrew/lib/mecab/dicvi userdic.csvcat userdic.csv行政組織,,,1000,名詞,一般,*,*,*,*,行政組織,ギョウセイソシキ,ギョウセイソシキ
出発点,,,5000,名詞,一般,*,*,*,*,出発点,シュッパツテン,シュッパツテン
95%信頼区間,,,5000,名詞,一般,*,*,*,*,95%信頼区間,キュウジュウゴパーセントシンライクカン,キュージューゴパーセントシンライクカン
/opt/homebrew/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd -u userdic.dic -f utf-8 -t utf-8 userdic.csvmecab -u /opt/homebrew/lib/mecab/dic/userdic.dic
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用型,活用形,原形,読み,発音
2023年1月29日日曜日
茶道
ちゃ-どう【茶道】〘名〙①茶の湯を催すことによって静寂閑雅の境地にはいり,礼儀作法を修める道。…。さどう。さ-どう【茶道・茶頭・茶堂】〘名〙①(茶頭・茶堂)茶事をつかさどるかしら。…。②(茶道)茶の湯。…。[補注]茶の湯の道のことを「さどう」というのは江戸時代まではまれであり,また,茶頭との混同をさけるために「ちゃどう」というのが普通であった。
2023年1月28日土曜日
テキストマイニング
#!/bin/zsh
# Speech of Prime Minister in the Diet
# https://ja.wikisource.org/wiki/カテゴリ:内閣総理大臣施政方針演説
# 1/28/2023 K. Koshigiri
# usage: jpol.sh 204 菅
# output 204.txt
lynx -dump https://ws-export.wmcloud.org/\?format=pdf\&lang=ja\&page=第\$1回国会における\$2内閣総理大臣施政方針演説 > \$1.pdf
pdftotext \$1.pdf \$1-x.txt
cat \$1-x.txt | tr -d "\n\f[0-9][A-z] .,-(→/←);:'~Ö↑í" | sed "s/。/。\n/g" > \$1-y.txt
sed -e '/ウィキソース/d' -e '/作者:/d' -e '/この著作物/d' -e '/この作品/d' -e '/本作品/d' -e '/ 二次的著作物/d' -e '/許諾者/d' -e '/クレジット/d' -e '/あなたの/d' -e '/再構成/d' -e '/クリエイティブ・コモンズ/d' -e '/閲覧/d' \$1-y.txt > \$1.txt
rm $1-?.txt
2023年1月21日土曜日
DeepL Wirte
Osaka Kyoiku University (OKU), which was founded in May 1874 as a teacher training school, boasts over 140 years history and tradition. The current number of undergraduate and graduate students totals approximately 4,400, with another over 5,000 students matriculated in affiliated schools. Among Japanese universities, OKU is a one of the leading producers of qualified teachers and a leading large-scale college of education.The main campus of OKU was established in the Kongo Ikoma Kisen National Park, in Kashiwara City, Osaka. This campus is approximately 670,000 square meters in area. In addition, OKU also has a campus in Tennoji, in central Osaka.The university’s programs are designed to meet the high educational standards of a comprehensive teacher training university. OKU is made up 11 affiliated schools, including primary, secondary, and special needs education that are located in three areas of metropolitan Osaka: Tennoji, Hirano, and Ikeda city.
Osaka Kyoiku University (OKU), founded in May 1874 as a teacher training college, has over 140 years of history and tradition. The current number of undergraduate and graduate students is approximately 4,400, with more than 5,000 students enrolled in affiliated schools. Among Japanese universities, OKU is one of the leading producers of qualified teachers and a leading large-scale college of education.OKU's main campus was established in the Kongo Ikoma Kisen National Park in Kashiwara City, Osaka. This campus covers an area of approximately 670,000 square meters. OKU also has a campus in Tennoji, in the center of Osaka.The university's programs are designed to meet the high educational standards of a comprehensive teacher training university. OKU consists of 11 affiliated schools, including elementary, secondary, and special education, located in three areas of the Osaka metropolitan area: Tennoji, Hirano, and Ikeda City.
(1) 1行目のteacher training school は師範学校のことなので,colledgeでなくてもよい。
(2) 附属学校の収容定員が5000人が,matriculateになっていたが,これはenrolledが妥当か。
(3) 大阪の中央部が,in central Osaka から in the center of Osakaに。
(4) primary school がelementary schoolに。
(5) 大阪都市圏が,metropolitan Osaka から the Osaka metropolitan area に。
*注:1/27/2023 DeepLは韓国語に対応した。31言語とはどれのことかな?(イタリア語,インドネシア語,ウクライナ語,エストニア語,オランダ語,ギリシャ語,スウェーデン語,スペイン語,スロバキア語,スロベニア語,チェコ語,デンマーク語,ドイツ語,トルコ語,ノルウェー語,ハンガリー語,フィンランド語,フランス語,ブルガリア語,ポーランド語,ポルトガル語,ラトビア語,リトアニア語,ルーマニア語,ロシア語,英語,韓国語,中国語,日本語)
2023年1月9日月曜日
国語の教科書
〈僕達は、国語の授業でずっと「退屈な本ほど価値がある」と思い込まされてきました〉。僕はそうかもしれませんが、〈僕達〉と括るのはやめてほしい。わたしは国語の教科書で素晴らしい作家と大勢出会ってきました。
与謝蕪村春の海ひねむすのたりのたりかな菜の花や月は東に日は西に安西冬衛てふてふが一匹韃靼海峡を渡って行った三好達治太郎を眠らせ,太郎の屋根に雪ふりつむ次郎を眠らせ,次郎の屋根に雪ふりつむ
2022年12月20日火曜日
mecab-neologd(3)
#!/opt/homebrew/bin/python3
# usage: aozora.py infile outfile
# infile is taken from https://www.aozora.gr.jp -> txt download
import MeCab
import re
import sys
infile = sys.argv[1]
outfile = sys.argv[2]
bindata = open(infile, 'rb').read()
textdata = bindata.decode('shift_jis')
# 青空文庫のための固有処理
textdata = re.split(r'\-{5,}', textdata)[2]
textdata = re.split(r'底本:', textdata)[0]
textdata = textdata.strip()
# 人によっては以下のパスは異なるので確認してね
mecab = MeCab.Tagger('-d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd')
mecab.parse('') # バグ対処
results = []
lines = textdata.split("\r\n")
for line in lines:
r = []
# 学習に使わない表現の削除処理
s = line
s = s.replace("|", "")
s = re.sub(r'《.+?》', "", s)
s = re.sub(r'[.+?]', '', s)
# Mecab
node = mecab.parseToNode(s)
while node:
# 単語を取得
if node.feature.split(",")[6] == '*':
word = node.surface
else:
word = node.feature.split(",")[6]
# 品詞を取得
part = node.feature.split(",")[0]
if part in ["名詞", "形容詞", "動詞", "記号"]:
r.append(word)
node = node.next
rl = (" ".join(r)).strip()
results.append(rl)
# write to a file
with open(outfile, 'w', encoding='utf-8') as wf:
wf.write("\n".join(results))
2022年12月19日月曜日
mecab-neologd(2)
[install-mecab-ipadic-NEologd] : OK. Let's install mecab-ipadic-NEologd.
[install-mecab-ipadic-NEologd] : Start..
[install-mecab-ipadic-NEologd] : /opt/homebrew/lib/mecab/dic isn't current user's directory
[install-mecab-ipadic-NEologd] : Sudo make install to /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
make[1]: Nothing to be done for `install-exec-am'.
/bin/sh ./mkinstalldirs /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd
/usr/bin/install -c -m 644 ./matrix.bin /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/matrix.bin
/usr/bin/install -c -m 644 ./char.bin /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/char.bin
/usr/bin/install -c -m 644 ./sys.dic /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/sys.dic
/usr/bin/install -c -m 644 ./unk.dic /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/unk.dic
/usr/bin/install -c -m 644 ./left-id.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/left-id.def
/usr/bin/install -c -m 644 ./right-id.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/right-id.def
/usr/bin/install -c -m 644 ./rewrite.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/rewrite.def
/usr/bin/install -c -m 644 ./pos-id.def /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/pos-id.def
/usr/bin/install -c -m 644 ./dicrc /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd/dicrc
[install-mecab-ipadic-NEologd] : Install completed.
[install-mecab-ipadic-NEologd] : When you use MeCab, you can set '/opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd' as a value of '-d' option of MeCab.
[install-mecab-ipadic-NEologd] : Usage of mecab-ipadic-NEologd is here.
Usage:
$ mecab -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd ...
[install-mecab-ipadic-NEologd] : Finish..
[install-mecab-ipadic-NEologd] : Finish..
koshi@mba2020 mecab-ipadic-neologd % mecab -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載『 記号,括弧開,*,*,*,*,『,『,『鬼滅の刃 名詞,固有名詞,一般,*,*,*,鬼滅の刃,キメツノヤイバ,キメツノヤイバ』 記号,括弧閉,*,*,*,*,』,』,』は 助詞,係助詞,*,*,*,*,は,ハ,ワ、 記号,読点,*,*,*,*,、,、,、吾峠呼世晴 名詞,固有名詞,一般,*,*,*,吾峠呼世晴,ゴトウゲコヨハル,ゴトーゲコヨハルによる 助詞,格助詞,連語,*,*,*,による,ニヨル,ニヨル日本の漫画 名詞,固有名詞,一般,*,*,*,日本の漫画,ニホンノマンガ,ニホンノマンガ作品 名詞,一般,*,*,*,*,作品,サクヒン,サクヒン。 記号,句点,*,*,*,*,。,。,。『 記号,括弧開,*,*,*,*,『,『,『週刊少年ジャンプ 名詞,固有名詞,一般,*,*,*,週刊少年ジャンプ,シュウカンショウネンジャンプ,シューカンショーネンジャンプ』 記号,括弧閉,*,*,*,*,』,』,』にて 助詞,格助詞,一般,*,*,*,にて,ニテ,ニテ2016年 名詞,固有名詞,一般,*,*,*,2016年,ニセンジュウロクネン,ニセンジュウロクネン11号 名詞,固有名詞,地域,一般,*,*,11号,ジュウイチゴウ,ジュウイチゴーから 助詞,格助詞,一般,*,*,*,から,カラ,カラ2020年 名詞,固有名詞,一般,*,*,*,2020年,ニセンニジュウネン,ニセンニジュウネン24号 名詞,固有名詞,地域,一般,*,*,24号,ニジュウヨンゴウ,ニジュウヨンゴーまで 助詞,副助詞,*,*,*,*,まで,マデ,マデ連載 名詞,サ変接続,*,*,*,*,連載,レンサイ,レンサイEOS
koshi@mba2020 mecab-ipadic-neologd % mecab『鬼滅の刃』は、吾峠呼世晴による日本の漫画作品。『週刊少年ジャンプ』にて2016年11号から2020年24号まで連載『 記号,括弧開,*,*,*,*,『,『,『鬼 名詞,一般,*,*,*,*,鬼,オニ,オニ滅 名詞,一般,*,*,*,*,滅,メツ,メツの 助詞,連体化,*,*,*,*,の,ノ,ノ刃 名詞,一般,*,*,*,*,刃,ハ,ハ』 記号,括弧閉,*,*,*,*,』,』,』は 助詞,係助詞,*,*,*,*,は,ハ,ワ、 記号,読点,*,*,*,*,、,、,、吾 名詞,一般,*,*,*,*,吾,ワレ,ワレ峠 名詞,接尾,一般,*,*,*,峠,トウゲ,トーゲ呼 名詞,一般,*,*,*,*,呼,コ,コ世 名詞,一般,*,*,*,*,世,ヨ,ヨ晴 名詞,一般,*,*,*,*,晴,ハレ,ハレによる 助詞,格助詞,連語,*,*,*,による,ニヨル,ニヨル日本 名詞,固有名詞,地域,国,*,*,日本,ニッポン,ニッポンの 助詞,連体化,*,*,*,*,の,ノ,ノ漫画 名詞,一般,*,*,*,*,漫画,マンガ,マンガ作品 名詞,一般,*,*,*,*,作品,サクヒン,サクヒン。 記号,句点,*,*,*,*,。,。,。『 記号,括弧開,*,*,*,*,『,『,『週刊 名詞,一般,*,*,*,*,週刊,シュウカン,シューカン少年ジャンプ 名詞,固有名詞,一般,*,*,*,少年ジャンプ,ショウネンジャンプ,ショーネンジャンプ』 記号,括弧閉,*,*,*,*,』,』,』にて 助詞,格助詞,一般,*,*,*,にて,ニテ,ニテ2016 名詞,数,*,*,*,*,*年 名詞,接尾,助数詞,*,*,*,年,ネン,ネン11 名詞,数,*,*,*,*,*号 名詞,接尾,一般,*,*,*,号,ゴウ,ゴーから 助詞,格助詞,一般,*,*,*,から,カラ,カラ2020 名詞,数,*,*,*,*,*年 名詞,接尾,助数詞,*,*,*,年,ネン,ネン24 名詞,数,*,*,*,*,*号 名詞,接尾,一般,*,*,*,号,ゴウ,ゴーまで 助詞,副助詞,*,*,*,*,まで,マデ,マデ連載 名詞,サ変接続,*,*,*,*,連載,レンサイ,レンサイEOS