On a Thread of the Web: 形態素解析

2023年1月31日火曜日

形態素解析

コンピュータによる自然言語処理のアルゴリズムで第一に取り上げられるのが形態素解析である。品詞情報がならんだ辞書をもちいて，原文を形態素（品詞情報付き）に分解できる。

これを実現するソフトウェアとしては，大学等で開発されたいくつかのフリーソフトが有名だった。Juman / Juman++，ChaSen，KAKASI，MeCab（工藤拓），Sudachi，Kuromoji（atilica），janome（打田智子）などである。MeCabがポピュラーなのだけれど今となっては少し古いのかもしれない。これまで，MeCabになじんできたので，Juman++出力形式はやや違和感がある。

さて，しばらく前に，mecab-neologdというMeCabの最新辞書を導入した。それでもたりない場合は，ユーザ辞書を定義して使うことになるのでチャレンジしてみる。その前に，システム辞書をipadicからipadic-neologdに変更してみた。

vi /opt/homebrew/etc/mecabrc
configuration file の dicdir の修正:
; dicdir = /opt/homebrew/lib/mecab/dic/ipadic
dicdir = /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd

次に，「ユーザ辞書登録をやり直す」にしたがって，ユーザ辞書を使えるようにしてみた。

cd /opt/homebrew/lib/mecab/dic
vi userdic.csv
cat userdic.csv
行政組織,,,1000,名詞,一般,*,*,*,*,行政組織,ギョウセイソシキ,ギョウセイソシキ

出発点,,,5000,名詞,一般,*,*,*,*,出発点,シュッパツテン,シュッパツテン

95%信頼区間,,,5000,名詞,一般,*,*,*,*,95%信頼区間,キュウジュウゴパーセントシンライクカン,キュージューゴパーセントシンライクカン
/opt/homebrew/Cellar/mecab/0.996/libexec/mecab/mecab-dict-index -d /opt/homebrew/lib/mecab/dic/mecab-ipadic-neologd -u userdic.dic -f utf-8 -t utf-8 userdic.csv
mecab -u /opt/homebrew/lib/mecab/dic/userdic.dic