自然言語処理
MeCabの辞書に新しい単語を追加してみたいと思います。 追加する単語はWikipediaとはてなのものを使用します。 Wikipediaの準備 $ wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz $ gunzip jawiki-latest-all-titles-in…
KAKASIを使えば漢字が入った文をひらがな文やローマ字文に変換することできます。 今回試した環境 Mac OS X 10.9.4 CentOS 5.10, 6.5 KAKASIのダウンロード http://kakasi.namazu.org/stable/ 最新版をダウンロードする。2014-7-17時点では 2.3.6。 KAKASIの…
久しぶりに形態素解析エンジンを使う機会があったので MecabとRubyバインディングのMeCab Rubyのインストール手順をメモしておきます。 検証環境 Mac OS X CentOS MeCab のインストール $ wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz $ tar …