自然言語処理

MeCabのユーザー辞書にWikipediaとはてなの単語を追加する

MeCabの辞書に新しい単語を追加してみたいと思います。 追加する単語はWikipediaとはてなのものを使用します。 Wikipediaの準備 $ wget http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz $ gunzip jawiki-latest-all-titles-in…

漢字をひらがなやローマ字に変換することができる KAKASI の導入方法

KAKASIを使えば漢字が入った文をひらがな文やローマ字文に変換することできます。 今回試した環境 Mac OS X 10.9.4 CentOS 5.10, 6.5 KAKASIのダウンロード http://kakasi.namazu.org/stable/ 最新版をダウンロードする。2014-7-17時点では 2.3.6。 KAKASIの…

MeCab と MeCab Ruby をインストールする

久しぶりに形態素解析エンジンを使う機会があったので MecabとRubyバインディングのMeCab Rubyのインストール手順をメモしておきます。 検証環境 Mac OS X CentOS MeCab のインストール $ wget http://mecab.googlecode.com/files/mecab-0.996.tar.gz $ tar …