KAKASIを使えば漢字が入った文をひらがな文やローマ字文に変換することできます。
今回試した環境
Mac OS X 10.9.4
CentOS 5.10, 6.5
KAKASIのダウンロード
http://kakasi.namazu.org/stable/
最新版をダウンロードする。2014-7-17時点では 2.3.6。
KAKASIのインストール
$ wget http://kakasi.namazu.org/stable/kakasi-2.3.6.tar.gz $ tar zxfv kakasi-2.3.6.tar.gz $ cd kakasi-2.3.6/ $ ./configure $ make $ sudo make install
nkf のインストール
後で使うのでインストールしておく。
$ brew install nkf # Mac OS X の場合 $ sudo yum install nkf # CentOS の場合
使い方
kakasi コマンドのオプションとして変換前(J)、変換後(a, H, K)を指定する。
J : 漢字 a : ローマ字 H : ひらがな K : カタカナ
ローマ字、ひらがな、カタカナに変換する
$ echo '自然言語処理' | nkf -e | kakasi -Ja shizengengoshori $ echo '自然言語処理' | nkf -e | kakasi -JH | nkf -w しぜんげんごしょり $ echo '自然言語処理' | nkf -e | kakasi -JK | nkf -w シゼンゲンゴショリ
漢字以外が含まれていても大丈夫
$ echo '自然言語処理って難しいですね' | nkf -e | kakasi -JH | nkf -w しぜんげんごしょりってむずかしいですね