形態素解析ツール(MeCab)の使い方(インストールから実行方法まで)(RHEL/Ubuntu)

目次

MeCabとは

京都大学情報学研究科−日本電信電話株式会社コミュニケーション科学基礎研究所 共同研究ユニットプロジェクトを通じて開発されたオープンソースの形態素解析ツールです。類似の形態素解析ツールであるChaSenと比較して、同等の精度且つ解析速度が速いことが特徴です。

公式情報は以下のサイトを参照してください。

MeCabを準備する

前提条件(使用OS)

本記事の手順は、以下のOS上で実行しています。

RHEL

Ubuntu

MeCabをインストールする

MeCabのインストール方法をOSごとに記載します。

RHEL

「dnf」コマンドを使用して、MeCabとMeCab用の辞書をインストールします。

Ubuntu

「apt」コマンドを使用して、MeCabとMeCab用の辞書をインストールします。

「E: Unable to locate package mecab」と表示された場合は、「apt update」コマンドを実行してaptを更新してください。

MeCabのバージョン情報を確認する

MeCabのインストール後、「-v」オプションを指定して「mecab」コマンドを実行すると、MeCabのバージョン情報を確認できます。

MeCabの文字コードを確認する

ターミナル環境とMeCab環境の文字コードが一致していない場合、MeCabの実行時に文字化けが発生します。

<ターミナル環境の文字コードがEUCで、MeCab環境の文字コードがUTF-8の場合>

MeCabのインストール後、「-D」オプションを指定して「mecab」コマンドを実行すると、MeCab環境の文字コードを確認できます。

ターミナル環境とMeCab環境の文字コードを統一すると以下のように正常に表示されます。

<ターミナル環境の文字コードとMeCab環境の文字コードがUTF-8の場合>

MeCabを実行する

標準入力した文章の解析結果を標準出力する

「mecab」コマンドを実行後、任意の文章を入力し「Enter」キーを押すと解析結果が標準出力されます。

標準入力した文章の解析結果をファイル出力する

出力先のファイルを指定して「mecab」コマンドを実行後、任意の文章の入力を終了すると解析結果がファイルに出力されます。

ファイル入力した文章の解析結果を標準出力する

入力ファイルを指定して「mecab」コマンドを実行すると、解析結果がファイルに出力されます。

ファイル入力した文章の解析結果をファイル出力する

入力ファイルと出力ファイルを指定して「mecab」コマンドを実行すると、解析結果がファイルに出力されます。出力ファイルの指定には「

出力フォーマットを変更する

「-O」オプションの後ろに以下のように文字列を指定すると、出力フォーマットを変更できます。目的に応じて、活用してみてください。

この記事を書いた人

目次