文書学習完了

ATOK文書学習ツールでブログ2500記事を解析させてIME辞書を自動生成してみた

文書学習完了

自分専用のIME辞書を作る

IME辞書とは、日本語入力ソフト(IME)で使う変換ルールの辞書。

例えば「ねんゆだい」というヨミに対して「燃油代」という単語を登録しておけば、キーボードで「ねんゆだい」と打った後の漢字変換で、一発で「燃油代」が変換候補に挙がってくるというワケ。
「ぴーぴー」という読みに対して「プレミアムポイント」という単語を登録したり、カタカナ変換も含めて色んな単語の登録が可能。

自分がよく使う単語をたくさん登録しておけば、文章作成時の変換効率がどんどんよくなる。

一般的に、IME辞書は基本的な変換ルールが自動で登録されているほか、変換履歴から自動追加されたり、自分でポチポチと単語登録してメンテナンスしたりする。

IME辞書は日本語入力ソフトごとに用意されているワケだが、自分の場合はWindows用のIMEに「ATOK」を使っている。

Windowsだと無料でマイクロソフトIMEが入っていたりするんだが、国産ATOKの方が漢字変換の精度がよいとか、ATOKだけは日付のYYMMDD変換(区切り文字なし)に対応しているとか、いろいろメリットもあるので、有償ソフトのATOKを使っているという形。

そのATOKには、指定した文書ファイルから自動でIME辞書を作る「文書学習ツール」がついている。
文書で使われている単語を、自動で分析してIME辞書に登録してくれる機能ですね。

一方、自分のこのブログは、全部で2500記事ほどある。
そして以前ブログを書いていた「はてなブログ」では、ブログ記事のエクスポート機能があり、その2500記事を1つのテキストファイルに落とし込むことができた(ワードプレスなどでも記事のエクスポートは可能)。

その「自分で書いた2500記事のテキストファイル」を文書学習ツールで学習させたら、まさしく「自分専用のIME辞書」が出来上がるんじゃないか?と思い、エクスポートした全記事ファイルを読み込ませてみたんだな。

文書学習ツールで20時間の文書解析

早速ATOKの「文書学習ツール」を見てみます。
ATOKメニュー「辞書メンテナンス」→「文書学習ツール」から利用可能。

ATOKメニュー

ファイル・フォルダなどからファイルを指定する。
今回は対象が1ファイルなので、そのテキストファイルを指定しました。

ATOK文書学習ツール

ここで「はてなブログ」からエクスポートした「2500記事」のテキストファイルを指定する。
1つのテキストファイルで、25MBもあります。。。

文書学習完了

ATOKの文書解析完了に20時間くらいかかった。
さすがに記事数が多いと、めっちゃ時間かかりますね。。。。

2.5万件の辞書が完成

20時間の解析後、「辞書メンテナンス」→「辞書ユーティリティ」で辞書を開いてみる。
辞書は複数あるので、ここでは「辞書ユーティリティ」のファイルを開くメニューから「文書学習ツール辞書」を選択。

すると・・・

辞書登録件数

2.5万件の単語が登録されてました。

おお、結構いったなー!!
これでIMEも随分使いやすくなるのでは?

と思いきや・・・

文書学習ツール辞書

ほとんどの登録語はアルファベット単語で、日本語入力モードでの「ヨミ」が自動で入っているだけだった。

「いね」→「LINE」

分かるよ。
平仮名で「いね」と入力したら、「LINE」と変換される。
分かりますとも。

しかし、期待してたのは、そういうのじゃないんだよなぁ。。。
辞書登録結果の95%くらいは、こういう英単語が入ってるんだけど。

自分のブログは英語ニュースサイトの引用をすることも多く、英単語がやたら入ってきてしまっていた形。

これは「文書学習ツール」のオプションで「英字未登録語」を学習するかの選択肢があるので、それを外しておけば良かった感じなんでしょうね。。。

文書学習ツールのオプション

ほとんどが「英字未登録単語」なんだが、中にはちゃんと漢字の変換登録も混じっていた。
しかし、惜しいというか、なんというか。。。

例えば、「ほくしゅうだに」→「北宗谷」(本来のヨミは「きたそうや」)。

漢字の辞書登録

これ、文書の中にあった「北宗谷」から、読みを「ほくしゅうだに」と推測して、辞書登録されんたんでしょうね。

実際に「ほくしゅうだに」と入力して変換してみたら、ちゃんと「北宗谷」に変換されました。
まぁ、本来のヨミではないんだけど。

なお、文書学習ツールの辞書は、基本的には全てヨミを入力した上で変換結果にでてくるような形だが、オプションの「推測変換に使う」にチェックが入っていると、推測候補としても辞書結果が出現するっぽい。

その他、↑画像にあるように「ほくりく」と入力したら、「hokuriku」と変換されるルールも追加されていた。
バリエーションがいろいろあり、「HOKURIKU」・「hokuriku」・「Hokuriku」と3単語が登録。
これは便利!!とは、ならないんだよなぁ。。。

まとめ

やはり、ヨミが書いてない文書から、ヨミを無理矢理予想して辞書登録するっては、なかなか無理があるなと思いました。

結果的に、20時間かけて作った辞書ではありますが、削除することにしました。
ほとんど意味がない辞書になってしまっていたので。。。

文書学習ツールの使い方としては、もうちょい対象の文書を吟味するなど、工夫が必要そうですね。。。

ほい。
そんな感じ。