IMEチームの日本語分析を紹介します。

こんにちは。

 

今回は、IMEチームでの日本語分析の一端について書いてみます。

 

とても嬉しいことに、たくさんのユーザーの皆様から、Office IME 2007を通じて、誤変換、登録単語などの情報をお送りいただいています。頂いた情報は最新語辞書の更新や、変換精度の向上に役立てています。皆様ご協力ありがとうございます。

 

さて、今回は、どの単語を何回くらい使ったのかという情報を使って分かること、の一部をご紹介したいと思います。

 

その1。

Office IME 2007 を使って文章を入力している方は、"時間"の"確認"を"お願い"する"メール"を書く方だ。

 

上の"時間"、"確認"、"願い"、"メール"は利用頻度の高い単語として、上位に現れるものです。この結果を見るだけでも、新聞でも小説でもなく、PCで入力される文章の特徴が見事に現れていますね。

 

その2。

使う単語から個性が見える。

 

面白かったので、いくつか例を挙げてみましょう。下の例は実際のデータから計算して求めたものです。

 

2-1.「診療」「診察」をよく使う人は、「医師会」「カルテ」もよく使う。

 

どうでしょうか。なかなか当たってそうだと思いませんか?

 

2-2.「換気」「ダクト」をよく使う人は、「額縁」「空調機」をよく使う。

 

え?「額縁」って絵画の?

調べてみました(Bing で)。サッシの周りの枠も「額縁」って呼ぶのですね。私は知りませんでした。勉強になるなぁ。

 

2-3.「市場(しじょう)」をよく使う人は、「投資」「戦略」「金融」をよく使う。「市場(いちば)」をよく使う人は、「生花」「陶器」「青果」をよく使う。

 

これは、納得。読み方によってこんなに変わるものですね。

 

では、最後に、「セブン」をよく使う人は…

...あぁ、どうやら「セブン」はコンビニエンスストアに関係する単語のようです。でも、これは現在のデータでの分析結果。時間がたてば、私たちが期待している単語も、きっと上位に出てきてくれるでしょう!

 

それでは、また、楽しんでいただけそうな発見がありましたらご紹介します。

 

 

大井恵太