IMEチームの日本語分析を紹介します。



こんにちは。


 


今回は、IMEチームでの日本語分析の一端について書いてみます。


 


とても嬉しいことに、たくさんのユーザーの皆様から、Office IME 2007を通じて、誤変換、登録単語などの情報をお送りいただいています。頂いた情報は最新語辞書の更新や、変換精度の向上に役立てています。皆様ご協力ありがとうございます。


 


さて、今回は、どの単語を何回くらい使ったのかという情報を使って分かること、の一部をご紹介したいと思います。


 


その1。


Office IME 2007 を使って文章を入力している方は、時間確認お願いするメールを書く方だ。


 


上の時間確認願いメールは利用頻度の高い単語として、上位に現れるものです。この結果を見るだけでも、新聞でも小説でもなく、PCで入力される文章の特徴が見事に現れていますね。


 


その2。


使う単語から個性が見える。


 


面白かったので、いくつか例を挙げてみましょう。下の例は実際のデータから計算して求めたものです。


 


2-1.「診療」「診察」をよく使う人は、「医師会」「カルテ」もよく使う。


 


どうでしょうか。なかなか当たってそうだと思いませんか?


 


2-2.「換気」「ダクト」をよく使う人は、「額縁」「空調機」をよく使う。


 


え?「額縁」って絵画の?


調べてみました(Bing )。サッシの周りの枠も「額縁」って呼ぶのですね。私は知りませんでした。勉強になるなぁ。


 


2-3.「市場(しじょう)」をよく使う人は、「投資」「戦略」「金融」をよく使う。「市場(いちば)」をよく使う人は、「生花」「陶器」「青果」をよく使う。


 


これは、納得。読み方によってこんなに変わるものですね。


 


では、最後に、「セブン」をよく使う人は


あぁ、どうやら「セブン」はコンビニエンスストアに関係する単語のようです。でも、これは現在のデータでの分析結果。時間がたてば、私たちが期待している単語も、きっと上位に出てきてくれるでしょう!


 


それでは、また、楽しんでいただけそうな発見がありましたらご紹介します。


 


 


大井恵太

Comments (0)

Skip to main content