IME2010(Beta版)の辞書がアップデートされました!

去年の年末に告知した(参照記事)辞書のアップデートが配信されました!   この辞書をアップデートにより   明石家さんま 北川景子 二宮和也   など、有名人の名前を試験的データとして追加しております。   また、「龍馬伝」など、新しいドラマや映画などの名前も入力しやすくなりました。   現在はBeta版で、追加単語は限定的です。 出荷後は、よりよい変換結果を得られるように、辞書のアップデートを続けて行く予定です。   IME2003から始まった辞書のアップデートサービスは、現在の利用者が約10万人程度と、IMEユーザー全体の数からすると、残念ながら多いといえる数ではありません。   そこでIME2010では、もっともっとたくさんのお客様に、IMEがだんだん良くなっていくことを体感していただきたい、という思いから、自動更新システムをサポートしました。   そして、年末の記事でもふれたとおり、わざわざダウンロードセンターへ行ってダウンロードする必要がなくなったことも、IME2010辞書アップデート機能の魅力です。   ぜひ自動更新をオンにし、皆様にもだんだん良くなるIME2010を体験していただければ、大変うれしく思います。   なお、IME2010の辞書アップデートを使用する方法は、こちらのKBに掲載されております。ぜひご覧ください。 http://support.microsoft.com/kb/978478/ja/ http://support.microsoft.com/kb/978479/ja/   関 美由紀


IME の基本性能を向上させる手法 – Windows エラー報告

  こんにちは。   今回は、IME チームで行っているソフトウェアの基本性能を向上させるための手法、Windows エラー報告、を紹介したいと思います。   IME チームは、物理 PC と仮想 PC を組み合わせて100台規模の PC 上で様々なテストを実施し、出荷に向けて様々な問題に取り組んでいます。Beta 版ができた時には、社内、社外の方々のご協力を得て、数百名規模のユーザーの方々からフィードバックをいただき製品品質向上に取り組んでいます。クラッシュに関する問題も報告されてくることがあり、そのほとんどは Windows エラー報告 (WER – Windows Error Reporting) を経由して IME チームに直接報告されてきます。   Beta 版も含めて、出荷する前に様々なクラッシュの問題に取り組んではいますが、実際、IME チーム内ではなかなか見つけられない問題は少なからず存在し、ユーザー様からのエラー報告によって初めて認識されるというものもあります。これは、ユーザー様の様々な環境や、そこで行われる多様な操作の組み合わせと比較すると、IME チーム内でできるテストは限定的であるといわざるを得ない状況もその一因にあるようです。そういう意味でも、Beta 版を使っていただき、問題点を報告していただけるユーザー様には大変感謝しています。   そのように貴重なフィードバックである Windows エラー報告ではありますが、そこで寄せられるクラッシュの問題に取り組むには様々な困難があります。送られてきた報告の中には、もはや何が問題であったのかが分からなくなってしまっているものもあり、様々な手法を用いて分析し問題点をあぶりだす必要があります。   その1つは、ユーザー様がクラッシュに遭遇する直前に行っていた操作の仮説を作ることです。この作業は、ほとんどの場合、コールスタックを解析することで行われます。そして、この仮説からクラッシュを再現させることができる、、、ということは、残念ながら過去にそのような例はありません。したがって、この仮説を踏まえつつ、さらなる解析が必要になります。   もう1つ大事な作業は、クラッシュの定量的解析を行うことです。同じような問題はどの程度発生しているのか、そのクラッシュは x86、x64 の両方で発生しているのか、どの OS でどの程度発生しているのか、影響を受けているアプリケーションにはどのようなものがあるのか、などエラー報告で得られる限られた情報の中からそのような解析を行います。そうすることで、多くのユーザー様が遭遇している問題、特定のアプリケーションのメモリ破壊ではない問題、特定環境下でのメモリ (RAM) エラーではない問題、などふるいにかけることができ、問題の修正にこぎつけることができます。   IME チームは、このように IME を使ってくださる皆様に支えられながら、チーム一丸となり日々精進しています。   松原 司牧  


IME の基本性能を向上させる手法 – RADAR

こんにちは。   今回は、IME チームで行っているソフトウェアの基本性能を向上させるための手法、RADAR、を紹介したいと思います。   以前、IME は母体となるアプリケーションと共に動作しているというお話をしましたが、そのような性質ゆえに重要な問題となるものにメモリ リークがあります。たとえば、Notepad と共に動作している IME がメモリ リークを起こしたとしてもさほど気にする人はいないかもしれません。Notepad を終了させれば、そのメモリ リークは解消されるからです。しかし、Explorer と共に動作している IME がメモリ リークを起こしていたとしましょう。いつしかシステムは重たくなり、リブートしない限り使いものにならない状況になってしまうことでしょう。そしてそれは永遠に繰り返されることになります。つまり、単体で動作しているアプリケーションではさほど気にならないメモリ リークであっても、IME にとっては重要度が高くなるといえると思います。   しかし、メモリの使用量が増えるからと言って、即座にメモリ リークが発生したと言うことはできません。コードの中で行われているデータ キャッシュが適切に動作しているために一時的なメモリ使用量が増えているだけの場合もあるでしょう。また、メモリ リークによってメモリの使用量が増えていたとしても、コードの中からその場所を特定するのは困難な作業になります。   RADAR は、メモリ リークを検出する Windows の機能です。IME チームは、この RADAR を使い、メモリ リークに分類される問題の中の参照不可能なメモリを検出し、IME の基本性能の向上を行っています。   メモリ リークには、その種類によっていくつかに分類されます。メモリは、malloc() や new などにより確保することができ、アドレスを格納した変数を介して使用することができます。確保したメモリが解放される前に、そのアドレスを格納している変数がなくなってしまうと、コードの中ではそのメモリへアクセスする手段を失います。これにより、参照不可能なメモリが発生します。C# などのマネージ コードであれば、ガーベージコレクションという機能により解放されるメモリです。ネイティブ コードで記述されている IME では、適切なメモリの確保、解放が必要になります。   残念ながらここで紹介した RADAR は、Microsoft 社外の方々には、まだその本来の機能を提供できていないようです。Windows 用デバッグ ツール に含まれている UMDH を使うことで似たようなことは行うことができると思いますので参考になれば幸いです。   RADAR…


IME の基本性能を向上させる手法 – Application Verifier

こんにちは。   今回は、IMEチームで行っているソフトウェアの基本性能を向上させるための手法、Application Verifier、を紹介したいと思います。   IME が他のソフトウエアと大きく違うところの1つに、IME は単体で動作するというよりは、母体となるアプリケーションと一緒に動作するところにあります。変換結果などをアプリケーションに渡したりするためです。この性質ゆえに、IME のモジュールの一部は、アプリケーション (プロセス) 内で動作しています。これらのモジュールの動作が不安定であるとアプリケーションに影響が出てしまうこともあり、特に、クラッシュのような問題は避けなければなりません。   クラッシュの問題に対応するという作業は、意外に困難な作業です。たとえば、コード内で間違ったこと (バッファー オーバーランなど) が起こったとしても、その影響が軽微であればアプリケーションは何事もなく動いてしまうものです。そして本当にどうしようもなくなったときに初めてクラッシュするため、クラッシュした時点では何が問題なのかもはやわからない状況になっているということはよくあるケースです。また、IME の一部のモジュールのようにアプリケーションと一緒に動作していると、クラッシュした時にはIME の問題なのか、アプリケーションの問題なのか、それを適切に切り分ける作業が必要になるため、容易には結果を得ることができません。たとえば、アプリケーション側のメモリの不正アクセスにより、IME 側のメモリが破壊されるという可能性もあります。   実際、IME 2010 の開発初期の頃には、多くのクラッシュに遭遇したものです。一昔前であれば、クラッシュしてしまうとそこで作業が中断されてしまうものでした。また、もう一度再現させようと思っても再現させることができず、闇に葬られてしまうような問題もあったかもしれません。しかし、今では、100 台規模の PC 上で実行されている自動化されたテストプロセス内で発生した1つ1つのクラッシュであっても、適切にとらえ対応することが可能になりました。   Microsoft が Application Compatibility Toolkit の一部として提供している Application Verifier (AppVerifier)  は、そのような困難な問題を解決する手段を提供してくれます。Application Verifier は、コード内で間違ったことが行われたその瞬間にアプリケーションを止めてくれます。その状態を解析することで、原因となったコードを適切に把握することが可能になります。検出できるコード内の誤りも多岐にわたるため、IME に限らず、アプリケーション開発の大きな助けになります。   さらに、Windows 用デバッグ ツールを併用することで、先に挙げたような問題の切り分け、問題となるコードの抽出など、昔は高い技術力を要し、数日~数週間もかかる作業だったものを、瞬時に、かつ、高い精度で自動的に行うことができます。   IME チームは、このような Microsoft 社内で開発されている技術の進歩に支えられながら、基本性能の高い IME の開発を進めています。   松原 司牧


IME Forum

Microsoft Office IME 2010 には、ユーザーの皆様がお作りになった専門用語辞書などの共有を簡単にする機能と、検索連携機能が入りました。 作成した辞書や、検索プロバイダーファイルを宣伝したり、利用者が使いたい辞書を探したりするのに便利なように、Office IME 2010 用のフォーラムをオープンしました。ぜひご利用ください。 http://social.technet.microsoft.com/Forums/ja-JP/IMEJP2010/   今までのIME では、お作りになった辞書を配布する場合、辞書作成者の方にセットアップをお作りいただくか、利用者が手動で辞書をプロパティーに追加する作業が必要だったため、お作りいただいた辞書をひろめていただくのが、難しかったかと存じます。IME 2010 のオープン拡張辞書は、利用者はダウンロードした辞書をダブルクリックするだけで、インストールする事ができるようになったため、こうした作業が不要になりました。   また、検索機能て使用しているプロバイダー定義ファイルは簡単な XML ファイルですので、メモ帳などで簡単に作成できます。   詳細については、上記フォーラムをご参照ください。   Microsoft Office 2010 は、下記サイトにて、ベータ版を配布させていただいております。 http://www.microsoft.com/japan/office/2010/beta  (IME は Home & Business 版には含まれておりません。IME をお試しいただく場合は、Professional 版にてお試しください。)   Office IME 2010 用オープン拡張辞書作成ツールはこちらからダウンロードできます。 http://go.microsoft.com/?linkid=9705246    板倉 謙  


郵便番号辞書や人名地名辞書を使ってみましょう

前回は顔文字の入力方法をご紹介しました。   顔文字辞書と同じように追加して利用できる辞書には、郵便番号辞書、単漢字辞書、人名地名辞書、カタカナ英語辞書、記号辞書があります。 これらの辞書も、候補と並んで表示された辞書名を選択することで入力に利用することが出来ます。   例えば、郵便番号辞書を使って、郵便番号から住所へと変換してみましょう。 まず、「168-0063」と入力し、変換キーを押します。数字の候補の他に、「住所に変換…」という項目が現れます。ここで、「住所に変換…」を選ぶと、郵便番号に対応する住所「東京都杉並区和泉」と変換されます。 郵便番号が分かっている場合は、住所の入力が手早くできますね。   他の辞書についても、同じように「さくらまち」から「人名地名…」を選択して「櫻町」を入力したり、「たこ」から「単漢字…」を選択して「鱆」を入力したり、「しあとる」から「英語に変換…」を選択して「Seattle」と入力したり、と利用することが出来ます。   このように、予め利用する辞書を切り替えたり、といった特別な操作をしなくても、入力の途中でいろいろな辞書を利用して変換することが出来ます。   入力の際、変換候補に並んで、追加辞書の名前が現れたら、期待する結果が隠れているかもしれません。 是非お試しください。    大井 恵太


顔文字入力の方法

いろいろなところで目にする顔文字。ビジネスメールにも顔文字が入る会社もあるのだとか。   さて、今回は、今ではみんなが使うようになった(?)顔文字の入力方法をご紹介します。よろしくお願いします。m(__)m   まずは基本編。「かお」と読みを入力して変換します。変換キーを押して候補一覧を出すと「顔文字」という選択肢が現れます。選んでみましょう。たくさんの顔文字が表示されましたね。(*^^)v 「かおもじ」でも同じ候補が出ます。   「かお」と入力して顔文字を入力できることは、ご存じだった方が多いと思いますが、実はその他にも入力方法があります…というわけで、ここからはちょっと応用編。   実は「あいたっ」「おちゃ」「おじぎ」「いか」など、「かお」「かおもじ」他にも顔文字を入力できる読みをいくつも用意しています。どんな顔文字が入力できるんだろう(?_?)、と思った方は、是非お試しください。   それでは皆様、ご機嫌よう! (^^)/~~~   (顔文字の一覧はヘルプに掲載しています。興味のある方はどうぞご覧ください。)   大井 恵太


全角/半角 オートコレクト

Microsoft IME では、文字の種類によって、全角と半角のどちらに変換するかを指定しておくことが出来ます。自分の入力スタイルに合わせて設定しておけば、普段の入力で一手間減る…かもしれません。   全角と半角のどちらに変換するかは、[Microsoft Office 2010 IME のプロパティ]から変更できます。ちょっと変更してみようと思った方は以下の手順を試してみてください。   1.    まず、プロパティを開きます。プロパティは、例えば、IME ツールバーの[ツールボックス] ボタンを押し、表示されたリストの中からプロパティを選択することで開くことができます。([ツールボックス] ボタン は工具箱の形をしています。特に変更していない場合は、「?」アイコンの左隣にあるはずです。) 2.    [Microsoft Office IME 2010 のプロパティ]が開いたら、[オートコレクト]をクリックし、[オートコレクト]タブに移動します。 3.    [オートコレクト]タブの下半分に [全角/半角] 設定があります。自分の入力スタイルに合わせて設定してみてください。   記号については文字ごとに個別に設定することも、まとめて設定することも出来ます。 なお、Microsoft Office IME 2010 では、記号の分類を少し変更し、一緒に設定することが多い、句読点、中点、かぎかっこ(「」)を一つのグループにしました。   この他にもプロパティで様々な項目を設定可能です。お試しください。   大井 恵太  


IME2010 で辞書をアップデートするには?

IME2007までも、最新語辞書や郵便番号辞書をアップデートしてきましたが、Office Onlineのページから、ダウンロードセンターに行き、自分でダウンロードする必要がありました。 IME2010では、最新語辞書などのMicrosoftで出している辞書を、自動でアップデートする機能が備わります。   出荷時の設定では、自動アップデートはオフとなっていますので、辞書を自動的にバージョンアップしたい方は、   1. 言語バーの[ツール]ボタンをクリックし、[追加辞書サービス]から[Microsoft辞書アップデート]を選択し、辞書アップデートの設定画面を起動してください。 2. [インストール済みの辞書を自動的にバージョンアップする]にチェックをし、[OK]ボタンを押してください。   これで、自動的に辞書がアップデートされます。   最初の辞書アップデートはベータテスト用に1月下旬に予定していますので、ぜひバージョンアップしてみてください。   関 美由紀  


Inside IME 2010

Inside IME 2010 概要 Microsoft IME 2010 は、安定性および基本性能を向上させました。向上させた基本性能は、変換精度、学習機能、実行速度です。IME 2010 は、辞書の自動アップデートで、語彙の充実を広範囲のユーザに提供できるようにしました。また、辞書を拡張する機能として、企業向けのSharePoint 辞書に加え、一般ユーザー向けにXMLファイル形式のオープン拡張辞書をサポートしました。また学年別辞書、サーチ機能をサポートしました。 ユーザーの皆様からのフィードバック Microsoft IMEは、ユーザーから誤変換や登録単語をレポートしていただく機能を備えています。Microsoft IMEのユーザーは推定で 6,000万人いらっしゃいます。これまでに、誤変換レポートは累積で5千万件寄せていただきました。現在、一日当たり、単語登録レポートがおよそ 2,000件、誤変換レポートは 10 万件、学習データのレポートは 120 件、お送りいただいています。 単語登録データは、辞書のアップデート・サービス(ご案内はここ [1])に利用しています。誤変換データは、変換をチューニングするために利用しています。学習データは、今後の研究のために利用しています。研究の一例をIME Blog [2] に紹介しています。 安定性 IME 2010 開発プロジェクトは、品質を第一の優先事項として実行し、安定性と基本性能に注力しました。ストレス・テストは、従来より種類も数も大幅に増強し、早期に出荷レベルの安定性を確保しました。また、2007に対して行った修正点のすべてに関して、根本原因にさかのぼって分析し、テスト・ケースやテスト・システムを強化する等の対策を行いました。 基本性能 変換精度 標準的に組み込まれた辞書に、これまで辞書アップデートで提供してきた語彙30,650語を追加しています。フィードバックをもとにしているため、多くのユーザが登録した単語が追加されています。それらには、入力に手間のかかる専門的な単語、実世界・日常における重要な単語、社会の変化にともなう新しい固有名詞などが含まれます。 Microsoft IMEは、IME 2007 以降、変換精度向上の限界を打破するため、基本方式を変えました。従来は品詞接続ベースの文法でしたが、現在は統計的言語モデルを採用しています。統計的言語モデルとは、具体的には、単語のつながりやすさを示すTrigramやBigramなどです。詳しくはIME Blog[3] を参照ください。それらに加え、実際は、品詞のつながりやすさ、特殊な複合単語連鎖の知識、共起しやすい自立語のペアの知識、など様々な言語知識を併用しています。ところで、統計的言語モデル方式は、そのモデルを構築するために、大量のサンプル・テキストを使います。IME 2010 では、そのもとになるサンプルテキストの質向上によって、言語モデルの質を向上させました。サンプル・テキストにはごみやエラーが混じらないように丁寧にデバッグしてあることが必要です。また、サンプルのバランスが重要です。IME 2010 では、誤変換フィードバックに頻出する同音語の使用サンプルを重点的に収集し、モデルを生成しました。それによって、ユーザーが実際に多く遭遇しやすかった誤変換を解決しています。 学習機能 Microsoft IMEは、統計的言語モデルの採用に伴い、新しい学習原理を導入しました。それは、単語の使用情報と選択情報の利用です。詳しくは、IME Blog[4] をご覧ください。フィードバックによって、IME 2007 SP2で、学習の効果がすぐに発揮されるようにチューニングしました。IME 2010では、その性能を強化するとともに、副作用が出にくいようにさらにチューニングしました。 変換・学習の評価 変換や学習の質は、約70個の評価基準によってチェックしています。評価基準とはたとえば、変換結果が正解とどれだけ一致したかを示す文字正解率、正解が候補一覧の何番目にあったかを示す正解候補分布、一度正解を機械的に学習させた後の文字正解率、文節単位で変換した場合の文字正解率、などです。IME 2010は、評価基準の強化から実施し、開発の途中はラボの5,60台のマシンを毎日稼働させ毎日ビルドを評価し、品質チェックをしてきました。 チューニングの結果、たとえば弊社のテストで、IME 2010の文字正解率は 97.8 %です。また、一度正解を機械的に学習させた後の文字正解率率は 99.6%で、IME 2007 SP2 と比べてエラーを17%…