よくある読み間違い

みなさんからお送りいただいている「誤変換レポート」は、 Microsoft IME の変換精度を向上していくためにとても役立っています。IME 2010 向けの辞書アップデートでも誤変換レポートで報告件数の多い誤変換について修正しています。ただ、修正候補のデータのなかには、誤った読みから変換しようとしているために期待する変換結果が得られていないケースもときどき含まれています。今回は、そのような読み間違いのケースから報告件数の多いものをいくつかご紹介します。 淡黄色(たんこうしょく) 「黄」を「こう」と読むか「おう」と読むかは単語によって異なります。両方の読み方があることもあります。「淡黄色」を「たんおうしょく」で入力しようとされる方が多いです。「黄色」を「おうしょく」と読むことが多いからかもしれません。   甲賀市(こうかし) 滋賀県甲賀市は「こうかし」と読むのですが、「こうがし」で変換しようとする方が結構いらっしゃいます。地名の読み間違いではほかに「二子玉川(ふたこたまがわ)」を「ふたごたまがわ」で入力しようとするケースが多く見受けられます。二子玉川の「二子」の由来でもある川崎市の「二子」は「ふたご」と読むのでまぎらわしいようです。   施策(しさく) 「しさく」は「試作」「思索」など同音異義語が多いので、曖昧さを解消するために口頭では「せさく」と言われるケースもあるようですが、正しい読みは「しさく」です。法律関係では「施行(しこう)」を「執行」と区別するために「せこう」と言ったり、工事関係では「施工(しこう)」を「施行」と区別するためにやはり「せこう」と言ったりすることがあるようです。これらはだいぶ一般的になってきていますね。   近付く(ちかづく) 「ちかずく」で変換しようとするケースが多く報告されています。「づ」と「ず」は発音が同じなのでついつい打ち間違ってしまうこともあるかと思います。「近々(ちかぢか)」を「ちかじか」で入れようとしているケースも多いです。これは「ぢ」と「じ」ですね。 IME のプロパティの「オートコレクト」タブで『「じ」→「ぢ」/「ず」→「づ」変換』をチェックしておくと「ちかずく」「ちかじか」からでも変換できるようになります。   片開き(かたびらき) 「かたひらき」と入れて変換に失敗するケースがあるようです。連濁するかしないかは地方によっても異なったりするのでどこまで許容するかは難しいところです。ほかに「紐付け(ひもづけ)」を「ひもつけ」、「黒酢(くろず)」を「くろす」などといったケースが多いです。   うろ覚え(うろおぼえ) これは読み間違いではないですが、「うるおぼえ」と入れている方が少なくないです。 今回ご紹介したものは現時点で IME 開発チームが読み間違いではないかと判断しているものです。言語は生き物ですから、今後これらの読み方が許容されて IME の辞書に登録されるようになることもあるかもしれません。そういった誤変換以外のものも含めて、みなさんからの「誤変換レポート」はとても貴重で有益な情報です。引き続き誤変換レポートの送信をお願いいたします。   いま誤変換レポートを送信していない方や送信しているかわからない方で、送信してみようと思った方はこちらをご参照ください。   大附 克年      

0

Microsoft Office IME2007 最新語辞書 2010 年 2 月版のお知らせ

Microsoft Office IME2007用の最新語辞書がリリースされています。 以下のページからご利用ください。   Microsoft Office IME 2007 最新語辞書 2010年2月版   この辞書をインストールすると、   フィードバックからの収録 約 1,200 語 定事検(ていじけん)、長在(ちょうざい)、近点(きんてん)、地養卵(じようらん)、二杯酢(にはいず)、枯蓮(かれはす)、幻海(げんかい)、ごっこ遊び(ごっこあそび)、など   最近のオンライン ニュースなどからの収録 約 200 語 促進協(そくしんきょう)、現役感(げんえきかん)、救命医(きゅうめいい)、松濤園(しょうとうえん)、叭々鳥(ははちょう)、若鮎(わかあゆ)、三元車(さんげんしゃ)、など などの入力ができるようになります。   すでにMicrosoft Office IME 2010(ベータ版) をお使いの方は、 IME2010の辞書アップデートのご案内の記事をご覧ください。 なお、IME2010の辞書アップデートは、上で例を出した単語を入力することはできません。ご了承ください。   製品版のアップデートでは、例に出した単語もサポートをする予定です。製品版をお楽しみに!   関 美由紀

0

IME2007の辞書更新サービス2009年11月版のお知らせ

IME2007用の最新語辞書および郵便番号辞書 2009年11月版がLiveされました。   以下のページからご利用ください。   最新語辞書2009年11月版   郵便番号辞書2009年11月版   最新語辞書には以下のような言葉が追加されています。   就規(しゅうき)、初月(しょげつ)、特表(とくひょう)、花鶏(あとり)、甘草湯(かんぞうという)、校園(こうえん)、茉莉花(まつりか)、ニコ動(にこどう)、飛翔体(ひしょうたい)、衛生研(えいせいけん)、宮出し(みやだし)、自主勉(じしゅべん)、早摘み(はやづみ)、豚丼(とんどん)、婚カツ(こんかつ)、など 郵便番号辞書は、2009年9月に日本郵政株式会社から公開されたデータをもとに更新されています。   早いもので、来月はもう12月です。 年賀状などご挨拶状の作成の際、ぜひアップデートされた郵便番号辞書をご活用ください。   なお、最新語辞書2009年5月版の記事にも書きましたとおり、Office 2003 のメインストリームサポートが2009年4月で終了しております。 それに伴い、IME2003 の郵便番号辞書の更新は、2008年11月版が最終バージョンとなります。ご注意のほどよろしくお願いいたします。   関 美由紀

0

最新語辞書 2009 年 8 月版が Live されました

IME2007 用の最新語辞書がリリースされました。 以下のページからご利用ください。   最新語辞書2009年8月版   この辞書をインストールすると、次のような単語が入力できるようになります。   翌末(よくまつ)、講学(こうがく)、月令(げつれい)、濃絵(だみえ)、竹酢(ちくさく)、麦門冬(ばくもんどう)、企画品(きかくひん)、仙豆(せんず)、副振動(ふくしんどう)、児相(じそう)、銀傘(ぎんさん)、培養士(ばいようし)、美ら海(ちゅらうみ)、極星(きょくせい)、マカロン、など   今回も、皆様のたくさんの登録単語報告に支えられ、IME最新語辞書がリリースされています。 ご協力ありがとうございました。   また、この辞書は 2007 Microsoft Office system Service Pack 2(以下SP2) に付属しているIMEでご使用になると、よりよい変換結果を得ることができます。 まだ SP2 にバージョンアップされていない方は、この機会にぜひ SP2 にバージョンアップされてみてはいかがでしょうか。   SP2 についての詳細は、以下のページをご参照ください。 2007 Microsoft Office system Service Pack 2   関 美由紀

0

2007 Microsoft Office system SP2

先にご案内いたしました、変換・学習の改良モジュールが、2007 Microsoft Office system の SP2 に含まれて、公開されました。  http://www.microsoft.com/japan/office/2007/sp2/default.mspx   このアップデートは、お客様に先行評価いただき展開決定をいただくなど、質の向上度や安定性が高いことを確認しております。   今回のSP2では、そのアップデート・モジュールに対して、さらに学習データを移行する処理が追加されておりますので、安心してインストールいただけます。   どうぞ皆様ご利用ください。   佐藤良治

0

IME の学習方式の紹介

今回は、IME の学習の基本的な方式について、従来のものと、Office IME 2007 とを対比して紹介します。    Vista IMEを含む従来のIME は、ユーザが第一候補でないものを選び確定したときや、カタカナ変換したときなどに、その単語や前後の単語を含めた情報を記録します。その記録は、次回に同じ読みの文節が入力されたときに利用されます。最近使った単語を優先するというのは、かな漢字変換というものが実用化されてから以降というもの、ずっと引き継がれてきた学習の基本設計です。   一方、IME 2007 では、まず、確定入力された単語の並びや単語事態の使用回数を記録します。これをここでは「使用情報」と呼びましょう。また従来の IME の学習と同様に、ユーザが第一候補でないものを選んだという情報も記録します。これをここでは「選択情報」と呼びましょう。IME 2007 は、これらの2つの情報を、次回に同じ読みが入力されたときに、利用します。違いは、「使用情報」も利用しているという点です。   従来の学習方式と、IME 2007のそれとを比較してみます。   Vista IMEを含む従来のIMEは、「選択情報」のみに基づくため、当然、最近使用した単語が次回でてきやすいという特徴があります。ところで、最近使用した単語が優先され、前後のコンテキストにそぐわない箇所で変換結果として出てくることを、副作用と言います。従来の学習は、そのような副作用に対策のために、さまざまなヒューリスティックルールを導入し、複雑な処理を行っています。こういうケースは、さっき使った単語を優先していい、こういうケースは、さっき使用した単語が出てはまずい、などです。そういうルールを重ねていった結果、結局複雑になっていきました。   一方、IME 2007は、基礎とする文法を Trigram に変えるにあたり、学習の原理も見直しました。従来の使用感を維持するために、「選択情報」を利用します。が、副作用を押さえるために、ヒューリスティックルールを積み上げるのではなく、ユーザが入力した文の統計を利用するという単純な原理を導入しました。ユーザの「使用情報」を利用するため、正しい操作を繰り返した場合には、次第に、その人の入力文章に合った文法情報が蓄積されていきます。それは、「選択情報」と組み合わされて、短期的には「選択情報」が優先され、長期的には「使用情報」が重みを増していって短期的な「選択情報」による副作用を抑制しつつそのユーザの使い方にどんどんマッチしていくように組み合わされて利用されます。   ただ、反面、「使用情報」を「選択情報」と組み合わせるため、最近使用した単語が次回に出やすいという傾向が、弱くなりがちです。IME チームでは、いかに副作用なしにこの欠点をなくすかということに、取り組み、まずは最初の成果としてhttp://www.microsoft.com/japan/office/2007/ime/fixmodule.mspx をリリースしました。現在、もっと洗練すべき取り組んでいます。   佐藤

0

IME の変換方式の紹介

今回は、IME の変換の基本的な方式を、従来の IME と、Office IME 2007 とで対比して、紹介します。   Vista IME を含む従来の IME は、品詞のつながり安さを基本にしています。   たとえば、太陽、犬、太郎など世の中に存在するものは名前を持っています。それらの単語を名詞と言います。言う、書く、聞く、などは、動作を表わします。これらの単語を動詞と言います。名詞、動詞などを、品詞と呼びます。品詞とは単語のグループです。従来の IME は、品詞と品詞がとれだけつながりやすいか、という情報を基本にしています。   もう少し専門的に説明します。つながりやすさをコストと考えて、つながりやすいほどコストが小さいとみなします。品詞のつながりやすさを品詞接続コストと呼びます。また、それぞれの単語がどれだけよく使われるかという情報を使います。ある単語が使われやすいほど、コストが小さいとみなします。単語の使われやすさを、単語コストと呼びます。従来の Microsoft IME は、品詞接続コストと単語コストとを合計して、コストが最小になるような変換結果を第 1 候補とします。   ところで、サンプルとして集めた例文集を、コーパスと言います。品詞接続コストや単語コストは、コーパスの中に現れた統計に基づいて、人手で調整したものです。ほかにも複雑な手法を用いていますが省略します。   さて、Office IME 2007 は、基本的な仕組みが異なります。品詞ではなく、単語自体のつながりやすさの情報を基本に使います。   ある単語の後に別の単語が来ます。先立つ単語にたいしてどれだけある単語が続くかという確率を、Bigram と呼びます。ある単語のあとに別の単語が来て、そのあとにまた別の単語が来ます。先立つ2つの単語に対してどれだけある単語が続くかという確率を、Trigram と呼びます。 IME2007 は、Trigram と Bigram を基礎として、さらに、品詞のつながりやすさの確率を補助的に用いて、第 1 候補を求めます。ほかにも複雑なことをやっていますが、省略します。   ここで、確率は、コーパスの統計から、文法として最適になるように計算したものを使っています。   品詞に基づく方法と Trigram に基づく方法を比較してみましょう。   ところで、言語現象というのは原理や法則では説明できず、必ず個別の単語に依存した例外的な現象というものが無数にでてきます。品詞に基づく文法では、原理的に制御しきれない言語現象が無数に存在します。たとえば、「京料理」は二つの単語「きょう」「りょうり」からなります。品詞で見ると、名詞+名詞です。「きょう」という読みを持つ名詞は、「今日」「京」「教」などです。名詞+名詞の範囲の中で、「きょう」の変換結果を決めるのは至難の業です。また、従来のIMEは、つながり方という相並ぶ 2 つの要素の関係のみに依存していますので、その点でも限界があります。たとえば、「かんじがわるい」という読みは、普通「感じが悪い」でしょう。しかし、「かんじ」「が」という 2 つの単語をみて、「が」「わるい」という 2 つの単語を見るだけですと、「監事が悪い」という変換結果になっても不思議ではありません。IME…

0

最新語辞書 2009 年 2 月版が Live になりました!

IME 最新語辞書 2009 年 2 月版がリリースされました。 以下のページからご利用ください。   Microsoft Office IME 2007 最新語辞書更新 2009 年 2 月版   Microsoft IME 2003 最新語辞書更新 2009 年 2 月版     この辞書をインストールすると、たとえば次のような単語が入力できるようになります。   朝勤(あさきん)、特措(とくそ)、小々計(しょうしょうけい)、木酢(もくさく)、緋寒桜(ひかんざくら)、北とぴあ(ほくとぴあ)、薬力学(やくりきがく)、上々颱風(しゃんしゃんたいふーん)、猛暑日(もうしょび)、理事所(りじしょ)、上醍醐(かみだいご)、尺玉(しゃくだま)、酢卵(すたまご)、変顔(へんがお)、アラフォー、など   IME 最新語辞書は、最近のオンラインニュースや皆様から送信された数が多かった単語などが収録されております。   こんな単語もIMEの辞書に登録されていたらいいなと常日頃感じている方、ぜひIMEに単語情報を送ってください!   送り方は以下のページをご参照ください。 IMEのユーザー辞書に単語を登録と同時にMicrosoft に単語を送信する方法   開発者一同、皆様のフィードバックをお待ちしております。   関 美由紀

0

最新語辞書と郵便番号辞書がアップデートされました

IME最新語辞書および郵便番号辞書2008年11月版がリリースされております。以下のページからご利用ください。 IME2007 2008年 11 月版の最新語辞書 IME2003 2008年 11 月版の最新語辞書 IME2007 2008年 11 月版の郵便番号辞書 IME2003 2008年 11 月版の郵便番号辞書 【最新語辞書】ユーザーの皆様から寄せていただいた単語登録レポートなどから有無責(ゆうむせき)、日差(にっさ)、相変化(そうへんか)、空清(くうせい)、社休日(しゃきゅうび)、ゆうちょ銀行(ゆうちょぎんこう)、商経学部(しょうけいがくぶ)、酸辣湯(さんらーたん)、などが収録されております。また、最近のオンライン ニュースなどから神経堤(しんけいてい)、鵜舟(うぶね)、日教弘(にっきょうこう)、艶黒(つやぐろ)、豆餅(まめもち)、駒の湯(こまのゆ)、ビニ傘(びにかさ)、などが収録されております最新語辞書は3ヶ月ごとにリリースしております。ぜひご利用ください。 【郵便番号辞書】2008 年 11 月版郵便番号辞書では、最終バージョンで追加された内容に加え、福島県福島市飯野町、東京都港区赤坂赤坂Bizタワー1階、千葉県山武郡芝山町岩山成田国際空港内、静岡県静岡市清水区由比、愛知県豊川市御津町金野籠田、鹿児島県南九州市川辺町今田、などたくさんの市町村の郵便番号が追加されました。郵便番号辞書は毎年年末にアップデートしております。最新語辞書同様、よろしくお願いいたします。 関 美由紀

0

IME 2007 の改良モジュールのリリース、続報

先日、9月8日に、改良モジュールのご案内の速報をいたしましたが、今回、64ビット環境もサポートした修正モジュールを改めてリリースしました。   以下のダウンロードサイトからご利用ください。 http://www.microsoft.com/japan/office/2007/ime/fixmodule.mspx   また、Office IME 2007 の詳細は下記Web サイトをご参照ください。 http://office.microsoft.com/ja-jp/ime/FX101486491041.aspx   佐藤  

0