R Server for HDInsight の一般提供を開始

執筆者: Oliver Chiu (Product Marketing, Hadoop/Big Data and Data Warehousing)

このポストは、11 月 17 日に投稿された R Server for HDInsight now generally available の翻訳です。

 

このたび、R Server for HDInsight の一般提供が開始されました。これにより、Azure HDInsight は Hadoop や Spark も活用できる最も包括的なクラウドの ML アルゴリズムと統計関数セットを備えたことになります。

R Server for HDInsight の概要

R は数多くのデータ サイエンティストに使用されているプログラミング言語の 1 つで、計算生物学から定量的マーケティングまでさまざまな分野の非常に困難な課題の解決に活用されています。R Server for HDInsight は、HDInsight で作成された Spark クラスターと統合された R のスケールアウト実装です。このため、使い慣れた R 言語で機械学習を行う際にも、Spark に組み込まれている拡張性や信頼性を活用できます。R Server ではマルチスレッドの数学ライブラリと透過的な並列化を利用でき、オープン ソースの R と比較してデータ量で最大 1,000 倍、処理速度で最大 50 倍のパフォーマンスが得られ、これまでよりもさらに正確にモデルをトレーニングして優れた予測精度を実現できます。

R Server for Azure HDInsight

使い慣れた R の能力を活用

データ サイエンティストに最も選ばれている R 言語は、200 万人を超える世界的なコミュニティが存在し、活発な活動が行われています。オープン ソースの分析パッケージの総数も年々飛躍的に増加しています。R Server for HDInsight は、Hadoop や Spark で大規模に実行される R 言語と完全に互換性があります。

テラバイト規模の機械学習で従来の 1,000 倍以上のデータを処理

Hadoop や Spark を基盤とした透過的な並列化により、R Server for HDInsight ではオープン ソースの R 言語単体の場合と比較して 1,000 倍となる、テラバイト規模のデータを処理できます。このため、Spark クラスターのサイズが許す限りの量のデータでロジスティック回帰モデル、ツリー、アンサンブルをトレーニングすることができます。

Spark SQL で Spark データ ソースにアクセス

一般提供開始に伴い、新たに R Server のデータ ソースとして Spark SQL を使用できるようになりました。これにより、Apache Hive、Parquet、Spark Data Frame などのソースに対する Spark SQL クエリの結果を読み込み、R Server の分散コンピューティング アルゴリズムを使用して直接分析できます。

お好みの開発ツールを利用可能

一般提供開始に伴い、データ サイエンティストが使用を開始しやすいように、新たに R Studio Server Community Edition がリリースされました。また、無料で R Tools for Visual Studio をダウンロードして、ローカルの開発環境で利用することもできます。

使用を開始するには

本製品を使用するには、Azure サブスクリプションを所有しているか、または Azure の無料評価版にサインアップ済みである必要があります。この条件を満たしているお客様は、入門ガイドの説明に従って操作を進めると、数分程度で R Server クラスターをセットアップして実行することができます。

併せて、下の Channel 9 のビデオ (英語) もご覧ください。

その他の参考資料