背景色変更

世界初のCubieboardで実行するSpark/Hadoop ARMクラスタ

ビッグデータの時代に、Splunkをデータ処理エンジンとした大きなデータブロックを処理するソリューションが提供できます。Splunkはよく使われるHadoopのプログラムの開発ツールです。Splunk Webが検索結果に対して詳細な解析を素早く行うことも可能です。

 

ARM CPUが当初設計された際に、ビッグデータ処理向けではありませんでしたが、技術の進歩、アーキテクチャのバージョンアップに伴って、現在は既にビッグデータの処理に使うことが可能です。この過程の中で、たくさんの人がARMクラスタ上でApache Hadoopを動かす試みをしました。Cubieboardのエンジニアたちは去年お8月に既に8ノードのCubieboardでHadoopを実行可能にしました。また、おそらくJamie Whitehorn が初めてRaspberry PiでHadoopを実行可能にした人です。これら事実によって、ARMクラスタでHadoopの実行が可能だと証明されました。

低コストのARMクラスタ上でビッグデータを処理するのは、本当に実用的でしょうか?

ビッグデータは実はそんなに”大きなデータ”でもありません。よくある使い道の一つとして、大量なファイルを一括処理するなどが想像できます。それぞれのファイルはそんなに大きくありません。実は、もし一つのクラスタは15GBのファイルを処理できれば、ビッグデータの処理には十分だと考えられます。

この問題を証明するために、私たちはARMベースのビッグデータ処理向けのクラスタを作りました。このクラスタには、22個のCubieboard A10を使用し、100Mbpsのイーサネットで接続します。これは外観の写真:

クラスタでSparkとHadoopを実行

私たちはHadoopのMap Reduceがこのようなクラスタ処理には最適な選択ではないと考え、HDFSを選択すると決めました。それで、代替案を調査する時に、偶然にApache Sparkを発見しました。このメモリアーキテクチャは実際の実行状況に応じて中間結果をHDDに吐き出すことが可能で、ノードのメモリ不足が解消し、クラスタを順調に動かせます。現在クラスタの実行状況はまだまだ改善する余地がありますが、(例えば、実際にデータ処理に使われるメモリは50%しかなく、メモリの使用率を上げようしたところ、一部のノードがフリーズした現象が発生しています。)クラスタの演算の優位性が明らかです。2012から現在までのWikipediaの記事ファイルのサイズは34Gで(一般的なビッグデータファイルの2倍)これをサンプルデータとして、クラスタはApache Sparkアーキテクチャで、単語”the”を検索し、収集する場合、1時間50分で既に単語”the”の数は126,938,368という結論が出ました。

システム構成と観測結果

私たちは20個のApache Sparkワークノードを作りました。それに二つのHadoopノード。これらを使って、Apache SparkとHadoopアーキテクチャのデータ処理能力についての違いを比較します。同じマシンでHadoopのNameNodeとSparkのMasterNodeを実行し、もう一台のマシンにドライバをインストールします。

ファイルはSATAで接続している二つのSSDに保存します。

観察結果として、現状のボトルネックは100Mbpsのイーサネットだと考えられます。これから詳細な測定を行う予定ですが、消費電力が結構低いようです。私たちのエアコンによって部屋の温度は25℃に維持しています。高価なデータセンタが必要ではありません。

 

結論

ARMボードは既にクラスタを作れるほどの処理能力を持っています。今回私たちの経験としては、Hadoopに依存する必要がありません。適切なソフトを選択し、適切な調整を行って、クラスタに適応させます。そして、許容できる時間内で(1時間50分前後)34GBの大きなデータの処理に成功しました。

私たちはこれからさらに大きな製品を開発するつもりです。もちろん、なるべくコンパクトで。

ちなみに、私たちのクラスタの名前:SUT Aiyara Cluster: Mk-I。

<この記事は Chanwit Kaewkasi さんのブログから翻訳しました。thanks to Chanwit’s nice work>

アンケート:Cubieboardの使用分野・ご興味がある分野についてを教えていただけますでしょうか?(ご投票いただくと結果を確認できます。)

View Results

Loading ... Loading ...

ホーム フォーラム一覧 世界初のCubieboardで実行するSpark/Hadoop ARMクラスタ

タグ: 

This topic contains 0件の返信, has 1件の返信, and was last updated by cubie管理人 cubie管理人 4 年 6 ヶ月前.

1件の投稿を表示中 - 1件目から 1件目 (全1件中)
  • 投稿者
    投稿
  • #248
    cubie管理人
    cubie管理人
    傍観者

    <This article is from Chanwit Kaewkasi ‘s blog,thanks to Chanwit’s nice work> ビッグデータの時代に、Splunkをデータ処理エンジンとした大きなデータブロックを処理するソリューションが提供できます。Splunk
    [See the full post at: http://cubieboard.jp/archives/241]

1件の投稿を表示中 - 1件目から 1件目 (全1件中)

このトピックに返信するにはログインしてください。