はじめに
Rumaleには、実行速度が遅いという問題があった。これに対して、version 0.11.0 では、one-vs-the-restやbaggingで並列化できる部分を、Parallelにより並列化してみた。
rumale | RubyGems.org | your community gem host
scikit-learnと同様に、n_jobsパラメータを持つ推定器では並列化が利用できる。ただし、試験的なモノなので、明確にParallelをrequireした場合にのみ、有効になるようにした。
使い方
Rumaleは、gemコマンドでインストールできる。データセットの読み込みでred-datasetsを使いたいので、あわせてインストールする。
$ gem install rumale red-datasets-numo-narray
そして、Parallelをインストールする。
$ gem install parallel
USPSデータセットを用いて、Random Forestによる分類器を例に、どれくらい速くなるか確認する。RandomForestClassifierでは、baggingで弱学習器を訓練する部分が並列化される。実行環境は、MacBook Early 2016で、 Intel Core m3 1.1Ghzである。
require 'datasets' require 'datasets-numo-narray' require 'rumale' # Parallelがrequireされていない場合n_jobsパラメータは無視される. require 'parallel' # データセットを読み込む. datasets = Datasets::LIBSVM.new('usps').to_narray labels = Numo::Int32.cast(datasets[true, 0]) samples = Numo::DFloat.cast(datasets[true, 1..-1]) # 訓練とテストデータセットに分割する. ss = Rumale::ModelSelection::ShuffleSplit.new(n_splits: 1, test_size: 0.2, random_seed: 1) train_ids, test_ids = ss.split(samples, labels).first train_s = samples[train_ids, true] train_l = labels[train_ids] test_s = samples[test_ids, true] test_l = labels[test_ids] # Random Forestによる分類器を学習する. start = Time.now est = Rumale::Ensemble::RandomForestClassifier.new( n_estimators: 100, max_depth: 10, max_features: 8, # n_jobs: -1, # -1にするとcore数と同じだけプロセスを作る. random_seed: 1 ) est.fit(train_s, train_l) # テストデータで正確度を評価する. puts("Accuracy: %.1f %%" % (100.0 * est.score(test_s, test_l))) finish = Time.now puts("Time: %.1f [sec]" % (finish - start)) ~
まずは、並列化なし。
$ ruby hoge.rb Accuracy: 95.1 % Time: 31.0 [sec]
そして、n_jobsのオプションをコメントアウトを外して、有効にしたもの。
$ ruby hoge.rb Accuracy: 95.3 % Time: 15.9 [sec]
だいぶ速くなった。この他、one-vs-the-restの並列化では、線形SVMによる分類器SVCや勾配ブースティング木のGradientBoostingClassifierなどで実行速度が速くなるのを確認できた。
n_jobsを有効にする/しないで結果がわずかに変わった。これは、アルゴリズム中に乱数生成を含む場合、並列化することで乱数が生成されるタイミングが変わることに起因する。今後、乱数で初期化する部分など、乱数生成に関わる実装を再検討していく。
おわりに
Parallelを利用することで、Rumaleを一部高速化することができた。高速化の本質的な解決策としては、やはり、大部分をRuby Extensionsに書き換えるのが良いのだろうが、ある程度アルゴリズムがそろってからかな〜と考えている。