Generatived(Beta)|生成AIの最新ニュースとトレンドを提供
NVIDIA、大規模データセットを効率的に扱えるXGBoostツールを発表
Generatived
23/9/8 9:31
データサイエンティストは、多くの場合、広範なデータセットで大規模なモデルをトレーニングするというタスクに取り組んでいる。堅牢な勾配ブースティング フレームワークであるXGBoostは、大規模な表形式データに対する速度とパフォーマンスにより人気のあるツールだ。理論的には、複数のGPUを使用すると計算能力が大幅に向上し、モデルのトレーニングが高速化されるはずだ。ただし、多くのユーザーは、並列コンピューティング用の柔軟なオープンソースPythonライブラリーであるDask XGBoostを通じてこの機能を活用するのが難しいと感じている。Dask XGBoostのトレーニングでは、トレーニングデータのロード、DataFrameのXGBoostのDMatrix形式への変換、および実際のモデルのトレーニング中など、さまざまな段階でメモリー不足(OOM)エラーの処理が行われることがよくある。これらのメモリーの問題に対処するのは困難だが、マルチGPUトレーニングの潜在的な利点により、やりがいがある。この記事では、複数のGPUでDask XGBoostを最適化し、メモリーエラーを管理する方法について説明する。大規模なデータセットでXGBoostをトレーニングすると、さまざまな課題が生じる。例えば、1億8,000万行と152列があり、メモリーにロードされると合計110 GBになるOtto Group製品分類チャレンジデータセットは、OOM問題とその解決方法を示すために使用される。取り扱う問題には、最新バージョンのRAPIDSと正しいバージョンのXGBoostを使用したインストール、環境変数の設定、OOMエラーの処理、さらなる高速化のためのUCX-pyの利用などが含まれる。RapidsaiチャネルのXGBoostは、RMMプラグインを有効にして構築されており、マルチGPUトレーニングに関して最適なパフォーマンスを提供する。
最新のニュース
外科データサイエンス集団が世界規模の外科手術の安全性を向上
25/1/16 5:00
Surgical Data Science Collective は、人工知能の可能性を活用して、世界中の手術室で外科トレーニングを強化し、安全性を向上させています。
NVIDIA、災害対応を強化する FloodSENS AI を発表
25/1/16 5:00
最近の NVIDIA GTC 2024 セッションでは、RSS-Hydro の専門家である Guy Schumann 氏と Guillaume Gallion 氏が、洪水モデリングと 3D ビジュアライゼーションのための革新的な AI 駆動型ツールを発表しました。
Google Cloud がVertex AI RAG エンジンを発表
25/1/16 5:00
生成AIと大規模言語モデル (LLM) は、自動応答の精度と関連性を高めることで、さまざまな分野に変化をもたらしています。
Copyright © 2024 Generatived - All right Reserved.
ニュース
Generatived は、Generative AIに特化した情報やトレンドをお届けするサービスです。大きく変わりゆく世界の情報を全力でお届けします。
最新のニュース
外科データサイエンス集団が世界規模の外科手術の安全性を向上
25/1/16 5:00
Surgical Data Science Collective は、人工知能の可能性を活用して、世界中の手術室で外科トレーニングを強化し、安全性を向上させています。
NVIDIA、災害対応を強化する FloodSENS AI を発表
25/1/16 5:00
最近の NVIDIA GTC 2024 セッションでは、RSS-Hydro の専門家である Guy Schumann 氏と Guillaume Gallion 氏が、洪水モデリングと 3D ビジュアライゼーションのための革新的な AI 駆動型ツールを発表しました。
Google Cloud がVertex AI RAG エンジンを発表
25/1/16 5:00
生成AIと大規模言語モデル (LLM) は、自動応答の精度と関連性を高めることで、さまざまな分野に変化をもたらしています。