Generatived（Beta）｜生成AIの最新ニュースとトレンドを提供

AIsmileyデータ分析AIカオスマップ公開

Generatived

25/2/11 4:30

HackerRank は、ソフトウェア開発タスクにおける高度な AI モデルのパフォーマンスを評価することを目的とした最新ツール、ASTRABenchmarkを発表しました。このベンチマークは、複数のファイル、プロジェクトベースの問題を使用して、実際のコーディングシナリオで AI 機能をテストするように設計されています。HackerRank の CEO である Vivek Ravisankar 氏は、ソフトウェア開発における人間と AI の複合的な能力を理解することの重要性を強調し、この分野における専門知識により、AI モデルを評価する上で有利な立場に立つことができると考えています。

ASTRABenchmarkは、 10 の主要なコーディングスキル領域にわたる 65 のプロジェクトベースのコーディング問題を特徴とする、AI モデルの包括的な評価を提供します。問題ごとに平均 12 個のソースコードと構成ファイル、平均 61 行のソリューションコードが含まれます。ベンチマークでは、平均スコアや中央標準偏差などの指標を使用して、モデルの正確性と一貫性の詳細な評価も提供します。

ASTRABenchmarkの初期結果では、OpenAI の o1 モデルが他のモデルよりも優れたパフォーマンスを示し、Claude- -3.5-sonnet はより一貫した結果を示しました。HackerRank はベンチマークをオープンソース化し、AI コミュニティがモデルをテストして AI 技術の進歩に貢献することを奨励しています。ベンチマーク結果の完全なレポートと分析は、HackerRank の Web サイトで入手できます。

HackerRank は開発者スキル分野のリーダーであり、2,500 社を超える顧客にサービスを提供しており、2,500 万人を超える開発者のコミュニティを擁しています。同社は、AI を活用した企業のスキル戦略の確立、開発者へのブランド宣伝、スキルベースの採用プロセスの実装を支援していることで知られています。ASTRABenchmarkの詳細については、提供されている連絡先eメールまでお問い合わせください。

出典：プレスリリース