top of page
Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif
logo.png

PaperBench Luncurkan Benchmark Penelitian AI Baru

Generatived

3/4/25, 03.30

PaperBench diperkenalkan sebagai tolok ukur baru yang dirancang untuk mengevaluasi kemampuan agen AI dalam mereproduksi penelitian AI terkini. Tolok ukur ini menantang agen untuk mereproduksi hasil dari 20 makalah terpilih dari konferensi ICML 2024, yang mengharuskan mereka memahami kontribusi asli, mengembangkan basis kode mereka sendiri, dan menjalankan eksperimen yang berhasil. Tolok ukur ini terdiri dari lebih dari 8.000 tugas yang dapat dinilai, dengan setiap tugas yang direplikasi dibagi menjadi subtugas yang lebih kecil dan terdefinisi dengan baik untuk memungkinkan evaluasi yang tepat.

Untuk memastikan keakuratan dan realisme proses evaluasi, kreator PaperBench bekerja sama dengan penulis paper ICML untuk mengembangkan rubrik bersama. Rubrik ini berfungsi sebagai panduan untuk menilai upaya replikasi agen AI. Selain itu, juri berbasis AI yang dilengkapi dengan model bahasa dikembangkan untuk menilai upaya ini secara otomatis. Kinerja juri AI ini juga dievaluasi oleh tolok ukur terpisah yang dibuat khusus untuk juri.

Dalam evaluasi terkini, PaperBench digunakan untuk menguji beberapa model AI terkemuka. Hasil menunjukkan bahwa agen dengan skor tertinggi, Claude 3.5 Sonnet yang didukung oleh perangkat sumber terbuka, mencapai skor replikasi rata-rata sebesar 21,0%. Namun, jika dibandingkan dengan pakar manusia, model AI tersebut belum melampaui kinerja pakar pembelajaran mesin teratas yang digunakan untuk menantang sebagian tugas tolok ukur.

Tim di balik PaperBench merilis kode tersebut dengan tujuan untuk mendorong penelitian lebih lanjut mengenai kemampuan rekayasa agen AI. Upaya ini diharapkan dapat berkontribusi pada kemajuan R&D AI dengan menyediakan platform yang kuat untuk evaluasi kinerja yang objektif.

Bagikan artikel ini:

Tin tức mới nhất
ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot

ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot

4/4/25, 04.30

ACCELQ telah mengumumkan pembaruan besar pada kemampuan Autopilotnya, yang meningkatkan kemampuan otomatisasi pengujian bertenaga AI untuk aplikasi perusahaan.

Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25

Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25

4/4/25, 04.30

Anthology telah mengumumkan bahwa Ethan Mollick, yang diakui oleh majalah TIME sebagai salah satu orang paling berpengaruh dalam kecerdasan buatan

AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman

AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman

4/4/25, 04.30

AlertMedia telah mengumumkan akuisisi strategis Pyrra Technologies, sebuah perusahaan yang mengkhususkan diri dalam pemantauan media sosial bertenaga AI.

C3 AI Meningkatkan Kemampuan AI Pertahanan Arcfield

C3 AI Meningkatkan Kemampuan AI Pertahanan Arcfield

4/4/25, 04.30

C3 AI telah membentuk kemitraan strategis dengan Arcfield untuk memperkuat upaya transformasi Digital Transformation perusahaan.

Copyright © 2024 Generatived - All right Reserved.

Bagikan artikel ini:

Bagikan artikel ini:

Generatived

Hãy theo dõi chúng tôi

  • Facebook
  • X

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived AI Logo

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

  • Facebook
  • X

Ikuti kami

Bahasa

Berita terkini
ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot

ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot

4/4/25, 04.30

ACCELQ telah mengumumkan pembaruan besar pada kemampuan Autopilotnya, yang meningkatkan kemampuan otomatisasi pengujian bertenaga AI untuk aplikasi perusahaan.

Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25

Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25

4/4/25, 04.30

Anthology telah mengumumkan bahwa Ethan Mollick, yang diakui oleh majalah TIME sebagai salah satu orang paling berpengaruh dalam kecerdasan buatan

AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman

AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman

4/4/25, 04.30

AlertMedia telah mengumumkan akuisisi strategis Pyrra Technologies, sebuah perusahaan yang mengkhususkan diri dalam pemantauan media sosial bertenaga AI.

C3 AI Meningkatkan Kemampuan AI Pertahanan Arcfield

C3 AI Meningkatkan Kemampuan AI Pertahanan Arcfield

4/4/25, 04.30

C3 AI telah membentuk kemitraan strategis dengan Arcfield untuk memperkuat upaya transformasi Digital Transformation perusahaan.

bottom of page