PaperBench Luncurkan Benchmark Penelitian AI Baru

Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

PaperBench Luncurkan Benchmark Penelitian AI Baru

Generatived

3/4/25, 03.30

PaperBench diperkenalkan sebagai tolok ukur baru yang dirancang untuk mengevaluasi kemampuan agen AI dalam mereproduksi penelitian AI terkini. Tolok ukur ini menantang agen untuk mereproduksi hasil dari 20 makalah terpilih dari konferensi ICML 2024, yang mengharuskan mereka memahami kontribusi asli, mengembangkan basis kode mereka sendiri, dan menjalankan eksperimen yang berhasil. Tolok ukur ini terdiri dari lebih dari 8.000 tugas yang dapat dinilai, dengan setiap tugas yang direplikasi dibagi menjadi subtugas yang lebih kecil dan terdefinisi dengan baik untuk memungkinkan evaluasi yang tepat.

Untuk memastikan keakuratan dan realisme proses evaluasi, kreator PaperBench bekerja sama dengan penulis paper ICML untuk mengembangkan rubrik bersama. Rubrik ini berfungsi sebagai panduan untuk menilai upaya replikasi agen AI. Selain itu, juri berbasis AI yang dilengkapi dengan model bahasa dikembangkan untuk menilai upaya ini secara otomatis. Kinerja juri AI ini juga dievaluasi oleh tolok ukur terpisah yang dibuat khusus untuk juri.

Dalam evaluasi terkini, PaperBench digunakan untuk menguji beberapa model AI terkemuka. Hasil menunjukkan bahwa agen dengan skor tertinggi, Claude 3.5 Sonnet yang didukung oleh perangkat sumber terbuka, mencapai skor replikasi rata-rata sebesar 21,0%. Namun, jika dibandingkan dengan pakar manusia, model AI tersebut belum melampaui kinerja pakar pembelajaran mesin teratas yang digunakan untuk menantang sebagian tugas tolok ukur.

Tim di balik PaperBench merilis kode tersebut dengan tujuan untuk mendorong penelitian lebih lanjut mengenai kemampuan rekayasa agen AI. Upaya ini diharapkan dapat berkontribusi pada kemajuan R&D AI dengan menyediakan platform yang kuat untuk evaluasi kinerja yang objektif.

Sumber: Blog OpenAI

Bagikan artikel ini:

Tin tức mới nhất

ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot

4/4/25, 04.30

ACCELQ telah mengumumkan pembaruan besar pada kemampuan Autopilotnya, yang meningkatkan kemampuan otomatisasi pengujian bertenaga AI untuk aplikasi perusahaan.

Baca lebih lanjut

Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25

4/4/25, 04.30

Anthology telah mengumumkan bahwa Ethan Mollick, yang diakui oleh majalah TIME sebagai salah satu orang paling berpengaruh dalam kecerdasan buatan

Baca lebih lanjut

AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman

4/4/25, 04.30

AlertMedia telah mengumumkan akuisisi strategis Pyrra Technologies, sebuah perusahaan yang mengkhususkan diri dalam pemantauan media sosial bertenaga AI.

Baca lebih lanjut

C3 AI Meningkatkan Kemampuan AI Pertahanan Arcfield

4/4/25, 04.30

C3 AI telah membentuk kemitraan strategis dengan Arcfield untuk memperkuat upaya transformasi Digital Transformation perusahaan.

Baca lebih lanjut

Bagikan artikel ini:

Kategori

Peningkat Gambar AI

Pembuat kode AI

Manajemen tugas AI

Tanpa kode/kode rendah

Generator desain grafis AI

Generator seni/ilustrasi AI

Semua alat

Berita

AI dan hukum/peraturan/masyarakat

Perusahaan/produk/teknologi AI

AI Teknologi Besar

OpenAI/ChatGPT

AI generasi kreatif

AI generasi berbasis teks

AI generatif Jepang

Dasar-dasar AI generatif

Panduan penerapan AI terbaik

Profil perusahaan

Tentang kami

Chính sách quyền riêng tư

Điều khoản sử dụng trang web

Công ty điều hành

Hãy theo dõi chúng tôi

Bahasa

Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.

Generatived adalah layanan yang memberikan informasi dan tren khusus dalam AI Generatif. Kami akan melakukan yang terbaik untuk menyampaikan informasi tentang dunia yang berubah dengan cepat.

Ikuti kami

Bahasa

Kategori

Semua alat

Manajemen tugas AI

Generator desain grafis AI

Tanpa kode/kode rendah

Pembuat kode AI

Peningkat Gambar AI

Pembuat Seni/Ilustrasi AI

AI dan hukum/sistem/ekonomi/masyarakat

Perusahaan/produk/teknologi AI

AI berteknologi besar

OpenAI/ChatGPT

AI generasi inovatif

AI generasi berbasis teks

AI inovatif Jepang

Dasar-dasar AI generatif

Petunjuk dasar aplikasi AI

Tin tức

Giới thiệu về chúng tôi

Chính sách quyền riêng tư

Điều khoản sử dụng của trang web

Công ty điều hành

Hồ sơ công ty

Berita terkini

ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot

4/4/25, 04.30

ACCELQ telah mengumumkan pembaruan besar pada kemampuan Autopilotnya, yang meningkatkan kemampuan otomatisasi pengujian bertenaga AI untuk aplikasi perusahaan.

Baca lebih lanjut

Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25

4/4/25, 04.30

Anthology telah mengumumkan bahwa Ethan Mollick, yang diakui oleh majalah TIME sebagai salah satu orang paling berpengaruh dalam kecerdasan buatan

Baca lebih lanjut

AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman

4/4/25, 04.30

AlertMedia telah mengumumkan akuisisi strategis Pyrra Technologies, sebuah perusahaan yang mengkhususkan diri dalam pemantauan media sosial bertenaga AI.

Baca lebih lanjut

C3 AI Meningkatkan Kemampuan AI Pertahanan Arcfield

4/4/25, 04.30

C3 AI telah membentuk kemitraan strategis dengan Arcfield untuk memperkuat upaya transformasi Digital Transformation perusahaan.

Baca lebih lanjut