Generatif (Beta) |. Memberikan berita dan tren terkini dalam AI generatif

PaperBench Luncurkan Benchmark Penelitian AI Baru
Generatived
3/4/25, 03.30
PaperBench diperkenalkan sebagai tolok ukur baru yang dirancang untuk mengevaluasi kemampuan agen AI dalam mereproduksi penelitian AI terkini. Tolok ukur ini menantang agen untuk mereproduksi hasil dari 20 makalah terpilih dari konferensi ICML 2024, yang mengharuskan mereka memahami kontribusi asli, mengembangkan basis kode mereka sendiri, dan menjalankan eksperimen yang berhasil. Tolok ukur ini terdiri dari lebih dari 8.000 tugas yang dapat dinilai, dengan setiap tugas yang direplikasi dibagi menjadi subtugas yang lebih kecil dan terdefinisi dengan baik untuk memungkinkan evaluasi yang tepat.
Untuk memastikan keakuratan dan realisme proses evaluasi, kreator PaperBench bekerja sama dengan penulis paper ICML untuk mengembangkan rubrik bersama. Rubrik ini berfungsi sebagai panduan untuk menilai upaya replikasi agen AI. Selain itu, juri berbasis AI yang dilengkapi dengan model bahasa dikembangkan untuk menilai upaya ini secara otomatis. Kinerja juri AI ini juga dievaluasi oleh tolok ukur terpisah yang dibuat khusus untuk juri.
Dalam evaluasi terkini, PaperBench digunakan untuk menguji beberapa model AI terkemuka. Hasil menunjukkan bahwa agen dengan skor tertinggi, Claude 3.5 Sonnet yang didukung oleh perangkat sumber terbuka, mencapai skor replikasi rata-rata sebesar 21,0%. Namun, jika dibandingkan dengan pakar manusia, model AI tersebut belum melampaui kinerja pakar pembelajaran mesin teratas yang digunakan untuk menantang sebagian tugas tolok ukur.
Tim di balik PaperBench merilis kode tersebut dengan tujuan untuk mendorong penelitian lebih lanjut mengenai kemampuan rekayasa agen AI. Upaya ini diharapkan dapat berkontribusi pada kemajuan R&D AI dengan menyediakan platform yang kuat untuk evaluasi kinerja yang objektif.
Bagikan artikel ini:
Tin tức mới nhất
ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot
4/4/25, 04.30
ACCELQ telah mengumumkan pembaruan besar pada kemampuan Autopilotnya, yang meningkatkan kemampuan otomatisasi pengujian bertenaga AI untuk aplikasi perusahaan.
Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25
4/4/25, 04.30
Anthology telah mengumumkan bahwa Ethan Mollick, yang diakui oleh majalah TIME sebagai salah satu orang paling berpengaruh dalam kecerdasan buatan
AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman
4/4/25, 04.30
AlertMedia telah mengumumkan akuisisi strategis Pyrra Technologies, sebuah perusahaan yang mengkhususkan diri dalam pemantauan media sosial bertenaga AI.
Copyright © 2024 Generatived - All right Reserved.
Bagikan artikel ini:
Bagikan artikel ini:
Kategori
Berita
AI dan hukum/peraturan/masyarakat
Generatived là dịch vụ cung cấp thông tin và xu hướng chuyên về Generative AI. Chúng tôi sẽ cố gắng hết sức để cung cấp thông tin về thế giới đang thay đổi nhanh chóng.
Berita terkini
ACCELQ Meningkatkan Kemampuan Otomatisasi Pengujian AI Autopilot
4/4/25, 04.30
ACCELQ telah mengumumkan pembaruan besar pada kemampuan Autopilotnya, yang meningkatkan kemampuan otomatisasi pengujian bertenaga AI untuk aplikasi perusahaan.
Anthology Menunjuk Ethan Mollick sebagai Pembicara Utama AT25
4/4/25, 04.30
Anthology telah mengumumkan bahwa Ethan Mollick, yang diakui oleh majalah TIME sebagai salah satu orang paling berpengaruh dalam kecerdasan buatan
AlertMedia Mengakuisisi Pyrra Tech untuk Memperkuat Wawasan Ancaman
4/4/25, 04.30
AlertMedia telah mengumumkan akuisisi strategis Pyrra Technologies, sebuah perusahaan yang mengkhususkan diri dalam pemantauan media sosial bertenaga AI.