Tanya Pomodo
Semua Artikel
Teknologi
Bisnis
Sains
Finansial
Semua
entitas
SWE-BENCH
SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
Daftar
atau
Masuk
untuk mendapatkan artikel-artikel relevan yang dipersonalisasi
Teknologi
1 bulan lalu
334 dibaca
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
Teknologi
3 bulan lalu
283 dibaca
Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
Teknologi
3 bulan lalu
208 dibaca
Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Teknologi
6 bulan lalu
158 dibaca
Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps