Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
entitas

SWE-BENCH

SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
DaftaratauMasuk
untuk mendapatkan artikel-artikel relevan yang dipersonalisasi
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
SCMP
Teknologi
1 bulan lalu
334 dibaca

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
YahooFinance
Teknologi
3 bulan lalu
283 dibaca

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
TechCrunch
Teknologi
3 bulan lalu
208 dibaca

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps
TechCrunch
Teknologi
6 bulan lalu
158 dibaca

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps