Tanya Pomodo
Semua Artikel
Teknologi
Bisnis
Sains
Finansial
Semua
entitas
SWE-BENCH
SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
Daftar
atau
Masuk
untuk mendapatkan artikel-artikel relevan yang dipersonalisasi
Teknologi
19 hari lalu
298 dibaca
Anthropic Rilis Opus 4.5 dengan Performa Coding Terbaik dan Fitur Memori Canggih
Teknologi
3 bulan lalu
214 dibaca
Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
Teknologi
4 bulan lalu
221 dibaca
Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
Teknologi
4 bulan lalu
114 dibaca
Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
Teknologi
8 bulan lalu
279 dibaca
Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps