Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
entitas

SWE-BENCH

SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
DaftaratauMasuk
untuk mendapatkan artikel-artikel relevan yang dipersonalisasi
Anthropic Rilis Opus 4.5 dengan Performa Coding Terbaik dan Fitur Memori Canggih
TechCrunch
Teknologi
19 hari lalu
298 dibaca

Anthropic Rilis Opus 4.5 dengan Performa Coding Terbaik dan Fitur Memori Canggih

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
SCMP
Teknologi
3 bulan lalu
214 dibaca

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
YahooFinance
Teknologi
4 bulan lalu
221 dibaca

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
TechCrunch
Teknologi
4 bulan lalu
114 dibaca

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps
TechCrunch
Teknologi
8 bulan lalu
279 dibaca

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps