Pomodo Logo IconPomodo Logo Icon
Tanya PomodoSemua Artikel
Semua
entitas

SWE-BENCH

SWE-bench adalah benchmark yang dirancang untuk mengevaluasi kemampuan pemrograman model AI. Benchmark ini menunjukkan perbedaan hasil yang signifikan ketika model diuji dengan dan tanpa scaffold kustom.
DaftaratauMasuk
untuk mendapatkan artikel-artikel relevan yang dipersonalisasi
Anthropic Rilis Opus 4.5 dengan Performa Coding Terbaik dan Fitur Memori Canggih
TechCrunch
Teknologi
21 hari lalu
226 dibaca

Anthropic Rilis Opus 4.5 dengan Performa Coding Terbaik dan Fitur Memori Canggih

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified
SCMP
Teknologi
3 bulan lalu
286 dibaca

Meta Ungkap Kecurangan Model AI dalam Benchmark SWE-bench Verified

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini
YahooFinance
Teknologi
4 bulan lalu
256 dibaca

Tantangan AI Coding K Prize: Benchmark Sulit yang Ungkap Batasan Model Saat Ini

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI
TechCrunch
Teknologi
4 bulan lalu
106 dibaca

Pemenang Tantangan K Prize AI Coding Raih Skor Rendah dengan Cara Baru Uji AI

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps
TechCrunch
Teknologi
8 bulan lalu
122 dibaca

Kontroversi Benchmark AI Pokémon: Gemini Google dan Claude Anthropic Beda Langkah Karena Bantuan Minimaps