AI summary
Pengumpulan data berkualitas tinggi sangat penting untuk pelatihan model AI yang efektif. Data manual yang dikumpulkan dari berbagai profesional dapat meningkatkan keberagaman dalam dataset. Kualitas data lebih berpengaruh daripada kuantitas dalam mencapai kinerja model yang optimal. Pada musim panas, Taylor dan temannya memakai kamera GoPro yang dipasang di dahi mereka setiap hari untuk merekam aktivitas sehari-hari mereka, mulai dari memasak, membersihkan sampai membuat karya seni. Tujuan dari kegiatan tersebut adalah untuk mengumpulkan data video yang terkoneksi secara waktu guna melatih model AI agar bisa memahami tindakan manusia secara detail.Taylor bekerja untuk Turing Labs, sebuah perusahaan AI yang bertujuan melatih model visi yang mampu memahami proses problem solving dan reasoning visual secara berurutan melalui data video. Turing Labs tidak hanya mengambil data secara acak, tapi memilih berbagai jenis pekerja dengan tangan terampil agar dataset yang dihasilkan sangat beragam.Pendekatan baru ini menunjukkan pergeseran dari pengumpulan data yang dilakukan secara massal dan seringkali berkualitas rendah menjadi proses pengambilan data khusus dengan bayaran tinggi, demi menjaga kualitas dan efektivitas pelatihan model AI. Perusahaan seperti Fyxer juga mengadopsi strategi pelatihan dengan kualitas data yang ketat, bahkan menggunakan tenaga ahli di bidang tertentu untuk membantu pelatihan model.Keberhasilan pelatihan dengan data manual berkualitas ini memungkinkan model AI untuk lebih memahami konteks manusiawi pada tugas yang rumit, seperti merespon email atau melakukan pekerjaan manual. Turing Labs menggabungkan data asli dengan data sintetis, dengan proporsi data sintetis mencapai 75-80 persen, namun menekankan bahwa kualitas data asli adalah kunci utama.Dengan meningkatnya ketatnya persaingan di bidang AI, perusahaan kini menjadikan proses pengumpulan data manual berkualitas tinggi sebagai salah satu keunggulan kompetitifnya. Metode ini diyakini akan menjadi standar baru dalam pelatihan AI karena memberikan hasil yang lebih efektif dan realistis dibandingkan data yang dikumpulkan secara sembarangan.
Pendekatan Turing dan Fyxer menunjukkan bahwa masa depan AI tidak hanya soal kekuatan komputasi melainkan juga kecermatan dalam mengumpulkan dan memilih data pelatihan yang bermutu tinggi. Ini akan memaksa banyak perusahaan untuk menginvestasikan lebih banyak dalam riset dan tenaga ahli demi mendapatkan keunggulan kompetitif melalui data, bukan hanya model dasar.