Anthropic Luncurkan Claude AI Sonnet 4.5 yang Mampu ‘Coding’ Mandiri Selama 30 Jam Nonstop

sumber foto: TecnoAndroid

HALOGARUT – Anthropic, perusahaan riset kecerdasan buatan (AI), baru-baru ini merilis versi terbaru dari model AI mereka bernama Claude AI Sonnet 4.5. Versi ini menarik perhatian publik dan industri teknologi karena klaim mampu melakukan aktivitas coding selama lebih dari 30 jam nonstop secara mandiri (autonomously).

Berikut paparan lebih lengkap mengenai teknologi ini, peluang dan tantangannya, serta implikasi yang mungkin bagi dunia pengembangan perangkat lunak.

Apa Itu Claude AI Sonnet 4.5?

Claude adalah rangkaian model bahasa besar (large language model) yang dikembangkan Anthropic. Sonnet 4.5 adalah iterasi terbaru dari lini “Sonnet” dalam keluarga Claude. Menurut sumber media Amazon Web Service.

Menurut pengumuman resmi Anthropic, Sonnet 4.5 didesain untuk:

  • Melaksanakan tugas berurai langkah (multi-step tasks) secara mandiri dalam jangka waktu panjang

  • Menjaga konsistensi konteks (mengingat apa yang sudah dilakukan sebelumnya) selama 30+ jam

  • Terlibat dalam computer use yaitu kemampuan berinteraksi dengan perangkat, perangkat lunak, atau alat seperti pengguna manusia, bukan sekadar menghasilkan teks

  • Menyajikan kode siap produksi (bukan hanya prototipe) yang mencakup aspek seperti manajemen basis data, audit keamanan, fungsi back end, dan sebagainya

Dalam pengujian internal, tim Anthropic mengamati Claude AI Sonnet 4.5 membangun aplikasi end-to-end, menyiapkan basis data, membeli domain, bahkan melakukan audit keamanan (SOC 2) secara mandiri selama tugasnya berlangsung.

Peningkatan Claude AI dari Versi Sebelumnya

Untuk memahami lonjakan kemampuan ini, kita perlu melihat versi sebelumnya:

  • Claude Opus 4 (dan turunannya) disebut hanya dapat bekerja secara mandiri selama sekitar 7 jam sebelum kehilangan konsistensi konteks atau efektivitas.

  • Sonnet 4.5 menembus batas tersebut, menjanjikan sekitar 30 jam kerja berkelanjutan, sebuah loncatan signifikan dari versi sebelumnya.

Dari sisi penilaian benchmark, Sonnet 4.5 juga menunjukkan hasil yang kompetitif:

  • Skor 77,2 % pada SWE-Bench Verified, sebuah tolok ukur kemampuan coding realistis.

  • Di benchmark OSWorld, yang menilai kemampuan komputer dan interaksi dunia nyata, Sonnet 4.5 mencatat skor 61,4 %.

Selain itu, Anthropic menambahkan fitur baru untuk memanajemen konteks lewat “context editing” dan “memory tool”, sehingga agent yang dibangun menggunakan Sonnet 4.5 bisa mempertahankan kondisi tugas yang sangat panjang tanpa kehilangan jejak.

Peluang & Manfaat Claude AI Sonnet 4.5

1. Efisiensi untuk Proyek Besar

Dengan kemampuan menjalankan tugas kompleks dalam waktu panjang, Claude AI Sonnet 4.5 membuka kemungkinan bahwa sebagian pekerjaan pengembangan perangkat lunak bisa didelegasikan lebih jauh ke AI. Pekerjaan seperti refactoring besar, migrasi sistem, audit keamanan, dan integrasi sistem bisa dikerjakan lebih otomatis dengan pengawasan minimal.

2. Potensi Pengembangan Agen AI (AI Agents)

Versi ini sangat cocok digunakan sebagai dasar agent entitas AI yang bisa mengambil keputusan, merencanakan langkah, dan menjalankan tugas tanpa intervensi manusia terus-menerus. Kombinasi kemampuan computer use dan manajemen konteks menjadikan Sonnet 4.5 fondasi menarik untuk agen cerdas dalam bisnis atau operasional TI.

3. Akselerator Penelitian & Penerapan Domain Spesifik

Dalam area seperti keuangan, keamanan siber, riset medis atau hukum, Claude AI Sonnet 4.5 dapat membantu melakukan simulasi, verifikasi data, riset literatur atau pemrograman domain khusus dalam satu rangkaian kerja panjang. Anthropic menyebut bahwa kemajuan ini mencakup peningkatan pada domain reasoning (penalaran) dan matematika dibanding model sebelumnya.

Tantangan dan Batas yang Penting Diwaspadai

1. Klaim Belum Terbukti Sepenuhnya oleh Pihak Independen

Walaupun Anthropic memublikasikan banyak klaim performa, belum ada banyak evaluasi independen yang membuktikan kemampuan 30-jam tersebut dalam kondisi dunia nyata publik. Beberapa pengamat menyebut bahwa model AI panjang sering mengalami degradasi konteks atau kesalahan yang menumpuk seiring waktu.

2. Risiko Kesalahan atau Bias

Semakin lama model bekerja sendiri, semakin mungkin akumulasi kesalahan kecil (“drift”) atau penurunan kualitas keputusan muncul. Meski Anthropic mengklaim pembaruan pada aspek alignment (keselarasan nilai) dan keamanan prompt injection, tantangan tetap ada.

3. Batasan Konteks & Memori

Meskipun fitur kontekstual ditingkatkan, model apa pun memiliki batas memori dan kapasitas menyimpan kondisi masa lalu. Jika tugas sangat besar dan rumit, tetap ada tantangan agar AI tidak “melupakan” bagian awal dari tugasnya. Anthropic sendiri memperkenalkan manajemen konteks sebagai solusi parsial.

4. Ketersediaan, Biaya & Infrastruktur

Meskipun Claude AI Sonnet 4.5 bakal tersedia melalui API Claude, Claude Code, serta platform seperti Vertex AI, akses dan penggunaan dalam skala besar memerlukan sumber daya komputasi, bandwidth, dan biaya lisensi.

Kesimpulan

Rilis Claude AI Sonnet 4.5 merupakan loncatan ambisius dalam dunia AI, terutama di ranah pemrograman dan agen mandiri. Klaim bahwa model ini bisa coding secara berkelanjutan selama 30 jam sekaligus melakukan tugas pendukung seperti audit keamanan atau pengelolaan database menandai pergeseran paradigma dari AI sebagai alat bantu ke AI sebagai rekan kerja teknis.

Namun, sementara potensi sangat besar, pembuktian independen, mitigasi risiko kesalahan, serta kesiapan infrastruktur tetap menjadi kunci agar sistem ini benar-benar dapat dimanfaatkan secara produktif dan andal.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *

Tutup