OpenAI Luncurkan GPT-Realtime: Suara Alami dalam Sekejap
Depok, majalahinspira.com – OpenAI resmi merilis model suara canggih bernama GPT-Realtime sekaligus memperbarui Realtime API, menjadikannya solusi voice agent generasi terbaru yang siap dipakai secara luas oleh developer dan perusahaan.
GPT-Realtime menggabungkan pengolahan suara langsung (speech-to-speech) dalam satu model tanpa perlu pipeline berganda. Ini mengurangi jeda respon, menjaga nuansa, dan menghasilkan suara yang lebih ekspresif serta natural. Platform ini kini mendukung fitur seperti pemilihan fungsi (function calling) secara akurat, memahami instruksi kompleks, bahkan beralih bahasa atau nada bicara di tengah omongan yaitu kemampuan yang mendapat peningkatan nyata dibanding model sebelumnya.
API juga dilengkapi berbagai pembaruan seperti dukungan terhadap server MCP jarak jauh, input gambar, serta panggilan telepon lewat protokol SIP, fitur penting untuk membangun agen suara interaktif yang kaya konteks.
Model GPT-Realtime menunjukkan performa tinggi pada metrik evaluasi: tingkat akurasi reasoning hingga 82,8% pada Big Bench Audio, naik dari 65,6%; kemampuan mengikuti instruksi (MultiChallenge) meningkat dari 20,6% menjadi 30,5%; dan ketepatan function calling mencapai 66,5%, naik signifikan dari sekitar 50% pada model sebelumnya.
Dua suara baru Cedar dan Marin diperkenalkan eksklusif sebagai bagian dari GPT-Realtime, disamping delapan suara sebelumnya yang turut mendapat peningkatan kualitas.
Penggunaan GPT-Realtime kini lebih hemat biaya. Penurunan hingga 20% untuk input dan output audio tokens serta lebih andal untuk aplikasi nyata di layanan pelanggan, edukasi, hingga asisten pribadi berbasis suara.
Dirancang sejak versi beta Oktober 2024, Realtime API kini telah siap digunakan secara produksi. Ribuan developer telah menjajal versi awal, dan kini secara resmi dapat memanfaatkannya untuk membangun voice agent mutakhir.