Riffusion
Pengembang
  • Seth Forsgren
  • Hayk Martiros
Rilis awalDecember 15, 2022
Templat:Kotak info perangkat lunak/simple
Ditulis dalamPython
JenisText-to-image model
LisensiMIT License
Situs webriffusion.com
Repositorigithub.com/hmartiro/riffusion-inference
Generated spectrogram from the prompt "bossa nova with electric guitar" (top), and the resulting audio after conversion (bottom)

Riffusion adalah jaringan saraf yang dirancang oleh Seth Forsgren dan Hayk Martiros untuk menghasilkan musik menggunakan gambar suara, bukan audio langsung[1] Musik yang dihasilkan digambarkan sebagai “de otro mundo” (dari dunia lain),[2] meskipun dinilai kecil kemungkinannya untuk menggantikan musik buatan manusia.[2] Model ini dirilis pada 15 Desember 2022, dan kode sumbernya tersedia secara bebas di GitHub.[3]

Versi pertama Riffusion merupakan hasil fine-tuning dari Stable Diffusion—model open-source yang digunakan untuk menghasilkan gambar dari prompt teks—pada spectrogram.[1] Proses ini menghasilkan model yang menggunakan prompt teks untuk mengubahnya menjadi berkas gambar, kemudian diproses melalui transformasi-balik-Fourier dan dikonversi menjadi berkas audio.[3] Berkas audio yang dihasilkan hanya berdurasi beberapa detik, tetapi model ini dapat memanfaatkan ruang laten di antara keluaran suara untuk menginterpolasi beberapa berkas secara berkelanjutan[1] (melalui kemampuan img2img pada Stable Diffusion).[4] Riffusion menjadi salah satu dari banyak model turunan Stable Diffusion.[4]

Pada Desember 2022, Mubert[5] juga memanfaatkan Stable Diffusion untuk mengubah deskripsi teks menjadi loop musik. Pada Januari 2023, Google mempublikasikan makalah tentang generator musik dari teks bernama MusicLM.[6][7]

Forsgren dan Martiros kemudian membentuk perusahaan rintisan dengan nama Riffusion, dan memperoleh pendanaan modal ventura sebesar 4 juta dolar pada Oktober 2023.[8][9]

Referensi

sunting
  1. ^ a b c Coldewey, Devin (2022-12-15). "Try 'Riffusion,' an AI model that composes music by visualizing it". TechCrunch (dalam bahasa American English). Diakses tanggal 2025-12-08.
  2. ^ a b Calahorra, Sofía; Gallego, Rocío; Moneo, Itziar; Carbó, Carmen (2023-09-04). "¿Comemos con los ojos? Ver fotografías de alimentos también puede producir saciedad". doi.org. Diakses tanggal 2025-12-08.
  3. ^ a b Nasi, Michele (2022-12-15). "Riffusion: creare tracce audio con l'intelligenza artificiale". IlSoftware.it. Diakses tanggal 2025-12-08.
  4. ^ a b "文章に沿った楽曲を自動生成してくれるAI「Riffusion」登場、画像生成AI「Stable Diffusion」ベースで誰でも自由に利用可能 - GIGAZINE". gigazine.net (dalam bahasa Jepang). 2022-12-16. Diakses tanggal 2025-12-08.
  5. ^ Team, Mubert (2022-12-21). "Mubert launches Text-to-Music interface – a completely new way to generate music from a single text prompt". MUBERT | Blog – Royalty-free AI Music for Content Creators. Diakses tanggal 2025-12-08.
  6. ^ "MusicLM". google-research.github.io. Diakses tanggal 2025-12-08.
  7. ^ Sandzer-Bell, Ezra (2025-04-25). "Google Lyria 2: The New AI Music Generator from Deepmind". AudioCipher (dalam bahasa Inggris). Diakses tanggal 2025-12-08.
  8. ^ "Free A.I. music creation platform launches, competing with Suno | The Jerusalem Post". The Jerusalem Post | JPost.com (dalam bahasa Inggris). 2025-02-10. Diakses tanggal 2025-12-08.
  9. ^ Hawkins, John (2025-05-20). "Spotify continues to change music. What's next – will AI musicians replace music made by humans?". doi.org. Diakses tanggal 2025-12-08.