Új dal jelent meg a zenei streaming-platformokon és a YouTube-on: ez önmagában még nem újdonság, sok tízezer bukkan fel minden nap világszerte. Ennek viszont az egyik dalszerzője nem ember: a projekt fejlesztési vezetőjével elemeztük, hogyan társult be a popzenébe a mesterséges intelligencia.
A Telekom Kraft feat. LÓCI x BÖBE formáció KRAFT című dala elsőre nem is igazán különbözik a legutóbbi évek popzenéitől. Kicsit elektronikus, kicsit alter, a dallam és az ének egyszerre modern és fiatalosan nyegle, a szöveg pedig olyasmi, amitől a bulinegyed-járók elalélnak majd, másokat meg minden bizonnyal felpiszkál, hogy ezek a fiatalok már megint mi mindent hadoválnak össze. Szóval pontosan olyan szám, mint amire évről évre rákattannak a fiatalok. Ha viszont kicsit a produkció mögé nézünk, egyrészt megláthatjuk a szöveg és az egész koncepció mélyebb jelentését, ha pedig a dal készítésének körülményeibe ássuk bele magunkat, az egyik szerző “személye” kifejezetten érdekessé válik.
Először persze nézzük a “megszokott” szereplőket: Csorba Lóci írta a szöveget, a Lóci játszik zenekar frontemberéhez pedig Szécsi Böbe csatlakozott producerként, ő korábban a Telekom Electronic Beats zenei tehetségkutatójában is sikerrel szerepelt. A producerek a modern zeneiparban ugyebár azok a szakemberek, akik a megírt dalokat, zenei alapokat, feljátszott hangszeres sávokat és énekszólamokat faragják véglegesre, tehát mögöttük több zeneszerző és hangszeres zenész felel a produkciókért, de jelen esetben illene szót ejteni az egyik fontos dalszerzőről külön is. Nos, az illetőnek nincs neve, ugyanis gépi algoritmusokról, mesterséges intelligenciáról van szó. De talán hallgassuk is meg a dalt, közben lehet figyelni, honnan veszi át az emberi hátteret az AI, aztán folytatjuk a háttér boncolgatásával.
Hogyan komponál egy robot?
Somogyi Viktor a Netwerk Media társtulajdonosa és fejlesztési vezetője. Nem, nem ő írta a dalt, és nem is robot: ebben a projektben ő felelt a mesterséges intelligencia munkájáért. Épp ezért őt kérdeztük arról, hogyan is kellett előkészülni az AI-t programozó embereknek a feladatra, pontosan mit és hogyan csinált maga az algoritmus, és a megjelent dal alapján milyennek látja a “robot-zeneszerzők” helyét a művészetben.
“A Telekom KRAFT projektje azzal keresett meg minket, hogy csatlakozzunk egy dal megírásához. Ez a dal ekkorra egy bizonyos pontig már megszületett, a mi feladatunk pedig az volt, hogy mesterséges intelligencia felhasználásával készüljön folytatás ehhez” – meséli a szakember. “A végleges dal egy pontjától kezdve tehát egyrészt már nem emberek, hanem az AI írta meg a zenét, és szintén nem humán zenészek játszották fel a szólamokat, hanem a mesterséges intelligencia alkotta meg a kíséretet”. Többről, másról volt tehát szó annál, mint amikor a mesterséges intelligencia egy adott dalt vagy stílust “megtanulva” csupán kottát vagy MIDI fájlokat köp ki magából, amelynek alapján élő zenészeknek kell feljátszaniuk a szerzeményt, pedig már ez is elég komoly feladat – ilyen volt például az a projekt, amikor AI segítségével készült el Beethoven X. szimfóniájának befejezése.
Technikailag ennek az első lépése az volt, hogy az algoritmusért felelős csapat megkapta a dalkezdeményt – és fontos kiemelni, hogy csak a kész, sztereó mixet, amin kívül egyéb segítséget, tehát például kottát vagy egyéb leírást szándékosan nem mellékeltek. Ez alapján egy úgynevezett generatív modell készült, amelynek célja tulajdonképpen egyfajta “aktív jóslás”, vagyis az, hogy az addigi dal adatainak feldolgozásával kitalálja, hogyan folytatódhatna a zene, és ezt össze is rakja.
Az algoritmust tehát első körben “trenírozni”, tanítani kellett, méghozzá azzal, hogy a megfelelő módon adagolják neki a meglévő dal adatait. A feladat nagyságát pont ez jelentette, hiszen teljesen máshogy kellett hozzáállni mindehhez, mint a korábbi AI-komponálási módszerek esetében. Az ugyanis, hogy mesterséges intelligencia szerez valamiféle zenét, már nem újdonság, de eddig inkább az volt jellemző, hogy jóval sokrétűbb és számosabb adat betáplálásával, a hangok mellett kották és egy csomó egyéb információ megadásával alapozták meg a komponálás menetét, ráadásul sokszor a “kimenet” sem a teljes, végleges zene volt, hanem szintén kotta, vagy MIDI-jelek, amelyek nyomán végül a gépi zeneszerző művét emberek játszották fel. A KRAFT-dal esetében viszont pont az volt a kérdés, képes-e egy virtuális agy arra, hogy csupán a forrás “meghallgatása”, és minimális stílusbeli információk alapján teljes egészében megírjon és “feljátsszon” egy zenét.
Finomhangolás és felhő
“Az eddig jellemző AI-zeneszerzői módszer, az úgynevezett szimbolikus megközelítés ebben az esetben nem merült fel végcélként, mert úgy gondoltuk, a kottát vagy MIDI-jeleket kiadó megoldással egy csomó minden elveszne a zene komplexitásából. Szimpla hangmagasság- és ütem-információk nem adják át azt, hogy a zeneszerző, tehát jelen esetben a mesterséges intelligencia milyen egyéb értékeket adna hozzá a dalhoz, nem jelzi a hangerő és a dinamika változásait, a keverési arányokat és így tovább. Tehát a cél az volt, hogy teljesen az AI-ra bízzuk a zene megalkotását” – sorolja a lépéseket Somogyi Viktor.
Elsőként természetesen itt is készültek szimbolikus megközelítéssel megalkotott kísérletek, de ezek inkább gondolatébresztőként, amolyan koncepcióként szolgáltak a folyamathoz. Így például megalkottak egy lehetséges folytatást az Örömódához is. Ez pont arra szolgált, hogy a készítők megtalálják ennek a módszernek a határait, és innentől határozták el, hogy a zenére innentől kizárólag hangi információként tekintsenek. Ez hozta el a projekt egyik legnagyobb problémakörét, ugyanis a forrásként szolgáló dalból származó adatmennyiség hihetetlenül nagy lett: összehasonlításként egy CD-minőségű, 4 perces dal nagyjából tízmillió időlépési egységet tartalmaz, ehhez képest a csapat által használt generatív technológia körülbelül ezer időlépést tud kezelni. Jól látható a kettő közötti szakadék, de hogyan lehet ezt áthidalni?
A megoldást különféle “auto-encoderek” jelentették: ezek a szoftverek a meglévő audió-információt tömörítették azáltal, hogy az irreleváns információmorzsákat lefaragták a hangképből. Ezzel a nyers hang egyszerűbbé, a gépi tanulási folyamat pedig gyorsabbá vált. Emellett ezzel küszöbölték ki azt is, hogy az első kísérletek során az emberi fül számára élvezhetetlen, kifejezetten zajos végterméket adott ki az AI. A tömörítéssel sikerült leküzdeni az újrafeldolgozandó adatok entrópiáját, de még hátra volt az oktatás második része.
Ennek folyamán ugyanis meg kellett mutatni az algoritmusnak, milyen műfajban gondolkodjon. Ahogy az eredeti dalt jegyző zeneszerzők is egy bizonyos sablon, inspiráció alapján dolgoztak, az AI is megkapta azokat a műfaji instrukciókat és példákat, amely alapján a szám “emberi” része íródott. Legyen pop és funk hatású, és ezen belül hasonlíthat bizonyos további dalokra, amelyeket szintén betápláltak a rendszerbe. Az OpenAI Jukebox nevű modellje ebből szépen kihámozta a folytatáshoz szükséges iránymutatást, és máris tovább finomodott a robot-komponista kelléktára.
A folyamathoz egyrészt létre kellett hozni egy komoly erőforrásokat biztosító virtuális szerver-architektúrát a felhőben, ugyanis nem csak a kód finomhangolása volt fontos feladat, hanem az is, hogy egy olyan erős számítási kapacitású rendszert biztosítsanak, amelyen ez a kód képes gyorsan és hatékonyan lefutni. Ehhez ráadásul nem is annyira a központi processzorok, tehát a CPU-k ereje volt fontos, hanem a grafikai chipeké: a GPU-k felépítése sokkal alkalmasabbá teszi őket az ilyen típusú számítási és logikai feladatok végrehajtására, ugyanezt használják ki például a kriptopénzeket bányászó célgépek is. A folyamathoz először a Google Colaboratory szolgáltatását vették igénybe, valamint PYTHON programnyelvet alkalmaztak, a komolyabb munkát pedig már az AWS (Amazon Web Services) alatt létrehozott szerver-architektúrán végezték.
A gépek elveszik a zenészek munkáját?
A projekt első szakaszában még sok olyan eredmény született, amely hallgathatatlannak és zajosnak bizonyult, de a finomhangolás után született három olyan hangfájl is, amelyek már ígéretesnek tűntek. Ez a három, egymástól eléggé eltérő eredmény lett az, amelyeket a dalt végső formába öntő zenészek a szám végére kevertek.
A teljes projekt nettó 60 órát vett igénybe fejlesztői szempontból, amelyet 30 óra szerveridő követett. Ez persze egyelőre azt is megmutatja, hogy most még nem kell félnie sem a zenészeknek, sem pedig a zeneszerzőknek amiatt, hogy elárasztanák a piacot olyan szoftverek és mobilappok, amelyek az “írj saját zenét percek alatt” ígéret mentén mindenféle zenei képzettség nélküli, önjelölt komponisták millióit szabadítaná az egyébként is meggyötört zenei piacra. Az persze egyértelmű, hogy a technológiai fejlődéssel együtt egy ilyen projekt által elérhető zenék komplexitása, minősége is megnőhet, miközben az előállításuk sebessége csökken, de Somogyi Viktor szerint azért több szempontból sem kell attól tartani, hogy hamarosan a robotok leuralnák ezt az emberi területet is.
“Attól nem vagyunk messze, hogy valaki képes legyen egy grafikus kezelőfelületet írni, aminek segítségével bárki feltölthet dalokat és egy háttér-rendszer ezek alapján hasonló módon zenéket generáljon számára. Ez azonban még mindig nem helyettesíti majd a valódi, instrumentális és vokális zenét, a különbség jól hallható lesz, és inkább egy új stílusirányzatot teremt majd.” – magyarázza a szakember, aki szerint valahogy úgy kell elképzelni a dolgot, mint a Google DeepDream nevű grafikai szoftverét, amely meglévő képekből képes ugyan teljesen gépi alapon újakat készíteni, ezeken azonban tökéletesen látható az a hagyományostól elrugaszkodó furcsaság és idegenség, ami miatt nem keverjük össze őket ember által készített alkotásokkal. A mesterséges intelligencia által készített dalok tehát inkább új színfoltot jelentenek majd és tágítják a zene ma ismert határait. Végül már az lesz csak a kérdés, milyen alapon fizetjük ki a zenész-robotok jogdíját.