Podcast leírva: szintet lépnek a web-beszélgetések

0

Bár a podcast nem újkeletű találmány, az elmúlt években lett igazán divatos. A műsorokkal kapcsolatban azonban mindezidáig volt egy apró hátulütő: a hang-alapú adásokat nehezen lehetett keresni a bennük található teljes tartalom alapján. Legalábbis mostanáig.

2022-re az egyik legnépszerűbb internetes tartalomtípussá nőtte ki magát a podcast, ami furcsán is hangozhat annak fényében, hogy a technológia már a kilencvenes években, az mp3 hangfájlok és az internet közkeletűvé válásakor megjelent. Ekkor még az volt az általános hallgatási mód, hogy az érdeklődők letöltötték a legtöbbször mp3 formátumban elérhető adásokat és offline hallgatták őket, majd megjelentek ugyan online fülelős módszerek is, de a podcast igazi fénykora több mint egy évtizeddel később kezdődött. Egyrészt a kétezres évek elején megalkották azt a szabványt, amely lehetővé teszi, hogy az erre szolgáló programmal feliratkozzunk különböző műsorokra, így nem kell egyesével végigjárni az oldalaikat, hogy megtudjuk, jelent-e meg új adás, másrészt pedig a mindent átszövő közösségi média sokkal hatékonyabban segítette az egyes tartalomgyártók újdonságainak elterjesztését.

Egyetlen apróság azonban még ekkor is megnehezítette azok dolgát, akik szerették volna a lehető legaprólékosabb módon, az elhangzott teljes szöveg alapján megkeresni az őket legjobban érdeklő műsorokat és csatornákat. A keresők ugyanis, a Google-től kezdve az egyes weboldalak saját megoldásaiig csak írott szövegek és szintén szöveges metaadatok alapján tudnak indexelni és találatokat gyűjteni, a podcastok között tehát leginkább az alapján lehetett válogatni, amit készítőik rövid leírás, pár mondatos “fülszöveg” jelleggel az adáshoz csatoltak. A Telekom által indított Podcast.hu azonban egy újfajta, mesterséges intelligenciára épülő megoldással kezdte el a gyűjtőoldalon megjelenő podcastok teljes “leiratozását”, amely az érdeklődők számára hihetetlenül megkönnyíti, hogy megtalálják új kedvenceiket.

Kényelem és pontosság

A nemrég indult Podcast.hu közvetlen célja egy olyan platform megteremtése volt, amelyen hazai podcastokat gyűjtenek össze kereshető, tematikusan rendezett formában. Barna Péter, a Telekom szegmenskommunikációs-vezetője szerint azonban egy olyan nagyobb célra is alkalmas az oldal, amelyben a digitalizáció segítségével minél többekhez tudnak eljuttatni értékes információkat, érdekes tartalmakat, ezzel egyfajta kultúraformáló szerepet is felvállalva. “A Telekom számára fontos cél, hogy folyamatosan dolgozzon olyan megoldások létrehozásán, amelyek a digitalizáció vívmányait felhasználva segítenek az embereknek előre lépni, többé válni. Maga a Podcast.hu és az itt található, minőségi szempontok alapján gondosan válogatott tartalom is ennek fényében jött létre, a most bevezetett és folyamatosan fejlesztett leiratozó technológia pedig még könnyebbé teszi a tartalmak megtalálását és elérését” – magyarázta a szakember.

Barna Péter, Magyar Telekom

A cikk elején említett probléma első körben itt is megjelent: az alapvetően hangfájlok formájában létező podcastok törzsanyagába egy hagyományos keresőmotor nem tud “befurakodni”, tehát alapesetben, ha valaki a Podcast.hu keresőjébe beírja mondjuk a “digitalizáció” szót, egy hagyományos belső kereső csak azokat az adásokat hozná ki a találati lapon, amelyeknél a podcast pár soros leírásába vagy épp a címkék közé bebiggyesztette ezt a kifejezést. Azok az adások viszont már kimaradnak a találatok közül, ahol akár sokszor elhangzik a keresett szó, de ennek a leírásban nincs nyoma. Mi tehát a kézenfekvő megoldás? Legyen meg a teljes adás elhangzott szöveganyaga írott formában, metaadatként is, így aztán már semmi nem maradhat láthatatlanul a kereső előtt. Ezt azonban alapesetben kézzel kéne leírni, ami egy átlagosan fél órás, akár többszereplős műsor esetében is komoly feladat, ha pedig azt nézzük, mennyi csatorna és adás van már most a Podcast.hu-n és milyen ütemben kerülnek fel új műsorok, lehetetlen vállalkozás. Legalábbis emberi leiratozóknak biztosan – de itt jön képbe a háttérben már most is élesben tesztelt új módszer.

Szétszedem, felismerem, összerakom

De pontosan hogyan is működik ez a funkció? Erről Fegyó Tibor, a leiratozó funkciót fejlesztő SpeechTex Kft. ügyvezetője beszélt részletesen. “Podcastokkal kapcsolatban még nem igazán látunk hasonló megoldást” – kezdte a történetet Fegyó Tibor. “Korábban más tartalomtípusokkal, hírek indexelésével kezdtük a fejlesztést évekkel ezelőtt, a podcastok leiratozásával kapcsolatban viszont jelenleg sem tudok versenytársról. A megoldást eleve nem is valamilyen nemzetközi megoldás magyarításával kezdtük, még piackutatás szintjén sem mentünk bele abba, van-e erre alkalmas angol vagy német szolgáltatás. Úgy döntöttünk, hogy eleve saját alapokra építkezünk, már csak azért is, mert programozási, matematikai szinten gyakorlatilag nincs különbség abban, milyen nyelv felismerése a cél. Nyilván vannak nagyobb kihívások a magyarban más nyelvekhez képest, például a nagyobb szókincs, a hosszabb szavak gyakorisága, a ragozás és így tovább.”

A szakemberek ezért egy olyan módszert alkalmaztak, amely – például az egyben kimondott, hosszú számok, vagy hasonlóan sok szótagos kifejezések esetén – részeire bontják a szöveg elemeit, majd észlelés után ezeket rakják össze újra a magyar nyelvtan szabályainak megfelelően. A mesterséges intelligenciával segített, automatikus felismerés egy olyan adatbázison alapul, amelyet a fejlesztők évek alatt építettek fel hangfájlokból és a hozzájuk tartozó szövegi “megfejtésekből” – az algoritmus ezek alapján készíti a podcastok szövegezését. Ráadásul átlagosan fél évente megújul a rendszer, hiszen az elkészült leiratokkal folyamatosan bővül az algoritmus tudása, valamint az alkalmazott módszertant, matematikai modelleket is lehet és kell fejleszteni, valamint a megjelenő friss hardverekre optimalizálni.

“Az algoritmus természetesen öntanuló, amire szükség is van, hiszen a magyar nyelv sem marad mindig ugyanolyan, folyamatosan érkeznek bele új kifejezések, például külföldi műszaki kifejezések, egy adott területhez kapcsolódó szlengek, és persze ott vannak a nemzetközi tulajdonnevek, de említhetném akár az orvosi vagy biológiai témakörökben gyakran használt latin elnevezéseket is. Hasonló kihívást okozhatnak például rövidítések, hiszen egy néhány betűs, mozaikszó-alapú cégnevet nem betűnként, hanem egyben mond ki az ember, itt sem feltétlenül tudja a gép, hogy ez nem egy kisbetűvel írandó új köznév, hanem egy csupa nagybetűs tulajdonnév. Ezeket az algoritmus bizonyos esetekben az új szövegek elemzésekor frissíti saját tudástárában, ha pedig valami még így is újdonság számára, akkor ezek egy kivétel-szótárba kerülnek, ahol manuális munkával javítjuk a kifejezéseket. Az eredményből pedig az AI természetesen újból csak tanul, hogy a következő esetben már ezeket is automatikusan felismerje” – magyarázza Fegyó Tibor.

Szintén érdekes kihívás az, hogy az észlelt szöveg, amelyet szavanként már írott darabokra alakít az algoritmus, hogyan alakuljon értelmes mondatokká írásjelekkel, központozással. Ebben a szakember szerint sokan még mindig azt a módszert követik, hogy hangsúly alapján igyekeznek következtetni a mondatok tagolására, de főleg a podcastokban is jellemző szabad beszéd esetében ez nehezen alkalmazható. “Erre kifejezetten jó példa a politikusok beszéde az interjúk alatt, itt gyakran megfigyelhető, hogy a végtelenségig fenntartják a hangsúlyt és egymásba fűzik a mondatokat azért, hogy minél kevesebb lehetőség legyen belekérdezésre, közbevágásra. De ugyanígy egy gyors tempójú, közvetlen beszélgetésnél is megfigyelhető ugyanez, és az ilyen esetekben egy hangsúly alapú összefésülés értelmezhetetlenül hosszú, rossz helyen elválasztott mondatokat eredményezne.”

Fegyó Tibor, SpeechTex

Épp ezért egyre többen használják azt a megoldást, hogy az első, szövegrész-felismerő fázis után egy második öntanuló algoritmus áll munkába, amely a formázatlan szórengetegben értelmi, jelentésbeli alapon, szintén korábbi mintákra támaszkodva utólag helyezi be az írásjeleket és egyéb nyelvtani adalékokat. “Az eredmény az egyre bővülő adatbázisnak és az egyre okosabb algoritmusnak köszönhetően érthető szintű lesz, bár az is tény, hogy jelenleg még nem célunk százszázalékos eredményt elérni egy magyar érettségin, már csak azért sem, mert eleve a podcastokban elhangzó beszéd sem nyelvtani értelemben vett irodalmi szöveg. A beszélő időnként félbehagyhat mondatokat, egy adott téma közepén vághat bele a beszélgetőpartner mondatába és így tovább, ezt a spontán stílust nehéz egy az egyben írott formába átültetni.”

Egyre több podcast, egyre több betű

A Podcast.hu indulásakor a legelső terv az volt, hogy a felületen megjelenő adásokból folyamatosan többet és többet lehessen leiratozni az oldalon belüli kereshetőség pontosságának és részletességének növelése érdekében. Ezek a leiratok alapesetben nem kerülnek ki nyilvánosan, olvasható formában sehová, egy olyan metaadatként tárolódnak el a háttérben, amelyek a platform keresőmotorjának adnak extra információkat. A leiratok teljes megjelenítése eleve nem cél, hiszen ez főleg jogi és marketing-jellegű problémákat vetne fel. Lehetővé tenné például, hogy mások pillanatok alatt átvegyék és saját felületükön jelenítsék meg az adások teljes tartalmát, amely így Google és egyéb külső keresők számára is azonnal láthatóvá válnának, és akár hamarabb rátalálnának az érdeklődők, mint az eredeti podcastra.

Egy olyan fázis természetesen már tervben van, amikor a teljes írott anyagot megkapja a podcast szerzője illetve tulajdonosa, aki majd eldöntheti, mihez kezd vele, például felhasználja saját weboldalain, publikációiban. Az elsődleges cél azonban a leiratok metaadatként való tárolása, amely nem csak a belső keresőt, de egy ajánlórendszert is segíthet szövegegyezések alapján – ilyenkor a felhasználónak olyan egyéb tartalmakat dobhat fel az oldal, amely az általa addig hallgatott adások szövege alapján érdekelheti.

Barna Péter szerint a Podcast.hu indulásakor nagyjából 170 podcast jelent meg a felületen, ebből első körben 100 kiemelt csatornának biztosították azt a lehetőséget, hogy automatikus leiratok készüljenek a műsoraikról: nekik a 2021-es októberi indulás óta megjelent összes adásán átmennek az algoritmusok. Ebben egyébként főleg a kötelező jogi lépések jelentenek időt, hiszen minden tartalomgyártóval, csatorna-tulajdonossal, szereplővel hivatalosan is le kell papírozni az adatkezeléssel kapcsolatos folyamatokat, engedélyeket. Augusztusban ezért 30 csatornát sikerült az új rendszerbe behúzni, a többiekkel folyamatosan egészítik ki a felhozatalt. Későbbiekben természetesen a lehetőségek függvényében az a cél, hogy a Podcast.hu-n szereplő összes csatorna bekerülhessen a leiratozott, részletesen kereshető körbe.

“A podcastok készítői nagy örömmel fogadták az új fejlesztéseket. Sokan kezdték el, vagy turbózták fel a műsoraik hirdetését közösségi médiában és egyéb platformokon, hivatkoznak ránk, tagelnek minket, ezért jól látható, hogy gyűjtőfelületből közösséggé, epicentrummá válik a Podcast.hu” – foglalta össze Barna Péter. “Ezzel pedig minél több emberhez eljuthatnak az adások és minél könnyebben rátalálhat bárki olyan hang-alapú tartalmakra, amelyekkel szórakozhat, tanulhat, összességében többé válhat”.

HOZZÁSZÓLOK A CIKKHEZ

Kérjük, írja be véleményét!
írja be ide nevét