Tietokone ymmärtää videokuvaa ja puhetta

Genevessä järjestetyssä Euroopan yleisradioliiton EBU:n tapaamisessa pureuduttiin viime viikolla tv- ja radioalan metatietokysymyksiin. Yhdeksi pääteemaksi muodostui metatiedon automaatiomahdollisuudet, joista tässä pääkohtia.

Kuva: Metatieto tuottaa yhteensopivuutta. (EBU:n kokoustilat ovat yhteensopiva monenlaisten sähkötarpeiden kanssa.)

Belgian flaaminkielinen yleisradioyhtiö VRT:llä on tyypillinen yleisradioyhtiöiden arkistohaaste: osa VRT:n radioarkiston tallenteista ei sisällä käytännössä mitään metatietoa ohjelman sisällöstä, jonka takia radio-ohjelmien löytäminen on vaikeaa.

Ratkaisuna tähän VRT on nyt kokeillut audiosisältöjensä automaattista analysointia, jossa kone on ensin muuntanut audion tekstiksi, jonka jälkeen tekstistä on tunnistettu avainsanoja (substantiivit, henkilöiden ja paikannimet). Lisäksi VRT:n järjestelmä osaa myös tunnistaa audiosta eri henkilöt ja milloin kukakin puhuu sekä mikä kunkin puhujan sukupuoli todennäköisesti on. Lopputuloksena on (ei julkinen) hakukone, jolla voi hakea arkiston sisältöjä eri avainsanojen perusteella. Aikakoodin perusteella järjestelmä osaa myös näyttää täsmälleen sen kohdan, jossa tekstintunnistuksen perusteella tietty termi mainitaan. Hakukone hyödyntää RDF-tietokantaa metatietojen tallentamiseen. Haasteita audion tekstintunnistuksen onnistumiselle ovat mm. audion taustahäly, puheen ääntämisen laatu (esim. murteet), puheen kieliopillinen oikeellisuus ja muuttuva kieli (esim. uudet sanat).

Muutamien eurooppalaisten TV-yhtiöiden ja tutkimuslaitosten 3DTVS-tutkimusprojekti on kehittänyt monenlaisia työkaluja videon automaattiseen analysointiin. He pystyvät yksilöimään videokuvasta henkilöt ja seuraamaan heitä läpi videon. Lisäksi videosta pystytään tunnistamaan mitä henkilö tekee (esim. hyppii, juoksee, kävelee), millaisia tunteita henkilöllä on (esim. iloinen, surullinen), kuvakokoja (esim. yleiskuva, lähikuva), kohtauksen alku- ja loppukohdat, yms. Haasteena kuitenkin on se, että tunnistamisen tarkkuus ei aina ole kovin hyvä. Todellisella aineistolla kokeiltuna tarkkuus saattoi olla vain 30 %.

BBC:n tutkimusosaston James Harrison esitteli pilvipohjaista video- ja audioanalysointikehikko COMMA:a, jonka avulla BBC hyödyntämään alehintaan myytävää käyttämätöntä pilvikapasiteettia arkistojensa automaattiseen analysointiin. Esimerkiksi 25 dollarilla saa prosessointikapasiteettia, joka riittää kuukauden mittaisen audioaineiston analysointiin. Tarkempi hinta riippuu mm. siitä millaisia analyyseja materiaalille halutaan tehdä ja miten paljon prosessorikapasiteettia se vaatii. COMMA on modulaarinen eli siihen voi kytkeä kaikenlaisia analyysikomponentteja. COMMA on myös erittäin vikasietoinen ja toimii hajautetusti, rinnakkain.

Jana Eggink BBC:ltä puolestaan esitteli “videosormenjälkitekniikkaa”, jonka avulla on mahdollista hakea videotiedostoja muista videotiedostoista. Tätä tarvitaan esimerkiksi silloin, jos halutaan löytää missä kaikkialla tiettyä otosta on käytetty, jos halutaan asettaa tietty klippi esityskieltoon (esim. uutistoiminnassa samaa materiaalia saatetaan käyttää lukuisissa eri jutuissa kuvituskuvana) tai jos halutaan pitää kirjaa siitä, miten usein tietty klippi on ajettu ulos (esim. jotta vältettäisiin tietyn kuvituskuvan puhkikuluttamista).

Ylen kannalta nämä automaatiomahdollisuudet tarkoittavat sitä, että markkinoilta löytyy työkaluja, joilla sekä Ylen arkiston materiaalit että päivittäin syntyvät uudet video- ja audioaineistot voitaisiin ajaa automaattisen analyysin läpi ja tunnistaa sisällöstä avainsanoja, sisällön rakenteita ja esimerkiksi miltä osin Ylen ohjelmat lainaavat videomateriaalia toisiltaan.

PS. Kuvaussihteerin paras apuväline?

Kuvaussihteerin paras apuväline on jatkossa tabletti ja älykännykkä, jolla kuvaustilanteessa voidaan pitää kirjaa eri otoista ja välittää tiedot reaaliaikaisesti muiden käyttöön. Esimerkiksi elokuvan päätuottaja voi seurata kotisohvaltaan miten kuvausryhmien työt maastossa etenevät.

Kuva: Tabletilla voi korvata fyysisen klaffin audion ja videon synkkaamiseen. Lisäksi 2D-viivakoodin avulla oton voi automaattisesti tunnistaa videokuvasta. (Lähde: Limecraft)