Ti 21.01.2014 @ 20:05Pia Virtanen, Yle Internet / Verkkokehitystiimi

Linkitetty tieto Ylellä ja BBC:llä

Kirjoittaja on Ylen Metatietohankkeen tuottaja ja oli joulukuussa tutustumassa BBC:llä heidän Linkitetyn tiedon palveluunsa - Linked Data Platformiin.


Yle tuottaa runsaasti laadukkaita sisältöjä. Samoistakin aiheista tehdään juttuja (uutisia, artikkeleita, tv- ja radio-ohjelmia) eri toimituksissa eri välineisiin ja eri kanaville, useammalla kielellä. Jos Ylen sisältöjen kuluttaja haluaisi löytää sisältöjä jostain häntä kiinnostavasta tietystä aiheesta, pitäisi hänen lähestulkoon tuntea Ylen organisaatiorakenne, jotta hän löytäisi tuosta aiheesta eri puolilla Yleä tuotetun sisällön. Verkossa tämä eri paikoissa tuotettu sisältö voitaisiin kuitenkin saattaa yhteen yli erilaisten tuotannollisten raja-aitojen.


Olemme käynnistäneet Ylellä viime syksynä ns. Metatietohankkeen. Hanke tähtää siihen, että asiakkaat löytävät Ylen sisällöt verkossa helpommin ja rikkaampina kokonaisuuksina. Hankkeen tavoitteena on luoda teknologia, työkalut ja toimintatavat, joilla voidaan koostaa ja tarjota rikkaampia sisältökokonaisuuksia eri aiheista yli Ylen eri "siilorajojen": äänta, kuvaa ja tekstiä  eri kanavilta, eri toimituksista, eri aikakausilta.


Sisältöjen koostamiseen on tarkoitus käyttää metatietoa, tarkemmin sanoen linkitettyä tietoa, jota konekin ymmärtää. Tämä mahdollistaa uudentyyppisten kokonaisuuksien koostamisen automaattisemmin, kun linkityksiä eri sisältöjen välillä ei tarvitse tuottaa käsityönä.


Teknistä pohjaa (mm. metatietokanta, -API, linkitystyökalu) on nyt rakennettu muutaman viikon ajan käyttäen UEFA Mestarien liigaa pilottina. Tietokantana testataan verkostojen käsittelyyn sopivaa Neo4j-graafikantaa. Pilottihankkeeksi Mestarien liiga valikoitui, koska tietomalli ja käsitteistö voidaan pitää rajallisena ja siten helposti hallittavana. Toinen syy oli saatavilla oleva data: Metatietohanke on riippuvainen Ylellä samaan aikaan käynnissä olevista muista API-kehityshankkeista. Mestarien liiga -pilottia varten meillä on APIen kautta saatavilla tai tulossa saataville dataa kolmesta eri lähteestä: Yle Urheilun artikkeleita (Artikkeli-API), urheilun tulospalveludataa (Tulospalvelu-API) ja ohjelmatietoa Ylen tv- ja radio-ohjelmista (Ohjelma-API).


Sekä Metatietohankkeen että API-kehitystyön tavoitteena on myös Ylen sisältöjen avaaminen Ylen kumppaneille ja kehittäjäyhteisöille. Ja koska nyt käyttöön otettavat tekniset ratkaisut ja menetelmät ovat yleismaailmallisia, pääsemme mekin puolestamme tulevaisuudessa  hyödyntämään helpommin Ylen ulkopuolisia sisältöjä.


Mestarien liiga -pilottia oli alun perin tarkoitus rakentaa puhtaasti testiympäristössä, mutta nyt näyttää siltä, että Yle Urheilu voi hyödyntää jo nyt tehtyä kehitystyötä aika piankin sivuillaan!


Hankkeen alussa korostuu ehkä sen tekninen luonne. Teknisen alustan kehittäminen jatkuu, mutta toiminnan painopiste siirtyy jatkossa tietomallien, yhteisten käsitteistöjen ja uusien toimintatapojen kehittämiseen eri puolilla Yleä. Sen lisäksi että hanke palvelee asiakkaitamme, tulee sen tarjota yleläisille sisällöntuottajille sellaisia uusia työkaluja ja toimintamalleja, että heidän on halutessaan mahdollista luoda uudenlaisia, rikkaampia sisältökokonaisuuksia verkkoon.


BBC on linkitetyn tiedon alueella kuuluisa tuottamistaan urheilusisällöistä, varsinkin vuoden 2012 kesäolympialaisten sivustosta (http://www.bbc.co.uk/sport/0/olympics/2012/). He loivat sivut yli 200 maalle, yli 10 000 urheilijalle, yli 300 lajille ja 30 tapahtumapaikalle. Tällaisen sivuston luominen ja ylläpitäminen käsityönä olisi ollut mahdotonta, mutta linkitettyä tietoa käyttäen sivujen sisällön koostaminen pystyttiin automatisoimaan.


Kesäolympialaiset ja sitä ennen tapahtunut kehitystyö oli BBC:n urheilun oma hanke, ja linkitetyn tiedon palvelua - Dynamic Semantic Publishing Platformia (DSP) - kehitettiin urheilun omia tavoitteita silmällä pitäen. Kesäolympialaisten jälkeen palvelua varten perustettiin BBC:n Future Media -yksikköön 11 hengen Linked Data Platform -tiimi (LDP). Tiimiin kuuluu tuotepäällikkö, projektipäällikkö, business analyst, tietoarkkitehti ja 7 koodaajaa. LDP-tiimi on nyt ollut koossa reilun vuoden, syyskuusta 2012 lähtien.


LDP:n ensimmäinen toimintavuosi on kulunut paljolti tietokannan ja tietomallien muuntamiseen sellaisiksi, että ne voidaan ottaa käyttöön myös yleisemmin urheilun ulkopuolella. Voisi ehkä sanoa, että DSP rakennettiin innokkaasti, mutta siinä, mitä ja miten tietokantaan tallennettiin, panostettiin laadun sijasta määrään. Siksi esim. tietokannan siivoukseen käytetään edelleen paljon aikaa; mm. käsitteistöjä, joita kukaan ei käytä, poistetaan tietokannasta. Aikoinaan tehdyt ratkaisut lähtien tietokannan valinnasta (Ontotextin RDF-kanta OWLIM) määrittävät siis vahvasti nykyistä toimintaa. Nyt tietomallit ja käsitteistöt pidetään hyvin rajattuina, jotta niitä voidaan hallita paremmin.


LDP:ia ja sen tarjoamaa sisältöjen tagays-/linkitysmahdollisuutta BBC-käsitteistöllä hyödyntää tuotannossa olevilla verkkosivuillaan edelleen vain BBC:n urheilutoimitus. Tämän lisäksi meneillään tai suunnitteilla on useampia pilotteja ja laajennuksia: Uutiset julkistivat ennen joulua n. 300 testikäyttäjälle betaversion mobiilisovelluksesta, jolla voi seurata BBC:n uutisia. Uutiset tagaavat juttunsa, ja sovelluksen käyttäjä voi kerätä My topics -listalleen tageja vastaavia aiheita seurattavaakseen. Tagaaminen palvelee tällä hetkellä vain ja ainoastaan mobiilisovellusta, ei laajemmin uutisten verkkosisältöjä. Uutisten puolella myös Birminghamin aluetoimitus (Birmingham & Black Country) pilotoi linkitetyn tiedon käyttöä testisivustonsa koostamiseen. BBC:n uutisilla ja urheilulla on yhteinen julkaisujärjestelmä, jossa tagaaminen on mahdollista. Sen lisäksi Knowledge & Learning -yksikölle ollaan tekemässä julkaisujärjestelmää, jossa tulee myös olemaan tagaysmahdollisuus.


Työkaluja linkitetyn tiedon (tietomallien ja käsitteistöjen) hallintaan ja hyödyntämiseen on kehitetty LDP:ssa mutta myös uutisissa ja Research & Development -yksikössä. Esim. tekstianalyysiin perustuvia ohjelmia käsitteiden automaattiseen tunnistamiseen (concept extraction) on ja on ollut käytössä useampia. Birmingham & Black Country testaa myös työkalua, jolla on mahdollista tagata sisältöjä niiden julkaisun jälkeen, ei julkaisujärjestelmässä vaan selaimessa. Ajatus on, että varsinkin radio- ja tv-ohjelmien sivujen sisältöjä voidaan tuoda uutisvirran joukkoon, vaikka radio- ja tv-ohjelmien toimituksissa ei tagaysta tehdäkään.


Mielenkiintoista kehitys- ja testaustyötä tehdään myös News Labs -nimisessä yksikössä ja sen järjestämissa hackathoneissa ja muissa kehittäjätapaamisissa. Yksi concept extraction -työkaluista - Juicer - on heidän kehittämänsä. News Labsin uusimmalla testikäytössä olevalla työkalulla puolestaan voi hakea BBC:n omaa mutta myös muiden medioiden (esim. The Guardianin) sisältöjä. Työkalu on tarkoitettu ennen kaikkea toimittajalle taustatiedon keräämiseen ja se hyödyntää haussa LDP:n tietokantaan tallennettua käsitteistöä.


Eräs kiinnostava, BBC:llä oppimani uusi käsite on storyline. Sen lisäksi, että sisältöjä voidaan linkittää käsitteisiin, niitä voidaan linkittää myös näihin “tarinoihin”. Storylinen voi ymmärtää lähinnä ehkä uutistapahtumana (esim. Seija-myrsky) tai tapahtumien ketjuna (syksyn Eino-, Oskari- ja Seija-myrskyt) ja siitä tehtyinä juttuina. Storyline pitää sisällään tietyt käsitteeet, ja kun sisältö tagataan storylinella, periytyvät sen sisällään pitämät käsitteet myös tuolle sisällölle. Yle-näkökulmasta tämä(kin) on seikka, johon pitää perehtyä vielä tarkemmin!


BBC-vierailu antoi vastauksia moniin kysymyksiin, mutta avasi vähintään yhtä paljon uusia kysymyksiä, joihin joudumme etsimään vastauksia omaa linkitetyn tiedon palveluamme rakentaessa: Edetäänkö pienin rajatuin mutta siten hyvin hallituin kokonaisuuksin vaiko laajemmalla rintamalla ja yleisemmällä tasolla? Rakennetaanko omia käsitteistöjä ja missä määrin hyödynnetään ulkoisia? Mitä voi ja kannattaa automatisoida ja missä journalistinen valinta on edelleen ensisijaista? Kumpi osaa tagata paremmin, ihminen vai kone? Mikä palvelee yleläistä sisällöntuottajaa, mikä Ylen asiakasta? Missä sisältöjen julkaisemissa kannattaa käyttää linkitettyä tietoa ja missä ei, vaikka se ehkä olisikin mahdollista? Jne., jne.


Paljon kysymyksiä, paljon työtä - eli hyvää uutta, linkitetyn tiedon vuotta 2014 kaikille!


Loppuun muutama linkki:

4 kommenttia

Hyvä kirjoitus, kiitos siitä. Milloinkas nuo jutussa mainitut Ylen rajapinnat (erityisesti ohjelma-API) ovat tulossa julkisiksi?

Olli kirjoitti:

Hyvä kirjoitus, kiitos siitä. Milloinkas nuo jutussa mainitut Ylen rajapinnat (erityisesti ohjelma-API) ovat tulossa julkisiksi?

Hei Olli! Ylen rajapinnat avautuvat kevään mittaan. Ensimmäinen API on nimenomaan Ohjelma-API (Programs API) (tarkasta aikataulusta en vielä halua sanoa mitään, mutta pikemminkin viikoissa kuin kuukausissa). Myöhemmin keväällä lanseeraamme muut APIt, joiden avulla voi toteuttaa vaikkapa Areenan.

Kerromme API-kuvioista kevään aikana monissa eri tilaisuuksissa. Voit myös lähettää minulle postia, jos haluat kokeilla apeja "betakehittäjien" joukossa ennen laajaa avausta. (aleksi piste rossi at yle piste fi).

Tämä blogi on tietysti paras tapa pysyä kärryillä kuinka kehitys kehittyy ja APIt avautuvat. : ]

Aleksi Rossi kirjoitti:
Olli kirjoitti:

Hyvä kirjoitus, kiitos siitä. Milloinkas nuo jutussa mainitut Ylen rajapinnat (erityisesti ohjelma-API) ovat tulossa julkisiksi?

Hei Olli! Ylen rajapinnat avautuvat kevään mittaan. Ensimmäinen API on nimenomaan Ohjelma-API (Programs API) (tarkasta aikataulusta en vielä halua sanoa mitään, mutta pikemminkin viikoissa kuin kuukausissa). Myöhemmin keväällä lanseeraamme muut APIt, joiden avulla voi toteuttaa vaikkapa Areenan.

Kerromme API-kuvioista kevään aikana monissa eri tilaisuuksissa. Voit myös lähettää minulle postia, jos haluat kokeilla apeja "betakehittäjien" joukossa ennen laajaa avausta. (aleksi piste rossi at yle piste fi).

Tämä blogi on tietysti paras tapa pysyä kärryillä kuinka kehitys kehittyy ja APIt avautuvat. : ]

Ihan loistavaa tietoa! Kiitos blogahduksesta - laittakaa toki kaikki mahdollinen jakoon kehityksen etenemisestä (mielellään myös ne haasteet, joihin törmäätte). Tiedä vaikka me aiheesta innostuneet voisimme jotenkin myös auttaa?

Kyllä, tarkoitus on kertoa täällä hankkeemme etenemisestä. Ja saa olla suoraan yhteydessä myös: pia.virtanen at yle.fi. Yhteistyö eri tahojen kanssa kiinnostaa!

Kehitys kehittyy - kokeile ja kommentoi yle.fi:tä

Tässä ryhmäblogissa yle.fi:n tekijät kertovat tulevista verkkopalveluista sekä valottavat ajatuksiaan suunnitelmien takaa.

Blogiarkisto