Ma 09.05.2011 @ 12:19Kari Haakana

Yle avaa dataa

Avoin data on viimeisen vuoden aikana noussut verkkojournalismin kuumaksi kysymykseksi. Guardianin, New York Timesin, BBC:n ja vaikkapa Norjan yleisradioyhtiö NRK:n esimerkkejä on seurattu myös Ylessä kiinnostuneina. Avoin data on lähtenyt liikkeelle Suomessakin muun muassa valtioneuvoston taannoisen päätöksen myötä.

Yleä on viime syksynä ja kuluvan kevään aikana lähestytty datanavauspyynnöillä. Suurin kiinnostus on kohdistunut vaalikoneiden vastaustietoon, mutta muunkin Ylen toiminnassa syntyneen datan perään on kyselty.

Onkin ilo kertoa, että Ylen dataa ryhdytään avaamaan. Tulevina viikkoina julkaisemme tässä blogissa linkkejä Ylen avoimeen dataan muutamissa eri muodoissa. Luvassa ovat muun muassa kaikki teknisesti julkaisukelpoisessa muodossa olevat vaalikonetiedot vuodesta 2007 lähtien sekä ainakin yksi rajapinta.

Kaikki nyt julkaistava tieto julkaistaan Creative Commons -lisenssillä, ellei toisin ilmoiteta. Käytännössä tämä tarkoittaa, että julkaistavaa tietoa saa käyttää uusien teosten osana, kunhan lähde mainitaan. Toivomme, että tietoa hyödynnättäessä linkitetään selvästi tämän blogin siihen kirjoitukseen, jossa alkuperäinen datasetti tai linkki siihen on julkaistu.

Pyrimme datan avaamisella löytämään uudenlaisia keinoja toimia yhdessä Ylen ulkopuolisten tahojen kanssa. Jos kokemukset ovat hyviä, pyrimme viemään datan avausta jatkuvaksi toimintamuodoksi. Mutta jotta pystyisimme toimimaan oikein, kaipaamme palautetta. Kerro siis tämän blogin kommenteissa tai vaikkapa sähköpostitse (kari.haakana ät yle.fi), mitä dataa toivoisit Ylen avaavan tai miten toivoisit Ylen avoimen datan suhteen toimivan.

13 kommenttia

"Käytännössä tämä tarkoittaa, että julkaistavaa tietoa saa käyttää uusien teosten osana, kunhan lähde mainitaan."

Linkattu CC-lisenssi on kuitenkin by-sa, jonka mukaan myös johdannaisteokset pitää jakaa eteenpäin samoin ehdoin. Oliko tarkoitus linkata by-lisenssiin?

Jani kirjoitti:

"Käytännössä tämä tarkoittaa, että julkaistavaa tietoa saa käyttää uusien teosten osana, kunhan lähde mainitaan."

Linkattu CC-lisenssi on kuitenkin by-sa, jonka mukaan myös johdannaisteokset pitää jakaa eteenpäin samoin ehdoin. Oliko tarkoitus linkata by-lisenssiin?

Eri dataa saatetaan joutua avaamaan eri CC-varianteilla, tapauksesta riippuen. By-sa tulee varmaan olemaan käytetyin.

Kari

Ja varmasti on seurattu myös HS:n esimerkkiä, eiks je? Mutta sinänsä kyllä erittäin tervetullut avaus Yleltä ja askel oikeaan suuntaan. Vähän lisää vastinetta lupamaksulle. Hyvä!

Onnittelut Ylelle hienosta päätöksestä! Share alike on mielestämme tärkeä ehto, koska sillä varmistetaan että myös datan perusteella tehdyt johdannaiset pysyvät avoimina.

Hei!

Tämä on todella loistavaa toimintaa Yleltä! Kiitos jo tässä vaiheessa!

TOP 3 avattavien tietolähteiden toiveista omalta kannaltani:

1. TV-ohjelmatiedot (nimi, lähetysaika, kuvaus)
2. YLE Areena ohjelmatiedot ja linkit (nimi, lähetysaika, kanava, kuvaus, linkki ohjelman sivulle ja mobiilivirtaan)
3. YLE Uutisten syötetiedot

Teknisesti varsinkin kohdat 2 ja 3 olisivat helppoja toimenpiteitä. Riittäisi, että Areena-ohjelmien ja uutisten RSS-syötteisiin lisättäisiin copyright-tiedot.

Kohdan 1 osalta toiveissani olisi RSS:n lisäksi mahdollisesti myös laajempi API.

Joka tapauksessa todella hienoa, että tämä suunta on päätetty ottaa YLEllä!

Jee :)

Mutta pystyttäkää toki proggikselle myös kokonaan oma sivu, jonne kama kumuloituu. HS:n blogilähtöistä julkaisumallia oli tarpeettoman hankala seurata.

Janin kysymystä jatkaakseni: Estääkö by-sa -lisenssi käytännössä datan käytön kilpailevissa tiedotusvälineissä?

Juha: En tiedä onko johdannaisten mahdollinen epäavoimuus kovin merkityksellistä. On hieno homma jos miksauksia jaetaan eteenpäin CC-lisensseillä, mutta ei kai se ole itseisarvo? Koko homman pointtihan on tiedon lisääminen, ei lisenssien tarttuminen. SA:n puute ei ole kynnys kenellekään, mutta voiko se olla kynnys toimijoille, joilla on resursseja tehdä datalla jotain yleishyödyllistä?

Jos ootte kiinnostuneita starttaamaan datakatalogin aineistojen löydettävyyden parantamiseksi, on meillä <a href="http://www.hri.fi/fi/">Helsinki Region Infoshare -projektissa</a> kokemusta <a href=""http://ckan.net/>CKAN-metatietokannan</a> käyttöönottamisesta, metadatoittamisesta ja frontendin toteuttamisesta WordPressillä. Valtion puolellakin evaluoidaan kyseistä järjestelmää. CKAN mahdollistaisi suomalaisten katalogien metadatatietojen helpon agregoimisen.

Erkka Piirainen kirjoitti:

Jee :)

Mutta pystyttäkää toki proggikselle myös kokonaan oma sivu, jonne kama kumuloituu. HS:n blogilähtöistä julkaisumallia oli tarpeettoman hankala seurata.

Janin kysymystä jatkaakseni: Estääkö by-sa -lisenssi käytännössä datan käytön kilpailevissa tiedotusvälineissä?

Erkka, tarkoitus on pystyttää tuonne beta.yle.fi:n puolelle kokoomasivu, joka listaa jaettavat datat.

Tarkoitus ei ole estää muilta tiedotusvälineiltä datan käyttöä, päinvastoin. Täytyy miettiä lisenssiä myös tältä kannalta.

Erkka Piirainen kirjoitti:

Juha: En tiedä onko johdannaisten mahdollinen epäavoimuus kovin merkityksellistä. On hieno homma jos miksauksia jaetaan eteenpäin CC-lisensseillä, mutta ei kai se ole itseisarvo? Koko homman pointtihan on tiedon lisääminen, ei lisenssien tarttuminen. SA:n puute ei ole kynnys kenellekään, mutta voiko se olla kynnys toimijoille, joilla on resursseja tehdä datalla jotain yleishyödyllistä?

Asia lienee ohjelmistopuolella verrannollinen GPL vs. BSD -pohdintaan, jossa päteviä argumentteja on kummankin puolesta ja vastaan. Jatkokäsitellyn tiedon pysyminen avoimena varmistetaan SA-ehdolla. Tämä voi tietoa tuottavan mediatalon kannalta olla hyvä asia: silloin miksaukset ovat varmasti mediatalonkin käytettävissä. Itse näkisin asian niin, että yleishyöty maksimoidaan SA-ehdolla, mutta datan jatkokäsittelyä voi toki esiintyä enemmän ilman ehtoa. Myös jotkut yksittäiset toimijat voivat hyötyä ehdon puutteesta.

Ohjelmistojen tapauksessa lisenssien erot voisi ehkä tiivistää niin, että GPL on johtanut elinvoimaisempaan ekosysteemiin, mutta yritykset ovat hyötyneet BSD-lisenssistä enemmän.

Kari Haakana kirjoitti:
Erkka Piirainen kirjoitti:

Mutta pystyttäkää toki proggikselle myös kokonaan oma sivu, jonne kama kumuloituu. HS:n blogilähtöistä julkaisumallia oli tarpeettoman hankala seurata.

Janin kysymystä jatkaakseni: Estääkö by-sa -lisenssi käytännössä datan käytön kilpailevissa tiedotusvälineissä?

Erkka, tarkoitus on pystyttää tuonne beta.yle.fi:n puolelle kokoomasivu, joka listaa jaettavat datat.

Tarkoitus ei ole estää muilta tiedotusvälineiltä datan käyttöä, päinvastoin. Täytyy miettiä lisenssiä myös tältä kannalta.

Kari: Parhautta :)

Juha kirjoitti:
Erkka Piirainen kirjoitti:

Juha: En tiedä onko johdannaisten mahdollinen epäavoimuus kovin merkityksellistä. On hieno homma jos miksauksia jaetaan eteenpäin CC-lisensseillä, mutta ei kai se ole itseisarvo? Koko homman pointtihan on tiedon lisääminen, ei lisenssien tarttuminen. SA:n puute ei ole kynnys kenellekään, mutta voiko se olla kynnys toimijoille, joilla on resursseja tehdä datalla jotain yleishyödyllistä?

Asia lienee ohjelmistopuolella verrannollinen GPL vs. BSD -pohdintaan, jossa päteviä argumentteja on kummankin puolesta ja vastaan. Jatkokäsitellyn tiedon pysyminen avoimena varmistetaan SA-ehdolla. Tämä voi tietoa tuottavan mediatalon kannalta olla hyvä asia: silloin miksaukset ovat varmasti mediatalonkin käytettävissä. Itse näkisin asian niin, että yleishyöty maksimoidaan SA-ehdolla, mutta datan jatkokäsittelyä voi toki esiintyä enemmän ilman ehtoa. Myös jotkut yksittäiset toimijat voivat hyötyä ehdon puutteesta.

Ohjelmistojen tapauksessa lisenssien erot voisi ehkä tiivistää niin, että GPL on johtanut elinvoimaisempaan ekosysteemiin, mutta yritykset ovat hyötyneet BSD-lisenssistä enemmän.

En tunne softalisessejä kovinkaan hyvin, mutta en ole ihan vakuuttunut siitä, että rinnastuvatko ohjelmistot ja data/tiedot lisenssikysymyksissä mielekkäällä tavalla.

Softapuolella ymmärrän tarttuvuuden mielekkyyden, siellä sen avulla ilmeisesti voidaan varmistaa kehitystyölle pidempiä linjoja – softapuolella aidosti käyttökelpoinen iteraatio tulee vastaan usein vasta muutaman sukupolven jälkeen.

Dataa pyöritellessä sen sijaan journalistisesti ja yhteiskunnallisesti arvokas tulos saadaan usein jo ensimmäisessä sukupolvessa. Ja arvokkainta ei välttämättä ole se kahden tai useamman lähteen miksauksesta syntyvä uusi tietokanta, vaan siitä syntyvät tulkinnat, johtopäätökset ja keskustelu. Syntyneen tietokannan lisenssit eivät puolestaan estä siitä tehtyjen tulkintojen, johtopäätösten ja keskustelun leviämistä. Tässä selkein ero verrattuna softapuoleen.

Jos olen oikein ymmärtänyt, niin vapaasti saatavilla olevien CC-BY -tietokantojen triviaalit ristiinajelut eivät taida vielä tyypillisesti sellaisenaan tuottaa mitään niin uniikkia, että se ylittäisi teoskynnyksen (visualisoinnit on tietty asia erikseen)? Eli pelkän BY-leimatun kaman kevytkäpistely, ei siis vielä johda datan lukkiutumiseen.

Se mikä minua mietityttää on skenaario, jossa tutkimusta tehdään vähän hevimmin ja se YLE:n data on kokonaistyön kannalta pienemmässä roolissa.

Eli vaikkapa jokin toimija käyttää huomattavia resursseja lisätiedon keräämiseen ja käsittelyyn, niin mitä yksi SA-lisensioitu datalähde tekee suurelle sopalle?

Minusta olisi ikävää, että joku pulju jättää tulosta parantavan avoimen datan hyödyntämättä vain aatteellisten lisenssikysymysten vuoksi.

Ihanteellista tietysti olisi, että lisenssi olisi tarttuva ihan vapaasta tahdosta (ja tsemppaan monilta osin pakottamistakin), mutta en tiedä onko YLE:n kannalta mitenkään mielekästä sotkea sitä soppaa.

Kaikilla malleilla tieto tuloksista kyllä liikkuu, keskeisintä varmaan olisi, että dataa käytetään mahdollisimman monipuolisesti.

Erittäin hieno aloite!

Itse olen organisoimassa Otavan Opiston puitteissa ensi syksylle vapaan sivistystyön (avoin kaikille, ei kovin kallis osallistua) koulutuspakettia Datajournalismista. Koulutus alkaisi pari päiväisellä intensiivikoulutuksella Helsingissä ja jatkuisi sarjalla verkkoluentoja ja etätehtäviä.

Suunnittelu on alkuvaiheessa, keräilen tähän liittyen ideoita ja yhteyksiä. YLE:stä olen tähän mennessä jutellut Tuija Aallon ja ohi mennen Atte Jääskeläisen kanssa.

-Antti Poikola
antti.poikola at gmail.com
044 337 5439

Ylen kuntavaalitentti 27.9. 2012
Toimittajat jakoivat epätasava-arvoisesti puheenvuoroaikaa keskusteluun osallistuneille. Myös perustelut puheenvuoroille olivat epäreiluja. Hyi!!!

Kehitys kehittyy - kokeile ja kommentoi yle.fi:tä

Tässä ryhmäblogissa yle.fi:n tekijät kertovat tulevista verkkopalveluista sekä valottavat ajatuksiaan suunnitelmien takaa.

Blogiarkisto