Avointa dataa Ylen verkkopalveluiden käytöstä

Olemme tänään avanneet kaksi Google-dokumenttia, joihin syötetään automaattisesti Yleisradion digitaalisten palveluiden käytöstä kertovaa anonyymia dataa.

1. Yleisradion verkko- ja mobiilipalveluiden päivätavoittavuus

Ensimmäisessä dokumentissa on listattuna vuoden 2012 loka-marraskuun vaihteesta lähtien Yleisradion verkko- ja mobiilipalveluiden yhteenlaskettu päivätavoittavuus. Luku on eri selaimia päivässä, ja sen tuottaa Ylen käyttämä comScore Digital Analytix -mittausjärjestelmä. Käytännössä saman päivän aikana palveluun palaava selain kirjautuu lukuun vain kerran. Mikäli asiakas käyttää samaa selainta vaikkapa sekä Areenassa että Uutispalvelussa, tämä selain lasketaan luvussa vain yhdeksi selaimeksi. Mikäli sama asiakas käyttää Areenaa yhden päivän aikana kotikoneelta, työläppäriltä ja tabletilta, nämä kaikki lasketaan eri selaimiksi. Toisaalta myös yhteiskäytössä olevia koneita on paljon, jolloin samaa selainta voi käyttää useampi asiakas. Luku ei siis suoraan kuvaa Yleisradion verkkopalveluiden käyttäjämäärää vaan niiden eri selainten määrä, jotka teknisessä mittauksessa tunnistetaan Yle.fi -tasolla yhden päivän aikana.

Välilehdellä "Test" löytyy seuraavaa dataa:
- sarakkeessa A (date) on päivämäärä muodossa yyyymmdd
- sarakkeessa B (expected) on kullakin rivillä edellisen 10 vastaavan viikonpäivän eri selainten keskiarvo
- sarakkeessa C (currentcount) on automaattisesti 15 minuutin välein päivittyvä luku kuluvan päivän eri selaimista
- sarakkeessa D (timestamp) on epoch timestamp

Välilehden "Varttikertoimet" tarkoitus on kuvata sitä, miten eri viikonpäivinä Yle.fi-käyttö kertyy vuorokauden aikana. Esimerkiksi solussa E34 kuvataan kerroinluku, jolla edellisen 10 perjantain keskiarvosta saadaan laskettua luku joka vastaa sitä miten suuri osa päivän eri selaimista on kertynyt klo 8:00 mennessä. Tätä voidaan verrata sitten ensi perjantaina klo 8:00 kertyneeseen saman päivän dataan ja tarkastella olemmeko jäljessä vai edellä vertailuajankohtaan nähden.

Linkki Google Spreadsheetiin:
https://docs.google.com/spreadsheet/ccc?key=0Akc0L9drWLFldDZvVzlqN3VybE9...

2. Yleisradion verkkopalveluiden rullaava kysely

Toinen avattava dokumentti sisältää dataa siitä, miten Ylen verkkopalveluiden asiakkaat vastaavat ns. exit poll -tyyppiseen käynnin laatua mittaavaan kyselyyn. Kutsu vastata kyselyyn näytetään satunnaisesti valikoidulle joukolle Ylen palveluiden käyttäjiä, ja se on aina sidoksissa siihen Yle.fi-palveluun, johon asiakas saapuu. Kutsu kyselyyn esitetään sillä sivuston sivulla jolle asiakas ensiksi saapuu, ja lomake täytetään vasta käynnin jälkeen. Lomake sisältää sekä avoimia että suljettuja kysymyksiä, ja oheiseen taulukkoon olemme suodattaneet koko datasta suljettujen kysymystyyppien seuraavat vastaukset:

- sarakkeessa A (date) on vastauksen aikaleima.
- sarakkeessa B (onnistunut) on vastaus kysymykseen "Oliko käyntisi onnistunut", eli ns. task completion rate: 1=kyllä, 0=ei.
- sarakkeessa C (suosittelisitko) on vastaajan suositteluherkkyys, kysymys "Suosittelisitko XX-sivustoamme ystävällesi tai kollegallesi?", vastaus asteikolla 0-10 jossa 0=erittäin epätodennäköistä ja 10=erittäin todennäköistä. Vastausta käytetään nettosuositteluindeksin (NPS) laskentaan.
- sarakkeessa D (kiinnostavuus) on asteikolla 0-6 vastaus kysymykseen "Mitä mieltä olet XX-palvelustamme yleensä?". 6=erittäin kiinnostava, 5=kiinnostava, 4=melko kiinnostava, 3=ei kovin kiinnostava, 2=ei kiinnostava, 1=ei lainkaan kiinnostava, 0=en tunne palvelua.
- sarakkeessa E (monta) on kysytty "Kuinka moni henkilö taloudessanne käyttää laitetta, jolla vastaat kyselyyn?"
- sarakkeessa F (sukupuoli) on vastaajan ilmoittama sukupuoli, 1=mies, 0=nainen.
- sarakkeessa G (syntymävuosi) on vastaajan ilmoittama syntymävuosi, yyyy.
- sarakkeessa H (sivusto) on sen Yle.fi-palvelun nimi johon vastaaja saapui kun hänelle näytettiin kutsu osallistua kyselyyn.

Data on jaettu kahteen välilehteen. Ensimmäisellä lehdellä "27.4-28.5" on listattu ko. päivämäärien välillä annetut vastaukset eli kuukauden verran dataa. Seuraava välilehti "28.5-VIIMEISIN" päivittyy koko ajan automaattisesti sitä mukaa kun vastauksia kertyy.

Linkki Google Spreadsheetiin:
https://docs.google.com/spreadsheet/ccc?key=0Akc0L9drWLFldGNKVS1YNTBIbHA...

Aineisto julkaistaan CC-lisenssillä (CC BY-SA 3.0). Jaettavan datan sisältämää tietoa saa julkaista vapaasti ja sitä saa yhdistellä muuhun tietoon, kunhan julkaistaessa linkitetään tähän Ylen Kehitys kehittyy -blogin kirjoitukseen ja ilmoitetaan, että tiedon lähde on Yleisradion tutkimusdata. Arvostamme kovasti, mikäli dataa käyttäessäsi kommentoit tähän blogipostaukseen ja kerrot siitä myös muille. Mahdollisiin dataa koskeviin kysymyksiin pyrimme vastaamaan ensi tilassa.

Näitä datasettejä käytetään myös meneillään olevassa rekrytoinnissa, jossa Yleisradio hakee visualisointi- ja analytiikkadevaajaa. Lue lisää hakemuksesta: http://careers.fi/yle/careers.cgi?action=view&job_id=2488&lang=fin

1 kommentti

Käytin "pedagogisessa" tilastoblogissani dataanne esimerkkiaineistona... http://surveytale.com/2013/05/29/hajontakuva-luokitellun-muuttujan-visualisoijana/

Kehitys kehittyy - kokeile ja kommentoi yle.fi:tä

Tässä ryhmäblogissa yle.fi:n tekijät kertovat tulevista verkkopalveluista sekä valottavat ajatuksiaan suunnitelmien takaa.

Blogiarkisto