Laadukas data

DigiBagissä tarjolla:

Testaa sisällöntuotantoa Testi-Linked Events -sivustolla.

Tutustu sisältöjen luokitteluun annettuihin Sanastokeskuksen ohjeisiin: >> linkki Sanastokeskuksen PPT-materiaaliin. 

Kuuntele Sanastokeskuksen Katri Seppälän näkemyksiä podcast-sarjamme jaksossa:
”Teksti on dataa - Semanttinen ontologia verkkopalvelussa”
Videot ja podcastit

Nappaa Turun toteuttama Linked Events -käyttöliittymän avoin koodi käyttöösi:  

Varmistaaksemme laadukkaan datan, josta olisi hyötyä mahdollisimman monelle kunnalle, tarvitsimme tueksemme sanastotyön ammattilaisia. Niinpä kevään 2021 aikana järjestettiin kilpailutus, jonka pohjalta kumppaniksemme valikoitui Sanastokeskus ry. Sanastokeskus johdatti meidät syvemmälle ontologioiden ja semanttisuuden maailmaan, joiden oppeja nyt esittelemme.   

Semanttisesti yhteentoimiva data 

Laadukas data on semanttisesti yhteentoimivaa. Semanttinen yhteentoimivuus mahdollistaa tiedon siirtämisen ja käsittelyn tavalla, jossa tiedon merkitys säilyy muuttumattomana ja ymmärrettävänä kaikille osapuolille. Informaatiolla on täsmällinen merkitys, joka säilyy tietoa vaihdettaessa muuttumattomana kaikille osapuolille.   

Yhteentoimivuutta edistää muun muassa Digi- ja Väestötietovirasto (DVV). DVV tarjoaa alustan yhteentoimivuutta edistävien materiaalien jakamiselle. Tähän nk. Yhteentoimivuusalustaan voi tutustua osoitteessa: https://www.suomidigi.fi/ohjeet-ja-tuki/yhteentoimivuusalusta  

Ontologioista 

Luokituksen lisäksi dataa kannattaa sanoittaa. Sille annetaan käsitteitä, joiden avulla tiedon etsiminen helpottuu. Jos käsitteitä voi antaa vapaasti, tulee niihin välttämättä kirjotusvirheitä sekä monelle outoja termejä. Vapaan asiasanoituksen ongelmia voidaan ehkäistä käyttämällä valmiita ontologioita. Ontologia on ”vakioitu, rakenteellinen sanasto”.   

Ontologioissa esitetään tietyn sovellus- tai aihealueen käsitteitä konepäättelyä tukevassa muodossa (eli niin, että kone pystyy hyödyntämään tietoa) hierarkkisten käsitesuhteiden ja termien avulla. Ontologiat soveltuvat siksi loistavasti aineistojen kuvailun ja tiedonhaun tueksi ja käytettäviksi erilaisissa sovelluksissa.   

Niiden eduista 

Mikäli kuvailussa käytetään monikielistä ontologiaa, kuvailu on tarpeen tehdä vain yhdellä ontologiakielistä. Haussa voidaan käyttää mitä tahansa ontologian kieltä ja saada samat ontologiaan perustuvat hakutulokset riippumatta siitä, millä kielellä kuvailu on tehty. Ontologia voi myös sisältää ensisijaisten asiasanojen lisäksi muita samaa tarkoittavia asiasanoja, jolloin synonyymeilla saadaan sama hakutulos kuin ensisijaisilla asiasanoilla.  

… ja haasteista 

Ontologiat ovat siis kaiken kaikkiaan mahtavia, mutta on niiden käytössä joitakin haasteitakin. Ontologiaan on saatettu kerätä useamman eri ontologian sisältöjä, jolloin niiden yhteensovittaminen ei ole ollut täysin ongelmatonta. Esimerkiksi Julkisten palveluiden ontologiassa (JUPO) on sisältöjä mm. yleisestä suomalaisesta ontologiasta, jolloin käsitteissä on väistämättä duplikaatteja.  

Toisaalta ontologiasta voi myös puuttua joitain tärkeitä asiasanoja. Onneksi ontologioihin voi ehdottaa lisättäväksi sanoja, jolloin tilannetta voi jokainen käyttäjä omalta osaltaan parantaa.  

Kenelle? 

Minkä tahansa ohjelmisto- / digitaalista kehitystä tekevän kunnan tai muun toimijan kannattaa tutustua ontologioiden ja laadukkaan, semanttisesti yhteentoimivan datan maailmaan. Valmiiden koodistojen ja tietomallien hyödyntäminen omassa järjestelmäkehityksessä on kustannustehokasta. Yhdenmukaisten käsitteiden käyttö helpottaa palveluiden suunnittelua ja ymmärrettävyyttä. Julkisten aineistojen hyödyntäminen vähentää oman työn osuutta. 

Mikä tekee tästä ainutlaatuisen? 

Varsinais-Suomen Linked Eventsiin on toteutettu asiasanojen valinta aidosti hierarkkiseen ontologiaan pohjautuvaksi. Kyseessä ei siis ole vain sanalista, vaan alatermit kytkeytyvät ylätermeihin. Esimerkiksi sisällönsyöttäjä voi lisätä tapahtumaan tai harrastukseen asiasanaksi ”tanhumusiikki” ja kalenterinäkymästä sisältöä etsivä löytää sisällön sekä tarkalla osumalla että yleisemmällä ilmauksella ”musiikki”. Lisäksi termien eri kieliversiot tulevat sisältöön mukaan automaattisesti.  

 

Lisätietoa ontologioista 

Digikannustin-hankkeessa tutustuttiin pariin erilaiseen hierarkkiseen ontologiaan, jotka kumpikin olisivat voineet toimia Linked Events -ratkaisun taustalla. Toinen on Julkisten palveluiden ontologia JUPO ja toinen Yleinen suomalainen ontologia YSO. Alla vertailua näiden ontologioiden välillä. 

JUPO 

  • JUPO täydentää YSOa erityisesti julkisen hallinnon palveluihin ja liiketoimintaan liittyvillä käsitteillä (lähes 6 000 käsitettä) 
  • JUPO sisältää YSOn ja osa käsitteistä on ontologiassa sekä JUPO- että YSO-käsitteinä, joilla voi olla osittain toisistaan eroavia tietoja (esimerkiksi eri synonyymeja ja erilaiset hierarkiat) 
  • JUPO on Digi- ja väestötietoviraston ylläpitämä ja sitä kehitetään erityisesti Palvelutietovarannon tarpeisiin 
  • JUPOon voi ehdottaa lisättäväksi uusia käsitteitä Finto-palvelun Palaute-toiminnon avulla 

YSO 

  • YSO on Kansalliskirjaston ylläpitämä, jatkuvaluonteisesti kehitettävä ontologia, jossa on nykyisellään yli 30 000 käsitettä 
  • YSOon voi tarvittaessa ehdottaa lisättäväksi uusia käsitteitä: https://finto.fi/yso/fi/#suggestion 
  • Kansalliskirjaston kehittämä puoliautomaattisen kuvailun työkalu Annif on koulutettu YSOlla tapahtuvaa kuvailua varten