Datan semanttisuus – silkkaa dymanttia 

Semanttinen yhteentoimivuus mahdollistaa tiedon siirtämisen ja käsittelyn tavalla, jossa tiedon merkitys säilyy muuttumattomana ja ymmärrettävänä.

Sanana ”dymanttinen” on mielestäni hauska, mutta kuvaavana terminä epäkelpo. Kuullessani sen ensimmäistä kertaa luulin sen yhdistävän sanat timanttinen ja dynamiitti. Tosiasiassa sana taitaa juontaa juurensa Esa Tikkasen haastatteluun, jossa hänellä oli vaikeuksia lausua sanaa dynaaminen. Itse käytän termiä kuvaamaan jotain ”aivan mahtavaa”, mutta sanan merkitys ei välity aina kuulijalle. Sanan sisältämä data ei siirry puhtaana kuulijalle, tieto ei välity. Dymanttinen ei ole semanttisesti yhteensopiva. Kuvaamani asia muodostuu vääräksi vastaanottajan datakeskuksessa, aivoissa.  

Semanttinen yhteentoimivuus ja sen edistäminen  

Semanttinen yhteentoimivuus mahdollistaa tiedon siirtämisen ja käsittelyn tavalla, jossa tiedon merkitys säilyy muuttumattomana ja ymmärrettävänä.  Informaatiolla on täsmällinen merkitys, joka säilyy tietoa vaihdettaessa muuttumattomana kaikille osapuolille.   

Viimeinen vuosi on mennyt osaltani Turun kaupungilla tapahtuma-, harrastus- ja koulutushankkeen parissa. Tehtäviä on ollut monia, mutta ydin on pysynyt vakaana. Tarkoituksena on edistää semanttista yhteentoimivuutta. Tässä blogissa on amatöörin näkemys siitä, mitä edellä mainittu mielestäni tarkoittaa. Jos haluaa ammattilaisen näkemyksen, voi kuunnella Sanastokeskuksen Katri Seppälän haastattelun, joka ilmestyy myöhemmin tänne verkkosivuille. 

Sanastokeskuksen, sisällöntuottajien ja hankekuntien kanssa pakersimme työpajoissa yleiset luokitukset tapahtumille, harrastuksille ja koulutuksille (pois lukien tutkintoon johtavat koulutukset). Tuotokset ovat valmiit ja löydettävissä pian Digi- ja väestötietoviraston yhteentoimivuusalustalta. Luokitukset itsessään ovat hyvin yksinkertaisia, mutta niiden takana on yllättävä määrä työtä. Projektin aikana ymmärsimme, ettei luokkiin voi laittaa mitä vaan, jos ne halutaan tehdä oikein. Tapahtumien osalta luokitus tehdään sekä tyypin että sisällön mukaan. Tyhmempi olisi laittanut nämä samaan luokkaan, kuten minä ennen projektin alkua. Hullua!

Mitä enemmän kunnat hyödyntävät tekemäämme luokitusta, sitä paremmin saamme jaettua dataa keskenämme.

Nyt näitä luokituksia saa käyttää vapaasti ja toivottavasti niitä käytetäänkin. Mitä enemmän kunnat hyödyntävät tekemäämme luokitusta, sitä paremmin saamme jaettua tapahtuma-, harrastus- ja jatkossa koulutusdataa keskenämme. Lopputuloksena voi olla tietokanta, josta voi katsoa mitä kaikkea hauskaa tehdä matkalla Hangosta Utsjoelle.  

Hieman liian pitkästi ontologioista 

Luokituksen lisäksi dataa kannattaa sanoittaa. Sisällölle annetaan käsitteitä, joiden avulla tiedon etsiminen helpottuu. Jos käsitteitä voi antaa vapaasti, tulee niihin välttämättä kirjotusvirheitä sekä monelle outoja termejä. Vapaan asiasanoituksen ongelmia voidaan estää käyttämällä valmiita ontologioita. Ontologia ei ole pelkkä sanasto, vaan se on jotain enemmän. Sitä voisi kutsua rakenteelliseksi sanastoksi.  Katsokaa vaikkapa sanat timantti ja dynaamisuus halutessanne Finton palvelusta.  

”Ontologiatyön tavoitteena on esittää tietoa tietystä käsitteistöstä niin, että myös kone pystyy hyödyntämään käsitteisiin liittyvää tietoa. Ontologiatyössä tehdään ja ylläpidetään ontologioita, joissa esitetään tietyn sovellus- tai aihealueen käsitteitä konepäättelyä tukevassa muodossa ensisijaisesti hierarkkisten käsitesuhteiden ja termien avulla”. (Sanastokeskus). Vieläkin pitää turvautua Sanastokeskuksen materiaaliin tästä puhuessa. Ei kuitenkaan ole tarkoituksenmukaista oppia ulkoa ontologiatyön määritelmää, mutta on apua, jos tietää mistä puhutaan. Ontologiat nimittäin soveltuvat loistavasti aineistojen semanttisen kuvailun ja tiedonhaun tueksi ja käytettäviksi erilaisissa semanttisen webin sovelluksissa.   

Ontologiat soveltuvat loistavasti aineistojen semanttisen kuvailun ja tiedonhaun tueksi 

Mikä näissä sitten on niin mahtavaa? Mikäli kuvailussa käytetään monikielistä ontologiaa, kuvailu on tarpeen tehdä vain yhdellä ontologian kielistä. Haussa voidaan käyttää mitä tahansa ontologian kieltä ja saada samat ontologiaan perustuvat hakutulokset riippumatta siitä, millä kielellä kuvailu on tehty. Ontologia voi myös sisältää ensisijaisten asiasanojen lisäksi muita samaa tarkoittavia asiasanoja, jolloin synonyymeilla saadaan sama hakutulos kuin ensisijaisilla asiasanoilla. (Tätäkin tekstiä on varastettu Sanastokeskuksen powerpointista, sori Katri).  

Ontologiat ovat siis kaiken kaikkiaan dymanttisia, mutta on niissä ongelmiakin. Ontologiat saattavat koostua eri ontologioista, jolloin niiden yhteensovittaminen ei ole täysin ongelmatonta. Jopa Julkisten Palvelujen Ontologiassa (JUPO) on duplikaatteja, jotka vaikeuttavat sen käyttöä. Jouduimmekin omassa projektissamme hyllyttämään JUPO:n käytön ja ottamaan Yleisen Suomalaisen Ontologian (YSO) tilalle. Ontologian teknisen käytön periaatteet on nyt otettu huomioon ja YSO on rakennettu käyttöliittymäämme oikeaoppisesti. Kyseessä ei ole pelkkä sanalista, vaan asiasanoitus tehdään ontologian säännöin palvelussamme. Iso kiitos tästä Turku DEVin ohjelmistokehittäjille.  

Ei oo mitään ongelmaa! 

Aivan hankkeen alussa lähdin tutustumaan toteutuksiin, jotka oli rakennettu saman tekniikan, Linked Eventsin, päälle. Vallan nopeasti kävi ilmi, että luokittelut useimmissa toteutuksissa perustuivat kuntien omiin tarpeisiin, mikä on ymmärrettävää ja loogista. Sanalistakin perustui yleiseen suomalaiseen ontologiaan, mutta toteutus oli todella sanalistamainen. Ontologian hyödyt jäivät saamatta. Tietokanta kuitenkin toimii ja kalenterista voi käydä sisältöjä katsomassa. Ongelmaa ei ole? 

Paremmin voisi kuitenkin olla. Tieto voisi olla liikuteltavissa muihinkin kalentereihin. Tekemämme kokonaisratkaisu palvelee useita toimijoita, eikä kaikkea tarvitse rakentaa uudelleen ja uudelleen. Nyt olemme yhteisymmärryksessä saaneet aikaan tapahtuma-, harrastus- ja koulutusdatan luokittelu- ja sanoitusmallin, johon ovat sitoutuneet Naantali, Kaarina, Raisio ja Turku. Yhteiskalenteri on rakenteilla ja lisää kuntia toivotaan mukaan pian julkaisun jälkeen. Kaikki on tehty avoimesti. Koodi on vapaasti tarjolla, luokitukset ovat otettavissa käyttöön, näkymäkomponentit tulevat olemaan kaikkien käytettävissä. Hyödyntäkää! Jakakaa ilosanomaa! Kritisoikaa! 

Hyödyntäkää! Jakakaa ilosanomaa! Kritisoikaa! 

Ja on meillä ongelmakin: miten tätä tietoa saadaan eteenpäin? Miten tavoitamme oikeaan aikaan oikeat päättäjät, kun he miettivät, miten oman alueen tapahtuma-, harrastus- ja koulutusmahdollisuuksista voisi kertoa kuntalaisille ja matkailijoille? Toivottavasti joku lukee tämän blogin ja kertoo siitä kaverille. Jos olet päättäjä, niin hopi hopi! 

 

Kiitos 

kaikille hankkeessa mukana olleille. Lopetan palvelukseni Turun kaupungilla helmikuun 2022 loppuun.  

Ville Helminen

Tietoa kirjoittajasta

Ville
Helminen
Kirjoittaja on aloittanut työt Turun kaupungilla tammikuussa 2021. Hän toimii hankesuunnittelijana Digikannustin-hankkeessa.