
Ihmisistä kerätyn biolääketieteellisen datan jakaminen on nykyaikana edellytys sairauksien ennaltaehkäisylle ja hoitamiselle. Suomen ELIXIR-keskus CSC rakentaa infrastruktuuria, jossa Suomen biopankeista ja tutkimusorganisaatioista saatu suostumukseen perustuva ihmisperäinen data on esikäsitelty ja kuvailtu sekä tietoturvallisesti tallennettu. Datan jakamisesta päättävät tahot voivat automatisoida lupaprosessiaan CSC:n alustan avulla. Siten datan luvanvarainen saatavuus tutkimukseen ja terveydenhuoltoon kohentuu.
Yksilölliset lääkehoidot ovat mahdollisia vain, jos potilasdataa on tarjolla ja se on tallennettu ja esikäsitelty oikein. Suomen Akatemian rahoittamassa hankkeessa luodaan infrastruktuuri, joka täyttää sensitiivisen datan tallentamiseen ja käyttöön liittyvät vaatimukset. Data on kliinistä rekisteridataa, genomitietoa ja biokuvantamiseen liittyvää aineistoa. Hankkeeseen osallistuvat CSC:n lisäksi biokuvantamisen infrastruktuuri Euro-Bioimaging, THL Biopankki sekä Suomen molekyylilääketieteen instituutti FIMM.
Hankkeessa luodaan ratkaisuja, jotta erilaisen datan saaminen tutkijoiden käyttöön olisi nopeaa ja helppoa. Data voidaan tallentaa CSC:n sensitiivisen datan infrastruktuuriin. Tutkijat saavat käyttöönsä tilan, jossa data ja laskentakapasiteetti ovat samassa paikassa. Tutkija pääsee vain sellaiseen dataan, johon on saatu datan omistajalta lupa. Hankkeessa hyödynnetään CSC:n kehittämää federoitua tietohallintoa. ELIXIR AAI ja REMS ovat CSC:n kehittämiä sovelluksia ELIXIR-infrastruktuurin käyttäjähallintoon.
Datan tietoturvallinen siirtäminen muuttaa terveydenhuoltoa merkittävästi seuraavien vuosikymmenten aikana. Hankkeessa tuetaan tekoälyalgoritmeja kehittäviä tutkijoita tarjoamalla heille laskentapalveluita, terveystiedon tehokkaampaa tutkimuskäyttöä sekä datan hallintaan liittyviä teknologioita. Samalla data-aineistojen yhteensopivuus kansainvälisten standardien kanssa varmistetaan.

Suomen molekyylilääketieteen instituutin ja Helsingin yliopistollisen keskussairaalan HUS:n sekvensointikapasiteettia tehostetaan niin, että se on suoraan yhteydessä CSC:n laskenta ja datapalveluihin. Genomidata siirretään CSC:lle huippunopean ja turvallisen valopolkuyhteyden ansiosta. Datan esikäsittely ja laadunvarmistus on nopeaa, koska data sijaitsee CSC:llä.
Kun sekvenssidata on fyysisesti lähellä laskentapalveluja, tutkija saa esikäsitellyn datan nopeammin. Kapasiteetilla voidaan sekvensoida tehokkaasti eksomeja, genomeja ja transkriptomeja.
Geenidatan ja kliinisen datan yhdistäminen vaatii vielä paljon datan tallennus- ja laskentakapasiteettia. CSC:n ja Barcelonan superlaskentakeskuksen (BSC) yhteinen projekti European HPC Center of Excellence for Personalised Medicine (PerMedCoE) toi henkilökohtaisen lääketieteen data-analyysimenetelmiä supertietokoneympäristöön. Hankkeessa kehitetyillä algoritmeilla pystytään merkittävästi lyhentämään analyysin vaatimaa laskenta-aikaa. Geeni- ja proteiinidatan analysointi nopeutuu, mikä helpottaa ja nopeuttaa sairauksien tunnistamista ja oikeiden hoitojen löytämistä. Sairauksien diagnosointi molekyylibiologian tietoa hyödyntämällä onnistuu jatkossa jopa tuntien tai päivien sisällä.

CSC yhdessä Suomen biopankkien, Terveyden ja hyvinvoinnin laitoksen sekä Turussa toimivan Euro-BioImaginin kanssa kehittävät tekoälyalgoritmia lääketieteellisen datan louhimiseen.
Euro-BioImaging Finland tarjoaa kuvan tallentamiseen ja dataan liittyviä palveluja, kuten kuvakokoelmia. Kokoelmiin on tallennettu teratavujen verran kuvia, joita voidaan käyttää mm. referenssidatana. Materiaalia on planktonin kuvantamisesta syöpäsoluihin.
Euro-BioImaging Finland tarjoaa myös lääketieteellisen kuvantamisen aineistoja. Vapaan pääsyn kuvantamispalvelut kattavat Suomessa kuusi yliopistoa ja kolme yliopistosairaalaa. Käytössä ovat OMERO-palvelimet (Open Microscopy Environment), joiden ansiosta tutkijat voivat katsoa, organisoida, analysoida ja jakaa kuvia mistä paikaista tahansa, jossa on pääsy internetiin.
“Turussa on jo tuotantokäytössä kaksi uutta OMERO-serveriä kuvadatalle, toinen tutkimukseen ja toinen opetukseen. Molemmat palvelevat rajoitetusti myös koko maata. Nyt olisi tärkeää suunnitella, miten nämä voisi linkittää CSC:n palveluihin”, sanoo Euro-BioImagingin johtaja Pasi Kankaanpää.
Kankaanpää on kirjoittanut Nature Methods-julkaisusarjaan, jossa määritellään suosituksia kuvadatan hallinnointiin ja sen metadataan.
”Tämä lisää yhteistyötä ja korostaa samalla myös sensitiivisen datan hallinnan tärkeyttä. Datan hallinnointi ja sen käsittely on Euro-BioImaging Finlandissa yksi keskeisiä kehityssuuntia – sitähän heijastaa myös tämä Suomen Akatemian rahoittama hanke”, sanoo Kankaanpää.
Tällä hetkellä genomidatan siirtäminen ja hyödyntäminen ei toimi yli rajojen. CSC kehittää genomidatan teknologioiden standardeja (mm. GA4GH.org Passport, Cloud, Beacon), joilla on myös merkitystä Euroopan ulkopuolella, kuten Pohjois-Amerikassa, Japanissa ja Australiassa. ELIXIR-infrastruktuurin tavoitteena on ottaa käyttöön globaalit genomidatan vastuullisen jakamisen standardit. Euroopassa on myös vahva halu luoda federoitu tietoturvainfrastruktuuri sensitiiviselle genomidatalle. Tarkoituksena on luoda Euroopan terveysdata-avaruus European Health Data Space (EHDS).
”ELIXIR on kehittänyt jo pitkään hyviä työkaluja tutkijoille – parantamaan käytettävyyttä luomalla uusia työkaluja. ELIXIRin yhteistyö Global Alliance for Genomic Health-konsortion kanssa on luonut hienon vision siitä, miten tämä globaali yhteistyö toimisi sekä konkreettisia työkaluja ja malleja”, sanoo THL Biopankin johtaja Sirpa Soini.
Biopankkien toimintaa yritetään saada yhteensopivaksi valtakunnan rajat ylittävään federoituun datainfrastruktuuriin. Tässä on yhteys EU:n jäsenmaiden ja komission rahoittamiin ”miljoonan genomin”-projekteihin (1+million genomes ja Beyond million genomes). Beyond million genomes-hankkeessa CSC johtaa teknistä infrastruktuurityötä.
THL Biopankki suunnittelee hankkeessa kansallisen terveysdatan hallinnointiprosesseja tutkimukseen. Tavoitteena on luoda tutkijoille ja opiskelijoille nopeampi pääsy Suomen eri biopankkien aineistoihin. Samalla dataa voidaan turvallisesti siirtää biopankeista CSC:n sensitiivisen datan ympäristöön ja jakaa aineistoja niille, jotka ovat saaneet käyttöluvan.
Sirpa Soini on hyvin perillä sensitiivisen datan käyttöön liittyvistä huolenaiheista ja sääntelystä. Hänestä tuntuu kuitenkin, että liian helposti syytetään EU:n yleistä tietosuoja-asetusta GDPR:ää kaikista vaikeuksista, vaikka moni jäsenmaa itse rajoittaa lainsäädännössään tai omissa tulkinnoissaan arkaluonteisen datan liikkumista. Soini on koulutukseltaan myös juristi ja hänen mielestään asiat ovat ratkaistavissa, jos poliittista tahtoa löytyy.
”Nyt tuntuu siltä, että monessa maassa sanotaan, että ei voida tehdä sitä tai tätä GDPR:n takia. Mutta se ei ole oikeasti se syy. Se ei ole syy Suomessa eikä muuallakaan ja tilanteeseen on olemassa ratkaisuja.”
Soinin mukaan GDPR ei rajoita datan käyttöä, vaan nimenomaan itse asiassa mahdollistaa sen, mutta vastuullisesti ja riskilähtöisesti. Kansallista lainsäädäntöä tarvitaan tukemaan joitakin käyttötapauksia.
Soinin mukaan datan toisiokäytössä on vaikeaa ennakoida tulevia käyttötarkoituksia. Mutta silloin pitäisi lähteä siitä, että lääketieteellinen ja soveltava tutkimus sekä tuotekehitys on mahdollista GDPR:n mukaan nimenomaan lakiperusteisesti.
”Silloin ei välttämättä suostumusta tarvita. Meillä voi olla laissa säädelty käyttötarkoitus yleisen edun nimissä ja asianmukaiset tietosuoja- ja tietoturvatoimenpiteet. Joka ikiseen asiaan ei tarvita täysimittaista yksityiskohtaista suostumusta sellaisenaan, vaikka läpinäkyvää informaatiota pitääkin edistää.”
Myöskään datan siirtoon ulkomaille ei ole Soinin mukaan absoluuttisia juridisia esteitä. THL Biopankissa sopimuksia datansiirrosta on tehty esimerkiksi Yhdysvaltoihin ja Australiaan.
”Ehdotin amerikkalaisille ja australialaisille juristeille yhteistyösopimusta, jossa korostetaan, mitä vastuita kullakin partnerilla on riskienhallintanäkökulmasta. Tärkeää, että sopimuksissa on tarkat rajoitukset ja että aineistot on pseudonymisoitu. Lisäksi aina mainitaan mihin data voidaan tallentaa. ”
Yksi säilöntäpaikka voi olla esimerkiksi Euroopan genomitiedon tietokanta EGA. Datan luovuttajien yksityisyyden suojaamiseksi tutkimukseen luvitettu tieto on pseudonymisoitu. Vain valtuutettu taho kuten THL voi purkaa pseudonymisoinnin.
Soini puhuu unelmapilvestä, jossa data ei itse asiassa liikkuisi.
”Dataa voitaisiin tallentaa tietoturvallisesti kansainväliseen tietokantaan. Haku ja tunnistautuminen olisi suoraan mahdollista ja saatavilla luottamusverkoston puitteissa edellyttäen, että datasetit olisivat valmiina. Tällöin jokainen rekisterinpitäjä kontrolloisi dataansa ja arvioisi pyyntöjä käyttää rekisteriä. Ideaalitapauksessa lupa voi kohdistua useisiin datasetteihin ympäri maailmaa, jolloin meillä olisi jonkinlainen federoitu ratkaisu: data itsessään ei liikkuisi vaan tutkija saisi käyttöönsä ”unelmapilven.” Siihen olisi tutkijoilla pääsy eri paikoista.”
Ari Turunen
30.12.2021
Lue artikkeli PDF-muodossa
Sitaatti
Ari Turunen, Pasi Kankaanpää, Sirpa Soini, & Tommi Nyrönen. (2021). Sensitive data infrastructure. https://doi.org/10.5281/zenodo.8135532
Lisätietoja:
Suomen molekyylilääketieteen instituutti (FIMM), Helsingin yliopisto
THL Biopankki
Euro-BioImaging
CSC – Tieteen tietotekniikan keskus Oy
on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
ELIXIR
rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.