• Suomi
  • English

VEIL.AI: potilastietoja hunnutettuina

Potilasdata on tärkeää tutkimukselle. Henkilön tietosuojasta huolehditaan piilottamalla tai muokkaamalla tunnistetietoja, mutta samalle tutkijalle jää tutkimukselle merkittävä tilastollinen data. Uusi tekoälyä käyttävä palvelu mahdollistaa tämän.

VEIL.AI anonymisoi potilasdatan perinteisiä menetelmiä tehokkaammin, nopeammin ja informaatiota paremmin säilyttäen. Tarvittaessa sovelluksen avulla voidaan tuottaa myös synteettistä, täysin anonyymia eli siis yksittäisestä henkilöstä erillään olevaa tilastollista dataa.

Suomen molekyylilääketieteen instituutissa (FIMM) kehitetty sovellus on nyt tarjolla ELIXIR -infrastruktuuriin, jonka kanssa kehitetään yhteistä palvelua. Dataa hallinnoiva organisaatio voi suojata datansa syöttämällä metadatatiedot skaalautuvaan pilvipalveluun. Palvelu verhoaa yksilökohtaiset tunnisteet, jolloin tutkijat saavat käyttöönsä anonymisoitua ja tarvittaessa synteettistä dataa.

Tekoäly apuna

Biopankin näytteitä. Kuva: FIMM

VEIL.AI –sovellus hyödyntää tekoälyyn perustuvaa mallintamista. Sovelluksessa luodaan huntu, joka suojelee potilaan tunnistetietoja mutta se osaa tunnistaa relevantin datan, jolloin se ei hävitä sitä.

“Toisinaan, esimerkiksi koneoppivia malleja kehitettäessä, tarvitaan dataa laajemmin ja nopeammin kuin mitä tutkimuseettiset lautakunnat mielellään antavat. He edellyttävät jokaisen muuttujan tarkkaa perustelua, mikä taas on koneoppivissa malleissa vaikeaa siinä vaiheessa, kun parasta mallia vasta haetaan,“ sanoo kaupallistamisasiantuntija Tuomo Pentikäinen.

Siksi varsinkin mallintamisen alkuvaiheessa onkin Pentikäisen mukaan järkevää käyttää synteettistä dataa, jota VEIL.AI -menetelmällä voidaan luoda.

“Tällä tarkoitetaan taustalla olevista ihmisistä kokonaan irrallaan olevaa dataa, joka kuitenkin käyttäytyy haluttujen muuttujien suhteen samoin kuin alkuperäinen data.”

VEIL.AI löytää henkilön tunnistamiselle herkät muuttujat ja pystyy nämä muuttujat anonymisoimaan automaattisesti.

”Sovelluksessa voidaan tehdä suunnitelmallisemmin ja järkevämmin laskennallisesti raskaita ja operatiivisesti työläitä datan osittamiseen ja anonymisointimetriikoiden laskemiseen liittyviä toimenpiteitä.”

Arkaluontoista potilasdataa pitää pystyä suojelemaan, mutta monet perinteiset anonymisointimallit hävittävät samalla tärkeääkin dataa. Perinteisesti potilastietoja on suojattu osittamalla ja karkeistamalla datassa olevia tunnistetietoja. Anonymisoinnissa tutkitaan sitä, miten muuttujat jakavat/osittavat tiedon erilaisiin ryhmiin. Sitten kutakin ryhmää tarkastellaan erikseen ja jos sieltä löytyy liian tunnistettavia muuttujia, niitä karkeistetaan. Karkeistuksessa esimerkiksi ikää voidaan pyöristää muutamalla vuodella ja ammattinimike vaihtaa sairaanhoitajasta ”terveydenalan ammattilaiseksi”.

”Liian tunnistettavat muuttujat karkeistetaan siis riittävän yleiselle tasolle tai jopa poistetaan. Terveysdatassa poistamisia joudutaan aika usein tekemään, kun jokin muuttuja on liian ainutlaatuinen ja tunnistettava”, sanoo Pentikäinen.

Karkeistaminen voi siis hukata tärkeää potilasdataa.

Biopankkinäytteet Meilahdessa Helsingissä säilytetään -180 asteen lämpötilassa nestemäisen typen kaasufaasissa.Terveyden ja hyvinvoinnin laitos (THL) testasi ensimmäisenä ELIXIR AAI:n federoidun tunnistautumiseen ja käyttöluvan hallintaan perustuvaa prosessia biopankin näytteistä kerätyille sensitiivisille aineistoille. Kuva: FIMM

”Tyypillisesti tätä tapahtuu silloin, kun kiinnostava ilmiö (vaikkapa sairaus) on kohtalaisen harvinainen ja jakaantuu melko tasaisesti koko tietomassaan. Kun tietomassa sitten jaetaan ositteisiin anonymisointia varten, on tavallista että kiinnostuksen kohteena oleva ilmiö jakautuu entistäkin harvinaisempana kuhunkin uuteen ositteeseen. Tällöin on tavallista, että perinteiset menetelmät tulkitsevat kyseessä olevan kiinnostavan datan ”outlieriksi” kussakin uudessa ositteessa ja se siivotaan pois. Tämä on typerää, koska fiksummin valitulla strategialla kiinnostava ilmiö olisi saatu kerätyksi ositteisiin siten, että tärkeä informaatio voidaan säilyttää paremmin. ”

Suomen molekyylilääketieteen instituutin IT-päällikkö Timo Miettinen ottaa esimerkiksi potilaan, jolla on harvinainen versio rintasyövästä. Liian raju karkeistus voi kokonaan hävittää tiedot harvinaisesta versiosta, koska tällaisia potilaita on datajoukossa vähän.

”Rintasyöpäpotilaalla on yksi diagnoosi, mutta hänen geneettinen profiiliinsa kertoo, että hänellä on rintasyövästä harvinainen versio. Näitä potilastapauksia voi olla yhdessä sairaalassa muutamia, jolloin se voidaan luokitella outlieriksi ja deletoidaan. Mutta koko populaatiota ajatellen näin ei ole ole. Jos kokonaisuutta pystyttäisiin tarkastelemaan paremmin, tämä outlier, poikkeava havainto, ei olisi deletoitu.”

Timo Miettinen on pitkään ollut mukana suunnittelemassa tietojärjestelmiä, joissa hyödynnetään ja suojataan kliinistä dataa. Miettinen ryhmineen on kehittänyt VEIL.AI-sovelluksen, jota ollaan kaupallistamassa. Tällainen mikropalvelu on luotu EU:n tietosuoja-asetuksen GDPR:n takia.

Suomessa on jokaisella biopankilla käytössään oma koodirekisteri. Koodirekisterissä on henkilötunnus sekä synonyymitaulukko, jolloin luodaan tutkittavalle tunniste, joka on pseudonyymi eli peitetunniste.

”Joitakin asioita on vaikea muuttaa, kuten pituus, silmien väri ja syntymäpaikka. Ne ovat tilastollisilla menetelmillä tunnistettavissa. Samoin terveyteen liittyvä tapahtumasarja eli hoitohistoria”, sanoo Miettinen.

”Meillä on kaksi lupausta. Ensinnäkin lupaamme skaalautuvuutta ja enemmän suorityskykyä. Pystymme hyödyntämään jatkuvasti päivittyvää dataa monesta lähteestä. Ne voimme anonymisoida tehokkaasti ja tietoturvallisesti. Toinen lupauksemme on, että yritämme minimoida tietohävikkiä. Sovelluksella huomioidaan datan sisältö ja täytetään samalla anonymisointikriteerit”, sanoo Miettinen.

Skaalautuva pilvipalvelu

VEIL.AI on tekoälysovellus, jolla data voidaan anonymisoida. Se voi anonymisoida esimerkiksi telemetristä, sensoridataa ja jatkuvasi päivittyvää dataa. Se tuottaa myös haluttaessa synteettisen datan halutusta datajoukosta.

VEIL.AI -sovelluksessa käytetään neuroverkkoa, jopa on jopa tuhansia kertoja nopeampi kuin perinteiset menetelmät.

”Menetelmämme mahdollistaa aikaisempaa turvallisemman tiedon jakamisen, sillä neuroverkon opettamisen jälkeen kukin luottamuksellisen tiedon haltija voi suorittaa anonymisoinnin ennen kuin luovuttaa luottamuksellista tietoa partnereilleen. Usein menetelmämme tuottaa myös parempaa dataa, sillä voimme kokeilla valtavan määrän erilaisia datan osittamisstrategioita ja valita niistä sen, joka tuottaa pienimmän informaatiohävikin ja silti saavuttaa tavoitellun anonymiteettitason, ” sanoo Pentikäinen.

Tietoturvalle tärkeää on myös VEIL.AI -sovelluksen käytössä se, että potilasdata ei siirry minnekään.

”Me emme halua hallinnoida dataa. Meidän palvelumme läpi striimataaan dataa, joka anonymisoidaan ja palautetaan sitten välittömästi asiakkaan hallintaan,” sanoo Tuomo Pentikäinen.

”Tarjolla on skaalautuva pilvipalvelu. Käyttöliittymän kautta voidaan syöttää tarvittavat metadatatiedot (data dictionary) ja opettaa algoritmi tekemään datan anonymisointimallin jollakin esimerkkiaineistiolla. Algoritmi oppii käsittelemään dataa ja jos tulee lisädataa, se striimataan pilvipalvelun kautta ja anonymisoidaan,” Timo Miettinen korostaa.

Organisaatioiden ei siis tarvitse jakaa sensitiivistä dataa enää kenellekään. Data tulee anonymisoituna pilvipalvelun kautta tutkimuksen käyttöön.

Eri pseudotunnisteiden analysoimiseen tarvitaan paljon laskentaa, jota on saatu ELIXIR -infrastruktuurista.

Ari Turunen

Lue artikkeli PDF-muodossa.

VEIL.AI

http://www.veil.ai

FIMM

Suomen molekyylilääketieteen instituutti (FIMM) on kansainvälinen tutkimuslaitos, jonka toiminta keskittyy sairauksien molekyylitason mekanismien selvittämiseen genetiikan ja lääketieteellisen systeemibiologian menetelmin. Tavoitteena on tutkimustiedon siirtäminen terveydenhuollon käyttöön mm. henkilökohtaista lääketiedettä edistämällä.

www.fimm.fi

 

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
http://www.elixir-finland.org
http://www.elixir-europe.org