Terveysdataa ymmärtävä tekoälymalli varoittaa tulevista sairauksista

Yhdistämällä perimästä saatavaa tietoa eli genomitietoa kansallisissa terveydenhuollon rekistereissä olevaan dataan, voidaan kehittää tekoälymalli, jolle voidaan esittää kysymyksiä mahdollisista tulevaisuuden sairaalahoidoista. Tällaiset tilastolliset ja koneoppimisen mallit kykenevät ennustamaan sairauksien esiintymistä.

Apulaisprofessori Andrea Ganna Helsingin yliopiston Suomen molekyylilääketieteen instituutista (FIMM) on kiinnostunut geneettisen ja tilastollisen datan yhdistämisestä.

”Terveydenhuollossa voidaan hyödyntää koneoppimista, koska se oppii koko ajan valtavasta datamäärästä. Tekoälylle voidaan esittää kysymyksiä tulevaisuuden mahdollisiin sairaalahoitoihin liittyen. Tekoäly voi kertoa, mikä on elinajanennuste tai kuinka paljon reseptilääkkeet maksavat tietynlaisella elämäntyylillä ensi vuonna. ”

Ganna on hyödyntänyt suuria aineistoja tunnistaakseen demografisia ja geneettisiä tunnusmerkkejä, jotka ovat yleisten ja monitekijäisten tautien taustalla. Tekoäly voi tehdä jokaiselle henkilökohtaisen riskilaskelman, joka tehdään mallintamalla sairauksien ja lääkitysten pitkittäisseurannasta saatua dataa yhdessä geeni-, perhe- ja väestödatan kanssa.

Yksi maailman laajimpia datan toisiokäytön tutkimuksia

Ganna käyttää tutkimuksissaan erityisesti FinRekisterit-aineistoa. FinRekisterit on Terveyden ja hyvinvoinnin laitoksen (THL) ja Suomen molekyylilääketieteen instituutin yhteinen tutkimusprojekti, jonka vastuututkijana toimii tutkimusprofessori Markus Perola. Se on yksi maailman laajimpia rekisteridatan toisiokäyttöön perustuvia tutkimuksia.

”Datakokoelmassa on 7,2 miljoonaa yksilöä eli kaikki Suomen kansalaiset sekä osa jo kuolleita sukulaisia. Siinä on paljon erilaista ja monipuolista tietoa. Saatavilla on terveystietoa, tietoja perhesuhteista, sosio-ekonomista tietoa, laboratoriotuloksia ja lääkereseptejä. Tämä on todella laaja datakokoelma.”

Aineistossa on 19 eri maanlaajuista rekisteriä, kuten Syöpärekisteri, Lääkeostorekisteri ja Kanta. Kanta on rekisteri, johon kerätään terveydenhuollossa ja apteekeista saatuja asiakas- ja potilastietoja. Kokoelmassa yksinomaan lääkeostoja on rekisteröity kokoelmaan yli miljardi. Ne ovat datapisteitä eli jokainen yksittäinen fakta on datapiste. Niitä datakokoelmassa on yhteensä yli 6,5 miljardia.

”Pidän hanketta ainutlaatuisena. Data on rikasta ja monipuolista”, sanoo Ganna.

”Terveystiedon yhdistäminen sosiaaliseen ja ekonomiseen informaatioon on minulle erittäin olennaista. Monesti näitä pidetään erillisinä, mutta tietojen yhdistäminen on erittäin tärkeää terveydelle. Meidän täytyy tarkastella sosio-ekonomista tietoa ymmärtääksemme kuinka ”reiluja” tekoälymallit ovat. Emme halua tekoälymallia, joka tekisi työnsä huonoimmin väestömme kaikkein haavoittuvimmissa osissa.”

Riskiryhmään kuuluvien tunnistaminen voi edistää sairauksien ennaltaehkäisyä

Kun data on kerätty eri rekistereistä, yksilölliset tiedot salataan ja tallennetaan Suomen ELIXIR-keskuksen CSC:n sensitiivisen datan palveluihin. Ganna tutkimusryhmineen analysoi dataa tässä tietoturvallisessa ympäristössä.

”Olemme yhteistyössä CSC:n kanssa kehittäneet palveluja hyödyllisemmiksi tutkijoille. Olemme aloittaneet yksinkertaisista analyyseista kulkien kohti monimutkaisempia malleja.”

Andrea Gannan tutkimuksissa sensitiivistä dataa on valtava määrä.

”Luomme datamatriisin tekoälyä ja koneoppimisen malleja varten. Olemme myös hyvin tietoisia datan sensitiivisestä luonteesta. Emme pysty tunnistamaan yksilöitä ja käytämme erittäin kehittyneitä turvatoimia estääksemme luvattoman pääsyn dataan.”

Näitä tietoja voidaan käyttää eri tarkoituksiin.

”Saamme paremman ymmärryksen eri tautiryppäistä ja parempia ennusteita. Voimme laatia jopa digitaalista ikääntymistä kuvaavan kellon. Siinä käytetään koko väestön dataa, jotta voisimme antaa jokaiselle Suomen kansalaiselle eräänlaisen digitaalisen iän, joka perustuu terveystiedoista saadulle suuntaa-antavalle kehityskululle.”

Suunnitteilla on, että Ganna tutkimusryhmineen integroi rekisteridataa biopankeissa olevaan genomidataan. Kunnianhimoisena tavoitteena on tunnistaa yksilöissä kehittyviä sairauksia, joiden puhkeaminen voitaisiin estää. Tulevaisuudessa datan perusteella voitaisiin löytää riskiryhmään kuuluvia yksilöitä, jotka voisivat hyötyä ennaltaehkäisevistä lääkehoidoista. Andrea Gannan mukaan dataa on jo tarpeeksi, jotta tämä olisi mahdollista. Yhtenä hyvänä esimerkkinä tutkimusaineistosta Ganna mainitsee FinnGen-tutkimushankkeen, joka on tuottanut genomitietoa puolesta miljoonasta suomalaisesta. Hankkeessa on selvitetty suomalaisen väestön eri sairauksien geneettistä taustaa. Seuraavaksi on alettu selvittää, miten geenit vaikuttavat sairauksien etenemiseen.

”Biopankeissa oleviin, riskiryhmään kuuluviin ihmisiin voitaisiin olla yhteydessä. Tämä tietysti edellyttää että biopankeissa olevat ihmiset ovat antaneet kontaktointiin suostumuksensa.”

Gannan mielestä CSC:n sensitiivisen dataan liittyviä palveluita pitäisi pystyä kehittämään siihen suuntaan, että ne tukisivat erityisesti koneoppimisen malleja. Toistaiseksi tekoälymalleja on kokeiltu vain tutkimuksessa koska nykyisen lainsäädännön puitteissa ei voida automaattisesti käyttää rekisteridataa, jotta voitaisiin ottaa uudelleen yhteyttä riskiryhmään kuuluviin ihmisiin.

”Voimme laatia näitä kauniita malleja, mutta emme voi varoittaa riskiryhmäläisiä,” Ganna toteaa, mutta huomauttaa, että jos malleja yksinkertaistetaan tarpeeksi, niitä voidaan käyttää myös kliinisessä hoidossa.

Yhtenä esimerkkinä hän mainitsee RS-viruksen, jonka riskitekijöitä THL:n Markus Perola yhdessä FIMM:n Pekka Vartiaisen kanssa tutki FinRekisterit-hankkeessa. RS-virus (respiratory syncytial virus) on maailmanlaajuisesti yleisin pienten lasten hengitystieinfektioita aiheuttava virus. Tutkijat loivat yksinkertaistetun mallin, jota voitaisiin hyödyntää RSV:n kliinisessä hoidossa. Nyt Suomessa lääkärit voivat rekisteridatan perusteella tunnistaa, ketkä ovat vaarassa saada viruksen ja kenelle voisi antaa ajoissa hoitoa.

Andrea Ganna uskoo, että tulevaisuudessa terveydenhuolto hyötyy tekoälymalleista, joka ymmärtää terveysdataa.

”Tekoäly tukee päätöksentekoa auttamalla lääkäreitä paremmin tekemään yhteenvetoja heidän potilaidensa terveyden kehityskuluista. Tulevaisuus on valoisa.”

Ari Turunen

30.5.2024

Lue artikkeli PDF-muodossa

Sitaatti

Turunen, A., & Nyrönen, T. (2024). An AI model that understands health data warns of future diseases. https://doi.org/10.5281/zenodo.13691998

Lisätietoja:

Suomen molekyylilääketieteen instituutti (FIMM)

FIMM on osa Helsingin yliopiston HiLIFE Helsinki Institute of Life Science -tutkimuskeskusta.

https://www.helsinki.fi/en/hilife-helsinki-institute-life-science/units/fimm

CSC – Tieteen tietotekniikan keskus Oy

on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.

https://www.elixir-europe.org

Terveysdataa ymmärtävä tekoälymalli varoittaa tulevista sairauksista

Yksi maailman laajimpia datan toisiokäytön tutkimuksia

Riskiryhmään kuuluvien tunnistaminen voi edistää sairauksien ennaltaehkäisyä

ELIXIR SUOMI

ELIXIR PÄÄMAJA

MUUT MAAT