
Koronavirus ei ole kadonnut maailmasta ja voi muuntautua jälleen vaaralliseksi. THL:n tutkimusprofessori Markus Perola selvittää ryhmänsä kanssa rekisteri- ja genomitietojen perusteella, mitkä tekijät vaikuttavat siihen, että osa väestöstä sairastuu vaikeaan koronaan ja joutuu sairaalahoitoon. Tutkimus vaatii paljon laskentaa ja sensitiivisen datan käsittelyä.
Loppuvuonna 2019 ilmaantunut COVID 19-virus aiheutti pandemian, joka järkytti koko maailmaa. Tauti oli hengenvaarallinen iäkkäille. Maaliskuussa 2021 mennessä tautiin oli kuollut 2,5 miljoonaa ihmistä noin 15 kuukauden aikana. Maailmanlaajuinen kriisi vaikutti niin talouteen kuin terveydenhuoltoon.
”Pandemioita tulee, koska väkiluku kasvaa ja asumme tiiviimmin ja lähempänä tuotantoeläimiä. Samalla luonnon monimuotoisuus vähenee ja syömme yksipuolisemmin. Maapallo on oikeastaan petrimalja, jossa kasvatetaan pandemioita,” sanoo Markus Perola.
Koska uusia muotoja viruksesta voi ilmetä, on tärkeää ymmärtää viruksen toimintaa ja miten sitä vastaan voidaan taistella. Esimerkiksi COVID-19 Host Genetics Initiative-projektissa tutkijat ympäri maailmaa yhdistivät voimansa kerätäkseen tietoa koronavirustartunnan piirteistä.
Tarkoituksena on tunnistaa yksilöt, joilla on suuri riski saada vakava tauti. Projektin tuloksena löytyi yli 50 perimän aluetta, joissa voi olla COVID-19 -taudille altistavia geenejä. Osa näistä altistaa myös erityisen vaikealle tautimuodolle.
”Näitä tietoja hyödynnetään THL:n omassa tutkimuksessa, jossa selvitetään, miksi jotkut koronaan sairastuneista joutuvat sairaalaan. Yksi syy voi löytyä geeneistä, ” sanoo Markus Perola.
Perolan johtamassa tutkimuksessa kerätään dataa yli 3 000 henkilöstä, jotka ovat joutuneet sairaalahoitoon tai lievemmissä taudin muodoissa hakeutuneet koronavirustestiin. Tutkimuksessa käytetään rekisteritietoja. Näytteiden keräys tehdään yhteistyössä biopankkien kanssa. Verinäytteistä tutkitaan muita samanaikaisia tartuntatauteja, tulehduksen vakavuusastetta sekä muita elimistön tasapainosta kertovia arvoja.
”Kun aina puhutaan eri riskiryhmistä, unohdetaan se, että iso osa koronaan sairastuneista riskiryhmäläisistä ei joudu teho-osastolle tai kuole siihen. Esimerkiksi kuolleisuus koronaan yli 80-vuotiaissa on kymmenen prosentin luokkaa, mutta kymmenet prosentit eivät myöskään kuole. Eli mikä on näiden ryhmien ero? Entä miksi jotkut hyvin ylipainoiset ihmiset joutuvat teho-osastolle, mutta toiset eivät? Toiveeni on, että löydettäisiin riskiryhmät, joita voitaisiin parhaiten suojata rokotuksin.”
Perolan mukaan genetiikan ja rekisteridatan yhdistäminen antaa lisävalaistusta asiaan. Isojen datamäärien analysoinnista Perolalla on poikkeuksellisen kiinnostavia tutkimustuloksia. Tero Hiekkalinnan ja Joseph Terwilligerin kanssa hän teki simulaation, jossa testattiin miljoonan ihmisen genomin data-aineiston hyödyntämistä. Aineistossa oli myös kliinistä fenotyyppidataa. CSC:n supertietokoneella analysoitiin anonymisoitua dataa, jossa oli genomidatan lisäksi tietoja terveydestä, sukulaisuussuhteista, iästä, sukupuolesta. Tämä testi tuotti arvokasta uutta tietoa, miten suuria datamääriä voitaisiin tulevaisuudessa hyödyntää julkisessa terveydenhoidossa.
Miksi kansallisten terveysvariaatioiden ymmärtäminen on tärkeää kansakunnan terveydenhuollolle?
”Jos emme tunne suomalaisia erityispiirteitä, ei kukaan muukaan niitä tutki. Hyvänä esimerkkinä on suomalaisen tautiperimän taudit, joita on nelisenkymmentä tänne konsentroitunutta harvinaista sairautta. Geenitutkimuksessa tehdään vankkaa kansainvälistä yhteistyötä geenien tunnistamisessa ja geenien toiminnan selvittämisessä. Mutta sen tuomisen kliiniseen todellisuuteen tekevät suomalaiset. ”
Suomi on geneettinen isolaatti, koska se on historiallisesti kasvanut vähän erillään muista Euroopan maista. Meillä on oma perimän muotomme, jota on tutkimuksellisesti helppo lähestyä eri tavalla. Täältä löytyy sellaista biologiaa, mitä ei muusta väestöstä löydy. Täältä on löytynyt toistasataa suomalaista tauteihin vaikuttavaa varianttia, joita ei muissa väestöissä näy.
Perolan mukaan suomalainen väestö on tavallaan maailman suurin isolaatti.
”Meillä on tilastollista voimaa enemmän löytää näitä variantteja verrattuna muihin eristyksissä oleviin populaatioihin, kuten Islantiin. Harvinaiset geenivariantit tuovat uutta tietoa tautien biologioista mitä ei muista populaatioista saada. Ne voivat avata ihan uusia syitä ja teitä tautien ymmärtämiselle. Olisiko tähän lääke vai pitääkö kehittää lääke?”
Suomi on rekisteridatassa Perolan mukaan maa, josta katsotaan mallia. Näin tapahtui esimerkiksi Euroopan terveysdata-avaruuden EHDS:n luomisessa. Rekisteridataa on kerätty vuosikymmeniä. Esimerkiksi syöpärekisteri pystytettiin jo 1950-luvulla.
”Meillä on laajasti dataa rekistereissä, esimerkiksi Kanta. Siinä ovat omat terveystiedot ja reseptit tallennettu. Vastaavanlaista ei ole monessa maassa. Esimerkiksi niin että kaikki laboratoriotiedot olisivat saatavissa niin kuin meillä nykyään on. Meillä on mahdollisuus saada tutkijoiden käyttöön koko populaation data eri tietojärjestelmistä tai hallintorakenteista huolimatta.”
Perola ottaa esimerkiksi yhden tutkimuksensa. Siinä selvitettiin rekisteridatan perusteella, mikä erotti Suomessa niitä ihmisiä, jotka ottivat ensimmäisen koronarokotteen niistä, jotka kieltäytyivät.
”Haluttiin löytää niitä ilmiöitä, jotka kuvaavat niitä vajaata 20% suomalaista, jotka eivät ottaneet ensimmäistä rokotetta. Tarkastelimme perhesuhteita ja sosioekonomisia muuttujia: onko palkkatyössä vai ei, asuinpaikan sijainti ja äidinkieli. Datasta pystyi tieteellisesti perustelemaan, että viesti rokotteista ei tavoittanut maahanmuuttajia ajoissa ja että oli sellaisia henkilöitä, joilla ei ollut resursseja hankkia itse tietoa rokotuksesta.”
Toinen asia, mitä tutkittiin oli RS-viruksen aiheuttamaa infektiota alle 1-vuotiailla. RS-virus (respiratory syncytial virus, RSV) on RNA-virus, joka aiheuttaa maailmanlaajuisesti miljoonia hengitystieinfektioita vuosittain. Se on erityisen merkittävä pienten lasten infektioiden aiheuttaja.
”Rekisteridatan perusteella seurattiin niitä perheitä, joiden lapsi oli RS-viruksen saatuaan joutunut sairaalaan. Tutkimuksessa löydettiin sosioekonomiseen statukseen, vanhempien päihteiden käyttöön ja lapsen synnynnäisiin ominaisuuksiin liittyvää dataa. ”
Perolan mukaan tämä oli arvokasta tietoa, joka saatiin tekoälyä käyttämällä. Koneelle syötettiin rekisteridata ja opetettiin tunnistamaan tietyt piirteet datajoukosta.
”Tätä ei voitu tehdä muilla kuin CSC:n sensitiivisen datan palveluilla ja superlaskentaympäristössä.”
Markus Perola käyttää tutkimuksissaan geeni-ja rekisteridataa.
”Infrastruktuurin merkitys on tärkeä. Tutkimus tarvitsee sellaisia organisaatioita, kuten CSC, joka mahdollistaa analyysien teon. On ihan sama onko tutkija astronomi tai geenitieteilijä: molemmat käyttävät samaa infraa. Infrastruktuurille on aina vaikea saada rahaa kun säätiöt eivät niitä rahoita vaan olettavat, että valtio maksaa. Valtio taas sanoo, että hankkikaa rahoitus ulkopuolelta. Infran tukeminen on välttämätöntä, jotta voidaan tehdä huipputiedettä Suomessa.”
Ari Turunen
25.6.2024
Lue artikkeli PDF-muodossa
Sitaatti
Turunen, A., & Nyrönen, T. (2024). Why do some get the severe form of COVID-19?. https://doi.org/10.5281/zenodo.14810467
Lisätietoja:
CSC SD-connect
https://thl.fi/etusivuhttps://docs.csc.fi/data/sensitive-data/sd_connect/
Terveyden ja hyvinvoinnin laitos THL
CSC – Tieteen tietotekniikan keskus Oy
on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keski- tettyä tietotekniikkainfrastruktuuria.
ELIXIR
rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.