Euroopan miljoona genomia

THL yhteistyössä CSC:n kanssa on simuloinut miljoonan eurooppalaisen genomit. Simulointiin käytetty data oli aitoja julkisesti saatavissa olevia koko genomin sekvenssejä, mutta simuloinnissa niistä muodostettiin synteettisiä genomeja, jolloin ne eivät kerro oikeista ihmisistä. Simulointi tehtiin CSC:n LUMI-supertietokoneella. Tämä on yksi suurimpia ihmispopulaation perimän simulaatiota maailmassa. Simulaatio tehtiin EU:n 1+MG-aloitetta varten.

Vuonna 2018 EU julkisti 1+Million Genomes -aloitteen (1+MG), jonka kunnianhimoisena tavoitteena oli kerätä data, joka kattaa miljoonan eurooppalaisen ihmisen perimän. Projekti oli lajissaan yksi maailman suurimpia projekteja, johon osallistui 27 maata. Eurooppalaisen genomidatan tietoturvallinen käyttö mahdollistaa personoidun terveydenhoidon ja paremman diagnostiikan. Tämä parantaa erityisesti syöpien ja hermostollisten sairauksien hoitoennusteita.

Datakokoelma anonymisoidaan, joten yksiköllisiä ja tunnistettavia tietoja ei löydy. Tavoitteena on luoda kansalliset rajat ylittävä federoitu hallinto, jonka kautta on pääsy kansallisiin genomiarkistoihin.

”Minun näkökulmastani tämä 1+MG:n synteettisen datan projekti oli ainutlaatuinen haaste: miten imuloimme tehokkaasti populaation, jonka viimeisessä sukupolvessa on miljoona ihmistä ja joka vastaa kaikilta ominaisuuksiltaan, niin perimän, dataformaattien kuin kokonsa puolesta aitoa genomidataa, mutta on simuloituna täysin vapaasti jaettavissa ilman tietoturva-ongelmia? Loppujen lopuksi me simuloimme n. 25 miljoonan ihmisen populaation, joista vain hieman yli miljoonalle teimme synteettiset genomit. Tällainen datakokoelma mahdollistaa lukuisat erilaiset tutkimus-, harjoittelu- ja kehittämisprojektit, kuten 1+MG, ilman eettisjuridisia haasteita ja tietoturvaesteitä”, sanoo dosentti Tero Hiekkalinna THL.stä.

Nyt simuloitiin miljoonan ihmisen synteettinen aineisto kymmenine fenotyyppeineen. Mukana oli siis tietoja ympäristön aiheuttamista vaikutuksista yksilöiden fenotyyppeihin.

Miljoonan genomin simuloinnin rahoittivat Suomessa sosiaali- ja terveysministeriö sekä opetus-ja kulttuuriministeriö. Hiekkalinnan mukaan aineiston luomisessa ja hallinnassa oli valtavia haasteita.

”Aineistojen koko projektin aikana vaati kymmeniä teratavuja levytilaa.”

1+MG-aloitetta seurasi vuonna 2020 alkanut B1MG (Beyond 1 Million Genomes), joka päättyi tammikuussa 2024. B1MG-projektissa määritettiin suuntaviivat ja suositukset eri Euroopan maista saadun genomidatan federoidulle hallinnolle. Suomen ELIXIR-keskus CSC oli yksi hankkeen vetäjistä ja koordinaattoreista. Biopankkien toimintaa yritetään saada yhteensopivaksi valtakunnan rajat ylittävään datainfrastruktuuriin. B1MG-hankkeessa CSC johti teknistä infrastruktuurityötä.

THL:n ja CSC:n simuloima miljoonan genomin data laitetaan saataville eurooppalaiseen federoituun genomi-fenomi-arkistoon (FEGA). FEGA on on tarkoitettu biolääketieteellisten tietojen tallentamiseen ja jakamiseen tutkimusta varten, mutta dataa ei ole tarkoitus levittää täysin julkisesti. Suomen tietokantaa ylläpitää CSC. FEGA on yhteydessä Euroopan genomi-fenomi arkistoon (EGA). EGA on yksi maailman laajimmista julkisista datavarastoista.

Sama simuloitu data on tulevaisuudessa myös GDI-projektin käytössä. Vuonna 2022 käynnistettyä genomidatan infrastruktuuria (Genomic Data Infrastructure) koordinoi ELIXIR. GDI:n tarkoituksena on luoda lopullinen infrastruktuuri, joka mahdollistaa pääsyn eurooppalaisista kerättyyn genomidataan sekä kliiniseen dataan.

Tulevaisuudessa eurooppalaisia odottavat entistä nopeammat ja tarkemmat diagnoosit. Kerätty ja analysoitu genomidata mahdollistaa paremman lääkeainesuunnittelun ja ennaltaehkäisevät lääkehoidot. Kaikki tämä johtaa parempaan terveyteen ja elinajanodotteeseen. Tämän mahdollistamiseksi tarvitaan datan esikäsittelyä ja harmonisointia, kuten myös tietoturvallisia, skaalautuvia ja joustavia teknisiä ratkaisuja.

Viisi käyttötapausta syövästä harvinaisiin sairauksiin

Nähin toisiinsa liittyvissä kolmessa hankkeessa hyödynnetään viittä käyttötapausta. Nämä käyttötapaukset ovat olennaisia lopullisen GDI-infrastruktuurin rakentamiselle. Euroopan genomi (Genome of Europe) luo viitedatakokoelman genomiikkaa hyödyntäville terveysohjelmille Euroopan maissa: kukin maa luovuttaa genomidataa suhteessa väkilukuun. Datamalli kehitetään syöpään liittyvästä kliinisestä informaatiosta ja genomiikasta saadusta metadatasta. Monigeeninen riskisumma (polygenic risk score, PRS) luodaan potilaan hoitoon liittyvää päätöksentekoa varten: yksilöllisessä riskisummassa otetaan huomioon miljoonia geneettisiä variaatioita. Harvinaisissa sairauksissa olennaista on geenivarianttien esiintyminen eri populaatioissa ja geenimutaation ja sairauden yhteyden selvittäminen. Lisäksi testataan Euroopan maiden välillä kunkin maan keräämän COVID-19-datan jakamista.

Ari Turunen

2.3.2024

Lue artikkeli PDF-muodossa

Sitaatti

Nyrönen, T., & Turunen, A. (2024). A million European genomes. https://doi.org/10.5281/zenodo.13691032

Lisätietoja:

Hiekkalinna, Tero; Heikkinen, Vilho; Perola, Markus; Terwilliger, Joseph (2023):

Simulated European Genome-phenome Dataset of 1,000,000 Individuals for 1+Million Genomes Initiative.

1+MG Framework

https://framework.onemilliongenomes.eu

Beyond 1 Million Genomes (B1MG)

https://b1mg-project.eu

CSC – Tieteen tietotekniikan keskus Oy

on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keski- tettyä tietotekniikkainfrastruktuuria.

http://www.csc.fi https://research.csc.fi/cloud-computing

ELIXIR

rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.

https://www.elixir-finland.org

http://www.elixir-europe.org

Euroopan miljoona genomia

Viisi käyttötapausta syövästä harvinaisiin sairauksiin

ELIXIR SUOMI

ELIXIR PÄÄMAJA

MUUT MAAT