CSC oli mukana johtamassa eurooppalaista B1MG-projektia (Beyond One Million Genomes), joka keskittyi luomaan genomidatan käytölle turvallisen rajat ylittävään federoituun infrastruktuurin. Nyt hanketta seuraa genomidatan infrastruktuuri GDI, joka mahdollistaa tutkijoiden pääsyn eurooppalaiseen genomidataan ja kliiniseen dataan.
Tavoitteena on parantaa diagnostiikkaa ja farmakogenomiikkaa eli toisin sanoen perintötekijöiden yksilöerojen vaikutusta lääkevasteeseen. Toinen tavoite on tukea tutkimuksessa käytettävän datan toisiokäyttöä. Arvokasta dataa kerätään potilasaineiston perusteella syövistä, harvinaisista ja polygeenisistä (monitekijäisistä) sairauksista. Aineistoa on saatu myös sairautta aiheuttavista patogeeneistä sekä infektiotaudeista, kuten esimerkiksi COVID-19-viruksesta.
Tämä data voi luoda pohjan yksilöllisille lääkehoidoille, jossa hyödynnetään polygeenistä riskiarvioita. Geneettinen riski lasketaan henkilökohtaisen polygeenisen riskisumman (polygenic risk score, PRS) avulla, jossa on otettu huomioon miljoonia geneettisiä variaatioita.
Kolmivuotinen B1MG-projekti päättyi lokakuussa 2023. B1MG-hankkeessa Suomen ELIXIR-keskus CSC johti teknistä infrastruktuurityötä.
”B1MG oli koordinaatio- ja tukihanke, jonka tehtäväksi annettiin tiekartan ja parhaiden käytäntöjen määrittäminen vaadittavan infrastruktuurin käyttöönottamiseksi ja 1+Million Genomes -aloitteen tavoitteen tukemiseksi. CSC yhtenä teknisen infrastruktuurin työpaketin johtajana pystyi viemään sellaiset päätökset tiekarttaan, joilla varmistettiin, että ne olivat linjassa CSC:n nykyisen ja tulevien edellytysten, kuten sensitiivisen datan palvelujen, kanssa”, sanoo vanhempi koordinaattori tohtori Dylan Spalding CSC:stä.
Spalding työskenteli B1MG-projektissa yhden työpaketin toisena johtajana. Työpaketti keskittyi yksilölliseen lääkehoitoon.
”B1MG:n todellinen hyöty on siinä, että se on asetellut suunnan GDI-projektille, joka laittaa täytäntöön Euroopan laajuisen federoidun infrastruktuurin tukemaan rajat ylittävän pääsyn yli miljoonaan genomiin. Tässä on potentiaalia auttamaan tutkimuksen demokratisoitumista ja edistämään yksilöllistä lääkehoitoa EU:ssa.”
CSC:llä yhtenä infrastruktuuri-pilarin vetäjistä on johtava rooli tässä työssä. Myös Life Science AAI (Authentication and Authorization Infrastructure) ja REMS (Resource Entitlement Management System ) ovat sovelluksia, jotka ovat jo käytössä tukemassa dataan pääsemisen hallinnassa. Spaldingin mukaan tämän pitäisi olla hyvin linjassa jo olemassa olevan federoidun EGA-solmupisteen ja sensitiivisen datan palveluiden kanssa. Federoitu EGA (European Genome-phenome Archive) on hajautettu ratkaisu ihmisistä kerätyn omiikka-datan jakamiseen ja vaihtamiseen yli valtion rajojen.
”GDI on erittäin tärkeä harvinaisten sairauksien tutkimiselle ja yksilölliselle lääkehoidolle, mutta myös syövän, tartuntatautien ja yleisten ja monimutkaisten tautien tutkimiselle. Silti, infrastruktuuri ei ole erikoistunut millekään tietylle taudille vaan tukee kaikkien tautityyppien tutkimista, Kehitystä sysää eteenpäin 1+ Million Genomes -projektin käyttötapaukset, kuten myös Genome of Europe-hanke, jonka tavoitteena on rakentaa 500 000 kansalaisen viitekohortit Euroopassa.
Spaldingin mukaan B1MG näytti toteen konseptitodistetun version Starter Kit -palvelusta, joka liittyy harvinaisten sairauksien ja syövän käyttötapauksiin. Starter Kit on kokoelma ohjelmistoja, jotka 20 GDI:n solmua ovat kehittäneet.
GDI:n rakentamisen pohjaksi on luotu Starter Kit. B1MG määritteli viisi toiminnallisuutta joita tarvitsee tukea – datan vastaanottaminen, datan etsiminen, dataan pääsyn hallinta, tallentaminen sekä käyttöliittymät ja käsittely.
Starter Kit sisältää yli 2500 synteettistä genomia ja fenotyyppistä dataa syövästä ja harvinaisista sairauksista. Se on ensimmäinen askel kohti tuotanto-infrastruktuuria.
”Starter Kit mahdollistaa pääsyn sensitiivisen genomiikka-dataan ja fenotyyppisen dataan sekö datan etsimisen ja analyysin. Valikoima synteettistä dataa sisältyy siihen jolloin voidaan havainnollistaa näitä toiminnallisuuksia ilman riskiä siitä, että oikeaa genomiikka-dataa ja fenotyyppistä dataa vuotaisi muualle.”
Kehittynyt versio Starter Kit-palvelusta integroidaan GDI:n portaaliin.
Spalding uskoo, että GDI:n valtava datamäärä mahdollistaa yksilölliset hoidot entistä paremmin
”GDI:llä on potentiaalia tukea koneoppimista ja tekoäly-menetelmiä nopeuttaen siirtymistä yksilölliseen lääkehoitoon.”
Professori Arto Mannermaan ryhmässä Itä-Suomen yliopistossa kehitetään genomidatan ja kliinisen datan perusteella oppivia algoritmeja, jotka tunnistavat ja ennustavat rintasyövän riskitekijöitä. Genomidata ja kliininen data yhdistetään tekoälymalliksi, joka auttaa paitsi sairastumisriskin määrittämisessä, myös yksilöllisten hoitosuunnitelmien tekemisessä.
Mannermaan ryhmässä luodaan tekoälymalleja kuvadatasta. Mitä muuta dataa pitäisi yhdistää kuvadataan, jotta parannettaisiin terveydenhoitoa?
”Olemme liittäneet kuvantamisdataan nyt genomitietoa. Mitä enemmän data-modaliteetteja voidaan yhdistää, sitä paremmin pystymme tunnistamaan menestyksekkääseen syövän hoitoon liittyvät tekijät sekä todennäköisesti tunnistamaan tautiriskiin vaikuttavat tekijät.”
Tautiriskiin vaikuttavia tekijöitä ovat esimerkiksi tiedot hoitovasteesta tai muu hoitoon liittyvä kliininen tieto.
”Mitä enemmän dataa saamme käyttöömme, sitä isommaksi kasvavat laskentaympäristön vaatimukset. Liitännäisdataa voidaan saada esimerkiksi sähköisistä potilastietojärjestelmistä biopankkien kautta.”
Ari Turunen
29.4.2024
Lue artikkeli PDF-muodossa
Sitaatti
Turunen, A., & Nyrönen, T. (2024). An infrastructure for genomic data. https://doi.org/10.5281/zenodo.13691595
Lisätietoja:
Genomic Data Infrastructure
https://gdi.onemilliongenomes.eu
Beyond One Million Genomes
https://b1mg-project.eu/1mg/genome-europe
Itä-Suomen yliopisto
CSC – Tieteen tietotekniikan keskus Oy
on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keski- tettyä tietotekniikkainfrastruktuuria.
ELIXIR
rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.