• Suomi
  • English

ELIXIR Compute Platform -laskentaympäristö bio- ja terveystieteille

ELIXIR on rakentanut tutkijoille monipuolisen laskenta-alustan, jossa on useita tutkijoille tärkeitä palveluja. Käyttöluvan saatuaan tutkija voi alustalla hyödyntää laskennan lisäksi useita datalähteitä sekä tallentaa, siirtää ja analysoida dataa. Kaikki palvelut yhdistyvät saumattomaksi työnkuluksi.

ELIXIR Compute Platform (ECP) rakennettiin vuosien 2015-2019 aikana biolääketieteiden tarpeisiin. ECP on maantieteellisesti hajautettu alusta, jossa ELIXIR keskukset toimivat yhdessä biologisen tiedon hallinnan palveluiden tuottamiseksi. Keskukset toimivat itsenäisesti, mutta niitä yhdistää käyttäjien tunnistaminen ja valtuutus (AAI), jolla pilvipalvelut ja laskenta sekä tallennus- ja tiedostonsiirtopalvelut voidaan koordinoida. Tutkija kirjautuu järjestelmään, joka tunnistaa tutkijan sähköisen identiteetin ja samalla antaa eri tasoisia käyttöoikeuksia biolääketieteelliseen dataan. Tutkijat voivat tämän jälkeen luoda tietoturvallisen analyysiympäristön käyttämilleen ohjelmistoille. Data on eurooppalaisella pilvilaskenta-alustalla. Käyttöympäristö myös auttaa tutkijaryhmiä luomaan skaalautuvia palveluja.

Tuhannet tutkimuslaboratoriot tuottavat massiivisia määriä dataa. Datan monimutkaisuus myös kasvaa, mikä on suuri haaste. Dataa pitää hallinnoida siten, että kaikki käyttäjät ymmärtävät ja käsittelevät sen samalla tavalla. Tehokas datanhallinta edellyttää federaatiota, jolla on hallussaan infrastruktuuri, jossa käyttäjä pääsee siirtämään, vaihtamaan, käsittelemään ja analysoimaan dataa. Siksi ECP kehitettiin yhteistyössä eri ELIXIR-keskusten ja eurooppalaisten tutkimusinfrastruktuurien kanssa. ECP:n tutkijoille tarkoitetut palvelut rakennettiin yhteistyössä neljän eri tieteellisen käyttäjäyhteisön kanssa. Näitä olivat merien mikrobien, viljely- ja metsäkasvien, ihmisten geenien ja harvinaisten sairauksien tutkijat.

ECP:ssä olevia palveluja tarjoavat eri ELIXIR-keskukset. ELIXIRin AAI-palvelu (Authentication and Authorisation Infrastructure) mahdollistaa sen, että käyttäjien tunnistaminen ja käyttöoikeuksien myöntäminen on sähköistä. Pääsystä dataan päättää aina datan tai laskentapalvelun omistaja, mutta AAI:n avulla pääsy dataan nopeutuu ja datan käyttöpolitiikka ja analysointi on selkeää ja suoraviivaista käyttäjälle.

Datan siirtoon käytetään suuritehoista verkkoa ja ohjelmistojen avulla sen päälle rakennettuja rajapintoja, eräänlaisia dataputkilinjoja (data pipeline). Niillä hoidetaan datan siirto paikasta toiseen sekä datan prosessointi ja analysointi. Datavirrat jaetaan pienempiin osiin ja niitä prosessoidaan rinnakkain, jolloin saadaan lisää laskentatehoa ja siirto tapahtuu ilman pullonkauloja ja viiveitä. Analyysejä voidaan suorittaa hajautetusti. Jos data on sensitiivistä tarvitaan tietoturvafederaatiota.

 

Datatiedostojen siirtäminen eri paikkojen välillä on ECP:n keskeisiä toiminnallisuuksia. Tällä hetkellä on 1800 erilaista biologista tietokantaa, jotka tallentavat tiedot erilaisiin formaatteihin ja standardeihin sekä kuvaavat ja luokittelevat talletetun datan eri tavoin. ECP:ssä eri lähteistä saatu data on kuvailtu yhteismitallisesti. Datan siirtoon käytetään suurtehoista verkkoa ja ohjelmistojen avulla sen päälle rakennettuja rajapintoja, dataputkilinjoja (data pipeline). Niillä hoidetaan datan siirto paikasta toiseen sekä datan prosessointi ja analysointi.

 

ECP:ssä oli vuonna 2019 käytössä 50 000 teratavua tallennuskapasiteettia. Se tarjosi 80 000 erillistä laskentaydintä, prosessointia tekevää yksikköä. Vuodesta 2017 vuoteen 2019 tallennuskapasiteetti kaksinkertaistui ja hajautetun laskennan resurssit lisääntyivät 33%. Vuonna 2019 ECP:llä oli 3100 käyttäjää.

Merien metagenomiikka

 

Mikrobiyhteisöt vaikuttavat ihmisten ja eläinten elämään ja ovat tärkeitä eri ekosysteemeille. Kuitenkin vain pieni osa mikrobeista on luokiteltu ja analysoitu. Mikrobiyhteisöjen genetiikan tutkiminen on synnyttänyt uuden biotieteen alan, metagenomiikan. Joukko ympäristöstä noukittuja ja sekvensoituja geenejä voidaan analysoida samalla tavoin kuin yksittäisen lajin genomia eli perimää.

Valtameret ovat maailman suurin yhtenäinen ekosysteemi. Planktonin merkitys maailman ilmastolle on vähintään yhtä merkittävä kuin sademetsien. Kuitenkin vain pieni osa niistä organismeista, jotka luovat tämän ekosysteemin, on luokiteltu ja analysoitu. Planktoneiden muodostamat ekosysteemit sisältävät valtavasti elämää: yli 10 miljardia organismia on jokaisessa litrassa valtameren vettä sisältäen viruksia, prokaryootteja, yksisoluisia eukaryootteja ja polttiaiseläimiä. Nämä ainutlaatuiset organismit sisältävät bioaktiivisia yhdisteitä, joille on käyttöä lääketeollisuudessa, elintarvikkeina, kosmetiikassa, bioenergiassa ja nanoteknologiassa. Vuosina 2009-2013 kansainvälinen tutkimusmatka Tara Oceans keräsi 210 mittauspaikasta maailman valtameristä 35 000 biologista näytettä. Se on laajin planktonista kerätty kokoelma.

ELIXIR rakensi pysyvän julkisen datavarannon, jotta voitaisiin parantaa merestä saatujen metagenomiikkanäytteiden tunnustamista ja kartoitusta. Tunnistamiseen tarvittavat työkalut ja datan prosessoinnin dataputket tehtiin mahdollisiksi siirtää eri alustoille. Näin voidaan saada käyttöön uusia biokemiallisia materiaaleja, kuten entsyymejä ja lääkeainemolekyylejä. Työkaluja ja dataputkia voidaan käyttää eri ELIXIR-keskusten (Norja, EMBL-EBI, Suomi, Tsekki, Ranska) kautta.

Ihmisdatan kontrolloitu siirtäminen yli rajojen

 

 

Euroopan genomiarkisto EGA on yksi maailman laajimmista julkisista datavarastoista, joihin on tallennettu potilasdataa biolääketieteellisistä projekteista. Arkistoon on tallennettu erilaisia tietoaineistoja eri datan tuottajilta. EGA tallentaa ihmisistä kerättyä geno- ja fenotyyppidataa erikseen kysyttävällä suostumuksella. ELIXIR Compute Platform mahdollistaa EGA:ssa olevan luottamuksellisen ihmisdatan siirtämisen luvan saaneille yksittäisille käyttäjille.

ECP:n kautta tutkijat voivat hakea pääsyoikeutta EGA:n sensitiivisiin datakokoelmiin. Ensin käyttäjä tunnistetetaan sähköisesti, ja pääsyoikeus joko hyväksytään tai hylätään hakulomakkeen tietojen perusteella. Jos palvelu edellyttää monivaiheista tunnistautumista, käyttäjä uudelleenohjataan tunnistuspalveluun, joka suorittaa ylimääräisen tunnistuksen käyttämällä toista turvatekijää.

Tutkijoilla on sen jälkeen pääsy EGA:n datavarastoihin ja he voivat prosessoida sensitiivistä dataa. ECP:n kautta tutkijat voivat myös tallentaa dataa EGA:n arkistoon. ECP:n ansiosta voidaan varmistaa datan kuvailu, pääsy dataan ja yhteentoimivuus. Jotta data siirtyy turvallisesti, luotiin arkkitehtuuri, jossa on käytössä kaksi protokollaa. Oauth.2.0 ja OpenID Connect (OIDC) ovat teollisuuden käyttämiä käyttäjäntunnistusprotokollia.

 

Viljely- ja metsäkasvien genomisen ja fenotyyppisen datan integrointi

 

 

FAO:n mukaan kasvitaudit aiheuttavat vuosittain maailman ravinnontuotantoon noin 20-40% leikkauksen. Massiivinen viljely- ja metsäkasvien sekvensointi mahdollistaa kasvitautien aiheuttajien tutkimisen. Kasvien sekvensointi ja genotyypitys mukaan lukien patogeenit ja taudit tuottavat laajoja määriä perinnöllistä vaihteludataa. EURISCO (European Search Catalogue for Plant Genetic Resources ) sisältää informaatiota 1,9 miljoonasta viljelykasvista ja sen villeistä sukulaisista. Näytteet on kerätty lähes 400 eri organisaatioon.

ECP mahdollistaa genotyyppi-fenotyyppi-analyysin viljelykasveille perustuen laajimpiin saatavilla oleviin julkisiin datavarantoihin. Tämä data on tuotu yhteen maantieteellisesti eri paikoissa sijaitsevista tutkimuslaitoksista. Keskeinen toiminnallisuus on hakurobotti, joka vastaanottaa hakuja käyttäjiltä ja siirtää integroidut, eri datalähteistä kerätyt hakutulokset takaisin käyttäjälle. Käyttäjät voivat siirtää valitun datan pilvi-infrastruktuuriin analyyseja varten.

ELIXIR-infrastruktuurin integroiminen harvinaisen tautien tutkimiseen

 

 

Noin 30 miljoonaa ihmistä 25 EU-maassa sairastaa jotakin harvinaista tautia, arvioi EURORDIS (European Organisation of Rare Diseases). Se tarkoittaa 6-8% koko EU:n asukkaista. Kansainvälinen harvinaisten tautien tutkimuskonsortio on asettanut tavoitteeksi kehittää 200 uutta hoitomuotoa harvinaisille taudeille vuoteen 2020 mennessä.

ELIXIR julkaisi kustomoidun kokoelman työkaluja ja palveluja, joiden tarkoitus on auttaa uusien hoitomuotojen kehittämisessä. Kokoelma on saatavilla ELIXIR biotools-palvelun kautta (bio.tools). Harvinaisten tautien tutkijat voivat jättää sisään raakadatan, ajaa geenikartoituksen ja noukkia gvcf-tiedostot (genomic variant call format) analyysiä varten. Se määrittelee bioinformatiikassa käytetyn tekstitiedoston, kun geenisekvenssivariaatioita tallennetaan.

Potilaaseen liittyvä metadata (sairauden, hoidot, hoitotulokset), potilasnäytteet biopankeissa ja kaikki EGA:n data on haettavissa ECP:n kautta.

Ari Turunen

Lue artikkeli PDF-muodossa.

Lisätietoja:

Kataja, Teemu (2018): Designing and developing a data processing pipeline for archiving sensitive human data.

https://www.theseus.fi/handle/10024/142007

 

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
http://www.elixir-finland.org
http://www.elixir-europe.org