Elixir logo

Datan hallinnointi

Biolääketieteen tutkijat pääsevät Biomedinfran kautta käsiksi erittäin suureen biologiseen dataan. Suomen ELIXIR-keskus tukee tietoteknisesti ”Suuren datan” hyödynnettävyyttä. Sellaista on Terveyden ja hyvinvoinnin laitoksen ja Suomen molekyylilääketieteen instituutin digitoiman suomalaisen populaation geenidatan käyttö lääketieteessä.

Biolääketieteellinen tutkimus on tullut data- ja laskentaintensiiviseksi. Data-analyysi tarvitsee koko ajan kehittyneempiä ohjelmistoja ja niiden yhdistelmiä. Tutkimusryhmät ovat rakentaneet omia analyysimenetelmiään vastatakseen lisääntyvään tarpeeseen, mutta laskentaresurssit- ja menetelmät eivät tahdo pysyä kehityksen tahdissa. Lisäksi tutkijat tarvitsevat resursseja datan tallentamiseen ja pääsyn referenssidataan, jotta voitaisiin tehdä järkeviä vertailuja viimeisimpään tietoon. Pääsy edellyttää henkilökohtaista käyttöoikeutta.  Referenssidatan määrä, kuten Syöpägenomiatlaksen (TCGA http://cancergenome.nih.gov), on jo satoja teratavuja. Paras keino vastata haasteeseen on käyttää pilvipalveluja, joissa referenssidata on saatavilla. Suomen keskus suunnittelee näitä palveluja yhteistyössä biolääketieteellisen organisaatioiden kanssa.

CSC:n kehittämä REMS (Resource Entitlement Management System) on työkalu, joka avulla hallinnoidaan käyttöoikeuksia bioinformatiikan tietokantoihin. REMS-palvelun kautta tutkijat voivat hakea käyttöoikeuksia tutkimuksen tietoaineistoihin, ja aineistojen oikeudenhaltijat käsitellä saapuneita hakemuksia ja hallinnoida käyttöoikeuksia.Käyttäjät pääsevät REMS-järjestelmään esimerkiksi federoidun luottamusverkoston kautta. Tällainen on esimerkiksi korkeakoulujen ja tutkimuslaitosten käyttäjätunnistusjärjestelmä HAKA. Käyttäjät voivat järjestelmään kirjauduttuaan hakea dataresursseja. REMS siirtää hakemuksen resurssin omistajalle ja raportoi saaduista oikeuksista.

http://www.csc.fi/rems

CSC käyttää avoimen lähdekoodin Hadoop-ohjelmistoa (http://hadoop.apache.org)
suurten datamassojen analysoimiseen. Ohjelmisto pystyy analysoimaan tehokkaasti erilaista dataa ja haravoimaan datamassasta olennaisen tiedon. Esimerkiksi kun geenisekvenssejä analysoiva Chipster-ohjelmisto käsittelee NGS-dataa (Next Generation Sequencing) Map-Reduce-algoritmilla, laskenta voidaan toteuttaa Hadoop-klusterina, joka muodostuu virtualisoiduista laskentasolmuista.

CSC:n pilvipalvelu (CSC Cloud IaaS) tarjoaa virtualisoidun laskentaklusterin ja tallennuskapasiteetin. Nämä virtualisoidut resurssit voivat tulla osaksi paikallista klusteria (virtuaalinen solmupiste), jolloin ne jakavat saman tiedostojärjestelmän. Esimerkiksi virtualisoidut resurssit nelinkertaistavat Suomen molekyylilääketieteen instituutin laskentakapasiteetin.

http://research.csc.fi/en/pouta-iaas-cloud

Biomedinfra on tarjonnut muun muassa seuraavanlaisia resursseja, jotka oli virtualisoitu bio-organisaatioiden käyttöön: laskentaklusterissa on 112 solmussa yhteensä 3000 laskentaydintä (HyperThreading). Lisäksi käytössä on 1,1 petatavua keskitettyä tallennustilaa.

 

CSC
Elixir europe
Biomedinfra