• Suomi
  • English

Geenidata haltuun ja haluttuun muotoon

Bioalan tutkimus tuottaa hurjan määrän dataa ja määrä kaksinkertaistuu muutaman kuukauden välein. Siksi datan hallinnointi edellyttää kehittyneitä työkaluja. Nämä on mahdollista toteuttaa julkisten biologisen tiedon infrastruktuurien ja yritysten, kuten ELIXIRin ja BC Platformsin yhteistyössä.

 

BC Platforms tarjoaa tietojärjestelmiä genomidatan hallintaan. Sen kehittämät kaksi järeää tietokantaa ovat käytössä myös ELIXIR-infrastruktuurissa Suomen ELIXIR-keskuksen CSC:n kautta. BC Platforms on nyt luomassa ekosysteemiä, jossa eri maiden biopankkien data-aineistoihin voidaan tehdä hakuja yhteisen käyttöliittymän avulla.

BC Platformsilla on yli 20-vuotinen historia suurten datamassojen käsittelystä. Yrityksen tiedonhallintajärjestelmät voidaan laittaa paikalliseen laskentaympäristöön tai pilveen. Taustalla toimii virtuaalinen tiedostojärjestelmä. Käyttäjät kirjautuvat tietokantaan ja hakevat aineiston palvelimelta. Käyttäjien tekemät muutokset tallennetaan sitten takaisin tietokantaan eli tiedostoja viedään ja tuodaan valtavia määriä käyttäen suojattua tietoverkkoa. Tämä ns. objektipohjainen tallennus sopii erityisesti silloin, kun dataa on säilytettävä pitkään ja samalla otettava huomioon tietoturva.

BC Platformsin asiakkaiden analysointien kohteet vaihtelevat yksittäisen ihmisen tai eläimen datasta jopa miljoonien yksilöiden kohortteihin. Asiakkaina on myös tutkimusorganisaatioita, jotka tuottavat jopa 10 000 genomia päivässä.

BC Platforms haluaa luoda avoimen ekosysteemin tutkijoiden, lääkeyhtiöiden ja biopankkien välille. BC RQUEST-palvelu välittää tietoja eri biopankkien sisältämästä datasta. Palvelun käyttöliittymän kautta tutkijat ja lääkeaineiden kehittäjät pääsevät näkemään keskitetysti yhteistyöverkostoon kuuluvien biopankkien aineiston.

Jokaiseen ekosysteemiin liittyneessä biopankissa on BC Platformsin kehittämä moduuli, joka välittää biopankkien dataa palveluun. BC Platformsin pääarkkitehti Timo Kannisen mukaan yhteinen biopankkien käyttöliittymä hyödyttää kaikkia.

”Autamme lääkeyhtiöitä löytämään oikeat biopankit, joihin on tallennettu niille merkittävää dataa. Esimerkiksi hakusanalla ”astma” pääsee näkemään kuinka monen astmapotilaan aineistoja on tallennettu eri maiden biopankkeihin. Aiemmin on täytynyt lähettää yksittäisen biopankin ylläpitäjälle sähköpostia ja kysellä kuinka monta astmapotilasta siellä on ja odottaa vastausta.”

Ohjelmisto tuottaa automaattisesti aggregaattidataa eli dataa, joka kerätään useasta lähteestä. Koska se ei sisällä henkilökohtaista tietoa, dataa voidaan siirtää maiden rajojen ulkopuolelle. Tunnistetut biopankkien datat voidaan yhdistää järjestelmässä, kun siihen on saatu lupa.

”Hakuja voi tehdä olemassa olevaan dataan älykkäästi. Palvelu ja ekosysteemi saattavat yhteen datanhaltijat, tarjoajat ja käyttäjät. Koska käyttäjät ovat lääkkeitä kehittäviä yhtiöitä, ne haluavat usein määritellä tarvitsemansa datan. Analyysityökalumme soveltuvat hyvin tähän käyttötarkoitukseen.”

Timo Kannisen mukaan tavoite on saada viiden miljoonan potilaan kliininen ja genominen data yhteisen käyttöliittymän hakutoimintojen alle vuoteen 2020 mennessä.

”Nyt pystytään laajasti näkemään minkälaista dataa on saatavilla. Rekrytoimme koko ajan ekosysteemiin lisää biopankkeja, joilla on kliinisen tiedon lisäksi genomidataa. Lääkeainesuunnittelijat hyötyvät tästä, sillä löydökset voidaan todentaa toisessa populaatiossa.”

BC Platformsin sovellus tuottaa metadataa automaattisesti, mikä parantaa mahdollisuuksia tehdä hakuja biopankkien aineistoihin. BC Platforms luokittelee metadataa olemassa olevien standardien pohjalta. Metadatan harmonisointi on kuitenkin edelleen haaste tehokkaalle tietojenkäsittelylle. Kirjaamiskäytännöt vaihtelevat maasta ja sairaalasta riippuen.

”Yleensä ikä, sukupuoli ja diagnoosi tiedetään, mutta leikkaukset, operaatiot ja laboratorioarvot on usein kirjattu epäyhteneväisellä tavalla. Haasteita lisäävät vielä eri tietojärjestelmät”, sanoo Kanninen.

Bioalan yritykset eivät jää odottamaan standardoinnin tuloksia, jos siihen menee vuosia. On pakko miettiä omia ratkaisuja. Metadatan harmonisointi ja standardointi sekä julkisten tietokantojen tarjoaminen standardimuodossa olisi kuitenkin erittäin iso helpotus ja resurssi. Tähän pyrkii ELIXIR.

 

Geenitesteistä lääkeaineisiin

 

Geenidataa käytetään entistä enemmän potilaiden hoidossa ja teollisuudessa. BC Platformsin asiakkaana on yksi maailman suurimpia geenitestejä tuottavia yrityksiä, jolle BC Platforms tuottaa geenidatan. Suomalaiset tutkimusryhmät hyödyntävät BC Platformsin järjestelmiä kasvien, eläinten ja ihmisten genomien analysoimisessa. Helsingin yliopistossa tehdään mm. eläinjalostukseen liittyvää tutkimusta ja tutkijat tarvitsevat työkaluja genomidatan hallintaan. BC Platformsin järjestelmällä analysoidun datan avulla haetaan myös uusia lääkkeiden vaikutuskohteita ja tutkitaan lääkeaineiden tehoa ja turvallisuutta.

”Digitoimme geenidatan sellaiseen muotoon, mitä tutkijat tarvitsevat analyyseissaan. Sen voi sitten yhdistää muuhun dataan, esimerkiksi kliiniseen dataan tai potilasdataan”, sanoo BC Platformsin kehitysjohtaja Anita Eliasson.

Syöpätutkimuksessa voidaan hyödyntää genomidataa, kun selvitetään potilaan syöpätyyppiä. Genomidatan perusteella voidaan tietää, minkälainen on lääkevaste ja minkälaista hoitomuotoa kannattaa suositella.

”Käytämme julkisia tietokantoja, joissa on tietoa minkä tyyppisellä genomilöydöksellä on tyypillisesti tiettyjä hoitovasteita tai mistä syöpätyypistä on kyse kun henkilöllä on tietty perimä. Tämä yhdistetään muuhun tietoon. Potilasta osataan hoitaa alusta lähtien oikein, mikä säästää aikaa ja rahaa. Pelastetaan henkiä, kun osataan valita oikea lääke.”

Vaikka päätietokantajärjestelmä on BC Platformsin kehittämä, Eliasson painottaa, että BC Platforms on ekosysteemiyritys, jolle tärkeää on kumppaniverkosto.

”Olemme kehittäneet pitkään tietojärjestelmiämme yhdessä tutkijoiden kanssa. Nyt on edessä uusi vaihe geenitutkimuksessa, sillä tietoa tarvitaan myös muuhun kuin tutkimuskäyttöön. Emme pyri tarjoamaan analyysipalvelua jokaiseen tarkoitukseen. Tietojärjestelmässämme on siksi avoimet rajapinnat. Siihen voi sitten kytkeä helposti muita analyysimenetelmiä, kuten tekoälymenetelmiä.”

Palvelut käytössä osana ELIXIR-infrastuktuuria

 

BC Platformsin kaksi tietojärjestelmää BC I Genome ja BC I Insight, ovat käytössä ELIXIR-infrastuktuurissa Suomen ELIXIR-keskuksen CSC:n kautta. Tutkijaryhmillä on oma virtuaalipalvelin, jossa ovat BC Platformsin tietokannat ja työkalut. Virtuaalipalvelimet toimivat CSC:n laskenta-alustalla ja tarvittaessa korotetun tietoturvan ePouta-pilvipalvelussa.

”Tutkijat pystyvät tallentamaan näihin genomisen datan ja muun tutkimusdatan. Samalla he pystyvät tekemään hyvin laajan skaalan erilaisia genomianalyyseja samassa ympäristössä datoja eri tavoin yhdistellen.”

Tutkimusympäristöä käyttävät tällä hetkellä Helsingin yliopiston ryhmät, jotka tutkivat eläinten geenejä.

”Tähän ympäristöön voi kytkeä lisää sovelluksia, koska BC I Genomessa ja BC I Insightissa ovat avoimet rajapinnat. Ihmisdatan analysoimisessa data voitaisiin tarvittaessa tallentaa kovennetun tietoturvan ympäristöön, kuten CSC:hen.”

 

Helsingin yliopiston tutkijoiden käyttämät BC Platformsin tietokannat ovat itse asiassa virtuaalipalvelimilla CSC:n ympäristössä.

 

Koska datan käsittely ja yhdistely on automatisoitu, tutkijaryhmän ei tarvitse tehdä datakonversioita tai huolehtia dataformaateista.

”Ylläpito on tehokasta, koska ympäristö on yhteneväinen. Vain harvoilla tutkimusorganisaatioilla on varaa hankkia yksittäiselle tutkimusryhmälle näin järeää ratkaisua ja sen ylläpitoa. ELIXIR-infrastruktuurin kautta tämä on nyt mahdollista biotieteilijöille.”

Anita Eliassonin mukaan BC Platformsin tapaislla yrityksillä on suuri tarve hyödyntää replikoituja julkisia tietokantoja, jolloin automaattisesti otettaisiin tietokannasta paikallisia kopioita. Bitit eivät liiku riittävän nopeasti EMBL:n tietokannoista. Fyysinen etäisyys vaikuttaa, kun on kyse todella suurten datamassojen siirtämisestä.

”Kaiken datan siirtäminen ei ole mielekästä. Siksi Suomen ELIXIR-keskuksen  solmupisteisiin pitäisi replikoida tietokantoja. Yritykset, jotka haluavat analysoida isoja datamassoja tekoälyllä hakeutuvat fyysisesti lähelle tietokantoja tiedonsiirtokustannusten takia.”

Ari Turunen

Artikkeli PDF-muodossa

 

Lisätietoja:

www.bcplatforms.com

 

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
http://www.elixir-finland.org
http://www.elixir-europe.org