• Suomi
  • English

Kaikkien eliöiden perimän selvittäminen mahdollistaa uusia rokotteita ja lääkkeitä

Bioinformatiikan menetelmien kehittyessä myös kustannukset ovat laskeneet. Eri eliöiden perimä saadaan selvill entistä nopeammin ja halvemmin. Edessä oleva urakka eri eliöiden ja ihmisten genomien sisältämän tiedon ymmärtämisessä on kuitenkin valtava. Se edellyttää eri tutkimusorganisaatioiden yhteistyötä ja hyvin järjestettyjä tietokantoja.

Ihmisen koko perimä selvitettiin vuonna 2003. Human Genome Project-hanke saatiin valmiiksi ennakoitua aiemmin internetin ansiosta. Se mahdollisti eri laboratorioiden tehokkaan yhteistyön. Ihmisen koko DNA saatiin sekventoitua. Ihmisen geenit on pakattu kolmeen miljardiin emäspariin. Nyt seuraavana on selvittää miten nämä geenit toimivat. Genomin emäsparien selvittämisen kautta aletaan ymmärtää eri sairauksien syntymekanismeja ja tehokkaita hoitomuotoja.

Nykyään tutkimus tuottaa genomitietoa varsin monipuolisesti. Tavoitteena on esimerkiksi arvioida tiedon avulla ympäristön tilaa ja terveysvaikutuksia tarkastelemalla mikrobeja, jalostaa ruokakasveja paremmin kuivuutta sietäviksi viljelykasveiksi ilmastonmuutoksen kriisien lievittämiseksi, tai kehittää lääkeaineita tauteihin, joihin ei tällä hetkellä tunneta hoitokeinoja. Näihin tarkoituksiin tarvitaan tietolähteiden uudenlaista yhdistämistä ja analysointia.

Amazonin alueella on ehkä kolmannes maanpäällisistä eliölajeista

Kaikki tunnetut genomit selvitetään

 

Eri eliöiden genomien selvittäminen on entistä helpompaa ja halvempaa. Nyt EBP-projektin (Earth Bio-Genome Project) tavoitteena on selvittää kaikkien aitotumaisten eliöiden eli eukaryoottien genomit. Esitumalliset arkit ja eubakteerit eli prokaryootit ovat soluja, joiden DNA muodostuu vain yhdestä kromosomista. Eukaryootteihin kuuluvat yksisoluiset alkueläimet ja kolme monisoluisten elöiden ryhmät: kasvit, sienet ja eläimet.

Bioinformatiikan avulla voidaan selvittää loput 80-90% niistä eliöistä, joiden genomia ei vielä tiedetä. Vuonna 2011 Census of Marine Life arvioi eläinlajien määräksi noin 8,7 miljoonaa, joista 6,5 miljoonaa on maaeläimiä ja 2,2 miljoonaa merieläimiä. Korkean suoritustehon sekvensointimenetelmiin perustuvan arvion mukaan sienilajeja voi olla jopa 5,1 miljoonaa. Kasvilajeja on arviolta 400 000.

Ensimmäistä kertaa ihmiskunnan historiassa on mahdollisuus tehokkaasti sekvensoida kaikkien tunnettujen aitotumaisten eliöiden genomi. EPB:n tavoitteena on sekvensoida kaikki 1,5 miljoonaa tunnettua eukaryoottia. Näytteitä kerätään ympäri maailmaa. Osa, ehkä noin puoli miljoonaa, saadaan kasvitieteellisistä puutarhoista. Loput joudutaan keräämään suoraan luonnosta. Yksi merkittävä keräyspaikka on Amazon. EPB aloitti tammikuussa 2018 yhteistyön brasiliaisen geenipankki-projektin kanssa, joka keskittyy Amazonin alueen eliöihin.

Amazonin alueella on eniten kasvi- ja eläinlajeja kuin missään muussa paikassa maailmassa. Ehkä kolmannes lajeista löytyy sieltä. Sademetsiin kätkeytyy valtavasti esimerkiksi potentiaalisia lääkeaineita.

Amazonin jararaca-kyykäärmeen myrkystä löydettiin ACE- estäjä eli angiotensiinikonvertaasi-niminen entsyymi, jonka vaikutuksesta syntyy verenpainetta alentavaa ja sydämen pumppaustyötä keventävää angiotensiiniä. 1970-luvulla tutkijat kehittivät synteettisen version käärmeen myrkystä.

Jararaca-käärmeen myrkystä saatiin kehitettyä verenpainelääke

Massiiviset data-arkistot

 

Valtameret ovat maailman suurin yhtenäinen ekosysteemi. Planktonin merkitys maailman ilmastolla on vähintään yhtä merkittävä kuin sademetsien. Kuitenkin vain pieni osa niistä organismeista, jotka luovat tämän ekosysteemin, on luokiteltu ja analysoitu. Planktoneiden muodostavat ekosystemmin sisältävät valtavasti elämää: yli 10 miljardia organismia on jokaisessa litrassa valtameren vettä sisältäen viruksia, prokaryootteja, yksisoluisia eukaryootteja ja polttiaiseläimiä. Nämä ainutlaatuiset organismit sisältävät bioaktiivisia yhdisteitä, joille on käyttöä lääketeollisuudessa, elintarvikkeina, kosmetikkassa, bioenergiassa ja nanoteknologiassa. Vuosina 2009-2013 kansainvälinen tutkimusmatka Tara Oceans keräsi 210 mittauspaikasta maailman valtameristä 35 000 biologista näytettä. Se on laajin planktonista kerätty kokoelma. Ocean Sampling Day oli kampanja jossa myös kerättiin näyttetä merestä. Tutkimusasmilta pyydettiin ottamaan näyttetä ja tuottamaan dataa. BioSamples kerää kuvauksia ja metadataa biologisista näyttestä, joita on käytetty tutkimuksessa. Näyteet ovat refernsseja tai käytetty eri tietokannoissa.

Ocean Sampling Day

Genomien ja niiden toimintaa määrittävien proteiinien selvittäminen on valtava urakka, joka ei onnistu ilman yhteistyötä. Eurooppalainen biotieteiden tutkimusinfrastuktuuri ELIXIR tarjoaa tehokkaan alustan yhteistyölle. Siihen on liittyt lähes 200 tutkimusorganisaatiota ja infrastruktuuria käyttää yli puoli miljoonaa tutkijaa. ELIXIR mahdollistaa pääsyn eri data-arkistoihin.

Massiivinen viljely- ja metsäkasvien sekvensointi mahdollistaa kasvitautien aiheuttajien tutkimisen. EURISCO (European Search Catalogue for Plant Genetic Resources ) sisältää informaatiota 1,9 miljoonasta viljelykasvista ja sen villeistä sukulaisista. Näytteet on kerätty lähes 400 eri organisaatioon. Mukana on 43 jäsenmaata ja tarkoituksena on säilyttää maailman agrobiologinen moninaisuus.

UniProt (Universal Protein Resource) kerää proteeinisekvenssit ja annotaatiodataa. Annotaatio tarkoittaa proteiinin toiminnan määrittelyä sekvenssin perusteella. Uniprotin datan ansiosa voidaan tietää enemmän proteiinien toiminnasta ja niiden vuorovaikutuksesta muiden molekyylien kanssa, niiden sijainnista soluissa ja organismeissa. Tavoitteena on kerätä kaikki julkisesti saatavulla oleva proteiinisekvenssidata. Uniprot on laajin julkisesti avoin olema proteenisekvenssitietokanta.

Euroopan nukleotidiarkisto ENA on kokoelma joka tarjoaa vapaan pääsyn kaikkiin julkaistuihin nukleotidisekvensseihin ja annotoituihin (geenin ja proteiinin toiminnan määrittely) DNA- ja RNA-sekvensseihin. The International Nucleotide Sequence Database on yhteistyöfoorumi, jossa ovat mukana DNA Data Bank of Japan (Japani), GenBank (Yhdysvallat) ja ENA. Uusi data synkronoidaan joka päivä kolmen tietokannan välillä. Jo vuonna 2012 näissä tietokannoissa oli 5682 organismin kokonaiset genomit. Data kaksinkertaistuu joka kymmenes kuukausi.

Euroopan genomiarkisto EGA on yksi maailman laajimmista julkisista datavarastosta, joihin on tallennettu potilasdataa biolääketieteellisistä projektieista. EGA säilöö ihmisistä kerättyä geno- ja fenotyyppidataa erikseen kysyttävällä suostumuksella näytteen ja datan tutkimuskäyttöön. EGA:n ansiosta moni ELIXIRin tutkimusprojekti on mahdollinen.

 

Biolääketieteellinen data potilaiden terveystietoihin

 

ELIXIR-infrastruktuurissa on yli 20 jäsenmaata Euroopasta. Jäsenmaiden keskusten kautta tarjotaan erilaista biolääketieteellistä dataa tutkijoiden käyttöön. Hyödyt ovat kiistattomia. Ihmisten harvinaisten sairauksien selvittämisessä on ollut hyötyä esimerkiksi koirien ja kissojen geeneistä. Suomen keskuksen kautta tutkijoilla on pääsy koirien ja kissojen DNA-pankkeihin, joiden aineistojen ansioista on onnistuttu löytämään esimerkiksi hermorappeumasairauden geeni. Tavoitteena on kehittää tähän sairauteen lääke. Koirien geeneistä on hyötyä ihmisten sairauksien tutkimisessa, sillä koiran ja ihmisen geeniperimä on 95-prosenttisesti samanlainen. Koirien geenipankissa on yli 70 000 näytettä 60 000 koirasta yli 300 rodusta. Se on tiettävästi lajissaan maailman suurin.

Arvioiden mukaan vuoteen 2025 mennessä voidaan sekvensoida 100 miljoonasta kahteen miljardiin ihmisen genomia. Jos datasta halutaan saada hyödyt, genotyyppinen data pitää linkittää muihin terveystietoihin. ELIXIR pystyy tähän. Tutkimusinfrastruktuuriin kuuluu lähes 200 organisaatiota, joiden muodostama federaatio, luottamusverkosto, mahdollistaa ihmisdatan käsittelyn tietoturvallisesti. Vuoteen 2016 mennessä ELIXIR-infrastruktuurin avulla oli laadittu 21000 tieteellistä artikkelia ja saatu 8500 patenttia. Patentteja oli haettu rokotteisiin, biomarkkereihin, entsyymeihin ja ebola-viruksen torjuntaan.

Elämän biologisten molekyylien yksittäisen atomin mittakaava on nanometrin kymmenesosa. Jos tuon biomolekyylin yksi hiiliatomi olisi ihmisen kokoinen kappale, se tarkoittaisi, että sen toiminnalla voisi olla ratkaiseva vaikutusta tapahtumiin, jotka tapahtuvat kymmenien miljoonien kilometrin päässä. Aurinkokuntamme halkaisija on samaa luokkaa.

Jos yksikin hiili vaihdetaan biologisessa molekyylissä toiseen atomiin, vaikka typpeen, se voi olla ratkaiseva piirre sille, tepsiikö esimerkiksi otettu lääke. Juuri tuon atomin avulla lääkemolekyyli voi olla tarttumassa proteiiniin, mutta ei onnistukaan muutoksen seurauksena saamaan riittävän pitävää otetta.

Proteiini, johon lääkkeen oli tarkoitus vaikuttaa puolestaan jakaa käskyjä eteenpäin toisille proteiineille soluissamme. Jos käskyyn vaikuttaminen jää tekemättä, biologiseen viestiketjun vaikuttaminen jää tekemättä.

Kysymys on myös siitä, ovatko solussa sijaitsevan viestiketjun kaikki osat virheettömiä? Kaikki nämä tekijät vaikuttava siihen voivatko tutkijat suunnitella lääkemolekyylin oikein, että se voi auttaa soluja parantumaan. Solussa ei ole tyhjiötä toisin kuin avaruudessa. Solut ovat täynnä toistensa kanssa koko ajan vuorovaikuttavia biomolekyylejä. Ihmisen vaikutusmahdollisuuden esimerkiksi auringon fuusioreaktioon ovat paljon rajallisempia kuin elämän molekyyleihin tallentuneen atomitason digitaalisen informaation vaikutus ihmisen sairastumiseen, vaikka mittakaavaero on sama.

 

Tommi Nyrönen
Ari Turunen

 

Lisätietoja:

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
http://www.elixir-finland.org
http://www.elixir-europe.org

 

Tilattu ja lukkojen takana

Lähtökohtaisesti jokaisesta kerätty lääketieteellinen data on yksityistä ja tarkoin suojattua. Ilman ihmisistä kerättyä dataa, lääketiede ei kuitenkaan edisty. Ratkaisuna on datan hallintaohjelmisto, joka on tietoturvallinen ja jakaa pääsyä vain sellaiseen aineistoon, johon on annettu lupa.

 

Ihmisen perimästä saatua dataa on syytä käsitellä huolellisesti ja tietoturvaa noudattaen. Jotta kenenkään tietoturvallisuus ei vaarannu, ELIXIR tarjoaa palvelun, jossa tutkija kirjautuu järjestelmään, joka tunnistaa tutkijan sähköisen identiteetin ja samalla jakaa käyttöoikeuksia biolääketieteelliseen dataan, joka on varastoitu pilveen. Näin tutkija luo käyttämälleen datalle tietoturvallisen analyysiympäristönsä. Tämän mahdollistaa REMS-työkalu.

ELIXIR noudattaa tiukasti EU:n lainsäädäntöä tietoturvasta. Kun tutkijat hyödyntävät dataa, REMS-työkalun avulla voidaan varmistaa, että jaettu data on luvanvaraista.

Suomen ELIXIR-keskus CSC kehittää ja ylläpitää avoimen lähdekoodin REMS-työkalua, jolla voidaan hallinnoida pääsyä sellaisiin tietoaineistoihin, jotka sisältävät luottamuksellista materiaalia. REMS (Resource Entitlement Management System) on käyttöoikeuksien hallintatyökalu, joka tarvittaessa estää datan laittoman käytön. REMS-työkalun avulla voidaan tilata suuresta datamäärästä vain tietty aineisto, joka toimitetaan tilaajalle tietoturvallisesti lukittuna.

”Organisaation sisällä saattaa olla montakin erilaista työkalua, jotka hoitavat vastaavanlaisia asioita. Vaikka identiteetin ja roolin hallintaan löytyy paljon valmiita työkaluja ja palveluita, en kuitenkaan ole kuullut muista REMSin kaltaisista yleisistä resurssin luvitusohjelmista,” sanoo REMS-työkalun tuoteomistaja Tommi Jalkanen CSC:stä.

 

ELIXIR AAI: 200 organisaation federaatio

 

REMS on osa federoitua järjestelmää, jonka on muodostanut lähes 200 organisaation ELIXIR-yhteisö. Federointi on edellyttänyt sopimista eri organisaatioiden välillä tietoturvasta, henkilötietolaista, oikeuksista ja velvollisuuksista. Näin on muodostunut ELIXIRin oma luottamusverkosto, ELIXIR-AAI, jonka sääntöjä jokainen jäsenorganisaatio on sitoutunut noudattamaan.

ELIXIR-AAI on käytännössä yhteisö, jolla on käytössä federoitu autentikaatio ja identiteetinhallinta. Tätä federaatiota on kehitetty Suomen korkeakoulujen ja tutkimuslaitosten luottamusverkoston (HAKA) pohjalta. ELIXIR-federaation mahdollistaa kertakirjautumisen (Single Sign On, SSO) yhteisiin palveluihin.

ELIXIRin jäsenorganisaatiot ylläpitävät käyttäjän perustietoja, josta käy ilmi käyttäjän nimen ja yhteystietojen ohella käyttäjän rooli. Roolin määrittäminen on tärkeää, koska sen pohjalta REMS-työkalu jakaa käyttöoikeuksia. REMS siis päättää henkilötietojen perusteella, millainen näkymä käyttäjälle avautuu palvelussa. Tämä on ns. lupaperusteinen REMS.

Vaikka tietoturvataso on korkea, REMS on kuitenkin helppokäyttöinen. Työkalun käyttöön ei tarvita erillistä kirjautumista. Kirjautuminen palveluun tapahtuu ELIXIRin kotiorganisaation tunnuksella ja salasanalla. Eli ei tarvita palvelukohtaista käyttäjätunnus/salasana-paria. Juuri tämä federoitu hallinta takaa sen, että tietoaineistojen käyttöä voidaan valvoa. Samalla pystytään varmistamaan, että aineistoa ei käytetä vääriin tarkoituksiin. Palvelun käyttöä voidaan seurata ja siitä voidaan raportoida. (audit)

Käytännössä palvelu toimii niin, että tutkija hakee datan hyödyntämiselle lupaa REMS-työkalulla. Hän kirjautuu REMSiin federoidulla identiteetillään. Sitten hän täyttää hakemuksen datankäytölle ja sitoutuu noudattamaan käyttöoikeuksia. ELIXIRin datahallinto DAC (Data Access Committee) saa REMSin kautta hakemuksen ja hyväksyy tai kieltää datan käytön. Tämä ilmoitetaan hakijalla sähköpostilla. Jos hyväksyntä saadaan, hakijalle lähetetään ohjeet mitä seuraavaksi tapahtuu. REMS ohjaa datapyynnön CSC:n Data Access Service-palveluun. Se tarjoaa tutkjalle näkymän ePouta-pilvipalvelussa luvitettuun tietoaineistoon.

Federoitu käyttäjätunnus on helppo sulkea vastuussa olevasta organisaatiosta, jos käyttäjä esimerkiksi vaihtaa työpaikkaa. Koska käytetään vahvaa tunnistusta, jäljitettävyys ja raportointi helpottuu. Samalla sähläys tunnus/salasana-parien kanssa vähenee, kuten myös salasanojen resetointi. Kertakirjautuminen vähentää erillisten käyttäjätunnusten tarvetta sekä säästää aikaa, vaivaa ja rahaa. Päällekkäinen tietojen ylläpito vähenee ja tiedon laatu paranee. Palvelunomistaja voi keskittyä palveluunsa, koska ELIXIR-organisaation tietohallinto hoitaa tunnukset. Nämä uudet toimintatavat tukevat esim. ELIXIRin monien ohjelmistopalveluiden käyttöä.

ELIXIR Compute on käyttöympäristö, joka mahdollistaa käyttäjien töiden saumattoman käsittelyn. Tutkijat voivat käyttää heidän sähköistä identiteettiään luodakseen tietoturvallisen analyysiympäristön käyttämilleen ohjelmistoille. He saavat pääsyn arkaluonteisiin biologisiin dataresursseihin, jotka on tallennettu pilveen. Käyttöympäristö myös auttaa tutkijaryhmiä luomaan skaalautuvia palveluja.

 

Rajapintatuki apuohjelmille

 

REMS-ohjelmiston uutena piirteenä on rajapintatuki apuohjelmille. Nyt tutkijoille on tarjolla moderni ja laajasti käytössä oleva web-teknologia, joka mahdollistaa palveluiden, kuten tietokantojen, yhteiskäytön. Näin voidaan rakentaa ekosysteemejä helposti ja turvallisesti sekä antaa kolmansille osapuolille pääsy palveluun. REST (Representational State Transfer) on tunnettu ja paljon käytetty sovellusarkkitehtuuri hajautetuille järjestelmille. REST-rajapinnan avulla eri ohjelmat eri alustoilta voivat käyttää samaa resurssia.

”Työn alla on tällä hetkellä kaiken kattavan rajapinnan luonti, mikä antaa laajat mahdollisuudet kolmannen osapuolien apuohjelmien rakentamiselle.”, sanoo Tommi Jalkanen.

 

Miksi käyttöluvan valvominen on tärkeää

Tilastotieteen menetelmiä käyttäen on mahdollista tunnistaa henkilö riittävällä todennäköisyydellä anonymisoidusta aineistosta, mikäli kohteesta on käytettävissä genomi-informaatiota. Tätä asiaa täytyy siis lähestyä tietoturvan, genomitietoa tarjoavan palvelun käyttösopimusten sekä kansallisen ja kansainvälisen lainsäädännön kautta.

Mikäli anonymisoituun aineistoon liitetään lisätietoa, kuten syntymävuosi tai sairauden nimi – tulee tutkijan autentikoitua palveluun luotettavasti ja hyväksyä palvelun käyttöehdot, jotka kieltävät aineistojen sisältämien henkilöiden tunnistamisen. Lisäksi on mahdollista profiloida käyttäjät, jolloin jokaiselle profiilille voidaan tarjota aineistosta tarkoituksenmukainen näkymä. Käyttölupa ja lainsäädäntö määrittelevät miten aineistoja tulee mm. säilyttää ja analysoida.

Ari Turunen

Lisätietoja:

 

REMS

http://www.elixir-finland.org/aai-rems/

 

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
http://www.elixir-finland.org
http://www.elixir-europe.org

 

 

Tavoitteena kansallinen palvelu perimästä saadun datan hyödyntämiseen terveydenhuollossa

Ihmisen perimästä eli genomista saatu tieto tulee osaksi terveydenhuollon päätöksentekoa. Potilaan genomidatan yhdistäminen hänen nykyisestä terveydentilastaan saatuun tietoon mahdollistaa uusien algoritmien kehittämisen, jolloin lääkäri voi nopeasti valita potilaalle parhaimman mahdollisen hoidon ja lääkityksen.

 

Ihmisen yksilöllisestä perimästä johtuen lääkkeet vaikuttavat eri tavoin. Esimerkiksi jotkut antibiootit aiheuttavat lääkeaineallergioita. Elimistö voi myös pilkkoa lääkkeen nopeammin kuin se ehtii vaikuttaa
tai potilas voi saada haitallisia sivuvaikutuksia. Siksi genomitiedon hyödyntäminen lääkehoidoissa vähentää väärien lääkemääräysten määrää. Toisaalta, jos henkilöllä on tiedossa, että hänellä on ruoansulatukseen liittyvä geeniominaisuus, joka lisää tai heikentää vaikkapa kofeiinin pilkkoutumista
energiaksi ja rakennusaineiksi, tiedolla voi olla myönteisiä vaikutuksia hänen elintapoihinsa. Tulevaisuudessa sähköisiin potilaskertomusjärjestelmiin liitettyjen geenitietokantojen algoritmit voisivat varoittaa automaattisesti mahdollisista lääkehaitoista ja neuvoa tehokkaimmasta vaihtoehdosta.

Suomessa tieteen tietotekniikan keskuksen CSC:n, Terveyden ja hyvinvoinnin laitoksen THL:n ja Helsingin yliopiston molekyylilääketieteen instituutin suunnitelmissa on luoda tietoturvalliset puitteet suomalaisista tuotetun genomitiedon tallentamiselle ja tiedon tulkitsemiselle terveydenhuollon tarkoituksiin. Yhteistyössä mukana olevan Helsingin yliopistollisen keskussairaalan (HUS) tavoitteena on selvittää ihmisistä tuotetun digitaalisen terveysdatan hyötyjä tutkimukselle ja hoidolle. Puoli vuotta kestävä pilottiprojekti kuuluu Suomeen perustettavan Genomi-keskuksen saamaan toimeksiantoon, jota koordinoi Sosiaali- ja terveysministeriö.

Kardiokompassi: työkalu omien terveysriskien arvioimiseen

 

Vuosi vuodelta datan tallennus halpenee ja kapasiteetti kasvaa. Esimerkillinen aineisto suomalaisten terveydestä kerätystä datasta on THL:n FINRISKI-kohortti. Suomalaisista vuosikymmeniä kerätyn data-aineiston analyyseja on jatkokehitetty GeneRISK-hankkeessa, jossa tutkitaan sydän- ja verisuonitautien perinnöllisiä riskitekijöitä. Samalla testataan algoritmia, joka laskee riskipisteet ihmisen sairastumiselle sydän-ja verisuonitauteihin. Kardiokompassi-niminen työkalu kertoo ihmiselle nykyisen riskitason ja riskin kehittymisen lähivuosikymmeninä.

Kardiokompassia kokeillaan käytännössä rekrytoimalla ja testaamalla 10 000 ihmistä Kotkan seudulla, Mehiläisen asiakaskunnasta ja Helsingin verenluovuttajista. Hankkeeseen osallistuvat henkilöt saavat
genomitiedon yhdistämisen avulla tärkeää palautetta omasta terveydentilastaan ja tarkemmin kuin koskaan aikaisemmin. Tiedot kerätään Kardiokompassiin. Henkilöt voivat myös keskustella suoraan
asiantuntijoiden kanssa datasta tehtävistä tulkinnoista.

Algoritmit auttamaan lääkkeen valinnassa

 

Suomen hallitus päätti huhtikuussa 2106, että Suomeen perustetaan Genomikeskus, jonka tavoite on tuoda perimästä saatu tieto osaksi terveydenhoitoa. Genomikeskuksen toimintojen rakentamiseksi suomalaisista jo kerättyä ja tallennettua dataa pyritään hyödyntämään ja yhdistelemään tutkimuksessa, joka onnistuessaan parantaa lääkemääräyksien tarkkuutta. Potilaan genomidatan perusteella voitaisiin määrittää sopivat tai sulkea ulos huonot lääkitykset. Algoritmeja voidaan kehittää valitsemaan sopiva lääkeaine ja optimoimaan lääkityksen määrää standardisoiduilla ohjelmistomenetelmillä. Tätä kutsutaan farmakogenetiikaksi.

Professori Mikko Niemi Helsingin Biomedicumista sai vuonna 2016 mittavan rahoituksen Euroopan tutkimusneuvostolta hankkeeseen, jossa kehitetään algoritmi, jolla etsitään potilaalle sopiva kolesterolilääke. Matemaattinen malli ottaa huomioon potilaan perimän, muun lääkityksen, sukupuolen, iän ja painon.

Algoritmien tehokas hyödyntäminen edellyttää kuitenkin, että potilaista on saatavilla tarpeeksi erilaista dataa. On tärkeää tietää datan laatu ja käyttötarkoitus. Riittävä metadata kuvaa datan laadun, jonka pohjalta voidaan tehdä päätökset datan hyödyntämisestä. Kun referenssidatalle saadaan toimiva tekninen jakelualusta, datan tulkitseminen helpottuu. Tällöin voidaan suunnitella parempia tulkinta-algoritmeja datalle.

Geneettisen datan tulkinta-algoritmien laatiminen kliiniseen käyttöön on pitkän aikavälin tavoite. Sen lisäksi, että algoritmit auttavat lääkäreitä esimerkiksi määrittämään sopivaa lääkitystä, ne voivat soveltua jopa proteiinien toiminnan muutosten ennustamiseen. Tavoitteena on, että kun tulkinta-algoritmit ovat valmiita kliiniseen käyttöön, ne olisivat käytettävissä potilastietojärjestelmissä
automaattisesti, ei erikseen tilattavana tietopyyntönä.

Uutta teknologista osaamista Suomeen

 

Suuri osa teknologioista on olemassa, mutta ne pitää vain osata liittää yhteen. Osaamista
Suomeen saadaan muun muassa osana eurooppalaista yhteistyötä. CSC:n yhteydessä toimii ELIXIR-infrastruktuurin Suomen keskus, joka rakentaa genomitiedon hallinnalle ja tallentamiselle tarvittavan
tietoturvallisen infrastruktuurin.

Hankkeessa tietoteknologiaa sovelletaan THL:n biopankin näyte- ja dataaineistoihin. Hankkeen tavoite on muokata genomitieto siten, että se on parhaiten suomalaisten lääkäreiden ja tutkijoiden hyödynnettävissä. Tähän THL:n ja muiden tärkeiden suomalaisten näytekokoelmien digitalisoinnin avulla on selvitetty jo noin 9000 suomalaisen koko genomi (www.sisuproject.fi), mutta jopa puolen miljoonan suomalaisen genomiaineistosta on keskusteltu.

Hanke yhdistää THL:n, HUS:n ja CSC:n teknologisen osaamisen Suomessa. Tulevaisuudessa
tavoite on, että tämäntyypistä dataa analysoisi suuri joukko suomalaisia bioalojen asiantuntijoita yliopistoista, julkiselta sektorilta ja bioalan yrityksistä. Pelkkä datan tallentaminen ei riitä, vaan
pitää syntyä kaiken biologisen datan hyödyntämisen kattava palvelu. Tällä hetkellä datan tallettajien ja datan tarjoajien asiantuntemus ei riitä kaikkiin mahdollisiin terveyden sovelluksiin. Pilotin toteuttamisella saadaan siten tärkeitä suuntaviivoja, miten genomitiedon tehokas tallentaminen
ja tietoturvallinen jakelu voidaan toteuttaa organisaatioiden välisessä yhteistyössä, jotta dataa voidaan hyödyntää täysimittaisesti terveydenhoidossa, tutkimuksessa sekä tulevaisuuden innovaatioissa.

Kyse on pitkälti siitä, halutaanko Suomeen pienen tehtaan kokoinen erikoistunut yhteisen genomitiedon hallinnan ja jatkojalostamisen infrastruktuuri ja osaaminen, jonka varaan datan tulkintaekosystemi rakentuu, vai halutaanko datan infrastruktuurin palveluita ulkoistaa muualle.

Monessa maassa koko maan kattava genomitieto on haastava tavoite. Suomen Genomikeskuksen palvelut ovat hahmottumassa, ja ne luodaan yhteistyössä datan hallinnoijien kuten biopankkien ja lupaviranomaisten kanssa. Genomikeskuksen koordinoimat datavarannot ovat tietoturvallisesti
saatavilla hyödyntämiselle. Tulevaisuudessa jokaisella suomalaisella voisi siten olla oma terveys- ja hyvinvointiprofiili, jossa olisi mukana omaan perimään liittyvä tieto.

Tommi Nyrönen
Ari Turunen

Tommi Nyrönen on biokemisti ja Suomen ELIXIR-keskuksen johtaja.

Ari Turunen on tietokirjailija ja Le monde Diplomatiquen Suomen edition päätoimittaja.

Artikkeli PDF-muodossa

 

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 20 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
http://www.elixir-finland.org
http://www.elixir-europe.org

 

Parempaa satoa luvassa? Myös data kerätään jatkossa talteen

Kasvien kasvua ja fysiologiaa analysoidaan kuvantamismenetelmillä, mikä tuottaa valtavasti dataa kasvien genomi- ja ympäristövasteista. Tällä pyritään kasvien satoisuuden parantamiseen, jolloin voidaan tuottaa ekologisesti kestävällä tavalla ruokaa ja raaka-aineita kasvavalle ihmiskunnalle.

 

Helsingin ja Itä-Suomen yliopistojen yhteisessä NaPPI- infrastuktuurissa kasvit mitataan ja analysoidaan automaattisesti. Infrastruktuurin toiminta ja sen tuottama data voidaan järjestää alusta lähtien niin, että se on yhteensopivaa myös muiden eurooppalaisten tutkimusorganisaatioiden käyttöön. Tavoite on hyvä, sillä näihin päiviin asti jokainen laboratorio ympäri maailmaa on kerännyt kasvien perimästä, ilmiasuista eli fenotyypeistä ja ympäristötekijöistä saatua dataa omalla tavallaan.

Helsingin yliopiston Viikki Plant Science Center (ViPS) on tutkimuskeskittymä, jossa 36 ryhmää tutkii kasveja. Tutkimusaiheet vaihtelevat tiettyyn elinympäristöön ja ilmastonmuutokseen sopeutumisesta, kasvien stressinsietoon ja kasvinjalostukseen.

NaPPI-infrastruktuurin (National Plant Phenotyping Infrastructure) toiminta keskittyy kasvitutkimukseen, ja -jalostukseen. Tavoitteena on kattavan fenotyyppitiedon tuottaminen suuresta määrästä kasveja. NaPPI antaa tekniset mahdollisuudet yhdistää kasvien perimästä saatu tieto fenotyyppidataan.

Kasvin fenotyyppi on geenien ja ympäristön yhteisesti tuottama ilmiasu. Fenotyyppi voi muokkautua hyvinkin erilaiseksi ympäristön vaikutuksesta. Kasveilla onkin paljon laajempi kyky periytymättömään muunteluun kuin eläimillä. Esimerkiksi kasvin kasvuun voidaan vaikuttaa tehokkaasti eri tavoin, kuten ravinteilla ja valolla.

Ihmiset ovat jalostaneet kasveja tuhansia vuosia, koska on haluttu parempaa ruokaa. Tätä on tehty paikallisesti eikä kasveista kerättyä tietoa ole systemaattisesti tallennettu. Hyvänä esimerkkinä on viinirypäleen lukuisat lajikkeet, joita pelkästään Euroopassa on yli tuhat. Kaikkien lajikkeiden alkuperää ei enää tiedetä ja siksi alkuperää selvitetään geenitekniiikan avulla.

”Kasvien fenotyypeistä saatua dataa ei ole vielä standardisoitu. Eri tutkimusryhmät ovat tuottaneet ja luokitelleet sitä omissa laboratorioissaan”, sanoo NaPPI-infrastruktuurin tutkimuskoordinattori Kristiina Himanen Helsingin yliopistosta.

Kristiina Himasen edessä olevat kasvit menossa fytoskooppiin. Fytoskooppi on kuvantamislaite, joka analysoi kasvien kasvua ja fysiologiaa. Kasvit mitataan ja kuvataan automaattisesti, jonka jälkeen tietokone laskee kuvien perusteella kasvien korkeuden, leveyden ja esimerkiksi lehtiruusukkeen pinta-alan ja muodon.

Kasvin arkkitehtuurin tutkiminen tärkeää

 

NaPPi-infrastruktuurin tavoitteena on tehostaa ja tarkentaa kasveista saadun tiedon keruuta ja analysointia uusien kuvantamistekniikoiden avulla. Infrastruktuurilla on käytössä kuvantamislaitteita, jotka analysoivat kasvien kasvua ja fysiologiaa. Kasvit mitataan ja kuvataan automaattisesti, jonka jälkeen tietokone laskee kuvien perusteella kasvien korkeuden, leveyden ja esimerkiksi lehtiruusukkeen pinta-alan ja muodon.

”Kasvin koko, kasvu, ja muoto eli kasvin arkkitehtuuri ovat tärkeitä maataloustuotannossa”, Himanen korostaa.

”Kasvin arkkitehtuuri voi vaikuttaa sadon määrään tai viljelyominaisuuksiin. Kun riisistä on tehty kääpiölajikkeita ne eivät lakoonnu enää helposti, ja tämä vaikuttaa satoon. Geenit voivat vaikuttaa kasvin arkkitehtuuriin ja sitä kautta sadon määrään ja laatuun.”

Viikissä tutkitaan, mitä tapahtuu kun rypsin perimään eli genomiin syötetään kääpiögeeni. MMT Tarja Niemelä ja yhteistyökumppanit selvittävät, voiko kääpiögeeni lisätä rypsin satoisuutta vähentämällä varren biomassaa suhteessa kasvin tuottamaan siemensatoon.

”Genomidataa on hurjasti saatavilla, mutta se pitää pystyä yhdistämään muuhun dataan. Haluamme liittää kuvantamislaitteilla tuottamaamme fenotyyppidatan genomidataan. Lopulta, meitä tietenkin kiinnostaa, miten genomeista ja fenotyypeistä saatu tieto saadaan siirrettyä kasvinjalostukseen.”

Himasen mukaan uusien kuvantamismenetelmien ansiosta kasvintutkimuksen volyymi kasvaa.

Spektri- ja fluoresenssikuvantaminen tuottaa paljon dataa

 

Rypsiviljelmiä Viikissä. Tutkijat selvittävät, voiko kääpiögeeni lisätä rypsin satoisuutta vähentämällä varren biomassaa suhteessa kasvin tuottamaan siemensatoon.

NaPPI-infrastruktuurin laitteilla analysoidaan kasvin muotojen lisäksi kasvien fysiologista tilaa. Itä-Suomen yliopiston Joensuun kampuksella oleva spektromiikkalaboratorio on Suomen ensimmäinen kasvien ja muiden biologisten näytteiden spektrikuvantamiseen keskittynyt tutkimusympäristö. Spektrikuvantaminen koostuu useista valon eri aallonpituuksilla otetuista kuvista, joilla on oma värikanavansa.   Spektromiikkalaboratoriossa kehitetään optisia menetelmiä erityisesti kasvien stressivasteiden tutkimukseen.

Ihmissilmä tai tavanomainen kamera näkee värit kolmen aallonpituuskaistan (punainen, vihreä ja sininen) yhdistelminä. Spektrikameralla voidaan kuitenkin havaita jopa satoja eri aallonpituuskaistoja. Se ei ole myöskään rajoittunut vain näkyvään valoon, vaan kykenee kuvaamaan ultravioletti- ja infrapunasäteilyn alueilla. Kustakin kaistasta voidaan muodostaa erillinen kuva ja kukin pikseli sisältää täydellisen spektrin.

”Spektrikuvaus mahdollistaa värien erittäin tarkan erottelun, mutta samalla moninkertaistaa tuotetun datan määrän”, toteaa professori Markku Keinänen Itä-Suomen yliopistosta.

”Tämä taas edellyttää monimutkaisia laskennallisia lähestymistapoja kuva-analyysissä. Spektrikuvaus onkin suurelta osalta laskentaa ja tuloksia havainnollistavat kuvat tuotetaan vasta analyysin loppuvaiheissa.”.

Kun kasveja lisäksi analysoidaan lämpö- ja fluoresenssikameroilla, päästään näkemään asioita, joita ei tavallisessa valossa näe. Fluoresenssi on näkyvää, tietyn väristä valoa, joka syntyy kasvin atomien virittyessä esimerkiksi näkymättömän ultraviolettisäteilyn johdosta. Lämpö- ja fluoresenssikameroilla voidaan laskea pikseli kerrallaan kasvissa olevan erivärisen alueen koko ja tutkia esimerkiksi infektioita kasvissa.

Datan standardointi vähentää päällekkäistä työtä

 

Suomen ELIXIR-keskus tarjoaa datan käsittelyyn ja tallentamiseen tehokasta kapasiteettia. Koska fenotyyppien datankeruu on automatisoitu ja digitalisoitu, nyt on Kristiina Himasen mukaan mahdollista aloittaa myös datan standardointi.

”Datalla pitää olla sama formaatti. Excelerate-hanke kehittää standardit fenotyyppidatalle ja metadatalle. Mukana on 22 maata. Vaikka kaikilla on omat infrastruktuurit, niin nyt niiden toimintaa yhdenmukaistetaan.”

Käytännössä tutkijoilla on käytössään tieto kasvin perimästä sekä fenotyyppidataa kasvuolosuhteista ja muista ympäristötekijöistä. Kun molemmat datalähteet on yhdistetty saadaan luotua kattavia tietokantoja ja laboratoriot eri puolilla Eurooppaa voivat välttää päällekkäisen työn tekemistä ja jakaa datankeruuta järkevästi.

”Yksittäisen geenin käyttöönotto kasvijalostuksessa helpottuu, koska yksittäisen kasvin analyysiin liittyvän työn määrä kohtuullistuu.”

Jatkossa Viikin tutkimusryhmät siis tuottavat kuvapohjaista dataa, johon liitetään genomidata. Suomen Elixir-keskuksessa puolestaan mietitetään, miten data analyoidaan ja standardisoidaan ja miten metadatat luovutetaan ELIXIRrille pilvitietokantaa varten. NaPPI-infrastruktuurin ja Suomen ELIXIR-keskuksen CSC:n työnjako on hyvä esimerkki siitä, miten kasvien geno- ja fenotyyppidataa kannattaa tuottaa tutkimukseen.

Ari Turunen

Artikkeli PDF-muodossa

NaPPI

NaPPI on osa yhteistyöverkostoa Itä-Suomen yliopiston Spektromiikan yksikön (www.spectromics.org) sekä useiden muiden suomalaisten kasvitutkimuslaitosten kanssa. Mukana on yhteistyökumppaneita lisäksi Turun ja Oulun yliopistoista sekä Luonnonvarakeskuksesta.

Viikki Plant Science Center

https://www.helsinki.fi/en/researchgroups/viikki-plant-science-centre/about-vips

 

 

 

 

 

Mikrobit ja ilmastonmuutos

Geenitutkimus on paljastanut, että mikrobeja on huomattavan paljon enemmän ja niiden yhteisöt ovat monimuotoisempia kuin tiedämmekään. Mikrobiyhteisöjen genetiikan tutkiminen synnytti uuden biotieteen alan, metagenomiikan. Jenni Hultman tutkii, mikä merkitys arktisten alueiden mikrobistolla on ilmastonmuutoksessa.

 

Mikrobit tai mikro-organismit ovat yksisoluisten tai muutamasta solusta muodostuneiden eliöiden yleisnimitys. Niitä ovat bakteerit, alkueläimet, virukset ja yksisoluiset levät. Vaikka mikrobeja esiintyy kaikkialla elinympäristössämme ja myös ääriolosuhteissa, niiden geneettistä alkuperää ja toimintaa tunnetaan edelleenkin huonosti. Suurinta osaa mikrobeista ei tunneta.

Termillä metagenomi tarkoitetaan sitä, että joukko ympäristöstä noukittuja ja sekvensoituja geenejä voidaan analysoida samalla tavoin kuin yksittäisen lajin genomia eli perimää. Metagenomiikan avulla voidaan selvittää mikrobiston muutoksia eri sairauksien aikana ja hoidon jälkeen, löytää uusia taudinaiheuttajia ja saada tietoa niiden toiminnasta esimerkiksi lääkityksen aikana.
Metagenomiikan avulla voidaan tutkia myös, miten mikrobit vaikuttavat elinympäristöömme.

Arktinen mikrobiologia

 

Jenni Hultman pitää kädessään näytettä, joka sisältää kymmeniä tuhansia eri mikrobeja.

Metagenomiikassa DNA eristetään mikrobiyhteisöstä. Tämä on ollut suhteellisen helppoa, kun mikrobeja on tutkittu esimerkiksi suolistossa ja vesistöissä.

Maaperän tutkiminen on huomattavasti haasteellisempaa johtuen mikrobien suuresta määrästä yksittäisessä näytteessä. Yhdessä näytteessä voi olla jopa 10 000 eri lajia. Koska eri mikrobien DNA:ta voidaan uusien tekniikoiden avulla eristää maaperästä, mikrobien tutkimus elää jatkuvaa murrosta. Koko ajan saadaan uutta tietoa eliöistä ja myös itse elämän synnystä Maapallolla. Mikrobiyhteisöt ovat kuitenkin haasteellisia tutkittavia. Mikrobien monimuotoisuus on valtava ja ne myös vaikuttavat toisiinsa tavalla, joita ei kunnolla vielä tunneta.

”Perinteisesti mikrobeja on kasvatetty petrimaljoissa. Mutta nyt kyseessä on valtava määrä tutkittavaa, koska kohteena ovat mikrobiyhteisöt, joissa eri mikrobit ovat riippuvaisia muista mikrobeista tai ravinteista. Tällaisia yhteisöjä ei voida kasvattaa maljoilla. Nyt tarkoitus on sekvensoida valtaosa maaperänäytteessä olevat geenit. Vaikka saataisiin selville, mikä laji on kyseessä, tärkeää on myös tietää, mitä sen geenit tekevät. Koska mikrobiyhteisöstä sekvensoidaan jopa miljoonia geenejä, tähän tarvitaan laskentatehoa,” sanoo akatemiatutkija Jenni Hultman.

Hultman on kiinnostunut erityisesti arktisten alueiden mikrobistosta. Koska mikrobit toimivat hajottajina luonnossa, niillä voi olla merkittävä rooli kasvihuonekaasujen, kuten hiilidioksidin ja metaanin muodostumisessa. Metaanin vaikutus kasvihuoneilmiöön on lyhyellä aikavälillä monikymmenkertainen hiilidioksidiin verrattuna.

”Arktisten ympäristön mikrobeja ei tunneta hyvin. Ne voivat vaikuttaa siihen miten ilmasto ja olosuhteet muuttuvat. Kysymyksiä on paljon. Miten luonto sopeutuu ilmastonmuutokseen? Mitä lajit tekevät kun ilmasto muuttuu?”

Kun ikiroudan alla olevat turvesuot alkavat sulaa, syntyy erityisesti metaanipäästöjä. Mutta minkälainen merkitys mikrobeilla on tässä prosessissa? Tämän Hultman haluaa selvittää.

Helsingin yliopiston Elintarvike- ja ympäristötieteiden laitoksella työskentelevä Hultman kerää tutkimusaineistoa mikrobeista eri puolilla pohjoista pallonpuoliskoa. Tutkimuksessaan Hultman analysoi maaperänäytteitä Kilpisjärvellä, Alaskassa ja Grönlannissa. Nyt hän etsii mittauspaikkaa Siperiasta, jolloin hänen keräämänsä näytteet edustaisivat hyvin koko pohjoista pallonpuoliskoa.

”20% Maapallon maapinta-alasta on ikiroudan peitossa. Ikiroudan sisällä ovat valtavat hiilivarastot. Ikiroudan sulaessa voi ilmakehään voi vapautua suurimmat hiiidioksidimäärät, mitä on ikinä mitattu.
Tämä prosessi on riippuvainen mikrobisesta vasteesta, mutta tällä hetkellä tiedämme vähän mikrobien aktiivisuudesta ikiroudan alla.”

 

Ilmastomalleihin dataa

 

ELIXIR osallistuu Tara Ocean-projektiin, jossa tutkitaan valtamerien mikrobeja. Vedestä voi filtteröidä helposti mikrobeja ja saada kattavan näytteen. Mutta kun kerää maaperästä näyteittä, pitää tehdä rinnakkaisia eristyksiä maaperän heterogeenisuuden vuoksi, jotta saadaan riittävä määrä kunnollisia näytteitä.

Hultman on kiinnostunut mikrobiyhteisöjen aktiivisuudesta ja erityisesti siitä, mitä mikrobiyhteisöjen geenit tekevät (metagenomiikka) ja kuinka aktiivisia yhteisöjen geenit tietyllä hetkellä ovat (metatranskriptomiikka).

Hultman eristää Kilpisjärven kenttäalan maaperänäytteistä kokonais-DNA:n ja RNA:n, pilkkoo ne pienemmiksi paloiksi ja sekvensoi ne. Hän eristää DNA:n ja RNA:n 0,5 gramman näytteistä. Näytepisteiden määrä on yli sata. Alueella on mikroilmasto, jolloin Hultman voi ottaa huomioon eri tekijöitä, kuten kosteuden, pH-arvon ja lämpötilan. Näin voidaan tutkia mikrobiyhteisöjen aktiivisuuden merkitystä ilmastonmuutoksessa ”mini-ilmastonmuutos”-skaalalla.

”Rinnakkaisia puolen gramman näytteitä tarvitaan paljon koska maaperän mikrobisto on monimuotoista ja koska maaperä itsessään vaihtelee paljon. Mikrobit voivat esiintyä kivessä, kuolleessa madossa, kasvin juuressa tai vain kosteammassa paikassa kuin joku toinen. Eli paljon on kaivettavaa ja eristettävää.”

Olennaista on tietää, mitä mikrobien geenit aktiivisesti tekevät ja miten ne vaikuttavat
ilmastonmuutokseen.

”Tutkin mitä maanäytteessä tapahtuu tällä hetkellä. Mitkä ovat aktiivisia geenejä? Kiihdyttääkö osa mikrobeista ilmastonmuutosta ja osa jarruttaa? Tuottavatko mikrobit pelkästään metaania vai hyödyntävätkö ne sitä?”

Hultmanin tutkimuksen yhtenä tärkeänä tavoitteena on tuottaa metagenomiikasta saatua dataa myös ilmastomalleihin. Näin voidaan mahdollisesti parantaa ilmastomallien luotettavuutta.

Vain prosentti saadaan kasvamaan laboratorioissa

 

Yhdessä grammassa maaperää voi olla jopa kymmenen miljardia erilaista mikrobia. Kun mikrobiekologian tutkimus kunnolla alkoi 1970-luvun lopulla ja ympäristöstä otettuja mikrobinäytteitä verrattiin viljeltyihin mikrobinäytteisiin, havaittiin, että ympäristöstä saaduissa näytteissä oli jopa 99% enemmän uusia ja tuntemattomia mikrobeja kuin viljelynäytteessä.

Perinteisesti geenien sekvensointi alkaa kasvattamalla soluja petrimaljassa. Kun DNA-sekvensseriin laitetaan soluista saatua DNA:ta, sekvensseri selvittää DNA-emäsparien eli adeniinin, guaniinin, sytosiinin ja tymiinin järjestyksen. Varhaiset metagenomiset tutkimukset paljastivat kuitenkin, että on isoja mikro-organismien ryhmiä, joita ei voi kasvattaa laboratorioissa ja niitä ei voida siten sekvensoida.

Varhaiset tutkimukset keskittyivät 16S rRNA-geenin tuottamiin sekvensseihin. Kaikissa elollisissa olennoissa tavatun 16S rRNA:n tehtävänä on tuottaa ribosomeja, jossa proteiinisynteesi tapahtuu. Vuonna 1977 mikrobiologi Carl Woese aloitti tämän geenin sekvensoinnin tutkiessaan mikrobeja. Koska geeni on aina hieman erilainen eri mikrobeilla, Woese huomasi, että sitä voi käyttää näytteiden mikrobiston kehityshistorian tutkimisessa. Woese ja hänen kollegansa George E. Fox kuitenkin yllättyivät, kun monet eristetyt 16S rRNA-sekvensseistä eivät kuuluneet mihinkään tunnettuun eliölajiin. 16S rRNA-geenin avulla tehdyt löydöt mullistivat mikrobien tutkimuksen.

Woese ja Fox havaitsivat että näytteistä löytyi myös yksisoluisia, mutta tumattomia mikro-organismeja, jotka muistuttivat ulkoisesti bakteereja, mutta eivät olleet niitä. He kutsuivat tätä ryhmää arkeoneiksi.

Arkeonit osallistuvat aineenvaihduntaan ja vaikuttavat entsyymien toimintaan. Aluksi arkeoneja havaittiin vain äärimmäisissä olosuhteissa, kuten kuumissa lähteissä ja suolajärvissä, mutta sittemmin niitä on löydetty esimerkiksi myös eri maalajeista, marskimailta, valtameristä ja jopa ihmisen suolistosta.

Näin eliöt voitiin jakaa kolmeen luokkaan. Eukaryootit eli monisoluiset kasvit, sienet ja eläimet kuuluvat aitotumaisiin. Bakteerit ja arkeonit taas ovat tumattomia mikrobeja, joista suurin osa maailman biodiversiteetistä koostuu.

”Koska DNA:n sekvensoiminen halpenee koko ajan, metagenomiikka mahdollistaa mikrobeiden tutkimuksen paljon suuremmalla skaalalla ja yksityiskohtaisemmin kuin aiemmin”, Jenni Hultman
toteaa.

Salaperäisillä arkeoneilla voi olla suurempi rooli metaanin muodostumisessa kuin aiemmin on tiedetty. Osa arkeoneista hajottaa orgaanisen hiilen metaaniksi. Mutta kuinka paljon tällaisia arkeoneja on ja kuinka tehokkaita hajottajia ne ovat?

Jenni Hultmanin ja muiden tutkijoiden keräämä data mikrobiomin salaisuuksista tallennetaan julkisiin tietoresursseihin, joita ylläpitää ELIXIR, Euroopan bioinformatiikan infrastruktuuri.

Ari Turunen 

Artikkeli PDF-muodossa

Lisätietoja:

CSC – Tieteen tietotekniikan keskus Oy

CSC on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

 

Elintarvike- ja ympäristötieteiden laitos, Helsingin yliopisto
http://www.helsinki.fi/elintarvike-ja-ymparisto/

 

 

Suomalaisten koko perimä talteen? Datasta hyötyä tautien tutkimiseen

Suomalaisten geeniperimästä tehdään laajoja tutkimusprojekteja ja genomidataa tuotetaan ja analysoidaan koko ajan. Kansallinen tavoite on kuitenkin tallentaa suomalaisista tuotettu data Suomeen, jolloin analyytikot voivat yhdistää datan muihin terveystietoihin. Genomidatan hyödyntäminen terveydenhoidossa on vasta alussa. Data-analyysi tarjoaa paljon mahdollisuuksia bioalan yrityksille myös Suomessa.

 

Tutkimuskäyttöön soveltuvaa geenidataa suomalaisista on sirpaleina eri puolilla maailmaa eri tietokannoissa ja datavarastoissa ja vaihtelevasti järjestettynä. Tarve olisi siis luoda suomalaisen datan hallintaan kotimainen tietoturvallinen palvelu, joka ylittäisi organisaatiorajat, on verkostomainen ja hyvin koordinoitu. Kun eri paikoissa sijaitseva data koordinoitaisiin yhteen paikkaan, data voitaisiin omistajan luvalla luovuttaa laillisiin käyttötarkoituksiin, kuten tutkimukseen, tuotekehitykseen ja lääkehoitoihin.

Ihmisen biologia on hyvin monimutkaista, monimutkaisempaa kuin aiemmin on luultu. Geenin ja elimistön rakennusaineiden eli proteiinien ilmeneminen, rakenne ja niiden toiminta edellyttävät
kehittyneitä matematiikan, tietojenkäsittelytieteen sekä tilastotieteen menetelmiä eli bioinformatiikkaa.

Bioinformatiikan menetelmien, kuten geenien sekvensoinnin, avulla löydetään koko ajan uusia tapoja tutkia ja ehkäistä sairauksia. DNA:n sekvensointi on lähtökohta, jossa määritetään  DNA-molekyylin neljän eri emäksen, adeniiniin, guaniini, sytosiini ja tymiini (A, G, C,T) järjestys geneettisen digitaalisen koodin selvittämisessä. Jokainen ACGT-emäs on vastaava tiedonjyvä kuin tietokoneen bitti, nolla tai ykkönen, jotka pitkänä ketjuna sisältävät ohjeet ohjelmaan.

Sekvensointimenetelmien parantuminen ja halpeneminen ovat lisänneet merkittävästi biologian ja lääketieteen mahdollisuuksia tuottaa tämänkaltaista dataa. Nyt datan avulla saadaan selville mitä digitaalisia viestejä elämän molekyyleihin on kirjoitettu eliöiden selviämistä varten.

Data on kuitenkin vasta ensimmäinen askel kohti tulkintaa. Digitaalisen genomidatan tulkinta, eli miten genomiin tallennettu tieto ilmenee elimistössä, on vielä kehittymässä. Esimerkiksi viimeisen kymmenen vuoden aikana on Ruotsissa luotu karttaa (HPA Human Protein Atlas) siitä, miten
geenit ilmenevät proteiineina eri soluissa ja yhdistetty tämä tieto mikroskooppikuviin soluista. Näin siis voidaan nähdä, mikä geeni ilmenee missäkin solussa ja osallistuu proteiinien ja sitä kautta suurempien rakenteiden esimerkiksi hermosäikeiden, hiustuppien tai silmänpohjan valoa aistivien rakenteiden syntymiseen. Ei ole kuitenkaan vielä selvää syvemmän tason karttaa siitä, miten nanometrien skaalassa toimivat molekyylit tuottavat nämä toiminnalliset mikroskooppiset
rakenteet. Jokaiseen solun rakenteeseen tarvitaan miljoonia molekyylejä yhteistyössä. Genomeihin tallennettu rakennusohje ja sen tuottamat molekyylit muodostavat itsestään organisoituvan verkon, jota pyritään nykytutkimuksella ymmärtämään.

Suomella on melko hyvät lähtökohdat olla kansainvälinen toimija genomitiedon hallinnassa, mutta osaajia on yksittäisissä organisaatioissa liian vähän. Genomitiedon ymmärtämiseen vaadittavat tietomassat ovat suuria ja analysointi vaatii erikoistunutta osaamista toimijoita, jota ei vielä löydy
riittävästi Suomesta. Tarvitaan yhteistyötä genomidatan hallintaan ja lisää dataan erikoistuneita
tulkitsijoita. Osaamista saadaan Suomeen lisää, kun päästään luomaan puitteet suomalaisten genomien tallentamiselle. Tämä tarkoittaisi aluksi kymmenien tuhansien ihmisten datasta luotua kansallista viitetietokantaa. Siitä olisi hyötyä diagnostiikassa, esimerkiksi lääkehoitojen parantamisessa, sillä jo nyt voidaan potilaan genomitiedon perusteella määrittää esimerkiksi sopiva ja turvallinen lääkitys.

Datan hyvä organisointi auttaa sairauksien tutkimisessa

Molekyyleistä, soluista tai kokonaisista organismeista saadun datan analysointi edellyttää, että data on järjestetty hyvin. Sekvensoinnilla, mikroskoopeilla, massaspektrometrialla tai tietokonesimulaatioilla tuotetuilla data-aineistoilla pitää olla yhteiset tiedostostandardit ja riittävästi koneluettavia rajapintoja, joita noudatetaan kun dataa varastoidaan. Hyvä mittari datan järjestämisen asteelle on, jos toinen tutkimusryhmä pystyy hyödyntämään dataa yhtä hyvin kuin
sen alkuperäiset tuottajat.

Kun data on hyvin järjestetty ja kuvailtua, sitä voidaan yhdistellä. Täydentävien tietojen, esimerkiksi lääkemääräyksen, genomin ja pitkäaikaisten hoitotulosten liittäminen yhteen on edellytys syvemmän ymmärryksen kehittymiselle.

Taitavien analyytikoiden käsissä järjestetty data auttaa saavuttamaan läpimurtoja tutkimuksessa. Esimerkiksi yhdysvaltalainen GRAIL-yritys pyrkii ymmärtämään syövän syntymekanismeja. Mitä varhaisemmassa vaiheessa syöpä havaitaan, parantaa se huomattavasti taudin hoitoennustetta.
GRAIL-hankkeessa on kerätty 10 000 potilaan näytteet ja suostumus niistä luodun monipuolisen datan analysointiin. Ideana on, että tämän potilasjoukon syöpäkasvaimista luodaan tietokanta, jota vastaan voidaan tehdä verinäytteiden seulontaa.

Syöpäkasvaimet ovat yleensä seurausta siitä, että sairautta kantavan ihmisen solun genomiin on tullut muutos, joka on tekee solusta epänormaalin. Jokainen syöpä on solutasolla kantajansa näköinen melko yksilöllinen sairaus, joita yhdistää epänormaalien solujen holtiton kasvu. Syöpä hyödyntää elimistön normaaleja uusiutumisen ja parantumista mekanismeja omien geneettisten ohjeidensa itsekkääseen levittämiseen. Kahden ihmisen väliset genomit ja niiden sisältämä digitaalinen informaatio ovat keskimäärin 99,5% samanlaiset. Siksi monien syöpien etenemisprosessi on syöpien yksilöllisyydestä huolimatta hyvin tunnettu. Siksi onkin perusteltua tutkia, miten yksittäisten tai useampien nukleotidien (ACGT) muutokset genomissa vaikuttavat solun molekyyliverkoston tasapainoon siten, että solusta tulee syöpäsolu.

GRAIL-hankkeessa potilaiden genomeista ja heidän syöpäkasvaimistaan sekvensoidaan miljoonia ainutlaatuisia genomitiedon muutoksia, jotka voivat aiheuttaa syöpää. Hanke luo tietokannan, jonka avulla terveydenhuollossa pystytään havaitsemaan syövän varhaiset vaiheet, jopa suoraan
verenkierrosta. Innovaation onnistuessa syöpäseulontaa voidaan alkaa tehdä entistä varhaisemmassa, jolloin kasvaimet ovat vasta mikroskooppisen pieniä ja helpommin hallittavissa esimerkiksi lääkeaineilla.

Samanlaisen tutkimuksen tekeminenon mahdollista Suomessa yhdistämällä terveys- ja genomitiedot. Esimerkiksi Suomen ELIXIR-keskus on jo alkanut rakentaa genomitiedon hallinnalle ja tallentamiselle tarvittavaa tietoturvallista infrastruktuuria.

Tautien synnyn ymmärtäminen molekyylitasolla

Suomen ELIXIR-keskuksen tarjoamat palvelut.

Tieteen käyttöön on saatavissa satoja kertoja enemmän dataa DNA:n sisältämästä tiedosta kuin kymmenen vuotta sitten. Ymmärrys siitä, miten genomiin tallentunut tieto välittyy molekyylitasolla esimerkiksi proteiineiksi, ja edelleen solujen kolmiulotteisiksi toiminnallisiksi yksiköiksi kasvaa kovaa vauhtia. Kun ihmisen biologiaa ymmärretään solutasolta molekyylien tasolle, se parantaa elämänlaatua ja sairauksien hoitoa.

Yksi tärkeimpiä bioinformatiikan tutkimuskohteita on tautien pohjimmaisten syntymekanismien ymmärtäminen. Geenin koodaama toiminnallinen yksikkö on proteiini. Se on satojen yksiköiden, aminohappojen, ketju. Aminohappoja on 20 erilaista. Geenien ohjeistama proteiiniketju tulee solun toiminnalliseksi yksiköksi, vaikkapa entsyymiksi vasta sen jälkeen, kun se on laskostunut kolmiulotteiseen muotoonsa ja voi aloittaa vuorovaikutuksen toisten solun molekyylien kanssa. Väärin laskostunut proteiini voi johtaa sairauteen, koska se ei toimi odotetulla tavalla elämälle tärkeiden molekyylien muodostamassa verkostossa.

Joskus esimerkiksi geneettisessä koodissa on muutos tämän kriittisen toiminnallisen yksikön eli proteiinin laskostumiselle kriittisessä kohdassa. Solut muokkaavat itseohjautuvasti syntyvien proteiinin koostumusta ja sitä kautta niiden rakennetta ja toimintaa. Tämä voi korjata geneettiseen
koodiin syntyneen virheen. Toisaalta voi myös käydä niin, että proteiini menee rikki solun omassa prosessissa. Useimmat sairaudet voidaan jäljittää  tilanteisiin, jossa solun molekyylien verkoston
dynamiikkaan on tullut tärkeään kohtaan biokemiallinen lukuvirhe. Toisaalta kyseessä voi olla vain muunnelma jonka seuraus ihmiselle on vain suositus, miten kannattaa valita ruokavalionsa. Molekyylitason muutosten vaikutus genomiin talletettuun dataan riippuu monesta asiasta, sillä DNA:ssa on jokaisesta geenistä ”varmuuskopio” molemmilta vanhemmilta. Joistakin geeneistä on jopa useita versioita.

Vaikka logiikka ja tieto siitä mitkä ovat biologisten prosessien verkoston tärkeimmät pelurit alkavat olla selvillä, dynaamista kokonaisuutta ei vielä osata hahmottaa saati ennustaa tai muokata lääketieteellisesti niin hyvin kuin haluttaisiin. Esimerkiksi sepelvaltimotautiin sairastumisen
riskien ennakointi on genomista saadun datan ansiosta tarkentunut, mutta molekyylitason tapahtumien ymmärrys on siinä vaiheessa, että komponentit tunnetaan, mutta ponnistellaan niiden välisen toiminnan tai molekyylitasolla esiintyvien vikojen ymmärryksessä. Tautien molekyylitason ymmärrys kuitenkin merkitsee tarkempia ja varhaisempia diagnooseja, ja että
ehkäisytoimet voidaan aloittaa varhain ja esimerkiksi riskiryhmässä olevat voivat halutessaan muuttaa elintapojaan.

Tommi Nyrönen

Ari Turunen

Tommi Nyrönen on biokemisti ja Suomen ELIXIR-keskuksen johtaja.

Ari Turunen on tietokirjailija ja Le monde Diplomatiquen Suomen edition
päätoimittaja.

Lue artikkeli PDF-muodossa

”Älyhenkivakuutuksia” tarjolla: ihmisen biologinen data hyödyttää vain oikein tulkittuna

Kun dataa kerätään entistä enemmän ihmisen perimästä ja elintavoista, on pidettävä huoli omasta tietosuojasta. Ketkä ovat tarpeeksi päteviä tulkitsemaan ja käyttämään tätä dataa?

 

Biologisen informaation räjähdysmäinen lisääntyminen vaikuttaa sekä yksilöihin että yhteisöihin. Ihmisen koko elinkaaren ennustaminen tietyillä geneettisillä lähtökohdilla ja elintavoilla tulee mahdolliseksi. Samaan aikaan kun tieto lisääntyy, lisääntyvät myös mahdollisuudet käyttää dataa muihin tarkoituksiin kuin alunperin on tarkoitettu. Uskaltaako tulevaisuudessa enää nauttia epäterveellisiä ruokia, jos siitä kerätään tietoa, joka voi vaikuttaa esimerkiksi vakuutusehtoihin?

Taloudelliset ja yhteiskunnalliset vaikutukset seuraavat viiden–kymmenen vuoden aikana, kun bioinformatiikkaa aletaan soveltaa ennaltaehkäisevässä terveydenhuollossa. Esimerkiksi, jos henkilöllä on tunnettu geneettinen alttius sairastua maksasairauksiin, jonka voi hoitaa elintapoja suunnittelemalla, asian kertominen varhaisessa vaiheessa luultavasti vaikuttaa elintapojen valintaan. Terveydenhuollon ammattilaiset voivat perustella suosituksiaan esittämällä esimerkkeinä tunnettuja koko elämän kattavia
hoitohistorioita sairaanhoitojärjestelmästä tai biopankista.

Avoimia kysymyksiä yhä riittää: miten ja missä laajuudessa modernia biologista informaatiota tulkitaan ja käytetään julkisessa terveydenhuollossa? Miten lainsäädäntö kehittyy? Tilaus parempaan ikääntyvien terveydenhuoltoon kasvaa ja siksi asiaan olisi saatava nopeasti selvyyttä. Monet vakuutusyhtiöt ja datan käsittelyn jätit, kuten Google, ovat kiinnostuneita avautuvista mahdollisuuksista.

 

Biolääketieteellinen data on arvokasta

 

Yhdysvaltalainen 23 & me tarjoaa kenelle vain testejä, joilla saa tiedon sadoista lääketieteellisistä riskeistä, jotka liittyvät oman perimän piirteisiin. Sairauksia, joiden synty voidaan analysoida molekyylitasolle saakka on jo paljon. On mahdollista diagnosoida sairauksia, esimerkiksi syöpiä, entistä tarkemmin. Se muun muassa vähentää rankoista hoidoista johtuvia sivuvaikutuksia. Uusilla tekniikoilla voidaan myös ennustaa yksilön terveydentilan muutoksia.

Ketkä pystyvät, saavat tai osaavat osallistua terveyden jatkuvaan tarkkailuun, jolla voidaan esimerkiksi ennustaa tulevia muutoksia? Kuka tulkitsee, onko henkilö ajautumassa vakavaan sairauteen ja voiko diagnoosiin luottaa? Kenen harvinainen sairaus saadaan parannettua ja tehdäänkö se julkisin varoin? Millä eettisillä reunaehdoilla pääsy viimeisimpiin hoitoihin koordinoidaan?

Teknologia tarjoaa koko ajan enemmän mahdollisuuksia tarkkailla reaaliaikaisesti terveyttä ja elintapoja yksilötasolla. Erilaiset teknologiset apuvälineet terveydentilan monitorointiin tulevat koko ajan halvemmiksi ja sulautuvat kaikkien jo nyt mukana oleviin laitteisiin, kuten kännykkään, vaatteisiin tai rannekelloon. Esimerkiksi vakuutusyhtiö Lähitapiolalla on Suomessa meneillään uusi kokeilu, jossa yhtiö tarjoaa ”älyhenkivakuutusta.” Vakuutusyhtiö tekee yhteistyötä biomonitoreita tekevän Polarin kanssa ja kerää mm. syke- ja elintapatietoja sovellukseen, joka auttaa lääkäreitä tekemään ennusteita henkilön terveydentilasta. Asiakkaan on mahdollista alentaa vakuutusmaksuja, jos tietyt terveelliset elämäntavan
ehdot toteutuvat vakuutusyhtiölle luovutetussa datassa. Yksilöt siis hyötyvät alentuneista vakuutusmaksuista, jotka kannustavat terveempiin elintapoihin. Vastapalveluksena vakuutusyhtiö hyväksyy ”maksuvälineeksi” dataa, jota se hyödyntää.

Tämä data on arvokasta. Luotettavat ja hyvin järjestetyt datalähteet, joita käytetään yksilöiden terveyden tulkinnassa, ovat valuuttaa kansainvälisessä kaupankäynnissä. Britanniassa National Health Service NHS on päättänyt avata yli miljoonan lontoolaisen hoitohistorian Googlelle. Toiveena on, että Google asiantuntijoiden pääsy dataan auttaa ehkäisemään suuria kustannuksia julkisessa terveydenhuollossa aiheuttaviin munuaissairauksiin. Arvioidaan, että jopa neljännes sairaustapauksista voitaisiin estää, jos riskitilanteet havaittaisiin aikaisemmin ja henkilöt muuttaisivat elintapojaan. Tämä toisi merkittäviä säästöjä julkiselle sektorille ja parantaisi kansanterveyttä.

 

Kuka omistaa datan ja sen tulkinnat?

 

 

Ihmisten itse itsestään kerryttämä elämäntapaan liittyvä data esimerkiksi lenkeistä, syödystä ruuasta ja nautitusta alkoholista päätyy tällä hetkellä internetiin hyvin erilaisiin palveluihin, tai häviää muutaman vuoden sisällä keruusta. Dataa keräävien palveluiden tarkoitus on useimmiten voiton tavoittelu esimerkiksi sitouttamalla ihmiset teknologisten laitteiden ekosysteemiinsä. Siksi kerrytetyn datan liittäminen kolmansien osapuolten tietolähteisiin ei useinkaan onnistu. Datan käyttö luotettavan diagnosoinnin tukena vaatii pääsyä laajoihin ja tutkimuksiin, joiden valossa esimerkiksi yksittäinen näytteestä saatu data voidaan tulkita oikein. Tällainen datan integraatio on vielä alkutekijöissä.

Kehitysvauhti on kuitenkin valtava. Esimerkiksi koirista kerätyn datan tarkastelua rajoitetaan lainsäädännöllisesti vähemmän kuin ikuin ihmisistä, ja niille on jo saatavissa monenlaisia genetiikkaa ja elintapoja yhdistäviä terveyttä edistäviä palveluita (MyDogDNA). Ihmisen parhaan ystävän seuraava suuri palvelus voikin olla auttaa osoittamaan, millä tavalla geneettistä biologista informaatiota kannattaa käyttää terveydenhoidossa.

Terveydenhuollon organisaatiot keräävät dataa ja näytteitä ihmisistä hoitojen ohella tutkimustarkoituksiin. Datan ja näytteiden luottamuksellisesta keruusta on aina vastuussa lääketieteen ammattilainen. Kerääjän lupa kysytään, jos näitä käytetään uusiin tarkoituksiin.

Vallitseva käytäntö helpottaa ratkaisevasti terveyttä parantavien tutkimusten tekemistä. Pohjoismaissa on ollut vuosikymmeniä toiminnassa keskitetty terveydenhuolto, joka on kyennyt myös organisoimaan ja tarjoamaan laadukasta dataa tutkimustyötä varten. Esimerkiksi norjalaisista yli 30 prosentin osalta on näyte biopankissa. Suomessa on koottu yli 150 miljoonaa sairaskertomusta 4,3 miljoonasta kansalaisesta arkistoon.

Suomessa on yhteensä noin 5,4 miljoonaa asukasta ja vuonna 2016 lähes kaikkien lääkereseptit
päätyvät samaan arkistoon. Biopankkilaki Suomessa takaa myös sen, että datan vastuullinen tutkimuskäyttö voi tapahtua informoimatta jokaista kansalaista erikseen asiasta. Kokonaisuus antaa erinomaiset lähtökohdat tulkita geneettisten lähtökohtien ja elämän aikana tapahtuvien asioiden yhteyksiä, jos voidaan luoda pääsy dataan turvallisesti ja riittävän avoimesti suurelle kansainväliselle joukolle taitavia analyytikoita.

Mutta mitä datasta voi lukea nyt ja ennen kaikkea mitä tulevaisuudessa? Britanniassa Googlelle on annettu pääsy kaikkeen potilasdataan, koska ennalta ei voi tietää, mitkä tekijät ovat ennustavia ja selittäviä munuaissairauden kehittymiseen. Mutta entä jos tätä ennustettaessa käy ilmi, että henkilöllä on akuutti riski saada sydänkohtaus? Pitäisikö asiasta kertoa henkilölle? Pohjoismaiset biopankit ovat tutkineet, että noin 60 prosenttia ihmisistä haluaa tietää satunnaisista löydöistä. Loput 40 prosenttia ei halua tietää. Kuka omistaa ihmisestä kerätyn datan ja näytteet ja kenellä on oikeus hallinnoida niitä esimerkiksi tutkimustarkoituksiin?

Ratkaisuna avoin datapalvelu

 

Lainsäädännön on luotava linjauksia, jotka eivät jarruta kehitystä biologisen informaation ymmärryksestä. Lakien pitäisi suojella riittävästi datan luovuttajia ja lähteitä väärinkäytöksiltä ja ylläpitää datan infrastruktuuria ja sen palveluita, joiden varaan voidaan rakentaa uusia palveluita. Terveydenhoidon päätöksenteon tukijärjestelmät nojautuvat rakennettuihin ja ylläpidettyihin tietolähteisiin.

Kansainvälisessä yhteistyössä pystytään rakentamaan ihmisen geneettisten lähtökohtien ja elintapojen
ja hoitohistorian valossa luotettavampia tietolähteitä kuin yksikään maa pystyy yksin rakentamaan. Tämän vuoksi olisi pyrittävä kohti globaalisti saatavilla olevia datan lähteitä myös ihmiseen liittyvän biologisen
informaation käsittelyssä ja tulkinnassa.

Kansainvälinen pääsy dataan lisää demokratiaa, koska ihmisistä kerätyn tutkimusdatan käytön tulkintoihin tarvittavat kustannukset voidaan jakaa. Samalla voidaan tukea maita, jotka eivät yksinään kykenisi luomaan tietopalveluita. Ihmisistä saadaan tehtyä nykyään mittauksia kaikkialla, mihin internet yltää – haaste on, että mittaustulosten tulkinta voidaan suorittaa luotettavasti. Tähän kansainvälisesti avoimet ja tietoturvalliset tietopalvelut olisivat yksi ratkaisu.

Esimerkiksi ihmisen perimässä on noin 20 000 sellaista geeniä, jotka ohjeistavat elimistön kaikkia
toimintoja. Joskus geneettinen informaatio kuitenkin korruptoituu, mikä voi johtaa esimerkiksi rintasyövän syntyyn. Kansainvälinen tutkimusryhmä on osoittanut, että perimässä on täsmälleen 93 geeniä, jotka mutatoituessaan muuttavat terveen solun rintasyöpäsoluksi. Tämänkaltainen informaatio
on erittäin tärkeää suunniteltaessa uusia lääkkeitä, koska mutatoituneesta geenistä syntyvät proteiinit
ovat kohteita lääkemolekyylien suunnittelulle. Sairastunut henkilö voidaan myös entistä tarkemmin diagnosoida tiedon avulla.

Tämän tyyppisen biodatan sulkeminen rajoitetun joukon saataville olisi väärin. Siksi tarvitaan avoimia palveluita biologiselle informaatiolle, jotta tutkimustulokset ovat yliopistojen, tutkimuslaitosten ja lääketeollisuuden saatavilla silloin, kun niitä tarvitaan. Yksi tällainen tietopalvelu on European Genome-Phenome Archive EGA, joka on osa eurooppalaista ELIXIR-tutkimusinfrastruktuuria. EGA suojelee biologista informaatiota vanhalla mantereella. EGA varastoi suuria ihmisperäisiä biolääketieteellisiä
data-aineistoja ja jakaa dataa luvanvaraisesti. Tähän eurooppalaiseen globaaliin palveluun voivat laittaa dataa niin yliopistot, tutkimuslaitokset, yritykset kuin julkishallintokin. Palvelua on käytetty esimerkiksi pohjoismaisessa julkisessa terveydenhuollossa pitkien aikasarjojen ja koko populaation (geenipoolin) kattavien tutkimusten datan julkaisuun.

Seuraavien vuosikymmenien aikana ihmisistä kerätyn data hyödyntäminen on osa yhteiskuntaa. Valistuneet kansalaiset osaavat vaatia uudenlaisia terveyspalveluita. Alan yksityisten palveluiden sektori voi kasvaa nopeasti. Tarvitaan kuitenkin kansainvälisesti luotuja tietolähteitä ja standardeja, joiden varaan pieni- ja keskisuuri sektori voi rakentaa ja jotka tuovat takuita mittausdatan tulkinnan laadulle. Geneettisen, molekyylibiologisen ja elintapoja keräävien tietolähteiden korrelointi on vasta aloitettu.

 

Tommi Nyrönen

 

Lisätietoja:

 

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 20 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
http://www.elixir-finland.org
http://www.elixir-europe.org

Proteiinien rakenteen selvittämisen avulla uusia lääkemolekyylejä

BioCity Turun bioinformatiikan yksikkö on keskittynyt geeni- ja proteiinidatan analysoimiseen. Data-analyyseista on hyötyä erilaisten tautimekanismien ymmärtämisessä. Yksikössä on tutkittu erityisesti syöpäsairauksia ja aikuisiän 1-tyypin diabetesta. Yksikön tavoitteena on parantaa monimutkaisten tautien diagnostiikkaa, hoitoa ja ennustettavuutta yhdistämällä laskennallista, kokeellista ja kliinistä tutkimusta.

 

Bioinformatiikan menetelmien avulla analysoidaan proteiinien kolmiulotteisia rakenteita. Näin voidaan selvittää, millaiset lääkeaihiot, tyypillisesti pienet molekyylit, todennäköisesti vaikuttavat proteiiniin. Hyödyntämällä näitä tietoja tutkijat voivat ymmärtää solun normaalia toimintaa ja miten proteiinien toimintaan kannattaa vaikuttaa. Lopputuloksena voi olla uusi lääkeainemolekyyli, joka vaikuttaa kohdeproteiiniin halutulla tavalla.

”Kahden molekyylin kohdatessa tapahtuu aina vuorovaikutusta. Yhteensopiva muoto ja kemia lisäävät tätä vuorovaikutusta merkittävästi. Jos kohtaaminen on voimakas, se voi muuttaa molekyylin mahdollisuutta vaikuttaa kolmanteen molekyyliin. Siten signaali välittyy ketjussa, jossa on eri molekyylien kohtaamisia”, kertoo bioalan tietotekniikkaan erikoistunut Åbo Akademin tutkija Jukka Lehtonen.

Lehtonen korostaa, että viestiä välittävät molekyyliparit eivät kuitenkaan ole täydellisen täsmällisiä, jolloin kyseessä ei ole suoraviivainen viestinvälitysketju. Pikemminkin voidaan puhua molekyylien vuorovaikutusten verkosta.

”Solujen ns. normaali toiminta on herkkä tasapainotila. Lääkkeillä yritetään ylläpitää tätä normaalia tilaa. Esimerkiksi diabeteksessä solujen oma insuliinitoiminta on häiriintynyt, joten lääkityksellä ja ruokavaliolla korvataan vähentyneitä vuorovaikutuksia.”

”Myös haitallisesti toimivia signaaliketjuja yritetään hillitä lääkityksellä.”

Lääkeainemolekyylien suunnittelussa on tärkeää, että ketju tapahtumia toimii halutulla tavalla kaikissa molekyyleissä. Jos esimerkiksi signaaliketjussa oleva kolmas molekyyli aktivoituu liikaa, lääkkeellä ei välttämättä ole haluttuja vaikutuksia.

”Lääke on tehokas ja sivuvaikutuksia on vähän, jos lääkemolekyylin ja proteiinin sitoutumiskohdan rakenteet ovat riittävän ainutlaatuisia ja yhteensopivia.” Lehtonen toteaa.

”Samantyyppisiä proteiineja on kuitenkin ihmiskehossa paljon ja epätäsmällisemmätkin
vuorovaikutukset voivat muuttaa annosteltuja lääkemolekyylejä kemiallisesti.”

Lääkesuunnittelussa on siten kaksi osaa: optimaalisten molekyylien suunnittelu kohdeproteiinille ja sellaisten yhdisteiden etsiminen, jotka elimistössä matkatessaan muuttuvat lääkemolekyyleiksi
ilman sivuvaikutuksia.

Proteiinin rakennemalli

Proteiinin kolmiulotteinen rakenne voidaan määrittää röntgenkristallografian avulla. Elektronit säännöllisessä proteiinikiteessä taivuttavat röntgensäteitä ja taipumisesta eli diffraktiosta voidaan laskea elektronitiheyskartta. Rakennemalli syntyy sovittamalla proteiinin atomit elektronien tiheyteen laskennallisten algoritmien ja tietokonegrafiikan avulla.

“Proteiinin kiteytys on vaikea vaihe. Oikeiden kiteytymisolosuhteiden löytäminen
on haastavaa. Jotkut proteiinit eivät kiteydy kokonaisina”, kertoo Lehtonen.

Proteiinirakenteiden määrä on kuitenkin lisääntynyt valtavasti. Vuonna 1994 rakenteita
oli määritetty noin tuhat, nyt niitä on jo sata tuhatta. Jo ratkaistut proteiinirakenteet löytyvät PDB- tietokannasta (http://www.rcsb.org/).

”Proteiineja on olemassa huomattavasti enemmän ja muiden tutkimushavaintojen perusteella on useita mahdollisia lääkekohteita, joiden rakennetta ei vielä ole määritetty.”

Jos kohdeproteiinin sukulaisten rakenteita tunnetaan, voidaan yrittää laatia homologiamalli.

“Sukulaiset muistuttavat yleensä toisiaan. Teoreettinen malli kohteen rakenteesta voidaan laatia tunnetun sukulaisen perusteella. Malli muistuttaa väistämättä esikuvaansa”, Lehtonen kertoo, mutta muistuttaa, että malli ei ole tulos vaan työkalu.

Rakennemallin avulla selitetään proteiinin toiminnasta kerättyä kokeellista dataa ja ennustetaan, mitä poikkeavassa tilanteessa saattaa tapahtua. Mallin avulla voidaan esimerkiksi ennustaa, millaisiin vuorovaikutuksiin erilaiset pienmolekyylit proteiinin kanssa kykenevät.

”Mallia täytyy kuitenkin arvioida kriittisesti. Se ei ole kaikilta osiltaan yhtä luotettava. Rakennemalli saattaa kuvata lääkemolekyylin sitoutumiskohdan uskottavasti vaikka olisikin muilta osin epävarma.”

Lehtonen korostaa, että mallintaminen edellyttää yhteistyötä kokeita tekevien tutkimusryhmien kanssa.
”Mallin perusteella ehdotetaan koejärjestelyjä, jotka kertovat tutkimuskohteesta enemmän ja samalla paljastavat onko malli luotettava. Mallintajan täytyy datan perusteella päättää, voiko mallia käyttää. Mallia korjataan ja tarkennetaan saadun kokeellisen datan avulla. Sykli jatkuu kunnes kohde tunnetaan hyvin,” Lehtonen korostaa.

Lääkeaineen sitoutumispaikka

Rakenteeseen perustuvassa lääkeainesuunnittelussa hyödynnetään tietoa proteiinin sitoutumiskohdan rakenteesta ja tunnetuista proteiiniin sitoutuvista molekyyleistä, joita kutsutaan ligandeiksi. Lääkemolekyylit suunnitellaan usein ligandin kaltaiseksi. Parhaimmillaan tutkijoilla on käytettävissä määritetty proteiinirakenne, joka sisältää ligandin. Proteiinia voidaan myös mutatoida valikoivasti, jolloin sitoutumisen voimakkuuden muutosten perusteella päätellään, mitkä proteiinin aminohappotähteet osallistuvat sitoutumiseen. Sitoutumiskohta on yleensä onkalo proteiinirakenteessa. Rakennemallin onkalot voi hahmottaa myös laskennallisesti, mutta aidon sitoutumiskohdan tunnistaminen ei ole automaattista.

”Ligandin vaikutustapa, eli proteiinin normaali toiminta, on itsessään arvokas tutkimustulos. Jos tiedetään sukulaisrakenteita, joukko niihin sitoutuvia ligandeja ja erot sitoutumisen voimakkuudessa, voidaan rakenneanalyysillä tunnistaa sitoutumiselle merkittävimmät atomitason erot. Näin selviää, mikä ligandin rakenteessa on tärkeää.”

Mahdollisella lääkemolekyylillä tulisi siis olla samankaltaiset osaset. Jos lääkeaineen sitoutumispaikasta kohdeproteiinissa on saatavilla riittävästi kokeellista tietoa, voidaan tietokannoilla ja tehokkailla tietokoneilla tehdyllä virtuaaliseulonnalla rajata nopeasti ja luotettavasti suuresta määrästä molekyylejä mahdolliset lääkeainekandidaatit. Näin voidaan minimoida myös lääkkeen mahdolliset sivureaktiot.

”Virtuaalisia molekyylikirjastoja voidaan seuloa luoduilla hakukriteereillä, eli suorittaa tietokonehaku joka rajaa pois täysin sopimattomat molekyylit. Jäljelle jääneillä yhdisteillä tehdään tarkempaa mallinnusta, jotta kokeellisesti testattavien yhdisteiden joukko supistuu kohtuulliseksi.”

Hakualgoritmi laskee proteiinin ja toisen molekyylin asettelut

Mallinnuksen avulla etsitään todennäköisesti proteiinin kanssa oikein reagoivia molekyylejä ja laboratoriotuloksilla testataan paikkansapitävyys. Näin saadaan vastaus siihen, mitkä ovat mahdollisia lääkeainekandidaatteja, miksi tämä toimii ja toinen ei.

”Jos asetetaan kaksi molekyylirakennetta vierekkäin virtuaalisesti, voidaan kysyä miten vahva vuorovaikutus niillä on. Voimien vahvuuteen vaikuttavat atomien väliset etäisyydet ja muiden molekyylien eli veden läsnäolo. Fysiikka ja kemia ovat tuottaneet havaintodatan ja teoriat voimien
arvioimiseksi. Molekyylien siirtyessä tai muuttaessa muotoaan myös lasketut voimat muuttuvat. Molekyylit voidaan siis asetella lukemattomilla tavoilla.”

Telakointi (docking) on hakualgoritmi, joka laskee voiman proteiinin ja toisen molekyylin
välillä.

”Kukin telakointialgoritmi käyttää erilaista strategiaa joukon valinnalle. Tavoitteena on löytää optimaalinen asettelu, joka toivottavasti kuvaa miten rakenteet todellisuudessa vuorovaikuttavat. Haku rajataan melko tarkasti oletettuun sitoutumiskohtaan ja molekyylien sallitut muodonmuutokset ovat pieniä. Muuten hakuavaruus on liian suuri, eli laskennan määrä kasvaa suhteettomaksi.”

Bioinformatiikassa telakoinnilla selvitetään se, mikä ligandi sitoutuu vahvimmin. Kun jokaisen ligandin sitoutumiskohdalle, sitoutumistavalle ja sitoutumisen voimakkuudelle on malli, voidaan laatia ehdotus, miltä uusien lääkemolekyylien pitää näyttää, jotta ne sitoutuvat toivottuun kohdeproteiiniin. Telakointiin on käytössä useita eri laskentateknologioita. Esimerkiksi, molekyylidynamiikkasimulaatiossa sallitaan molekyyliparien vapaa liikkuminen, eikä työ saa kestää viikkoja. Siksi tarvitaan tehokkaita laskentaresursseja. Molekyylidynamiikka on siis laskennallisesti raskas menetelmä telakointiin, mutta palkintona on tarkempi ymmärrys molekyylien välisestä dynaamisesta vuorovaikutuksesta. Molekyylidynamiikan simulaatioita käytetäänkin vuorovaikutusten yksityiskohtaisempaan mallintamiseen ja proteiinin ja lääkeaihion välisen vuorovaikutuksen ja pysyvyyden arvioimiseen.

“Suurin virhe mallinnuksessa on uskoa sokeasti ohjelmien antamia vastauksia. Olennaista on kyky arvioida tuloksia kriittisesti ja mallinnuksen hyödyntäminen ongelmissa, joihin se soveltuu,” Lehtonen korostaa.

Pilvipalvelu luo läpinäkyvän, mutta tietoturvallisen resurssin

Turun bioinformatiikan yksikkö hyödyntää tutkimuksessaan Suomen ELIXIR-keskuksen pilvilaskentaresurssia ePoutaa. Se luo läpinäkyvän paikallisen resurssin, jonka tietoturvataso on erittäin korkea. Käyttäjä ei näe, että laskenta tapahtuu pilvessä eikä dataa tarvitse siirtää levyasemalta toiselle, varsinkaan julkisen verkon kautta. Esimerkiksi sellaisille tutkimusaineistoille, joihin liittyy yrityssalaisuuksia, ePoudan korkeampi tietoturvataso on
välttämätön.

“Saamme ePoudan ansiosta lisää laskentakapasiteettia paikalliseen verkkoon, mikä on sopinut meille erittäin hyvin. Käytännössä meidän laskentakapasiteettimme on tuplaantunut. CSC:n pilvi on kansallisella tasolla edullisin tapa luoda paikallisia laskentaresursseja.”

Lehtosen mukaan ePouta luo läpinäkyvän paikallisen resurssin. Käyttäjä ei näe, että laskenta tapahtuu pilvessä eikä dataa tarvitse siirtää levyasemalta toiselle, varsinkaan julkisen verkon kautta. Joillekin tutkimusaineistoille ePoudan korkeampi tietoturvataso on välttämätön.

“Koska CSC vastaa laskentaresursseista ja pilvipalvelusta, asiakaspäähän voidaan rakentaa sellainen ympäristö, joissa tutkija viihtyy. Tällä tavoin on myös helpompi ylläpitää sellaisia ohjelmistokokonaisuuksia, joita CSC:llä ei ole.”

Ari Turunen

Lue artikkeli PDF-muodossa

CSC – Tieteen tietotekniikan keskus Oy

CSC on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon
osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

Biokeskus Suomi

Biokeskus Suomi on bioalan kansallisia tutkimusinfrastruktuureja kehittävä ja tarjoava organisaatio, joka toimii yhteistyössä ESFRI-hankkeiden kanssa.
http://www.biocenter.fi/

BioCity

BioCity Turku on turkulaista bioalan tutkimusta yhdistävä kattojärjestö.
http://www.biocity.turku.fi/

Turun Biotekniikan keskus

Turun Biotekniikan keskus on Turun yliopiston ja Åbo Akademin erillislaitos, joka tuottaa palveluja eri bioalan tutkimusryhmille.
http://www.btk.fi

Rakennebioinformatiikan laboratorio

Rakennebioinformatiikan laboratorio toimii Åbo Akademin Luonnontieteiden ja tekniikan tiedekunnan tiloissa Bio-Cityssä.
http://www.abo.fi/fakultet/biokemisbl

BBMRI.fi: yhteinen biopankkien IT-infrastruktuuri

BBMRI (Biobanking and Biomolecular Resources Research Infrastructure) on 16 eurooppalaisen valtion perustama infrastruktuuri, jonka tavoitteena on edistää eurooppalaisten biopankkien näytekokoelmien ja niihin liittyvien tietojen korkeatasoista tutkimuskäyttöä. Kokoelmien hyödyntäminen auttaa diagnostiikan ja hoitojen kehittämistä sekä terveyden edistämistä ja sairauksien ehkäisyä. Suomessa on toiminnassa jo useita biopankkeja, joille luodaan BBMRI:n ja ELIXIRin yhteistyönä yhteinen tietotekninen infrastruktuuri.

 

BBMRI toimii kansallisten keskusten kautta, jotka koordinoivat jäsenmaiden biopankkeja. Jäsenmaihin ja BBMRI:n alaisuuteen perustetaan myös palvelukeskuksia, jotka palvelevat biopankkien asiakkaita. BBMRI. fi on BBMRI-verkoston kansallinen yhteistyöelin, jonka jäseniä ovat suomalaiset biopankit.

Suomen biopankit

Suomessa oli vuonna 2015 toiminnassa viisi biopankkia. Uusia perustetaan lähitulevaisuudessa. Terveyden ja hyvinvoinnin laitoksen THL Biopankkiin siirrettiin kesäkuussa 2015 yli 100 000 suomalaisen näytekokoelmat. Kokoelmien avulla voidaan selvittää sairauksien syitä ja perimän, ympäristön ja elintapojen vaikutusta niihin. Auria Biopankin näytteistä 50 prosenttia on syöpänäytteitä. Auria Biopankki keskittyy erityisesti verenkierto-, aineenvaihdunta-, syöpä- sekä neurologisten sairauksien tutkimukseen. Auria Biopankin ovat perustaneet Turun yliopisto sekä
Varsinais-Suomen, Satakunnan ja Vaasan sairaanhoitopiirit.

FHRB eli Suomen hematologinen rekisteri ja biopankki toimii koko maassa ja kerää veritautipotilaiden veri- ja luuydinnäytteitä. Näytteitä tarvitaan tutkimuksiin, joissa etsitään keinoja vaikeiden veritautien, erityisesti leukemian hoitoon. FHRB-biopankin omistavat Suomen Hematologiyhdistys, Suomen molekyylilääketieteen instituutti (FIMM) ja Suomen Punaisen Ristin Veripalvelu. Toiminnassa on mukana myös Suomen Syöpäpotilaat ry.

Helsingissä toimivan Akateemisen lääketiedeyhdistyksen AMCH:n tehtävänä on tukea tutkimusta, jonka tavoitteena on terveyden edistäminen, tautimekanismien ymmärtäminen tai terveyden- ja sairaanhoidossa käytettävien tuotteiden, diagnostisten menetelmien tai hoitokäytäntöjen kehittäminen.

HUB-biopankki keskittyy urologisiin sairauksiin ja se palvelee tämän tutkimusalueen biopankkinäytteistä hyötyvää tutkimusta. Biopankki aloitti näytekeräyksen vuoden 2015 alusta. Näytteitä ja tietoja hyödyntävien tutkimushankkeiden pyrkimyksenä on parantaa urologisten
tautien ennaltaehkäisyä, diagnostiikkaa ja hoitoa. HUB-biopankin perustivat FIMM ja Helsingin ja Uudenmaan sairaanhoitopiirin kuntayhtymä (HUS).

Biopankkien IT-infrastruktuuri

Biopankit hallinnoivat erittäin suuria ja tärkeitä tietoaineistoja. Esimerkiksi genomitiedon ja kuvantamisen tietoaineistojen yhdenmukaistaminen ja hallinta on vaativa tehtävä. Tarkoituksena on tuottaa kansallinen web-pohjainen biopankkitietojen saatavuuspalvelu, josta voi etsiä sopivia aineistoja
tutkimus- ja tuotekehityskäyttöön.

THL:n erikoissuunnittelija Juha Knuuttila koordinoi biopankkien IT-yhteistyötä Suomessa. Juha Knuuttilan mielestä BBMRI.fi -verkoston keskeistä kansallista yhteistyötä on biopankkien IT-infrastruktuuri.

“Suomessa tietotekninen infrastruktuuri on suhteessa moneen muuhun eurooppalaiseen maahan kehittyneessä vaiheessa. Suomen BBMRI.fi ja Suomen ELIXIR-keskus ovat tästä hyviä esimerkkejä. Molemmilla on selkeä roolinsa. ELIXIR toteuttaa hyvän pilvipalvelun ja biopankkitoimintaa tukevat
erikoistuneet tietokonejärjestelmät tulevat BBMRI:ltä. Pilvipalvelussa ovat käytössä FIMM:n ja CSC – Tieteen tietotekniikan keskus Oy:n virtualisoidut laskentaklusterit. Euroopan tasolla näin toimiva yhteistyö on vielä harvinaista,” Knuuttila toteaa.

Tietokantapilotit käynnistyneet

Biopankkien yhteistyöverkoston tavoitteena on sopia yhtenäisistä toimintatavoista, jotka liittyvät laatuvaatimuksiin järjestää kansallisesti yhtenäiset aineistojen luovutuskäytännöt. Yhtenäiset eettiset
periaatteet ja tutkimuksiin osallistuneiden henkilöiden luottamuksen säilyttäminen ovat myös tärkeä osa kansallista biopankkitoimintaa.

IT-puolella yhteistyö on käynnistetty tietokantapiloteilla. Esimerkiksi patologian arkistot ovat useimpien suomalaisten sairaalabiopankkien tai biopankkihankkeiden tärkeimpiä näyteaineistoja. Biopankkien yhteistyönä on aloitettu kansallinen digitaalisen patologian infrastruktuuri digitalisoimalla yliopistosairaaloiden patologian arkistojen näytteet.

Digitalisointi edesauttaa uusien sovellusten kuten kudos-mikrosiruteknologian hyödyntämistä sekä työkalujen kehittämistä suurten tietoaineistojen analysointiin, mikä edistää yksilöllistettyä terveydenhoitoa. Palvelut ovat osa eurooppalaista BBMRI-infrastruktuuria.

”Tavoitteena on luoda yhtenäinen suomalainen rajapinta eurooppalaiseen infrastruktuuriin.”

Datan harmonisoiminen yhteiseen tietokantaan

Työtä kuitenkin riittää. Käytössä on monia erilaisia terveydenhuollon järjestelmiä ja tieto on hajanaista. Knuuttilan mielestä suurin työ on tiedon harmonisoinnissa.

”Tutkimusyhteistyön mahdollistamiseksi kliininen data, väestödata ja näytedata pitäisi saada yhteen paikkaan ja helposti haettavaan muotoon. Siksi biopankkien pitää sopia, mitä muuttujia yhdistetään
realistisella ja hyödyllisellä tavalla tietokantoihin.”

Knuuttilan mielestä tämä pakottaa biopankit toimimaan yhdessä, jolloin siitä on hyötyä myös tutkijoille ja lääkefirmoille. Knuuttila johtaa biopankkien yhteistä IT-ryhmää.

”Sekä biopankeille että sairaaloille on hyödyllistä, että potilastieto saadaan strukturoituun
muotoon.”

Tavoitteena näytteiden ja tietojen hakupalvelu

THL, FIMM ja CSC loivat Biomedinfra-yhteistyön, koska tunnistettiin tarve luoda yhteinen kokonaisuus biopankeista saadun geenitiedon hyödyntämiseksi. Se edellytti myös yhteisiä IT- ratkaisuja. Suomen Akatemia ja Opetus- ja kulttuuriministeriö asettuivat tukemaan hanketta. Tällä hetkellä neljää eri palvelua voidaan hyödyntää yhteisten rajapintojen avulla. Ne ovat näyte- ja tietorekisteri (THL), koodi- suostumus- ja tapahtumarekisteri (FIMM), luovutuspyyntöjen hallinta
eli REMS-palvelu (CSC) sekä saatavuustietokanta (FIMM).

”Kaikissa on ohjelmointirajapinta, jonka avulla ne voivat vaihtaa tietoa keskenään.”

Knuuttilan mukaan tällaista THL:n, CSC:n ja FIMM:n luomaa ohjelmistokokonaisuutta ei ole kukaan muu vielä tehnyt.

”Tällaiset avoimen lähdekoodin ratkaisut voivat olla houkuttelevia myös biopankeille.”

Knuuttilan mielestä seuraavia tärkeimpiä tehtäviä on luoda yhteinen verkkopohjainen saatavuuspalvelu, josta voidaan tehdä hakuja eri biopankkien näytteiden ja tietojen saatavuudesta.

Ari Turunen

Lue artikkeli PDF-muodossa

Terveyden ja hyvinvoinnin laitos THL

THL on kansallinen asiantuntijalaitos, joka tarjoaa luotettavaa tietoa terveys- ja hyvinvointialan
päätöksenteon ja toiminnan tueksi.
https://www.thl.fi
http://www.bbmri.fi

CSC – Tieteen tietotekniikan keskus Oy

CSC on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon
osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

 

Syöpää vastaan matematiikalla

Syövän   tutkimuksessa   käytetään   entistä   enemmän laajoja data-aineistoja ja tietokantoja. Helsingin yliopiston lääketieteellisen tiedekunnan systeemibiologian professorin Sampsa Hautaniemen tutkimusryhmässä kehitetään menetelmiä, joiden avulla voidaan integroida dataa eri lähteistä, kuten DNA:sta, geenien   ilmentymisestä ja proteiinien toiminnasta. Kun analyysien tulokset yhdistetään biolääketieteellisiin tietokantoihin, voidaan tehdä kokeellisesti testattavia ennusteita. Tästä on hyötyä esimerkiksi diagnostiikassa ja hoitomenetelmien suunnittelussa.

 

Sampsa Hautaniemi työskenteli Massachusetts Institute of Technologyssa (MIT) ennen kuin perusti oman   tutkimusryhmän Helsingin yli­opistoon vuonna 2006. Hautaniemen laborato­riossa analysoidaan monimutkaisia, sairauksiin liittyviä   biologisia   järjestelmiä   matemaattisin   menetelmin. Ilman laskennallista apua tieto­massojen analysointi ei onnistu.

”Biolääketieteellisessä   tutkimuksessa,   eten­kin   tulosten   tulkintavaiheessa,   tarvitaan   tietokantoja ja laskennallisia menetelmiä”, toteaa Hautaniemi.

Biomedicumissa  toimivan systeemibiolo­gian ryhmän tavoitteena on soveltaa laskennal­lisia menetelmiä lääketieteellisiin tutkimuskysy­myksiin. Esimerkiksi mitkä geneettiset profiilit vaikuttavat syövän riskiin tai millainen ennuste potilaalla on, jos hänellä on tietty geneettinen profiili? Tarkoituksena on löytää potilaalle yksi­löllinen, genomisen profiilin mukainen hoito­ keino.

”Meidän   tavoitteemme   on   ymmärtää   syö­päsolun käyttäytymistä ja etsiä kohteita, joiden aktiivisuutta muokkaamalla syöpäsolut saadaan kuolemaan   mahdollisimman   pienillä   sivuvai­kutuksilla. Kun syöpäpotilasta halutaan hoitaa, niin pitää ymmärtää ensin, miten kasvaimen solut tekevät päätöksiä siitä, miten ne kasvavat, lisääntyvät ja liikkuvat. Pyrimme tähän geno­minlaajuisten mittausmenetelmien ja   mate­maattisten menetelmien avulla.”

Esimerkiksi rintasyövän hoidossa on tärkeää pystyä ennakoimaan etäpesäkkeiden syntymi­sen todennäköisyys. Vaikka hoitoennuste rinta­syövälle paranee koko ajan, etäpesäkkeet lisäävät huomattavasti sairastumisriskiä.

”Ongelma on, että ei tiedetä miten ja mitkä solut kasvaimesta irtoavat, minne ne menevät ja kuinka ne siellä toimivat.”

Tutkimalla geenien aktiivisuutta ja yhdistele­mällä tietoa pyritään päättelemään, kenellä on suuri todennäköisyys saada etäpesäkkeitä. Nykyiset mittausmenetelmät, kuten mikro­sirut ja uuden sukupolven sekvenaattorit, tuot­tavat valtavat määrät dataa.

”Emme tällä hetkellä vielä tiedä solun sisäi­siä päätekijöitä, jotka vaikuttavat syövän hoito­vasteeseen. Siksi tutkimuksessa käytämme koko genomin mittaavia menetelmiä eri tasoilta.”

Tällaisia menetelmiä ovat DNA:n ja RNA:n sekvensointien lisäksi mm. epigenetiikka, jossa analysoidaan elintapojen vaikutusta geenien toi­mintaan. Tärkeää on myös proteomiikka, joka selvittää proteiinien ja niiden rakenteen toimin­taa.

 

Sopiva lääke datan perusteella

 

Yhdestä syöpäkasvaimesta voidaan mitata yli neljä miljardia havaintopistettä. Tästä havainto­massasta pitäisi pystyä löytämään syövän kehi­tykselle ja lääkevasteelle ominaisimmat tekijät. Hautaniemen mukaan muutos on melkoinen, kun sitä verrataan tilanteeseen 10–20 vuotta sit­ten,   jolloin   tavallisesti   puhuttiin   muutamien   kymmenien tai satojen havaintojen käsittelystä.

”Lisäksi tietokannoista löytyy genominlaa­juista tietoa tuhansista syöpäpotilaista. Näiden hyödyntäminen suomalaisen aineiston rinnalla on tärkeää, mutta haastavaa.”

Ennusteen lisäksi Hautaniemen ryhmä etsii laskennallisen analyysin perusteella myös sopi­via hoitomenetelmiä. Hautaniemen ryhmä kartoittaa esimerkiksi geenimuunnosten vaikutus­ta lääkevasteeseen. Syövän hoidossa käytetään solunsalpaajia eli sytostaatteja, jotka tuhoavat syöpäsoluja. Tärkeää on löytää sopiva sytostaat­ti, sillä potilas ei aina reagoi hyvin annettuun lääkeaineeseen.

Hautaniemen   laboratorio   on  yhteistyössä  professori Olli Carpénin ryhmän   kanssa käyt­tänyt tutkimuksessaan genominlaajuista tietoa sadoista munasarjasyöpäpotilaista. Tutkijat ovat etsineet   potilaitten joukosta sellaisia alaryh­miä, jotka ovat kehittäneet resistanssin tavan­omaiselle kemoterapiahoidolle, jossa käytetään solunsalpaajina platinajohdoksia ja taksoideja.

Tutkimushanke käyttää satojatuhansia prosesso­ritunteja supertietokoneen laskenta­aikaa sekä kymmeniä teratavuja tallennuskapasiteettia.

”Tietynlaisen geneettisen profiilin omistaval­le henkilölle jotkin lääkkeet voivat olla jopa hai­tallisia, toisesta taas on optimaalinen hyöty.”

 

Miten data muutetaan tiedoksi?

 

Hautaniemi ryhmineen on kehit­tänyt menetelmiä käyttämällä lymfoomaan liit­tyvää dataa yhdessä professori Sirpa Lepän ryh­män kanssa. Haasteena on, miten geeneistä ja proteiineista kerätty data muutetaan tiedoksi.

“Kliinisistä näytteistä tehdyt havainnot ovat aina melkoisen kohinaisia ja moniulotteisia, eli gee­nejä, proteiineja tai potentiaalisesti kiinnostavia DNA-alueita on tuhansia.   Siksi on olennaista vastata oikeisiin ja tarpeellisiin lääketieteellisiin kysymyksiin niin, että tulokset ovat hyödyllisiä. Tämän jälkeen tutkimuskysymykset pitäisi voi­da ratkaista matemaattisilla menetelmillä.”

Lymfooma­-   ja   munasarjasyöpädataa   ana­lysoidessaan Hautaniemen ryhmä käytti niin sanottua syväsekvensointimenetelmää.   Mene­telmässä DNA tai RNA pilkotaan ja sekvensoi­daan, minkä jälkeen molekyylien emäsjärjestys muutetaan   tietokoneen   ymmärtämään   muo­toon.   Tietokonemuotoon   muutettuja   lyhyitä   sekvenssipätkiä voi olla satoja miljoonia.

Hautaniemen   mukaan   suurin   pullonkaula   lääketieteellisen datan muuttamisessa tiedoksi on ehkä lääketieteellisten kysymysten ymmärtäminen niin, että ne voidaan muokata lasken­nallisiksi ongelmiksi.

Tämän ongelman ratkai­semiseksi Hautaniemi ryhmineen on kehittänyt tietokoneohjelmiston nimeltä GROK (Genomic Region Operation Kit). Sen avulla kysymykset saadaan käännettyä laskennallisiksi ongelmiksi ja pystytään ratkaisemaan datan perusteella. GROK­-työkalu on yleiskäyttöinen ja sitä on käytetty eturauhassyövän etenemisen ymmärtä­miseen. Tutkimus tehtiin yhteistyössä professo­ri Olli Jänteen laboratorion kanssa. Yhteistyön tuloksena FoxA1­proteiinin toimintaa yhdessä AR-proteiinin kanssa, joka on keskeisin eturauhasssyö­vässä vaikuttava proteiini, ymmärretään parem­min.   Lisäksi   tutkimuksessa   huomattiin,   että   suuri   määrä   FoxA1­proteiinia   antaa   huonon   ennusteen, pieni määrä hyvän. Tulevaisuudessa tuloksia voidaan käyttää hoitoennusteen teke­misessä ja hoidon suunnittelussa. Hautaniemen mukaan kehitettyjä menetelmiä voidaan sovel­taa mihin tahansa syöpään.

”Olemme esimerkiksi tutkineet rinta­-, etu­rauhas-­   ja   munasarja­syöpiä   kehittämilläm­me   menetelmillä.   Vaikka kasvaimet   löytyvät   eri elimistä, niin niillä on huomattavan paljon samankaltaisuuksia molekyylitasolla. Siten tule­vaisuudessa voisi olla mahdollista käyttää rinta­syöpälääkettä esimerkiksi joissain munasarjan­syöpien alatyypeissä. Tätä ennen pitää pystyä karakterisoimaan kunkin syövän   alatyypit.   Tämä tarkoittaa sitä, että pystymme tulevaisuu­dessa sekä löytämään luotettavasti samankaltai­set syövät riippumatta niiden sijainnista ja suo­sittelemaan niille sopivaa tehokasta lääkitystä.”

Hautaniemi uskoo, että tulevaisuudessa syö­päsolun sekvensointi on osa   rutiinisyöpädiagnostiikkaa.

“Pyrimme löytämään tekijät kullekin kasvaintyypille ja yksittäiselle kasvai­melle, ja on vain ajan kysymys, kun ymmärrämme kasvaimien biologiaa niin hyvin, että pystymme   laskemaan   nopeasti   ennusteen   ja   todennäköisesti   toimivien   lääkkeiden   kombi­naatiot niiden genomin perusteella. Tähän pää­semisessä ja teknologian hyödyntämisessä las­kennalliset tieteet ovat avainasemassa.”

 

ELIXIR: eurooppalaista helpotusta biolääketieteellisen datan käsittelyyn

 

Biotieteellisten   kokeiden   tuottama   data   kak­sinkertaistuu   nykyään   muutaman   kuukauden   välein, ja määrä on edelleen kasvussa. Lisäksi kokeet tuottavat aivan uudenlaista dataa. Tutki­musten tuottamien valtavien datamäärien kertyminen on synnyttänyt tarpeen hallita kaikkea tuota informaatiota systemaattisesti. ELIXIRin tavoitteena on harmonisoida datan tallennus, käsittely ja analysointi.

Tietokannat alkavat monessa suhteessa olla elintärkeitä   biotieteiden   tutkimukselle,  mutta   niitä on usein ylläpidetty ikään kuin muun tut­kimustoiminnan ohella ja määräaikaisen tutki­musrahoituksen varassa. Yksi ELIXIRin merkittävimmistä tavoitteis­ ta onkin tärkeimpien biologista tutkimustietoa sisältävien tietokantojen rahoituksen turvaami­nen. Kun tietoa kokoava ja jakeleva järjestelmä on kuitenkin pysyvä, tutkimusryhmät voivat raken­taa omaa toimintaansa sen varaan. ELIXIR infra­struktuuri tarjoaa myös järjestelmän ja rahoitus­väylän Suomessa kehitetyille, koko Euroopassa merkittäville palveluille. Kaikkien ei tarvitse teh­dä samaa tietokantaa itse, vaan kertaalleen luotua dataa voidaan käyttää tehokkaasti useammassa paikassa ja tehtäviä voidaan jakaa.

”Bioinformatiikan   ala   on   niin   laaja,   ettei   yksikään laboratorio pysty tarjoamaan kaikkia palveluita laidasta laitaan. Se, mitä Suomen ja ESFRI­-hankkeiden infrastruktuurit tuovat tul­lessaan on tietty selkeys ja tiedonkulun paran­tuminen. Tiedämme, mitä muualla tehdään ja suunnitellaan”, Hautaniemi huomauttaa.

Ari Turunen

Lisätietoja:

Genomic region operation kit

http://csbi.ltdk.helsinki.fi/grok/

Ovaska, Lyly, Sahu, Jänne, Hautaniemi (2013): Genomic region operation kit for flexible processing of deep sequencing data

Saimaannorppa apuna populaatioiden perimän tutkimisessa

Biotekniikan instituutissa Jukka Jernvallin ja Petri Auvisen tutkimusryhmissä selvitetään eri lajien perimää ja populaatioiden rakenteita. Tavoitteena on ymmärtää, milloin lajit syntyivät ja eriytyivät toisistaan. Erityisen kiinnostuksen kohteena on saimaannorppa, jonka koko perimä eli genomi selvitetään.

 

Saimaannorppa on erinomainen tutkimuskohde, kun halutaan tutkia perimän monimuotoisuutta,
eristäytymistä ja sisäsiittoisuutta. Saimaannorpalla ei ole ollut yli kymmeneentuhanteen vuoteen kosketusta muihin hyljelajeihin. Sen silmät, aivot ja kallo ovat erilaiset muihin norppalajeihin verrattuna. Saimaannorppa kehittyi hyljekannasta, joka todennnäköisesti tuli Itämerestä Laatokkaan ja siirtyi sieltä Saimaan saaristoon.

”Jos laatokannorppa siirrettäisiin Saimaaseen, se ei välttämättä pärjäisi. Saimaannorppa on sopeutunut humuspitoiseen sameaan veteen ja sokkeloiseen saaristoon,” Biotekniikan instituutin laboratorion johtaja Petri Auvinen kertoo.

Biotekniikan instituutin DNA-sekvensointi ja genomikka -laboratorio on erikoistunut geenien sekvensointiin eli DNA:n emäsjärjestyksen selvittämiseen. Laboratoriossa on sekvensoitu useiden eliöiden kokonainen genomi kylmäruokaa pilaavasta Lactococcus piscium-bakteerista alkaen. Lisäksi laboratoriossa tutkitaan sekvensoimalla myös geenien ilmentymistä. Keskeisinä
tapahtumina eliöiden kehityksessä ovat solujen jakautuminen ja erilaistuminen, mikä on ajallisesti ja paikallisesti tarkasti säädeltyä.

Solujen erilaistuminen tapahtuu vaiheittain. Joskus geeni kytkeytyy päälle ja joskus lakkaa toimimasta. Tätä aktiivista toimintaa kutsutaan geenin ilmentymiseksi. Kun geenien ilmentyminen saadaan mitattua, voidaan esimerkiksi voidaan seurata sitä, mitkä geenit alkavat toimia vaikkapa puun valmistautuessa talveen. EST (expressed sequence tag)-tekniikka antaa tietoa geenin sijainnista ja toiminnasta. Selvittämällä geenien emäsjärjestys saadaan kullekin ilmenevälle geenille tunnistin (tag). Nykyisin geenien toiminnan tutkimiseen käytetään lähinnä RNA-seq menetelmää.

Referenssigenomi populaatioiden tutkimiseen

Helsingin yliopistossa toimivan Biotekniikan instituutin tutkijoiden tavoitteena on saada mahdollisimman korkealaatuinen referenssigenomi saimaannorpasta. Referenssigenomi on digitaalinen sekvenssitietokanta yhden lajin koko emäsjärjestyksestä, joka on saimaannorpan tapauksessa koottu yhdestä yksilöstä ja ihmisen tapauksessa lukuisista genomeista. Hyvän referenssigenomin kerääminen edellyttää erilaisten, kehittyneiden tekniikoiden käyttöä.

Populaatiota voidaan tutkia tehokkaasti referenssigenomin ja yksilöiden genomeissa esiintyvien poikkeamien avulla. STR-menetelmässä (short tandem repeat) verrataan DNA:n yhtä tiettyä kohtaa, jossa toistuu aina muutaman emäsparin toisto, kahteen tai useampaan DNA-näytteeseen. STR:n avulla yksilöiden DNA:t erottuvat selvästi. Mitokondrio-DNA:n avulla voidaan puolestaan
selvittää yksilöiden äiti-linjaa tuhansien vuosien taakse. DNA- sekvensointitekniikoiden nopea kehittyminen on mahdollistanut yhden nukleotidin polymorfismien (SNP) selvittämisen, joka antaa hyvin tarkan arvion yksilöiden välisistä eroista. Tätä menetelmää käytetään myös saimaanorpan genomiprojektissa. Datan kerääminen edellyttää paljon tallennustilaa ja laskentatehoa, jota tieteen tietotekniikan keskus CSC tarjoaa ELIXIR-infrastruktuurin kautta.

Saimaannorpan genomi on 2,5 miljardin emäsparin pituinen, saman kokoinen kuin koiran genomi. Saimaannorpan perimän selvittämisessä akatemiaprofessori Jukka Jernvallin ryhmä keskittyy hylkeiden hampaiden tutkimiseen, Petri Auvisen ryhmä populaatiohistoriaan ja genomin rakenteeseen. Kun genomi on selvitetty, saimaannorpan genomia verrataan Laatokan,
Itämeren ja Jäämeren norppien perimään.

Tutkijat yhdessä Oulun ja Itä-Suomen yliopistojen tutkijoiden kanssa keräävät dataa genotyypin (geneettiset tekijät) ja fenotyypin (ympäristötekijät) yhteyksistä. Paljon kehitysbiologista tietoa saadaan analysoimalla hampaita. Kun hammas puhkeaa, se ei enää kehity eikä se muutu ympäristön vaikutuksesta. Hampaissa on kuitenkin valtava variaatio. Siksi tutkitaan, mitkä geenit ovat vaikuttaneet erikoisiin hampaisiin. Esimerkiksi grillihylkeen hampaat ovat evoluution myötä tulleet hyvin monimuotoisiksi ja toimivat valaiden hetuloiden tapaan, koska hylkeet syövät grilliä.

”Meillä on tietokonemallit kaikista norpan kalloista. Voimme laatia tarkkoja fenotyyppejä ja etsiä todennäköisiä geenejä, jotka aiheuttivat tietyn hampaan. Geenin toimintaa voidaan mallintaa tietokoneella ja analysoida, mitkä alueet genomista voisivat vaikuttaa hampaaseen.”

Erilainen kallo ja hampaat kertovat adaptaatiosta tai lajiutumisesta, sopeutumisesta erilaisiin olosuhteisiin. Koska saimaannorpan silmäkuopat ovat erilaiset muihin läheisiinkin norppiin verrattuna, voidaan esimerkiksi päätellä, että se on sopeutunut sameisiin ja sokkeloisiin vesiin.

Auvisen ja Jernvallin ryhmillä on käytössä maailman ainoa tunnettu norpan ja harmaahylkeen risteymän DNA. Vuonna 1929 Skansenin eläintarhassa syntyi poikanen, jonka hampaasta Auvisen onnistui eristämään DNA:n. Valtavan harmaahylkeen ja pienen norpan jälkeläinen eli vain lyhyen aikaa. Risteymän hampaat ja kallo kertovat välimuodosta. Auvisen mukaan se vastaisi ehkä simpanssin ja ihmisen risteymää. Nyt pystytään vertaamaan, miksi tietynlainen hammas tai kallo kehittyy.

Auvisen mielestä tämä on myös ihmisen evoluutiolle merkittävää tutkimusta, koska ei tiedetä, milloin nykyihmisen eriytyi omaksi lajikseen. Risteytymiä on tapahtunut myös ihmisen evoluutiossa. On löydetty ihmisen kallonpalasia, jotka ovat Cro-Magnonin ihmisen ja Neanderthalin ihmisen väliltä. Eurooppalaisista 2-5% kantaa Neanderthalin ihmisiltä periytyviä
geenejä. Denisovan luolasta Siperiasta puolestaan löytyi ihmislajin luuranko, joka nimettiin Denisovan ihmiseksi. Se kuoli sukupuuttoon 40 000 vuotta sitten, aiemmin kuin serkkunsa Neanderthalin ihminen. Kun Denisovan ihmisen luurangon sormesta eristettiin DNA, havaittiin, että tiibetiläisillä on Denisovan ihmisen geenejä. Yksi periytyvä geeni auttaa tiibetiläisiä selviytymään korkeassa ilmanalassa.

Pullonkaulat kertovat mielenkiintoisen geneettisen historian

Biotekniikan instituutin tutkijat haluavat selvittää onko saimaannorppa oma lajinsa vai alalaji. Tutkijat tietävät tarkasti, kuinka monta sukupolvea norppa on ollut eristyksissä Saimaalla. Saimaannorpan populaatio on pieni. 1980-luvulla jäljellä oli vain 140 yksilöä, nyt 320. Kun vanhoja näytteitä Saimaalta, Itämerestä ja Laatokasta verrataan saimaannorpan referenssigenomiin, voidaan tutkia minkälainen populaatio on mennyt ns. pullonkaulan  läpi.

Nykyisin on olemassa myös laskennallisia menetelmiä joilla voidaa jopa yhdestä genomista kohtuullisen tarkasti päätellä millaisessa populaatiossa sen esiisät ja -äidit ovat eläneet. Populaation kohtaama pullonkaulailmiö tarkoittaa tapahtumaa, jossa suurikin osa populaatiosta tuhoutuu tai vain pieni joukko yksilöitä perustaa uuden joukon kuten esimerkiksi Suomeen aikanaan saapuneet ihmiset. Tuhoutumisen syynä voivat olla ympäristön muutokset tai siirtyminen uuteen ympäristöön, joka voi estää lisääntymisen.

Saimaannorpan geneettisen historian tutkimisesta on apua myös ihmisen perimän tutkimiseen. Pullonkaulat voivat lisätä sisäsiittoisuutta ja siten vaikuttaa myös tautiperimään. Suomessa pullonkaulat ovat synnyttäneet väestöön noin neljäkymmentä perinnöllistä sairautta, jotka ovat täällä huomattavasti yleisempiä kuin muualla. Suomalaisia geneettisiä pullonkauloja ovat olleet maanviljelyn omaksuminen 4000 vuotta sitten ja asutuksen leviäminen pohjoiseen ja itäiseen Suomeen 1500-luvulla.

”Nyt pystytään tutkimaan tautigeenien vaikutusta populaation rakenteeseen ja luonnon ja ihmisten aiheuttamia pullonkauloja. Suomalainen tautiperimä on tässä suhteessa mielenkiintoinen. Voidaan saada selville, minkälainen on ollut suomalaisten kantama tautiperimä, kun on menty pullonkaulan läpi,” Auvinen toteaa.

Dataa voidaan käyttää uudestaan

Referenssigenomin luomisesta on paljon hyötyä. Referenssigenomin dataa voidaan käyttää aina uudestaan. Mitä parempi referenssigenomi, sitä helpompi on analysoida uutta dataa, jota voidaan verrata referenssigenomin dataan.

Esimerkiksi koivun referenssigenomin analysoiminen nopeuttaa ja tehostaa puun tutkimusta teollisuuden ja lääketieteen tarpeisiin. Koivun genomista voidaan etsiä uusia ominaisuuksia, jotka vaikuttavat puun laatuun ja määrään. Lisäksi tätä dataa voidaan hyödyntää muiden puulajien
tutkimisessa.

”Toisin kuin koivulla, esimerkiksi poppelilla ja eukalyptuksella kestää ominaisuuksien selvittäminen 10 vuotta. Koivua voidaan geneettisesti modifioida. Koska koivu saadaan jopa kolme kertaa vuodessa kukkimaan, uusia ominaisuuksia saadaan koivulle yhdessä, kahdessa vuodessa. Näitä tekniikoita voidaan soveltaa myös muihin puulajeihin. Koivun geneettistä mallia voidaan käyttää hyväksi esimerkiksi eukalyptuksen tutkimisessa,” toteaa Petri Auvinen.

Koivun referenssigenomin projektia oli seuraamassa myös teollisuuden edustajia. Geenitiedon ansiosta koivun ominaisuuksia voidaan jalostaa ja metsäteollisuus voi käyttää puuta muuhun kuin laudan tekemiseen.

Uusia sovelluskohteita ovat nanomateriaalit, puunjalostusteollisuuden sivuvirrat sekä esimerkiksi hemiselluloosa. Auvinen mainitsee myös koivun kaarnassa olevan betuliinin, jolla on raportoitu
olevan syöpää torjuvia ja antiviraalisiakin vaikutuksia. Betuliinista on jo tehty emulsiolääkevoiteita. Voidaan myös pyrkiä tavanomaisin jalostusmenetelmin aikaan
saada sellaisia koivuja, joissa on enemmän betuliinihappoa.

 

 

Ari Turunen

 

Artikkeli PDF-muodossa.

 

Biotekniikan instituutti

Biotekniikan instituutti on Helsingin yliopiston erillinen tutkimus- ja koulutuslaitos,
joka edistää korkeatasoista tutkimusta ja koulutusta biotekniikassa ja molekyylibiologiassa.
http://www.biocenter.helsinki.fi/bi/dnagen/index.htm

 

CSC – Tieteen tietotekniikan keskus Oy

CSC on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon
osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa Eurooppaan biologisen informaation infrastruktuurin bioalan tutkimuksen tueksi. Sen Suomen keskus on CSC.
http://www.elixir-europe.org

Web-mikroskooppi tallentaa kudosnäytteet pilveen

Suomalaisten lääkärien Johan ja Mikael Lundinin keksintö tarjoaa tehokkaan ratkaisun kudosleikekuvien analysoimiseen ja tallentamiseen.

 

Tutkimusdata lisääntyy valtavasti vuosi vuodelta, mikä edellyttää ohjelmistonkehittäjiltä jatkuvaa aktiivisuutta. Isoja datamääriä on pystyttävä analysoimaan ohjelmistoilla, jotka eivät pistä työasemaa jumiin. Suomen molekyylilääketieteen instituutin (FIMM) tutkimusjohtaja Johan Lundin tutkii ja kehittää kuvaperustaista diagnostiikkaa konenäköratkaisujen avulla. Tulevaisuudessa eri datalähteitä, geneettistä dataa, kudosdataa ja kliinistä potilasdataa, yhdistämällä voidaan laatia persoonakohtaisia tautiennusteita ja hoitomuotoja. Tätä on sovellettu erityisesti rinta- ja eturauhassyövän sekä paksunsuolen syövän hoitamisessa.

Helsingin yliopistollisessa keskussairaalassa 2000-luvun alussa työskennellessään Lundin turhautui siihen, miten hankalaa isojen kudosleikekuvien käsittely oli työasemilla. Kudosleikekuvat ovat 1-2 gigatavun kokoisia, joten niiden tallentaminen omalle kovalevylle ei ole järkevää. Kuvien pyörittely on myös hidasta. Johan Lundin alkoi miettiä veljensä Mikaelin kanssa toimivaa ohjelmistoratkaisua ongelmaan.

Veljekset kehittivät täysin web-pohjaisen ohjelmiston, jonka olennaisia osia ovat tehokas kuvapalvelin sekä web-käyttöliittymä joka toimii kaikilla selaimilla. Heidän käyttämänsä kompressioalgoritmin avulla kuvat vievät vähemmän tilaa ja latautuvat nopeasti. Kahden gigatavun näytekuva voidaan kompressoida puolen gigan kokoiseksi. Kudosnäyte tallennetaan pilveen ja isoa datamäärää
voidaan käsitellä omalta työasemalta helposti ja nopeasti.

Verkossa toimivaa mikroskooppipalvelua voi käyttää kaikilla selaimilla ja tableteilla, myös älypuhelimilla. Web-Microscope® on myös yhteensopiva eri mikroskooppivalmistajien kuvaformaattien kanssa. Web-mikroskoopilla on mahdollista tutkia erittäin laajoja aineistoja ja
se sopii hyvin myös yhteistyöprojektien yhteiseksi digitoitujen kuvien hallinta- ja analysointipaikaksi.

”Palveluun on ollut todella kasvavaa kiinnostusta. Lääkärit, tutkijat ja opettajat ovat siirtymässä digitaaliseen mikroskopiaan. Verkossa toimiva pilvipohjainen palvelu on edistyksellinen ratkaisu digitaalisen mikroskopian käyttäjille kaikkialla maailmassa,” toteaa palvelua tarjoavan Fimmicin toimitusjohtaja Kaisa Helminen. Helminen on koulutukseltaan biokemisti ja työskennellyt aiemmin useissa bioalan firmoissa.

Fimmic perustettiin vuonna 2013 ja seuraavana vuonna palvelua alettiin kaupallistaa. Fimmicin asiakkaita ovat mm. yliopistot, tutkimuslaitokset, lääkeyritykset sekä ulkoista laadunvalvontaa tekevät yritykset. Ulkoinen laadunvalvonta tehostuu kun näytteitä voidaan lähettää virtuaalisesti analysoitavaksi sen sijaan, että lasilevyillä olevia näytteitä postitettaisiin laboratorioihin.

Näiden palvelujen tuottamisen kumppanina Fimmic käyttää Tieteen tietotekniikan keskuksen CSC:n  cPouta-pilvipalvelua. Se tarjoaa web-mikroskoopin käyttäjille oman palvelimen, nopean kaistanleveyden ja valtavasti tallennustilaa. Näin taataan, että palvelu toimii mahdollisimman tehokkaasti. Web-mikroskooppi soveltuu myös biopankeille kudosnäytteiden hallinnoimiseen. Palvelu voidaan räätälöidä yksittäiselle biopankille sopivaksi.

 

Näytteen tallennus suoraan asiakkaan tilille

Mikroskooppiskannerit ovat kalliita laitteita – hinta vaihtelee tyypillisesti 150 000 – 300 000 euron välillä. Skannereiden määrä kuitenkin lisääntyy ja kun kuvia skannataan, monelle käyttäjälle kätevin ja edullisin ratkaisu on tallentaa ne suoraan pilveen.

”Mikäli asiakkaalla ei ole mahdollisuutta käyttää skanneria, hän voi lähettää näytteet meille skannattavaksi. Me tallennamme digitoidut näytteet suoraan asiakkaan Web-Microscope-tilille,” Helminen kertoo.

WebMicroscope-portaalin kautta käyttäjä voi jakaa omia mikroskooppikuviaan eri tutkimusryhmille ja yhteistyökumppaneille ympäri maailmaa. Tämä on tärkeä ominaisuus, koska esimerkiksi lääkeainesuunnittelussa testitulosten jakaminen nopeasti tutkimusryhmien ja lääkeyhtiöiden kesken
on edellytys läpimurroille. Lääkekehitykseen liittyvä tutkimus on yksi Fimmicin
painotuksista.

Perinteisellä mikroskoopilla voidaan tarkastella vain pientä osaa näytteestä kerrallaan. Mikroskooppiskanneri kuvaa näytteen suurella objektiivilla, jolloin koko näyte on yksityiskohtineen digitoitu. Syntynyttä kuvaa voidaan web-mikroskoopin avulla katsella helposti ja nopeasti, paikasta
riippumatta.

”Tarkasteltavaksi voidaan ottaa osa kudosnäytteestä Google Mapsin tavoin ja katsoa siitä vain osa ja siirtyä nopeasti toiseen kohtaan. Kuvaa ei tallenneta työasemille, vaan se latautuu verkon yli suoraan kuvapalvelimesta.”

Kaikissa Suomen lääketiedettä opettavissa yliopistoissa käytetään  web-mikroskooppia opetustarkoituksiin anatomian ja patologian kursseilla. Webmikroskoopin avulla digitoituja näytteitä
voidaan helposti jakaa opiskelijoille ja liittää oheen muita dokumentteja ja videoita.
Omat sivut voidaan suojata salasanalla ja ohjelmiston avulla voidaan suorittaa myös tenttejä. Virtuaalisia näytteitä voidaan katsoa etäopetuksessa vaikkapa tableteilta tai älypuhelimilta ja luokkahuoneessa isolta näytöltä. Sovellus sopii erinomaisesti monipistetunnistusta hyödyntäviin Multitouch–näyttöihin. Massiivisia kudosleikekuvia voidaan tällöin tarkastella helposti ja nopeasti
suurella kosketusnäytöllä isommankin ryhmän kesken.

Konenäköä kehitetään

Mikroskooppiskanneri tuottaa paljon dataa. Tarkasteltavana voi olla miljoonia havaintopisteitä, joiden käsittelyyn tarvitaan laskentatehoa ja hyviä algoritmeja. Fimmicin suunnitelmissa on kehittää ohjelmistoa eteenpäin ja tuoda siihen kvantitatiivisen kuva-analyysin työkaluja, algoritmeja.
Kaisa Helmisen mukaan mahdollisia tutkimuskohteita, joihin algoritmeja voidaan käyttää, on valtavasti.

”Konenäköalgoritmit perustuvat signaalin käsittelyyn. Konetta opetetaan kymmenillä ellei sadoilla kuvilla tunnistamaan tietty signaali taustasta, esim. värjätyt solut muusta kudoksesta. Seulonta on tapauskohtaista ja vaihtelee, miten eri näytteitä on käsitelty. Algoritmi on juuri niin hyvä kuin se
on opetettu.”

Tähän kaikkeen tarvitaan laskentatehoa, jota saadaan mm. CSC – Tieteen tietotekniikan
keskuksen supertietokoneista.

”Laskentatehoa vaaditaan paljon, koska tutkittavat kuvat ovat ns. suurkuvia (whole slide images). Toki näistä saatetaan rajata pienempiä alueita analyysiä varten, mutta silti laskentatehoa vaaditaan paljon, jotta analyysi ei veisi liikaa aikaa,” Kaisa Helminen huomauttaa.

Ari Turunen

Lue artikkeli PDF-muodossa

 

Fimmic Oy

Fimmic kehittää teknologiaa ja palveluja liittyen digitaaliseen mikroskooppikuvantamisen, kuva-analyysin ja informatiikan teknologiaa ja palveluja.
http://www.fimmic.com

CSC – Tieteen tietotekniikan keskus Oy

CSC on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon
osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

 

Mustit ja Murret ihmissairauksien geenilöytöjen takana: koirageenitutkimus hyötyy ELIXIRin tietokannoista

Olisitko uskonut, että sohvallasi lepäävä rakas karvaturrisi voisi toimia ihmisen geenilöytöjen lähteenä? Harva tietää tai tulisi edes ajatelleeksi, että koirilla on 95 prosenttisesti sama perimä ja sairaudet kuin ihmisillä. Professori Hannes Lohen tekemä geenitutkimus Helsingin yliopistossa tuo merkittävää tietoa niin koirien kuin ihmisten silmä-, luusto- ja neurologisiin sairauksiin. Lohen edustamaa tutkimusalaa edistetään Euroopan laajuisella bio- ja lääketieteen tutkimusinfrastruktuurilla (ELIXIR), jota Suomi on mukana perustamassa.

 

Ahaa-elämys tapahtui noin kymmenen vuotta sitten tutkijatohtori Hannes Lohen paikannettua tutkimusryhmässään Torontossa kääpiomäyräkoirien epilepsiageenin. Samaan aikoihin toisaalla geeni löydettiin myös ihmisestä. Tästä yhteensattumasta alkoi professorin johtama poikkitieteellinen koirageenitutkimus Helsingin yliopiston eläinlääketieteellisessä ja lääketieteellisessä tiedekunnassa sekä Folkhälsanin tutkimuskeskuksessa. Lohen perustamaan DNA-pankkiin on kerätty vuodesta 2006 lähtien jo liki 50 000 suomalaiskoiran DNA-näytettä.

”Koirarodut antavat geneettisesti loistavan rakenteen erityisesti käyttäytymistutkimuksiin ja koirien ja ihmisten sairauksien tutkimiseen yleisesti. Mikä muu eläinlaji on sosiaalisesti lahjakas, jakaa saman ympäristön ja altistuu samoille taudinaiheuttajille kuin ihmisen paras ystävä”, Lohi tajusi tuolloin.

Lohi totesi erityisesti koirarotujen sisäsiittoisuuden auttavan sairausgeenien tunnistamista.

”Sukulinjoista on helpompi tunnistaa geenejä pienemmillä otannoilla. Verrattuna tutkimuksissa tyypillisesti käytettäviin hiiriin ja rottiin, koirat ovat kokonsa puolesta myös elintoiminnoiltaan lähempänä ihmistä”, Lohi sanoo.

Jos ei geeneissä ole tarpeeksi haastetta, professori Hannes Lohi etsii sitä myös kiinnostuksestaan koirien käyttäytymistä koskevaan, epigeneettiseen tutkimukseen. Hänen tutkimusryhmänsä tunnisti lagottokoirissa ohimenevää epilepsiaa kuvaavan LGI2-geenin, josta myös ihmisen lapsuusiän epilepsiatutkimus saa uuden merkittävän näkökulman.

Lääkeaihioita jatkokehittelyyn

Lohen johtaman koirien geenitutkimuksen kirjo on laaja. Kohteina ovat niin silmäsairaudet, autoimmuunisairaudet, neurologiset sairaudet kuin luusto- lihassairaudet. Ryhmä on tunnistanut koirista useita uusia tautigeenejä mm. epilepsiaa, kääpiökasvuisuutta ja ahdistuneisuushäiriöitä aiheuttavista tekijöistä. Löydettyjen geenialueiden myötä esimerkiksi ahdistuneisuushäiriöt, joista noin
viisi prosenttia ihmisväestöstä kärsii jossain vaiheessa elämänsä aikana, saavat uuden tutkimuspohjan mm. pakko-oireisuuden geenitaustan ja ympäristötekijöiden tutkimiseen.

”Koirarodusta etsitään sairautta aiheuttavaa geeniä, ja samalla rodusta saadaan koiramalli ihmisen sairauksien tautimekanismin selvittämiseen”, Lohi kuvaa tutkimuksen hyötyjä.

Ryhmä tunnisti CNGB1-geenin, joka aiheuttaa verkkokalvon rappeumaa ja pahimmillaan sokeutta perhoskoirissa. Sama geeni on löydetty ihmispotilaissa. Joka kymmenes yli 65-vuotiaista kärsii eläkevuosinaan kyseisestä sairaudesta, jossa sokeat pisteet rajoittavat tarkan näön aluetta estäen esimerkiksi ajokortin uusimisen.

”Lääkeaihioiden jatkokehityksen myötä ihmisen verkkokalvon rappeumaa voisi hoitaa geeniterapian avulla ulkoisesti esimerkiksi levittämällä verkkokalvolle rasvan mukana normaalia geenikopiota kantavia viruksia, jotka korjaisivat solujen toimintaa ja saattaisivat korjata näkökykyä”, Lohi kuvaa
mahdollisuuksia.

”Geenin tunnistamisen jälkeen päästään tutkimaan tautimekanismia ja vertaamaan sitä ihmisen ja koiran välillä. Ihmisellä geeni ei välttämättä ole aina sama ja mutaatio voiolla toisessa paikassa, solureitin muussa geenissä. Geenin toiminnan ja tautimekanismin ymmärtäminen on edellytys, että sairaudelle voidaan keksiä hoitomuotoja. Toisaalta, kun mutaatio löydetään, voidaan koirille kehittää
geenitesti ja katsoa, ketkä koirista kantavat kantavat tautia. Tätä kautta koirankasvattajat ja jalostajat hyötyvät tutkimuksesta nopeasti”, Lohi sanoo.

Hän on mukana Genoscoper Laboratories Oy yrityksessä, joka on hänen johdollaan rakentanut koirille ainutlaatuisen ja edullisen perimänlaajuisen geenitestin, MyDogDNA, joka testaa kerralla yli 100 sairauden ja ominaisuuden kantajuudet sekä perimän monimuotoisuutta ja rakennetta.

”Koirien geneettinen monimuotoisuus on heikentynyt jalostuksen myötä. Tautigeeniä kantavien koirien määrä on kasvanut, ja koska monet sairaudet puhkeavat aikuisiässä, on sairaita koiria jo ehditty käyttää siitokseen. Nurjan puolen vastakohtana sairautta aiheuttava geenimuoto voi yleistyä jalostuksen myötä tiettyyn koirarotuun. Kandidaattigeeni tunnistetaan helpommin ja vähemmillä näytteillä koirista kuin ihmisistä.”

Tavoitteena oma tietokanta koirille ja kissoille

Suuri määrä eläinlääkäreitä ja suomalaisia koiraharrastajia ympäri Suomen ei ole innostunut ohimenevän projektin vuoksi DNA-näytteenottotalkoisiin. Tutkimusryhmän päämääränä on rakentaa suomalaiskoirille ja -kissoille vastaavanlainen oma, laaja sekvenssi- ja varianttitietokanta kuin ihmisistä jo on (1000 Genomes).

”Suomalaisen tieteen lippulaiva on aina ollut geenitutkimus. Meillä on ainutlaatuisen tarkat terveystiedot potilaista sukutauluineen. Koirista ja pian kissoistakin löytyy vastaavat sukutaulutietokannat ja terveystietoa. Harvassa maassa on näin keskitetty, hyvä systeemi”, Lohi sanoo.

”Koirissa on 400 rotua. Tällä hetkellä koirasta on kuvattu kaikkiaan 700 sairautta ja koko ajan löytyy lisää. Tavoitteena on tietokanta, jossa on sekvensoitu joka rodusta koko perimä. Tämä nopeuttaa geenilöytöjä”, Lohi kertoo.

Jatkossa sekvensoidaan koiraperhe

Lohi uskoo, että ison sekvenssitietokannan etuna on eräänlainen konsensus. Tämä saavutetaan,
kun sadat tai tuhannet perimät on sekvensoitu ja suuri varianttimäärä voidaan kartoittaa tarkasti. Samassa rodussa voi olla monta eri sairautta.

”Jos tietokantaan on sekvensoitu esimerkiksi 1000 koiran perimät 50 rodusta, on siellä arviolta 25 miljoonaa varianttia eri roduista. Tietokanta auttaa tulevissa projekteissa niin, että tutkimuksen kohteeksi voidaan ottaa pieni koira tai kissaperhe ja sekvensoida niistä vain muutama yksilö antamaan riittävän varman tuloksen oikeasta tautivariantista. Koirapotilaan variantteja verrataan tietokannan
tuhannen näytteen variantteihin, ja jos jokin tietty variantti löytyy potilaasta, mutta ei tietokannan referenssinäytteistä, voi sen päätellä olevan tautia aiheuttava. Tämän jälkeen asia varmistettaan isommassa aineistossa.”

”Tehokas ja kansallisesti merkittävä tietokanta auttaa pääsemään nopeammin kiinni tautigeeneihin. Nykyisellään tutkimuksessa joudutaan tekemään paljon työtä, jotta variantin sijainnista kromosomistossa saadaan riittävä kuva. Jatkossa otetaan näyte, sekvensoidaan koko perimä ja verrataan sitä suoraan tietokannan variantteihin.”

Professori Hannes Lohen johtama geenitutkimusryhmä on tutkinut mm. brasilianterrieripentujen hengenvaarallisen luustosairauden tekijöitä. Ryhmä selvitti yhteistyössä dosentti Kirsi Sainion ryhmän kanssa, että sairauden aiheuttaa geenivirhe GUSB-geenissä. GUSBin toimintahäiriöt on aiemmin liitetty ihmisen vakavia luustomuutoksia aiheuttavaan kertymäsairauteen (tyypin VII mukopolysakkaridoosi, MPS VII). MPS VII:ää sairastavalla brasilianterrierin pennulla (A ja C) on yliliikkuvat nivelet, luustomuutoksia raajoissa sekä tyypillinen pyöreä kallo ja lyhyt kuono. Terve pentuesisar kuvissa B ja D. Sairaat pennut jäävät kasvussa selkeästi jälkeen ollen n. 35% pienempiä kuin terveet pentuesisaruksensa 3-viikon iässä.

Laskentaresursseja sekvenssikuvausmenetelmiin ja -työkaluihin

Arvion mukaan uudet bioteknologiset menetelmät tuottavat vuoteen 2020 mennessä miljoonakertaisesti dataa nykyhetkeen verrattuna. Lohi kertoo, että suuria määriä laskentaresursseja tarvitaan niin tutkimuksessa käytettäviin työmenetelmiin kuin työkaluihin.

”Ennen sekvensoitiin pieniä pätkiä perimästä. Nyt perimälistat ovat niin pitkiä, että niiden manuaalinen hallinta on täysin mahdotonta. Jos tutkimuksen kohteena on 200 koiraa ja jokaiselta koiralta luetaan kokonainen perimä eli 39 kromosomiparia, kestää analysointi perinteisellä menetelmällä useita kuukausia. Yhdestä perimästä tulee satoja gigoja raakadataa.”

”Kun on siirrytty perinteisestä, Sanger-menetelmän sekvensoinnista uuden sukupolven eli koko perimän sekvensointiin (NGS), data analysoidaan valtavia määriä uusilla menetelmillä. Puhutaan kollauksesta, jossa perimä ensin pilkotaan palasiksi tietokantaan, sekvensoidaan ja kasataan. Perimää läpiluettaessa käsittelyyn tulee ihmisen osalta kolme miljardia ja koiran osalta 2,5 miljardia geeniparia sekä erilaisia variantteja ja insertioita, jotka monimutkaistavat sekvenssin tulkintaa,” Lohi kuvaa tutkimusdatan haasteita.

”Varianttien selvittämisen jälkeen tutkitaan, onko variantti patogeeninen. Tässäkin vaiheessa tarvitaan laskentaresursseja. Bioinformatiikan työkaluilla voidaan ennustaa, minkä aminohappomuutoksen
variantti aiheuttaa perimässä. Tämän jälkeen ryhdytään tutkimaan tarkemmin aminohappomuutoksen
vaikutuksia ja siirrytään käyttämään proteiinitason työkaluja ja erilaisia algoritmeja.”

Verkkokalvon rappeumaa aiheuttavan geenin tutkimusryhmä paikansi perhoskoirissa kuuden sairaan ja 14 verrokin avulla. Geenivirhe tunnistettiin eksomi-sekvensointiteknologialla, jossa analysoitiin kerralla koko proteiinia koodaavat alueet. Monet sairautta aiheuttavista mutaatioista sijaitsevat
eksomeissa, vaikkakin se on vain puolitoista prosenttia perimästä. Tämän teknologian avulla, jota käytetään erityisesti tietokannassa olevien tautimuotojen etsimiseen, selvitettiin mutaatio, jota lähes joka viides perhoskoira kantaa perimässään.

Lohen tutkimusryhmä osallistui pilottiorganisaationa tieteen tietotekniikan keskuksen CSC:n projektiin, jossa kartoitettiin, millaisia aineistoja tutkijoille syntyy mittavan laskentakapasiteetin ja
muistitilan myötä. Projektin tavoitteena oli pilotoida malleja ja ratkaisuja siihen, millaisia resursseja tutkijat tarvitsevat ELIXIR-tutkimusinfrastruktuurissa.

Tiina Autio

Lisätietoja:

http://www.koirangeenit.fi/

http://www.mydogdna.com

Lue artikkeli PDF-muodossa

Biotiedettä eurooppalaisessa pilvessä

Tiede maksaa, ja laskun kuittaa yhteiskunta. Mutta mitä tapahtuu tutkimuksessa syntyvälle tietoaineistolle? Data on biotieteen pääomaa, joka kannattaa sijoittaa oikein.

 

Biotieteiden tutkimuksen data on noussut 2000-luvulla Euroopan tiedepolitiikan keskiöön. Kansainvälinen tutkimus käyttää ja tuottaa valtavasti dataa. Jatkuvasti laajenevan ja monimutkaistuvan biotieteellisen datan luottamuksellinen säilytys ja jatkokäyttö herättävät kysymyksiä. Miten ja mihin data kannattaa tallentaa? Miten dataa, esimerkiksi geenitietokantoja säilytetään turvallisesti? Miten dataa jaellaan? Näitä kysymyksiä ratkoo kansainvälinen hanke ELIXIR.

 

 

ELIXIR tarjoaa ratkaisuja siihen, miten tutkimuksen tietoaineistoa avataan tiedettä edistävällä tavalla ja ketkä aineistoihin pääsevät käsiksi. Suomi oli ELIXIR-hankkeen ydinjoukossa alusta lähtien vuodesta 2007. Datan säilytykseen ja jakeluun liittyvät yhteistyö on edellytys biotieteen kilpailukyvylle
pienissä eurooppalaisissa valtioissa. Pienten maiden kannattaa jakaa kerran tehtyjä aineistojaan, pikemminkin kuin tuottaa niitä eri tutkimusyliopistoissa yhä uudelleen. Biotieteellinen tutkimus tarvitsee vertailuaineistoja, ja ELIXIR on kanava jakaa niitä.

Jos esimerkiksi suomalainen tutkimusryhmä tutkii Parkinsonin taudin periytyvyyttä, sen on elintärkeää päästä käsiksi geeniaineistoihin, joita muun Euroopan tutkimuslaboratoriot tuottavat. Mekanismien löytäminen on vaativaa, ja tutkijat tarvitsevat vähintään vertailukohdan miten terveen
ihmisen genomi toimii. Kun voidaan käyttää eurooppalaisten tuottamia aineistoja, suomalaisten ei tarvitse rakentaa tutkimuksen näyteaineiston lisäksi vertailuaineistoa. Se olisikin äärettömän kallista, ja se lykkäisi tutkimustulosten syntymistä vuosikymmenen päähän.

Kansainvälisten geeniaineistojen käyttö suomalaisessa yliopistossa ei kuitenkaan käy aivan käden käänteessä. Samalla tavalla kuin ihmisten liikutteluun maiden välillä, tarvitaan datan liikutteluun infrastruktuureja ja maiden välisiä sopimuksia. Ulkomaisten tutkimusyliopistojen täytyy olla varma tietoaineistoja käyttävän identiteetistä. Biotieteelliseen dataan liittyy usein tietoturvaa, joka on säädetty laissa. Lisäksi maiden välillä täytyy olla tehokkaat tietoliikenneyhteydet, jonka kautta valtavat aineistomassat voivat siirtyä. Internetin avoin laajakaista ei riitä. Vastaanottajalla täytyy lisäksi olla käytössään tallennustilaa ja ohjelmistoja, jonka avulla se voi käsitellä aineistoa.

 

Datan säilytys ja jakelu tieteen perusedellytys

Tietoaineiston hallinnointi, säilytys ja jakelu eivät aina herätä samaa hehkua ja innostusta, kuin tieteen läpimurrot. Byrokraattinen kieli kuitenkin hämää. Hitaasti rakentuva verkosto mahdollistaa tieteelliset läpimurrot, mutta on myös itsessään tieteelliseen innovaation verrattavissa oleva hanke.

Kansainvälisen yhteistyön ja tietoaineiston jakamisen vastakohta on valtava voimavarojen tuhlaus, kun keskenään kilpailevat eurooppalaiset yliopistot tekevät samaa perustutkimusta. Lopputulos hyödyttäisi
merkittävästi heikommin yhteiskuntaa; jos kaikki keksisivät genomia uudelleen, tutkimus maksaisi enemmän ja se tuottaisi vähemmän. Eurooppalaiset tippuisivat ulos biotieteen ja –teollisuuden kansainvälisestä kilpailusta.

Suomea ELIXIRissä edustaa CSC – Tieteen tietotekniikan keskus yhteistyössä Helsingin yliopiston molekyylilääketieteen instituutin (FIMM) sekä Terveyden ja hyvinvoinnin laitoksen kanssa.

”ELIXIR on jo iso juttu Suomen biotieteille, ja tulevaisuudessa siitä tulee vielä isompi” kertoo Suomen ELIXIR-hankkeen johtaja Tommi Nyrönen CSC:sta.

”ELIXIRin kautta suomalaisella biolääketieteellä on pääsy valtaviin aineistoihin. Saamme tulevaisuudessa tarkempaa tietoa esimerkiksi suomalaiseen geeniperimän harvinaisista poikkeamista kun voimme verrata sitä kansainväliseen vertailuaineistoon. Näin voimme myös tehdä tarkempia hoitosuunnitelmia.”

ELIXIRin johtotähti on, että tutkimuksen tietoaineistot ovat tieteen pääomaa. Aineistojen luotettava säilytys ja jakelu ovat edellytys tieteen tuottavuudelle. Infrastruktuurin rakentaminen ja ylläpito maksavat vain murto-osan verrattuna itse tutkimuksen kustannuksiin. Ja sen tuomat tieteelliset tuotot – niistä hyötyy Nyrösen mukaan sama taho joka tiedettä rahoittaa; yhteiskunta.

 

Tietoa sairauden ja terveyden mekanismeista

”Kun eurooppalaiset geenitutkijat saavat käyttää ristiin toistensa aineistoja, syntyy tarkempaa tietoa sairauden ja terveyden mekanismeista. Tieteelliset tulokset kiertävät yhteistyössä myös nopeammin hoitoihin,” kertoo Tommi Nyrönen.

Suomalaisen rauduskoivun perimän avaaminen voi hyödyttää esimerkiksi englantilaisen koivuruttoepidemian taltuttamisessa. Vertailun avulla voidaan tunnistaa vaikkapa miksi englantilaisten koivujen puolustusmekanismit toimivat heikommin kuin rauduskoivun vastaavat. Tamperelaisen lapsen vakava sairaus saa tarkemman luonteen geenikartoituksen ja vertailevan aineiston yhdistelmästä. Kun virhegeeni on tiedossa, voi hoitosuunnittelu alkaa. Eurooppalaiset viininviejämaat voivat tutkia yhteistyössä viinirypäleen tautien genetiikkaa ja saada jalostuksen kautta kilpailuetuja suhteessa muun maailman viinituottajiin.

ELIXIR hyödyttää myös yrityksiä. Hanke on jakanut esimerkiksi koiran perimän, minkä pohjalta Helsingin yliopiston tutkijat ovat kehittäneet kaupallisen sovelluksen. Sen avulla koirankasvattajat voivat seuloa siitoskoiristaan kaikkein terveimmät ja jalostaa vain niitä, jotka eivät kanna esimerkiksi
nivelsairauksien tautigeenejä.

Vaikka ELIXIR liputtaa yhteistyön, jakamisen ja avoimuuden puolesta, on tietoaineistojen avoimuus kuitenkin rajattua. Osa aineistosta on julkista, osa ei. Joka tapauksessa mistään www:n avoimuudesta ei ole kyse. ELIXIR tasapainottelee korkean tietoturvan ja avoimuuden välillä. Verkoston arkaluonteisimmat tietoaineistot ovat auki niille, joilla on oikeus tutkimuskäyttöön. Tutkijoiden tunnistamiseen ja ’’kulkulupien’’ myöntämiseen on luotu omat käytännöt ELIXIR-maiden välille.

Suomalaiset tutkijat pääsevät ELIXIRin aineistoihin CSC:n kautta

Suomalaiset tutkijat käyttävät ELIXIRin resursseja CSC:n pilvipalvelun kautta. Palvelu on rakennettu niin, että tutkijan on helppo käyttää sitä. ELIXIRin käyttö on ’’epäteknistä’’. Toimivan ja aineettoman palvelun takana on kuitenkin valtavasti rautaa ja valokaapelia. Laitetasolla tarkasteltuna Suomen ELIXIR tarkoittaa CSC:n Kajaanin ja Keilarannan tietokonekeskuksia. Ne ovat yhteydessä suuritehoisen ja yksityisen laajakaistan – tai valopolun – kautta suoraan Cambridgeen, ELIXIRin päämajaan. Valopolun voi mieltää ELIXIR- palvelukeskuksien fyysiseksi napanuoraksi: se mahdollistaa massiivisten aineistojen jakamisen ELIXIR-maiden välillä.

Biotieteellisten aineistojen koosta viitteitä antaa se, että yksityisen ja äärettömän tehokkaan valopolun sisällä aineistojen siirtäminen maasta toiseen voi kestää kuukausia. Mutta pelkällä raudalla ja valokaapelilla ei ELIXIRiä ole rakennettu.

’’Se on vaatinut myös teetä ja keksejä’’ huomauttaa Tommi Nyrönen viitaten lukemattomiin neuvotteluihin ja kokouksiin, joita 16 maata on järjestänyt yhteisten sopimusten ja käytäntöjen eteen. Teen ja keksin määrä lasketaan sadoissa kiloissa ja litroissa!

Rakennustyö jatkuu

Onko ELIXIR valmis? Vastaus on sama kuin kysyttäessä milloin tiede on valmis. Eri maat osallistuvat Nyrösen mukaan ELIXIRin rakennukseen eri panoksin

”ELIXIR on startannut myös eri puolilla Eurooppaa eri aikoihin. Joissain maissa on valmiimpaa kuin toisissa. Suomi on ollut ensimmäisten joukossa,” kertoo Nyrönen.

Suomi on muiden Pohjoismaiden tavoin ELIXIRin pioneerimaita. Mailla on hyvä maine ja asema kansainvälisessä ELIXIRissä. Maat ovat toimineet ELIXIRin ensimmäisten vaiheiden testilaboratoriona, ja niiden käyttökokemukset antavat askelmerkkejä miten palvelua Euroopassa kannattaa rakentaa.

Euroopassa ELIXIRin rakennustyö jatkuu. Suomessa seuraava askel on jatkaa Kajaania, Keilaniemeä ja Cambridgea yhdistävä valopolku Helsingin yliopiston Viikin kampukselle sekä Turun ja Oulun biokeskuksiin. Suomalaiset tutkijat ovat ottaneet ELIXIRin vastaan innostuneena. Toteutuneiden hankkeiden asiakastyytyväisyys on ollut huippuluokkaa.

”Suomalaiset tekevät hyvää työtä sekä biotieteellisen tutkimuksen että infrastruktuurin puolella. Mikä tärkeintä, keskusteluyhteys näiden välillä toimii. Tarvitsemme lisää valokaapelia ja keksejä. Tästä on hyvä jatkaa,” summaa Nyrönen.

 

Elina Kuorelahti

Lue artikkeli PDF-muodossa