Elixir logo
21.5.2017

Suomalaisten koko perimä talteen? Datasta hyötyä tautien tutkimiseen

Suomalaisten geeniperimästä tehdään laajoja tutkimusprojekteja ja genomidataa tuotetaan ja analysoidaan koko ajan. Kansallinen tavoite on kuitenkin tallentaa suomalaisista tuotettu data Suomeen, jolloin analyytikot voivat yhdistää datan muihin terveystietoihin. Genomidatan hyödyntäminen terveydenhoidossa on vasta alussa. Data-analyysi tarjoaa paljon mahdollisuuksia bioalan yrityksille myös Suomessa.

Tutkimuskäyttöön soveltuvaa geenidataa suomalaisista on sirpaleina eri puolilla maailmaa eri tietokannoissa ja datavarastoissa ja vaihtelevasti järjestettynä. Tarve olisi siis luoda suomalaisen datan hallintaan kotimainen tietoturvallinen palvelu, joka ylittäisi organisaatiorajat, on verkostomainen ja hyvin koordinoitu. Kun eri paikoissa sijaitseva data koordinoitaisiin yhteen paikkaan, data voitaisiin omistajan luvalla luovuttaa laillisiin käyttötarkoituksiin, kuten tutkimukseen, tuotekehitykseen ja lääkehoitoihin.

Ihmisen biologia on hyvin monimutkaista, monimutkaisempaa kuin aiemmin on luultu. Geenin ja elimistön rakennusaineiden eli proteiinien ilmeneminen, rakenne ja niiden toiminta edellyttävät
kehittyneitä matematiikan, tietojenkäsittelytieteen sekä tilastotieteen menetelmiä eli bioinformatiikkaa.

Bioinformatiikan menetelmien, kuten geenien sekvensoinnin, avulla löydetään koko ajan uusia tapoja tutkia ja ehkäistä sairauksia. DNA:n sekvensointi on lähtökohta, jossa määritetään  DNA-molekyylin neljän eri emäksen, adeniiniin, guaniini, sytosiini ja tymiini (A, G, C,T) järjestys geneettisen digitaalisen koodin selvittämisessä. Jokainen ACGT-emäs on vastaava tiedonjyvä kuin tietokoneen bitti, nolla tai ykkönen, jotka pitkänä ketjuna sisältävät ohjeet ohjelmaan.

Sekvensointimenetelmien parantuminen ja halpeneminen ovat lisänneet merkittävästi biologian ja lääketieteen mahdollisuuksia tuottaa tämänkaltaista dataa. Nyt datan avulla saadaan selville mitä digitaalisia viestejä elämän molekyyleihin on kirjoitettu eliöiden selviämistä varten.

Data on kuitenkin vasta ensimmäinen askel kohti tulkintaa. Digitaalisen genomidatan tulkinta, eli miten genomiin tallennettu tieto ilmenee elimistössä, on vielä kehittymässä. Esimerkiksi viimeisen kymmenen vuoden aikana on Ruotsissa luotu karttaa (HPA Human Protein Atlas) siitä, miten
geenit ilmenevät proteiineina eri soluissa ja yhdistetty tämä tieto mikroskooppikuviin soluista. Näin siis voidaan nähdä, mikä geeni ilmenee missäkin solussa ja osallistuu proteiinien ja sitä kautta suurempien rakenteiden esimerkiksi hermosäikeiden, hiustuppien tai silmänpohjan valoa aistivien rakenteiden syntymiseen. Ei ole kuitenkaan vielä selvää syvemmän tason karttaa siitä, miten nanometrien skaalassa toimivat molekyylit tuottavat nämä toiminnalliset mikroskooppiset
rakenteet. Jokaiseen solun rakenteeseen tarvitaan miljoonia molekyylejä yhteistyössä. Genomeihin tallennettu rakennusohje ja sen tuottamat molekyylit muodostavat itsestään organisoituvan verkon, jota pyritään nykytutkimuksella ymmärtämään.

Suomella on melko hyvät lähtökohdat olla kansainvälinen toimija genomitiedon hallinnassa, mutta osaajia on yksittäisissä organisaatioissa liian vähän. Genomitiedon ymmärtämiseen vaadittavat tietomassat ovat suuria ja analysointi vaatii erikoistunutta osaamista toimijoita, jota ei vielä löydy
riittävästi Suomesta. Tarvitaan yhteistyötä genomidatan hallintaan ja lisää dataan erikoistuneita
tulkitsijoita. Osaamista saadaan Suomeen lisää, kun päästään luomaan puitteet suomalaisten genomien tallentamiselle. Tämä tarkoittaisi aluksi kymmenien tuhansien ihmisten datasta luotua kansallista viitetietokantaa. Siitä olisi hyötyä diagnostiikassa, esimerkiksi lääkehoitojen parantamisessa, sillä jo nyt voidaan potilaan genomitiedon perusteella määrittää esimerkiksi sopiva ja turvallinen lääkitys.

Datan hyvä organisointi auttaa sairauksien tutkimisessa

Molekyyleistä, soluista tai kokonaisista organismeista saadun datan analysointi edellyttää, että data on järjestetty hyvin. Sekvensoinnilla, mikroskoopeilla, massaspektrometrialla tai tietokonesimulaatioilla tuotetuilla data-aineistoilla pitää olla yhteiset tiedostostandardit ja riittävästi koneluettavia rajapintoja, joita noudatetaan kun dataa varastoidaan. Hyvä mittari datan järjestämisen asteelle on, jos toinen tutkimusryhmä pystyy hyödyntämään dataa yhtä hyvin kuin
sen alkuperäiset tuottajat.

Kun data on hyvin järjestetty ja kuvailtua, sitä voidaan yhdistellä. Täydentävien tietojen, esimerkiksi lääkemääräyksen, genomin ja pitkäaikaisten hoitotulosten liittäminen yhteen on edellytys syvemmän ymmärryksen kehittymiselle.

Taitavien analyytikoiden käsissä järjestetty data auttaa saavuttamaan läpimurtoja tutkimuksessa. Esimerkiksi yhdysvaltalainen GRAIL-yritys pyrkii ymmärtämään syövän syntymekanismeja. Mitä varhaisemmassa vaiheessa syöpä havaitaan, parantaa se huomattavasti taudin hoitoennustetta.
GRAIL-hankkeessa on kerätty 10 000 potilaan näytteet ja suostumus niistä luodun monipuolisen datan analysointiin. Ideana on, että tämän potilasjoukon syöpäkasvaimista luodaan tietokanta, jota vastaan voidaan tehdä verinäytteiden seulontaa.

Syöpäkasvaimet ovat yleensä seurausta siitä, että sairautta kantavan ihmisen solun genomiin on tullut muutos, joka on tekee solusta epänormaalin. Jokainen syöpä on solutasolla kantajansa näköinen melko yksilöllinen sairaus, joita yhdistää epänormaalien solujen holtiton kasvu. Syöpä hyödyntää elimistön normaaleja uusiutumisen ja parantumista mekanismeja omien geneettisten ohjeidensa itsekkääseen levittämiseen. Kahden ihmisen väliset genomit ja niiden sisältämä digitaalinen informaatio ovat keskimäärin 99,5% samanlaiset. Siksi monien syöpien etenemisprosessi on syöpien yksilöllisyydestä huolimatta hyvin tunnettu. Siksi onkin perusteltua tutkia, miten yksittäisten tai useampien nukleotidien (ACGT) muutokset genomissa vaikuttavat solun molekyyliverkoston tasapainoon siten, että solusta tulee syöpäsolu.

GRAIL-hankkeessa potilaiden genomeista ja heidän syöpäkasvaimistaan sekvensoidaan miljoonia ainutlaatuisia genomitiedon muutoksia, jotka voivat aiheuttaa syöpää. Hanke luo tietokannan, jonka avulla terveydenhuollossa pystytään havaitsemaan syövän varhaiset vaiheet, jopa suoraan
verenkierrosta. Innovaation onnistuessa syöpäseulontaa voidaan alkaa tehdä entistä varhaisemmassa, jolloin kasvaimet ovat vasta mikroskooppisen pieniä ja helpommin hallittavissa esimerkiksi lääkeaineilla.

Samanlaisen tutkimuksen tekeminenon mahdollista Suomessa yhdistämällä terveys- ja genomitiedot. Esimerkiksi Suomen ELIXIR-keskus on jo alkanut rakentaa genomitiedon hallinnalle ja tallentamiselle tarvittavaa tietoturvallista infrastruktuuria.

Tautien synnyn ymmärtäminen molekyylitasolla

Suomen ELIXIR-keskuksen tarjoamat palvelut.

Tieteen käyttöön on saatavissa satoja kertoja enemmän dataa DNA:n sisältämästä tiedosta kuin kymmenen vuotta sitten. Ymmärrys siitä, miten genomiin tallentunut tieto välittyy molekyylitasolla esimerkiksi proteiineiksi, ja edelleen solujen kolmiulotteisiksi toiminnallisiksi yksiköiksi kasvaa kovaa vauhtia. Kun ihmisen biologiaa ymmärretään solutasolta molekyylien tasolle, se parantaa elämänlaatua ja sairauksien hoitoa.

Yksi tärkeimpiä bioinformatiikan tutkimuskohteita on tautien pohjimmaisten syntymekanismien ymmärtäminen. Geenin koodaama toiminnallinen yksikkö on proteiini. Se on satojen yksiköiden, aminohappojen, ketju. Aminohappoja on 20 erilaista. Geenien ohjeistama proteiiniketju tulee solun toiminnalliseksi yksiköksi, vaikkapa entsyymiksi vasta sen jälkeen, kun se on laskostunut kolmiulotteiseen muotoonsa ja voi aloittaa vuorovaikutuksen toisten solun molekyylien kanssa. Väärin laskostunut proteiini voi johtaa sairauteen, koska se ei toimi odotetulla tavalla elämälle tärkeiden molekyylien muodostamassa verkostossa.

Joskus esimerkiksi geneettisessä koodissa on muutos tämän kriittisen toiminnallisen yksikön eli proteiinin laskostumiselle kriittisessä kohdassa. Solut muokkaavat itseohjautuvasti syntyvien proteiinin koostumusta ja sitä kautta niiden rakennetta ja toimintaa. Tämä voi korjata geneettiseen
koodiin syntyneen virheen. Toisaalta voi myös käydä niin, että proteiini menee rikki solun omassa prosessissa. Useimmat sairaudet voidaan jäljittää  tilanteisiin, jossa solun molekyylien verkoston
dynamiikkaan on tullut tärkeään kohtaan biokemiallinen lukuvirhe. Toisaalta kyseessä voi olla vain muunnelma jonka seuraus ihmiselle on vain suositus, miten kannattaa valita ruokavalionsa. Molekyylitason muutosten vaikutus genomiin talletettuun dataan riippuu monesta asiasta, sillä DNA:ssa on jokaisesta geenistä ”varmuuskopio” molemmilta vanhemmilta. Joistakin geeneistä on jopa useita versioita.

Vaikka logiikka ja tieto siitä mitkä ovat biologisten prosessien verkoston tärkeimmät pelurit alkavat olla selvillä, dynaamista kokonaisuutta ei vielä osata hahmottaa saati ennustaa tai muokata lääketieteellisesti niin hyvin kuin haluttaisiin. Esimerkiksi sepelvaltimotautiin sairastumisen
riskien ennakointi on genomista saadun datan ansiosta tarkentunut, mutta molekyylitason tapahtumien ymmärrys on siinä vaiheessa, että komponentit tunnetaan, mutta ponnistellaan niiden välisen toiminnan tai molekyylitasolla esiintyvien vikojen ymmärryksessä. Tautien molekyylitason ymmärrys kuitenkin merkitsee tarkempia ja varhaisempia diagnooseja, ja että
ehkäisytoimet voidaan aloittaa varhain ja esimerkiksi riskiryhmässä olevat voivat halutessaan muuttaa elintapojaan.

Tommi Nyrönen

Ari Turunen

Tommi Nyrönen on biokemisti ja Suomen ELIXIR-keskuksen johtaja.

Ari Turunen on tietokirjailija ja Le monde Diplomatiquen Suomen edition
päätoimittaja.

Lue artikkeli PDF-muodossa

CSC
Elixir europe
Biomedinfra