Liian puhdas on epäterveellistä

Immuunivälitteiset sairaudet, kuten allergiat, astma ja autoimmuunisairaudet, ovat lisääntyneet kaupungistumisen myötä. Syyksi on epäilty liian puhdasta ympäristöä, jossa menetetään kosketus luontoon ja sen mikrobeihin. Dosentti Olli Laitinen tutkii Tampereen yliopistossa mikrobialtistuksen terveysvaikutuksia. Hän on myös Uute Scientific Oy:n päätutkija. Yritys valmistaa inaktivoituja mikrobeja sisältävää uutetta, jota voidaan käyttää esimerkiksi kosmetiikassa voiteiden raaka-aineena.

Mikrobialtistusta voidaan lisätä helposti liikkumalla luonnossa ja olemalla kosketuksissa maaperän kanssa. Luontopohjaisten ja mikrobistoltaan rikkaiden materiaalien käsittely muuttaa kehon mikrobistoa. Laitisen hankkeissa tutkitaan kaupunkialueille sopivia ratkaisuja vaikuttaa immuunijärjestelmän häiriöiden yleisyyteen viherympäristöä ja kuluttajatuotteita muokkaamalla

Laitisen mielestä mikrobialtistus alkaa syntymästä.

”Kun me synnymme, meidän elimistömme ei ole immunologisesti valmis. Syntymähetkellä me käytännössä kohtaamme miljoonia erilaisia elämänmuotoja. Siinä vaiheessa immuunijärjestelmämme alkaa opiskella sitä, mikä on vaarallista ja mikä vaaratonta.”

Laitinen korostaa sitä, että perimmäinen syy nykyajan immuunivälitteisiin sairauksiin on juuri se, että olemme kadottaneet kosketuksen luontoon ja elämme liian puhtaassa ympäristössä.

”Ihminen on elänyt satoja tuhansia vuosia luonnonolosuhteissa. Ollaan synnytty eläintentaljoille, ja vauvat kiedottu kasviperäisiin materiaaleihin. Ollaan oltu heti kosketuksissa maaperään ja luontoon. Tähän altistukseen sopeuduttiin.”

”Syntymähetkellä kaikki levähtää keholle ja immuunijärjestelmä alkaa toimia. Silloin on tärkeää immuunijärjestelmälle osata erottaa mikä on vaarallista ja vaaratonta. Vaaratonta on tietenkin oma keho. Immuunijärjestelmän on myös tunnistettava, että kaikki ulkopuolelta tuleva ei ole vaarallista. Ei siis kannata synnyttää allergioita eläinten hilsettä vastaan. Immuunijärjestelmän olisi opittava, mitkä ovat oikeasti vaarallisia patogeenejä.”

Synnytys sairaalassa on varsin steriiliä luontoon verrattuna.

”Jos ollaan sellaisessa ympäristössä, jossa ei ole opetusmateriaalia paljon, niin helposti järjestelmä kokee, että kaikki ulkopuolinen on vaarallista. Tällöin syntyy allergioita ja astmaa, atooppista ihottumaa tai sitten kohdataan vielä pahempi tilanne: immuunijärjestelmä ei pysty erottamaan, mitkä ovat elimistön omia soluja, jolloin se ryhtyy tuhoamaan niitä, mikä johtaa erilaisiin autoimmuunisairauksiin.”

Lupaavia tuloksia on nyt saatu siitä, miten monimuotoinen ympäristö voi estää autoimmuunisairauksien, kuten tyypin 1 diabeteksen kehittymisen. Laitinen viittaa Tampereen yliopistossa tutkivan Noora Nurmisen väitöskirjan osatyöhön, jossa Nurminen tutki vihreän ympäristön määrää ja sen vaikutusta tyypin 1 diabeteksen kehittymiseen.

”Tyypin 1 diabetes syntyy, kun immuunijärjestelmän tulehdussolut aktivoituvat haimassa ja tuhoavat insuliinia tuottavat solut. Nurminen käytti aineistonaan 15 000 lapsen kohorttia ja tutki miten kasvuympäristö ensimmäisen elinvuoden aikana vaikutti diabeteksen kehittymiseen. Tutkimustulokset osoittivat, että agraariympäristö oli lapsille terveellinen. Maaseudulla asuville lapsille ei kehittynyt diabetesta tai siihen johtavaa autoimmuuniprosessia yhtä usein kuin kaupunkimaisissa ympäristössä eläneille lapsille tai tautiin johtava prosessi käynnistyi huomattavasti myöhemmin kuin kaupungissa asuvilla lapsilla.”

Monipuolinen mikrobisto ihmisen kehossa on vähentynyt huomattavasti, etenkin länsimaissa. Erään arvion mukaan kaupungistuneiden ihmisten iholla on jäljellä 60% alkuperäisestä mikrobistosta ja suolistossa vain 50%. Yhdysvalloissa mikrobikato on paikoin vielä suurempi. Amerikkalaisilla onkin enemmän tulehdussairauksia kuin muilla.

Olli Laitisen mielestä viimeistään siinä vaiheessa, kun lähdetään kotiin synnytyssairaalasta, pitäisi vastasyntyneen keholle saada immuunijärjestelmän koulutusta, toisin sanoen luontoaltistusta. llman altistumista luonnolle ja sen mikrobeille elimistömme immuunipuolustus ei toimi tarkoituksenmukaisesti. Kehon puolustusjärjestelmän ylireagointi voi johtaa sairauksiin. Esimerkiksi allergiassa keho tulkitsee siitepölyn virheellisesti virukseksi.

”Pohjaamme tutkimuksemme immuunijärjestelmän toimintaan ja luontoaltistuksen puutteen aiheuttamiin häiriöihin. Immunoglobluliini E:n luonnollinen tehtävä on ollut taistella loistartuntoja vastaan, mutta kun niitä on nyt huomattavasti vähemmän, IgE on vapaa agentti ja etsii uusia tehtäviä. Sellainen on esimerkiksi reagointi siitepölyyn. ”

Immunoglobuliinit eli vasta-aineet ovat valkuaisaineita, joita elimistön puolustusjärjestelmän solut tuottavat. Vasta-aineiden tehtävänä on auttaa puolustusjärjestelmää tuhoamaan tunkeilijoita, kuten bakteereita ja viruksia. IgE-luokan vasta-aineet ovat jääneet liiallisen hygienian ja steriilisyyden takia vaille luontaista aktiviteettiaan ja siten toimettomaksi. Nyt IgE-vaste aktivoituu väärin siitepölyn proteiineja kohtaan ja aiheuttaa allergisia yliherkkyysreaktioita.

Immunoglobuliini E esiintyy allergioiden ja allergisten sairauksien yhteydessä. Allergiassa elimistö tuottaa sitä esimerkiksi siitepölyä tai ruoka-aineita kohtaan. Vasta-aine kiinnittyy ihon ja limakalvojen soluihin, ja vapauttaa histamiinia. Sitten aivastellaan, henki salpautuu ja silmät muurautuvat umpeen. Kehitysmaissa, joissa loistartuntoja on yleisemmin, IgE:tä esiintyy usein korkeina pitoisuuksina ilman allergiaoireita.

Immunoglubuliinien ”väärät viholliset” on hyvä esimerkki biodiversiteetin vähenemisestä, mikä koskee myös mikrobistoa.

”Nyt kun meille myydään paljon antibakteerisia torjunta-aineita, kaikki bakteerit itse asiassa siivotaan pois. Tämä ei ole suotavaa. Olisi parempi, että meillä olisi vakiintunut mikrobiyhteisö ympärillämme, koska siiloin ei tapahdu liian isoja muutoksia.”

Muutokset mikrobistossa voivat aiheuttaa antibioottiresistenssia, joka on iso ongelma. Antibiooteille vastustuskykyiset bakteerit kantavat resistenssigeenejä ja niistä tulee usein mikrobipopulaatioissa vallitsevia.

”Patogeenit ovat nopeasti kasvavia mikrobeja. Runsas patogeenien määrä lisää geenien vaihdantaa niiden välillä, jolloin niiden vastustuskyky antibiootteja vastaan vahvistuu”, sanoo Laitinen, joka on tutkinut myös antibioottiresistenssiä.

”Toivottavasti tulevaisuudessa meillä olisi turvallinen määrä monimuotoisia mikrobeja ympäristössämme, jotta antibioottiresistentit bakteerit eivät menestyisi.”

Atooppinen ihottuma pohjoismaissa yleistä

Atooppinen ihottuma on yleinen, osin perinnöllinen tauti, jota sairastaa Suomessa noin 20–30 % väestöstä. Sen oireita ovat ihon kutina, kuivuus, karheus, punoitus ja rikkoumat. Syynä on immuunijärjestelmän poikkeava toiminta.

”Pohjoismaissa atooppinen ihottuma on yleistä. On huomattu, että monet immuunivälitteiset taudit yleistyvät populaatiotasolla pohjoista kohti mentäessä.”

Tampereen ja Helsingin yliopistojen vetämässä PREVALL-hankkeessa on tutkitttu kasvi- ja maapohjaisen materiaalin vaikutusta lasten allergisoitumiseen. Hankkeessa on myös selvitetty, pystyttäisiinkö atooppisen ihottuman kehittyminen estämään vauvaikäisillä. Tutkimukseen otettiin mukaan lapsia, joiden molemmilla vanhemmilla on todettu atooppinen ihottuma.

”Tällöin lapsella on noin 40% riski saada sama sairaus,” Laitinen huomauttaa.

Johanna Kalmarin ja Iida Mäkelän tutkimuksessa, joka on Uutteen ja Tampereen yliopiston yhteishanke, atooppiseen ihottumaan sairastuneille annettiin Uute Scientificin uutetta sisältävää mikrobivoidetta. Mikrobit eivät olleet eläviä, mutta voide sisälsi mikrobien ainesosia, joihin keho ja immuunipuolustus pystyy reagoimaan. Luontoaltistusta annettiin siis voiteen kautta. Voiteen käyttö aloitettiin loppukesästä ja syksyllä, koska talvella atoopikkojen iho on huonommassa kunnossa kuivan ilman ja lämpötilan laskun vuoksi. Myös luonnonvalon määrän vähenemisellä on vaikutusta. Voidetta käytettiin vähintään kolme kertaa viikossa. Koehenkilöistä otettiin erilaisia näytteitä ja tutkittiin ihon veden läpäisevyyttä ja punoitusta, jotka ovat tulehduksen indikaattoreita.

”Suurin ero nähtiin lääkkeen käytössä. Voidetta käyttänyt ryhmä käytti selvästi vähemmän lääkkeitä 7 kuukauden koejakson jälkeen. Voiteella pystyttiin estämään ihon huonontumista. Voide on ns. luontoaltistuslääke. Se on tukeva hoitomuoto, jotta voi käyttää vähemmän lääkkeitä.”

Uutena aluevaltauksena on, ei enempää eikä vähempää, avaruus.

”Astronautit kärsivät erilaisista iho-ongelmista. Kansainvälisellä avaruusasemalla on hyvin köyhä mikrobiympäristö, mikä ei ole yllättävää. Meidän uutettamme voitaisiin viedä avaruuteen. Keskusteluja on käyty voiteen käytöstä Euroopan avaruusjärjestön ESA:n kanssa.”

Olli Laitisen tutkimusryhmä Tampereen yliopistossa ja Uute Scientific ovat käyttäneet tutkimuksissaan Suomen ELIXIR-keskuksen CSC:n laskentapalveluja ja sensitiivisen datan palveluja. yli 10 vuotta kestäneissä Tutkimuksissa on otettu näytteitä yli 500 yksilöltä vauvoista, päiväkoti-ikäisiltä ja aikuisilta. Osa datasta on säilytetty CSC:n tietoturvallisessa ympäristössä.

Uute Scientificin mikrobiuute on valmistettu yhdistelemällä erilaisia kasvikomposteja. Se sisältää toimintakyvyttömiä mikrobeja. Näistä ei ole siis mitään harmia. Immuunijärjestelmä kuitenkin tunnistaa mikrobit, mikrobiosaset ja myös tuhotut patogeenit eli taudinaiheuttajat. Materiaali on kehitetty alun perin Helsingin ja Tampereen yliopistoissa. Se on biodiversiteetiltään ainutlaatuinen kosmetiikan ja muiden kuluttajatuotteiden raaka-aine koko maailmassa. Siinä on vähintään 600 eri mikrobilajia.

Ari Turunen

23.6.2025

Lue artikkeli PDF-muodossa

Lisätietoja:

Tampereen yliopisto

https://www.tuni.fi/fi

Uute Scientific

https://www.uutescientific.com/fi/

CSC – Tieteen tietotekniikan keskus Oy

on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.

https://www.elixir-finland.org

http://www.elixir-europe.org

Puiden kuorista eristetyt alkaloidit tuhoavat syöpäsoluja

Puun kuori on tärkeä kemiallinen ase tuholaisia kohtaan. Kun kasvia uhkaa bakteeri tai hyönteinen, niissä olevat alkaloidit voivat esimerkiksi estää tuholaisten DNA:n tai solunjakautumisen toiminnan, mikä pysäyttää niiden lisääntymisen. Näin toimivat paklitakseli ja kamptotesiini, kaksi eri puiden kuoresta eristettyä yhdistettä, joista kehitettiin tehokkaita syöpälääkkeitä. Puiden ja muiden kasvien sisältämien bioaktiivisten yhdisteiden selvittämisen avuksi ovat nyt tulleet data-analyysit ja tietokannat.

Maailmassa on puoli miljoonaa kasvia, joista arviolta 7 prosenttia on käytetty lääkinnässä. Noin 25 % nykyisistä reseptilääkkeistä on kasvipohjaisia. Tämä tarkoittaa lääkkeitä, joissa on puhtaita kasveista eristettyjä yhdisteitä tai niistä kehitettyjä synteettisiä johdannaisia. Luonnon monimuotoisuuden säilyttäminen on ensiarvoisen tärkeää myös lääkkeiden takia, koska koko ajan löydetään uusia kasvilajeja ja tunnettujenkin kasvilajien kemiallinen koostumus on pääosin selvittämättä.

Paklitakseli ja kamptotesiini ovat esimerkkejä syöpälääkkeistä, jotka löydettiin, kun potentiaalisen lääkekasvien näytteitä alettiin seuloa järjestelmällisesti. Yhdysvaltain kansallinen syöpäinstituutti NCI seuloi yli 35 000 kasvinäytettä tutkimusohjelmassa, joka käynnistettiin 1956 ja jatkui vuoteen 1981 asti. Ohjelman tarkoituksena oli etsiä kasveista yhdisteitä, joilla voisi olla syöpää ehkäiseviä tai hoitavia vaikutuksia.

Kunnianhimoinen ohjelma hyödynsi myös etnobotaniikkaa ja historiaa. Ohjelman johtaja Jonathan Hartwell kokosi kattavan kokoelman muinaisten kiinalaisten, egyptiläisten, kreikkalaisten ja roomalaisten tekstejä kasvien lääkekäytöstä. Näytteiden löytämiseksi ja tarkkojen kasvitieteellisten tietojen saamiseksi Hartwell kääntyi Yhdysvaltain maatalousministeriön (USDA) puoleen. USDA:n kasvitieteilijät alkoivat kerätä kasveja eri puolilta maailmaa analysoitaviksi laboratorioissa.

Kamptotesiini ja sen johdannaiset

”Onnen puu” *Camptotheca acuminata* on kotoisin eteläisestä Kiinasta. Kuva Kumningin EXPO-puutarhasta. Kasvin kamptotesiini-yhdisteestä kehitetyt johdannaiset topotekaani ja irinotekaani ovat tärkeitä mm. keuhkosyövän ja suolisyöpien hoidossa.

Research Triangle Institute -tutkimuslaitoksen kemistit Monroe E. Wall ja Mansukh C. Wani saivat Camptotheca acuminata -puun näytteet tutkittavakseen. Puuta kutsutaan Kiinassa ”onnen puuksi” ja se kasvaa luontaisesti kosteilla penkoilla Jangtse-joen rannoilla. Kiinalaisessa perinteisessä lääketieteessä puun lehtiä ja kuorta on käytetty erilaisten tulehdusten ja infektioiden hoitoon.

Wall ja Wani huomasivat, että C. acuminatan sisältämät aineet olivat erittäin aktiivisia hiiren leukemian L1210-solulinjassa eli vaikutuksia oli nähtävissä syöpäsoluissa. L1210-linjaa käytetään yleisesti syöpätutkimuksessa ja uusien syöpälääkkeiden testaamisessa. Se on peräisin hiirestä, jolla oli lymfaattinen leukemia. Wall ja Wani eristivät puusta aktiivisen yhdisteen, joka sai nimen kamptotesiini. Sen havaittiin olevan erittäin tehokas leukemiasoluja vastaan.

Kamptotesiini sitoo solujen tärkeän entsyymin, topoisomeraasi I:n, DNA-komplekseihin. Tämä estää syöpäsolujen DNA:n kopioitumisen ja johtaa solun kuolemaan. Huolimatta tehokkuudestaan kamptotesiinillä on vakavia sivuvaikutuksia ja huono liukoisuus. Lääkkeen vesiliukoisuus on tärkeä, koska se vaikuttaa lääkkeen imeytymiseen ja jakautumiseen elimistössä. Myöhemmin kehitettiin kamptotesiinin johdannaisia, jotka olivat paremmin siedettyjä, vesiliukoisia ja säilyttivät tehokkuutensa. Näitä ovat topotekaani ja irinotekaani. Topotekaania (Hycamtin) käytetään munasarja-, keuhko- ja kohdunkaulansyövässä, irinotekaania (Camptosar) ensisijaisesti paksusuolen- ja peräsuolisyövän hoitoon.

Irinotekaanin kehittäminen

Luonnollisesta yhdisteestä jatkokehitetyt synteettiset johdannaiset voivat olla alkuperäistä yhdistettä huomattavasti tehokkaampia. 1980-luvulla japanilainen Yakult Honsha -yhtiö kehitti kamptotesiinin johdannaisen irinotekaanin. Silloin selvisi, että sen aktiivinen muoto elimistössä on sen aineenvaihduntatuote 7-etyyli-10-hydroksikamptotesiini, joka on noin 100–1000 kertaa aktiivisempi kuin itse iritotekaani. Yhdistettä alettiin kutsua nimellä SN-38. Yhdisteen nimi on lääkeyhtiön koodi ”SmithKline Number 38”. Se ei ole aktiivinen sellaisenaan, vaan toimii ns. prolääkkeenä. SN-38 on voimakas syöpälääkeaine, joka syntyy elimistössä, kun irinotekaanimuuttuu aktiiviseksi muodokseen. Iritotekaani muuttuu maksassa ja muissa kudoksissa SN-38:ksi. Se on siis muokattu versio luonnosta löytyvästä kamptotesiinista, johon on lisätty etyyli- ja hydroksyyliryhmät. Näillä muutoksilla saatiin aikaan erittäin tehokas lääkeaine.

Joillakin ihmisillä on UGT1A1*28-mutaatiota. Jos UGT1A1-geenissä on mutaatio (kuten UGT1A1*28), se voi vähentää entsyymin toimintaa, jolloin SN-38:n eliminoituminen hidastuu ja sen toksisuus voi kasvaa. Tämä voi lisätä haittavaikutuksia. Ensembl-tietokannasta voi esimerkiksi tutkia UGT1A1-geeniä, sen mutaatioita ja mahdollisia vaikutuksia SN-38:n metaboliaan.

Paklitakseli: maailman tärkeimpiä solunsalpaajia

Tyynenmeren marjakuusi, *Taxus brevifolia*. Siitä saatu paklitakseli on yksi yleisimmin käytetyistä lääkkeistä rintasyövän, munasarjasyövän ja keuhkosyövän hoidossa.

Wall ja Wani jatkoivat kasvinäytteiden tutkimista kamptotesiinin löytämisen jälkeen. He saivat analysoitavakseen Tyynenmeren marjakuusen (Taxus brevifolia) näytteitä.

Tyynenmeren marjakuusi on yksi viidestä suvusta Taxaceae-heimossa. Se kasvaa Pohjois-Amerikassa hyvin hitaasti jättimäisten havupuiden varjossa purojen rannoilla, syvissä rotkoissa ja kosteissa solissa. Sen puu on kovaa mutta vain vähän hyödynnettävissä. Puulla on vain vähän luonnollisia tuholaisia, koska suurin osa kasvista on myrkyllistä. Vuonna 1971 Wall, Wani ja heidän työtoverinsa julkaisivat tutkimustuloksen, jossa he esittelivät marjakuusen kuoresta eristetyn yhdisteen. Se estää mikrotubulusten hajoamisen ja pysäyttää syöpäsolun jakautumisen. Yhdiste sai nimekseen paklitakseli (Taxol).

Paklitakseli oli tehokas syöpälääke, mutta se aiheutti ympäristöhuolia. Yhdisteen eristäminen tappoi harvinaisia marjakuusia. Koska luonnollinen lähde (marjakuusen kuori) ei riittänyt laajamittaiseen lääkkeiden tuotantoon, 1990-luvulla kehitettiin puolisynteettinen menetelmä, jossa lähtöaineena käytetään marjakuusen neulasista saatavaa 10-deasetyylibakkatiinia. Tuo yhdiste (10-DAB) on paklitakselin esiaste, mutta kun siihen lisätään bentsyyliamiinia, saadaan puhdasta ja ekologisesti kestävää paklitakselia. Paklitakseli on yksi yleisimmin käytetyistä lääkkeistä rintasyövän ja munasarjasyövän hoidossa.

ELIXIR Core Data Resources: biolääketieteelle tärkeitä palveluita

ELIXIR Core Data Resources (CDR) on valittu niiden laadun, laajan käytön ja pitkäaikaisen merkityksen perusteella. Ne ovat keskeisiä monille tutkimusaloille, kuten genomiikalle, proteomiikalle ja lääkekehitykselle. ELIXIR Core Data Resources tarjoaa tutkijoille avoimen ja luotettavan pääsyn biologisiin tietoaineistoihin, mikä edistää uusia löytöjä ja nopeuttaa esimerkiksi uusien lääkkeiden kehittämistä, tautien ymmärtämistä ja biomarkkerien tunnistamista.

ELIXIR-infrastruktuurin tarjoamat data-analyysipalvelut ja koneoppimismallit voivat auttaa tunnistamaan uusia lääkeaihioita suurista tietomassoista. Näiden resurssien sekä tietokantojen avulla luonnosta löydettyjä yhdisteitä voidaan analysoida nopeammin ja tarkemmin, mikä edistää niiden kehitystä turvallisiksi ja tehokkaiksi lääkeaineiksi.

ENA (European Nucleotide Archive): geneettistä dataa eri eliöistä

ENA on Euroopan bioinformatiikkainstituutin (EMBL-EBI) ylläpitämä tietokanta, joka tallentaa ja jakaa sekvenssidataa eri eliöistä, mukaan lukien mikrobit, kasvit, eläimet ja ihmiset. Koska ENA sisältää genomi- ja sekvenssidataa kaikista elämänmuodoista, se on keskeinen tietokanta biodiversiteettitutkijoille, jotka analysoivat lajien geneettistä monimuotoisuutta, populaatiogenetiikkaa ja evoluutiota. Se auttaa uusien lajien tunnistamisessa (DNA-viivakoodaus ja metagenomiikka) sekä lajien välisen sukulaisuuden tutkimisessa (fylogeneettiset analyysit).

ENA:n sisältämät geneettiset tietokannat tarjoavat mahdollisuuden suorittaa laajoja meta-analyysejä ja verrata eri väestöjen tai lajien geneettisiä tietoja. Tämä voi tukea monenlaisten tutkimusalueiden, kuten evoluutiobiologian, sairauksien tutkimuksen ja lääketieteen, edistymistä. ENA on avoin tutkijoille ympäri maailmaa.

ChEBI: pienimolekyyliset yhdisteet

ChEBI (Chemical Entities of Biological Interest) on biokemiallinen tietokanta, joka sisältää tietoa pienimolekyylisistä yhdisteistä, joilla on biologista merkitystä. Se on kuratoitu ja tarjoaa tarkkoja kemiallisia ja biologisia tietoja muun muassa lääkeaineista, metaboliiteista ja luonnonaineista. ChEBI tarjoaa tarkan kemiallisen rakenteen, molekyylikaavan, massan ja isomeerisen tiedon, mikä auttaa tutkijoita analysoimaan lääkeyhdisteiden kemiallisia ominaisuuksia.

Haku: tietokannasta voi hakea tietoa esimerkiksi paklitakselin biologista vaikutuksesta ja sen kohdemolekyylit

Ensembl: genomitietoa eliöistä

Ensembl on genomi- ja bioinformatiikkatietokanta, joka tarjoaa analysoituja genomitietoja useista eliöistä, mukaan lukien ihmiset, eläimet, kasvit ja mikrobit.

Haku: paklitakselin pääasiallinen vaikutuskohde on tubuliini -proteiini. Ensembl tarjoaa geneettistä ja proteiinirakennetietoa tubuliinista ja siihen liittyvistä geeneistä, mikä auttaa tutkimaan lääkeresistenssiä ja mutaatioiden vaikutuksia. Ensembl sisältää tietoa geneettisistä variaatioista, jotka voivat vaikuttaa Taxolin tehoon ja aiheuttaa haittavaikutuksia. Esimerkiksi CYP3A4- ja CYP2C8-entsyymit metabolisoivat Taxolia, ja niissä esiintyvät mutaatiot voivat vaikuttaa lääkkeen tehokkuuteen.

INSDC (International Nucleotide Sequence Database Collaboration) on maailmanlaajuinen verkosto, johon kuuluvat ENA, GenBank ja DNA Data Bank of Japan (DDBJ). Tämä yhteistyö mahdollistaa geneettisen datan jakamisen ja standardoinnin, jotta tutkijat voivat käyttää tietoja eri arkistoista ilman esteitä. Jos dataa tallennetaan johonkin näistä arkistoista, se on yleensä saatavilla myös muissa. Kun tutkija tallettaa geneettisen sekvenssin ENA:han, se voidaan synkronoida myös GenBankiin ja DDBJ:hen, mikä varmistaa tiedon globaaliin saatavuuden. Tämä synkronointi tapahtuu säännöllisesti, ja tietojen siirtäminen arkistojen välillä on automaattista ja ilman manuaalista väliintuloa. Koska ENA ja GenBank jakavat tietoja, tutkijat voivat käyttää samoja hakutyökaluja ja palveluja molemmista arkistoista, mikä helpottaa tietojen etsimistä ja analysointia.

Ari Turunen

8.5.2025

Lue artikkeli PDF-muodossa

Lisätietoja:

ELIXIR Core Data Resources

https://elixir-europe.org/platforms/data/core-data-resources

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

Vinka-alkaloidit: Madagaskarin lahja syövän torjuntaan

Ruusukatara (Catharanthus roseus) on kaunis Madagaskarin saarella kasvava kukka. Se on yksi merkittävimmistä kasvilääkkeistä syövän hoidossa. Kukka on pelastanut tuhansia lymfaattiseen leukemiaan sairastuneita lapsia. Ruusukatara on loistava esimerkki siitä, miksi luonnon monimuotoisuutta pitää suojella. Saarella eristyksissä kasvaneen ruusukataran genomin mutaatiot ovat antaneet kasville sekundaarisia aineenvaihduntatuotteita, jotta tämä selviytyisi Madagaskarin ekosysteemissä. Ruusukatarasta löytyy yli 200 alkaloidiyhdistettä, joista vinkristiiniä ja vinblastiinia käytetään lääkehoidoissa. Vaikka uusia syöpälääkkeitä kehitetään jatkuvasti, vinkristiini ja vinblastiini eli vinka-alkaloidit ovat edelleen tärkeitä lääketieteessä.

Ruusukataran biosynteesiä, prosessia, jossa uusia yhdisteitä syntyy entsyymien nopeuttamina yksinkertaista lähtöaineista, selvitettiin vuosia. Ruusukataran lehtiä on perinteisesti käytetty Madagaskarilla verensokerin alentamiseen ja diabeteksen hallintaan sekä tulehdusten ja haavojen hoitoon. Kun kanadalaiset tutkijat Robert Noble ja Charles Beer alkoivat 1950-luvulla selvittää, miten ruusukatara alensi verensokeria, he löysivätkin muuta mielenkiintoista.

Noble ja Beer antoivat rotille suun kautta kukan uutteita, mutta seerumin glukoositasoissa ei havaittu vaikutusta. Tutkijat kokeilivat toista lähestymistapaa ja antoivat rotille uutetta suonensisäisesti toivoen sen voimistavan verensokeria alentavaa vaikutusta. Tämä johti odottamattomiin seurauksiin: kaikki rotat kuolivat bakteerien aiheuttamiin infektioihin. Tutkijat kuitenkin huomasivat, että kasvin uutteet vaikuttivat immunosuppressiivisesti eli voimakkaasti valkosoluihin ja luuytimeen. Tämä johti tarkemmassa tutkimuksessa syöpää estävien ominaisuuksien löytämiseen. Noble ja Beer analysoivat ruusukatarasta saatuja aineita, kunnes tunnistivat vaikuttavan yhdisteen, jonka he nimesivät vinkaleukoblastiiniksi (vinblastiini). Vinblastiini häiritsee solun sisäistä aineenvaihduntaa ja pysäyttää solun jakautumisen – toisin sanoen se on solunsalpaaja.

Charles D. Carmichael ja Harold P. S. Harington eristivät vinkristiinin ruusukatarasta 1950-luvulla. Carmichael ja Harington työskentelivät Canadian Cancer Research Foundationin alaisuudessa, ja heidän tutkimuksensa keskittyivät syöpälääkkeiden etsimiseen luonnonvaraisista kasveista. Vinkristiini oli yksi heidän löytämistään tehokkaista aineista, jotka estivät syöpäsolujen jakautumista.

Samaan aikaan Gordon Svoboda ja Irving Johnson Eli Lilly and Company-lääkeyhtiössä tutkivat kasvinäytteitä eri puolilta maailmaa toivoen löytävänsä kasviuutteita, joista voitaisiin kehittää syöpälääkkeitä. He osallistuivat konferenssiin, jossa kanadalaiset tutkijat esittelivät tutkimuksiaan.

He huomasivat jakavansa yhteisen kiinnostuksen ruusukataraan. Tämä johti yhteistyöhön.

Ruusukatara on yksi harvoista kasveista, joista on saatu suoraan hyväksyttyjä syöpälääkkeitä. Nimet vinblastiini ja vinkristiini saatiin vinca-kasvisuvusta (talviot), johon ruusukatara kuuluu. Vinca on osa Apocynaceae-heimoa, kuten oleanteri (Nerium oleander). Vinca-suvun kasvit ovat monivuotisia maanpeitekasveja, joita käytetään usein puutarhoissa ja pihoilla. Niillä on kiiltävät lehdet ja näyttävät kukat. Kuva: Gi Vi An

Svoboda ja Irving tutkivat, miten vinkristiini vaikutti mikrotubulusten muodostumiseen ja solujen jakautumisprosessiin. Mikrotubulukset ovat tärkeitä monille solun toiminnoille, kuten jakautumiselle, aineiden kuljetukselle ja solun rakenteen ylläpidolle. Soluviljelmät saivat vinkristiiniä, mikä mahdollisti sen, että tutkijat pystyivät seuraamaan vinkristiinin vaikutuksia mikroskoopilla ja arvioimaan sen tehokkuutta solujen jakautumisen estämisessä.

Vinkristiini ja vinblastiini ovat myrkyllisiä hyönteisille ja kasvinsyöjille. Ne ovat indolialkaloideja, jotka estävät solunjakautumista ja voivat lamauttaa tai tappaa ruusukataran syöjät. Ihmisessä yhdisteiden vaikutus on toinen, niiden on todettu auttavan elimistöä taistelussa syöpäsoluja vastaan.

Suurin osa kasvipohjaisista syöpälääkkeistä kohdistuu tavalla tai toisella solun jakautumiseen. Tämä tekee niistä tehokkaita syövän torjunnassa. Koska syöpäsolut jakautuvat hallitsemattomasti, monet lääkkeet tähtäävät juuri jakaantumisprosessin estämiseen. Vinkristiini ja vinblastiini sekä Tyynenmeren marjakuusesta (Taxus brevifolia) saadun paklitakselin vaikutus kohdistuu mikrotubuluksiin eli solun tukirankaan. Tukiranka rakentuu tubuliini-nimisistä proteiineista, jotka muodostavat pitkiä säikeitä. Vinkristiini ja vinblastiini sitoutuvat tubuliinin ß-osaan ja estävät säikeiden muodostumisen, jolloin solut eivät pysty jakautumaan normaalisti. Kaikki kolme ainetta vaikuttavat mirotubulusten toimintaan mutta eri tavoin. Ne pysäyttävät solun jakautumisen metafaasivaiheeseen. Mikrotubuluksiin vaikuttaminen estää siis kasvaimen kasvua, mikäli syöpäsolujen rakenne muuttuu lääkkeen ansiosta epävakaaksi.

Vinkristiini on tyypillisesti tehokkaampi verisyövissä, kuten akuutin lymfaattisen leukemian hoidossa. Vinblastiini on parempi kiinteiden kasvainten hoidossa. Sitä käytetään Hodgkinin lymfooman, non-Hodgkinin lymfooman, rintasyövän ja kivessyövän hoidossa.

”On kiehtovaa, että kasvien ja hyönteisten keskinäisen selviytymisen prosessin myötä syntyneet molekyylit voivat vaikuttaa ihmisen biologisiin prosesseihin. Luonnossa kemiallinen aktiivinen rakenne ei ole sattumaa, mutta näiden harvinaisten molekyylien uusiokäyttö uuteen käyttötarkoitukseen kuten lääkkeeksi vaatii innovaation”, sanoo Suomen ELIXIR-keskuksen johtaja Tommi Nyrönen. Nyrönen on tutkinut lääkeaineita.

”Luonnonaineiden rakenteet, jotka voivat olla myrkyllisiä yhdelle lajille voivat oikein annosteltuna kuitenkin auttaa toista lajia kuten vinka-alkaloiden tapauksessa. Jännittävää on se, mitä emme vielä tiedä, koska emme vielä tunne kaikkia maapallon mikrobeja tai kasveja. Vastaavia löytöjä on mahdollista tehdä jatkossa keräämällä ja analysoimalla tutkimuksen tuottamaa molekyylitason dataa elävästä luonnosta.”

Vinka-alkaloidit ovat ensimmäisiä tunnettuja luonnosta peräisin olevia syöpälääkkeitä. Vinblastiini ja vinkristiini kuuluvat WHO:n olennaisten lääkkeiden listaan. Näiden alkaloidien monimutkainen rakenne on tehnyt synteesistä haastavaa. Vinkristiinin ensimmäisen synteesin suoritti kemisti **Robert B. Woodward** yhdessä tutkimusryhmänsä kanssa Harvardin yliopistossa vuonna 1961. Woodward sai kemian Nobelin palkinnon vuonna 1965. Täysin synteettisen reitin vinblastiinin valmistukseen kehitti **Phil Baran** tutkimusryhmänsä kanssa vasta vuonna 2010. Tämä oli merkittävä saavutus, koska vinblastiinin rakenne sisältää kaksi monimutkaista indolialkaloidia, vinkaliinin ja katarantiinin, jotka piti yhdistää tarkasti oikeassa konfiguraatiossa. Tässä yhteydessä konfiguraatio tarkoittaa molekyylin atomien kolmiulotteista järjestäytymistä eli sitä, miten atomit ovat avaruudellisesti sijoittuneet toisiinsa nähden. Oikea kolmiulotteinen rakenne on olennaista, jotta vinblastiini voi sitoutua tehokkaasti kohdeproteiineihinsa ja toimia lääkkeenä. Jos synteesissä muodostuisi väärä konfiguraatio, lopputuotteella ei olisi toivottuja biologisia vaikutuksia tai se voisi jopa olla haitallinen. Vaikka synteettinen reitti on olemassa, teollisessa tuotannossa vinblastiinia valmistetaan yhä pääasiassa puolisynteettisesti ruusukatarasta, koska se on taloudellisesti ja käytännöllisesti tehokkaampaa. Silti äärimmäisen suuria määriä kasvimateriaalia tarvitaan. Yhden gramman vinkristiinin valmistukseen tarvitaan 2 000 kg kuivattuja lehtiä, kun gramman vinblastiinin tuottamiseen tarvitaan 500 kg lehtiä.

Mitä ELIXIR-tietokannoista saadaan selville vinka-alkaloideista?

Tietoa vinka-alkaloideista löytyy monista tietokannoista. Esimerkiksi ChEMBL, BioStudies, UniProt ja Reactome tarjoavat tietoa farmakologisista ominaisuuksista, kohdeproteiineista (kuten tubuliini), mekanismeista ja solutason vaikutuksista.

”ELIXIR on elävän luonnon tiedon infrastruktuuri. Nämä tietokannat ovat osa ELIXIRin tietovarantoja, jotka ovat vapaassa käytössä niin tieteelle tutkimukselle, opetukselle kuin teollisuudelle”, sanoo Nyrönen.

ChEMBL: lääkkeen imeytyminen ja vaste

ChEMBL (Chemical Database) on kemikaalitietokanta, joka keskittyy erityisesti lääkkeiden ja niiden kohdeproteiinien vuorovaikutukseen, ja sen avulla voidaan tarkastella lääkkeiden biologisia vaikutuksia ja farmakologisia profiileja. Tietokanta sisältää tietoa lääkeaineiden tehokkuudesta, turvallisuudesta ja muista biologisista vasteista.

Metabolian avulla keho muuntaa lääkkeen aktiivisia yhdisteitä vähemmän aktiivisiksi tai helposti poistettaviksi yhdisteiksi. Usein sytokromi P450 -entsyymit aiheuttavat nämä kemialliset muutokset. Lääkkeen metabolia vaikuttaa siihen, kuinka pitkään lääke vaikuttaa kehossa, kuinka nopeasti se poistuu ja kuinka tehokas se on. Jos lääkkeen metabolia on hidas, se voi jäädä elimistöön pidemmäksi aikaa, kun taas nopea metabolia heikentää lääkkeen vaikutuksen kestoa. Metaboliareitti voi vaihdella eri henkilöillä geneettisten tekijöiden, ympäristön ja muiden lääkkeiden mukaan. Siksi kahden eri henkilön vaste tiettyyn lääkkeeseen voi olla erilainen.

Bioassay (biologinen koe) tarkoittaa kokeellista menetelmää, jossa mitataan biologisen vasteen voimakkuus tai tehokkuus tietylle aineelle, kuten lääkkeelle, kemikaalille tai luonnontuotteelle. Tämä on erityisen tärkeää lääkkeiden kehityksessä, koska se antaa arvokasta tietoa siitä, miten aine vaikuttaa elimistössä.

Haku: Tietokannasta voi etsiä tiettyjä yhdisteitä ja niiden Bioassay-tuloksia sekä arvioida niiden vaikutuksia erityisesti sytotoksisuuteen tai reseptorivasteisiin. Tietokanta mainitsee vuorovaikutukset haetun aineen ja eri lääkeyhdisteiden välillä (drug matrix).

BioStudies: geenin ilmentyminen ja proteiinin vuorovaikutukset

BioStudies-tietokanta tarjoaa keskitetyn paikan biologisten tutkimusten kuvausten tallentamiseen. Se sisältää linkkejä näiden tutkimusten dataan muissa tietokannoissa sekä dataa, joka ei sovi olemassa oleviin rakenteellisiin arkistoihin. Tämä mahdollistaa monenlaisten tutkimustyyppien tallentamisen yksinkertaisen formaatin avulla. ArrayExpress toimi yli 20 vuoden ajan funktionaalisen genomiikan tietokantana. Syyskuussa 2022 ArrayExpressin käyttöliittymä poistettiin käytöstä, ja kaikki data siirrettiin BioStudies-tietokantaan. Tämä muutos mahdollistaa datan paremman integroinnin ja saavutettavuuden tutkimusyhteisölle.

Haku: Jos tutkitaan esimerkiksi vinkristiinin vaikutusta syöpäsolujen kasvuun, BioStudies voi sisältää koeasetelmia, analyysimenetelmiä ja tuloksia, jotka auttavat tulkinnassa.

UniProt: lääkkeen kohdeproteiinit

Lääkkeellä, kuten vinblastiinilla, voi olla useita kohdeproteiineja, jotka se voi aktivoida, estää tai modifioida sen biologisten vaikutusten saavuttamiseksi. Lääkkeen kohdeproteiinit voivat liittyä useisiin biologisiin prosesseihin ja solukalvoihin eri elinjärjestelmissä, ja niiden määrä voi vaihdella lääkkeen rakenteen ja toiminnan mukaan.

UniProt (Universal Protein Resource) on maailman johtava korkealaatuinen, kattava ja vapaasti saatavilla oleva proteiinisekvenssien ja -toimintojen tietokanta, jota ylläpitää UniProt-konsortio. UniProt tarjoaa laajan ja yksityiskohtaisen tietopaketin proteiinien rakenteesta, toiminnasta, vuorovaikutuksista, geneettisistä taustoista ja sairauksista. Tietokanta on erityisen hyödyllinen lääkekehityksessä ja lääkeaineiden vaikutusmekanismien ymmärtämisessä, koska se auttaa kartoittamaan, miten lääkkeet vaikuttavat proteiinien toimintaan.

UniProt sisältää proteiinien aminohapposekvenssejä (sekvenssejä, jotka määrittävät proteiinien rakenteen). Se voi sisältää tietoa siitä, miten proteiinit ovat kehittyneet ja miten ne eroavat toisistaan eri lajeilla. Tietokanta linkittyy proteiinien kolmiulotteisten rakenteiden tietokantaan PDB:hen, joka auttaa ymmärtämään niiden toimintamekanismeja ja vuorovaikutuksia muiden molekyylien kanssa. UniProt tarjoaa tietoa siitä, mitä tapahtuu, jos lääkeaineen tiedetään sitoutuvan proteiineihin ja vaikuttavan niiden toimintaan. Tällöin voidaan löytää tietoa siitä, miten lääkkeet muuttavat proteiinien toiminnan ja miten proteiinit voivat muuttaa lääkkeiden tehokkuutta. UniProt tarjoaa tietoa myös siitä, mistä geeneistä proteiinit syntyvät, kuinka geenejä säädellään ja miten geneettiset muutokset (esimerkiksi mutaatioiden kautta) voivat vaikuttaa proteiinien toimintaan ja aiheuttaa sairauksia.

Haku: Tietokannan avulla voi tutkia tubuliiniproteiinien vuorovaikutuksia vinkristiinin kanssa ja sen vaikutusta solujen jakautumiseen.

Reactome: solujen signalointireitit

Tietokanta sisältää solutason tapahtumia ja signalointireittejä. Se on käsintarkistettu tietokanta, joka tarjoaa tietoa solujen ja elinten toiminnan biokemiallisista reaktioista. Näihin kuuluvat proteiinien, RNA:n ja muiden biomolekyylien vuorovaikutukset, kuten signalointireitit, metaboliareitit ja geeniekspressio.

Se tarjoaa myös tietoa, miten tiettyjen elimistön biologisten reaktioiden häiriöt voivat johtaa sairauksiin. Tämä voi olla hyödyllistä lääkekehityksessä ja biomarkkerien etsinnässä. Reactome tarjoaa visuaalisia reittikarttoja, joissa on kuvattu eri biologisia reittejä ja niiden molekyylitason vuorovaikutukset. Esimerkiksi vinkristiinin vaikutus voidaan liittää tiettyihin reitteihin, kuten solun jakautumisen säätelyyn ja apoptoosiin (solukuolema).

Haku: Tietokannan avulla voidaan selvittää, miten vinkristiini vaikuttaa eri signalointireitteihin ja miten sen vaikutus ilmenee koko solussa.

Ari Turunen

27.3.2025

Lue artikkeli PDF-muodossa

Lisätietoja:

ELIXIR Core Data Resources

https://elixir-europe.org/platforms/data/core-data-resources

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

ComPatAI-konsortio hyödyntää suuria datamääriä oppivan tekoälymallin luomiseksi patologiaan

Turun yliopiston biolääketieteen laitoksen apulaisprofessori Pekka Ruusuvuori johtaa ComPatAI-konsortiota, jossa kehitetään histopatologisten kudosnäytteiden mallinnusta uutta sisältöä luovien ja ennustavien tekoälymenetelmien avulla. Histologisen eli kudosopillisen näytteen perusteella arvioidaan, tarvitseeko potilas hoitoa. Tavoitteena on kehittää erittäin suuriin data-aineistoihin perustuvia tekoälymalleja, joiden avulla saadaan entistä tarkempaa patologian diagnostiikkaa.

CompPatAI-konsortiossa on lisäksi kehitteillä generatiiviseen tekoälyyn perustuvia kudoksen virtuaalivärjäysmalleja. Konsortion muut osapuolet ovat tutkimusjohtaja, dosentti Leena Latonen Itä-Suomen yliopistosta sekä patologian osaston ylilääkäri, dosentti Teemu Tolonen Fimlab-laboratorioista.

ComPatAI-konsortioissa analysoidaan ensisijaisesti rintasyöpään ja eturauhassyöpään liittyviä kudosleikekuvia. Digitoitu kuva antaa mahdollisuuden mittauksiin ja erilaisten solutyyppien automaattiseen laskentaan.

”Olemme toimineet eturauhassyövän ja rintasyövän parissa. Näistä on ollut dataa tarjolla, koska ne ovat kaikkein yleisimmät syöpätyypit naisilla ja miehillä. Tavoitteena on kuitenkin, että meillä olisi hyvin yleiskäyttöinen malli, jonka päälle voitaisiin rakentaa ratkaisuja erilaisiin ja uusiin käyttökohteisiin.”

Ruusuvuoren mukaan digitalisaatio on tapahtumassa patologiassa nyt ja Suomi on tietyssä mielessä edelläkävijä.

”Tampereella ja Turussa on siirrytty kokonaan digitaaliseen patologiaan diagnostiikassa. Joka kerta kun näyte otetaan, se skannataan korkearesoluutioiseksi digitaalikuvaksi. Rutiinidiagnostiikkaa tehdään paljon. Koska väestö ikääntyy, syöpätapaukset ovat nousussa. Dataa saadaan koko ajan kovalla tahdilla.”

600 000 kokoleikekuvaa

Skannatut kokolasikuvat saadaan tutkimukseen Fimlabista, joka on Suomen suurin terveydenhuollon laboratorioyhtiö. Sen asiakkaita ovat sairaalat, terveyskeskukset, työterveyshuolto ja yksityiset lääkäriasemat. Lääkealan turvallisuus- ja kehittämiskeskus Fimean lupa käsittää tällä hetkellä 160 050 tapausta eli noin 600 000 kokoleikekuvaa. Koko on yhteensä noin 0,8 petatavua, jolloin yhden tiedoston koko on noin 1,3 GB. Massiivista datamäärää siirretään parhaillaan anonymisoinnin jälkeen Suomen ELIXIR-keskuksen CSC:n LUMI- supertietokoneelle. Se on suurimpia koneelle tehtyjä datan siirtoja.

”Se, että saamme hyödyntää näitä aineistoja tutkimuskäytössä, on valtavan hieno juttu. Tarkoitus on käyttää tätä isoa datamassaa siihen, että pystyttäisiin tekemään mahdollisimman hyvin toimivia tekoälyratkaisuja patologien käyttöön”, sanoo Ruusuvuori.

Tavoitteena on, että projektin lopussa tutkijoiden käytössä olisi jopa 2,5 miljoonaa digitoitua kokoleikekuvaa, jolloin dataa olisi kolme petatavua.

”Meillä on lupateknisesti mahdollisuus käyttää kaikkea sitä dataa mitä rutiinisti Fimlabilla tuotetaan digipatologiassa.”’

Rintasyöpä: Kasvain muodostaa juosteisia rakenteita ja pieniä saarekkeita, jotka kasvavat epäsäännöllisesti stroomaan (kasvaimen sidekudosverkko) ja rasvaan. Terve kudos: Sidekudoksen joukossa nähdään säännöllisiä maitotiehyitä ja lobuluksia (rauhasliuskoja). Kuva: Fimlab.

Neuroverkko oppii kuvasta sellaista, mitä ihmissilmä ei havaitse

Pekka Ruusuvuoren tausta on signaalinkäsittelyssä ja hänen erityisosaamisalueensa on kuva-analyysi. Hän on kiinnostunut siitä, miten tekoälymenetelmissä hyödynnetyistä syvistä neuroverkoista voitaisiin kehittää kohti paremmin erilaisiin käyttötarkoituksiin yleistyviä.

Ruusuvuoren mukaan lähtökohtaisesti kone voidaan opettaa tunnistamaan samoja asioita kuin ihminen. Se voidaan opettaa tunnistamaan erilaisia kudostyyppejä ja erottamaan syöpäkudos terveestä kudoksesta. Se voi mitata solusta tai kuvista erilaisia asioita, kuten kuinka aggressiivinen syöpä on ja kuinka pitkälle se on edistynyt. Tekoäly voi tehdä erottelua ja löytää kudosnäytteestä syöpäalueet ennen kuin patologi alkaa tutkia näytettä. Se voi myös ehdottaa luokitusta. Esimerkiksi eturauhasen syöpäkasvaimesta annetaan ns. Gleason-luokitus, joka kertoo miten aggressiivinen tai edennyt tauti on.

”Tekoälylle on opetettavissa melko tarkasti siis sellaiset tehtävät mitä patologit tekevät”, Ruusuvuori toteaa.

”Perinteisesti koneoppimismenetelmät on rakennettu niin, että meillä on joku kohdemuuttuja ja opetusaineisto, jossa näytetään, että tässä kohtaa tätä kuvaa on tämä objekti ja se kuvaa tätä luokkaa. Sehän on hirveän työlästä, jos meidän pitäisi merkitä kaikkiin satoihin tuhansiin kuviin tätä tietoa.”

Nämä ns. annotaatiotiedot ovat olleet olennaisia, jotta on voitu opettaa tekoälyä automaattisesti tunnistamaan näytteistä esimerkiksi syöpäsolut. Ruusuvuoren mukaan algoritmit ovat kuitenkin kehittyneet siihen suuntaan, että ne pystyvät hyödyntämään raakadataa ilman annotointeja.

”Mielestäni kaikkein kiinnostavinta onkin se, mitä kaikkea muuta kuvista on irrotettavissa eli ominaisuuksia, mitkä eivät välttämättä ole itsestään selvästi ihmisen havaittavissa. Ainoa data mitä on nähtävillä, on leikekuvassa. Jos siinä on joku tilastollinen yhteys osoitettavissa, koneoppimisalgoritmi sen löytää – mutta ne yhteydet saattavat olla hyvin kompleksisia. Nykyaikaiset neuroverkot ovat erittäin tarkkoja havaitsemaan kompleksisia yhteyksiä spatiaalisen datan ja ennustettavan muuttujan välillä. Ne voivat olla hyvin vaikeita hahmottaa meille ihmisille.”

Ruusuvuori on tutkimusryhmänsä kanssa pystynyt koneoppimismallien avulla ennustamaan geeniekspressiota ja mutaatioita suoraan histologisista kuvista. Geenin eskpressio eli ilmentyminen tarkoittaa, että solu tuottaa DNA:n koodaamaa molekyyliä. Geenien ekspressio on erilainen eri kudoksissa. Tekoäly voi havaita kuvasta ihmissilmälle näkymättömiä pieniä muutoksia.

”Kuvissa koneelle on siis näkyvissä jotain, mitä geeniekspressio aiheuttaa soluissa ja kudoksissa. Kone pystyy havaitsemaan erittäin pienenkin eron muuttuneessa ilmiasussa. Kone havaitsee sen, mitä ihmissilmä ei ole harjaantunut näkemään. Korostan, että tämä on hyvin suuntaa antavaa ja ei toki toimi kaikille kudoksille tai geeneille. Kaikkien geenien ekspressoituminen ei johda muutoksiin kudostasolla sillä tavoin, että se on ennustettavissa kudosleikekuvasta. ”

ComPatAI-konsortio kehittää suurten datamassojen hyödyntämiseen ns. foundation-mallia. Foundation-malli luo yleiskäyttöisen perustan erilaisille tekoälyratkaisuille oppien histologiaa suuresta näytemäärästä ilman kohdemuuttujia tai annotointeja.

Foundation-mallin yleisesitys. Foundation-mallien toiminta perustuu syviin neuroverkkoihin ja niiden kykyyn oppia monimutkaisia kuvioita ja rakenteita datasta. Foundation-malleja hyödynnetään yhä enemmän kuvadatan analysoinnissa. Mallit oppivat yhdistämään visuaalisia piirteitä (kuten värit, muodot ja tekstuurit) ja semanttista tietoa (kuvien merkitystä tai tarkoitusta). Mallit hajottavat kuvan pikselitason tietoihin ja oppivat monimutkaisia piirteitä. Ne käyttävät matemaattista tekniikkaa nimeltä itsehuomio (self-attention) ymmärtääkseen, mitkä kuvan osat ovat tärkeitä ja millä tavalla kuvan elementit liittyvät toisiinsa.

”Kun tälle mallille aletaan opettaa vaikkapa rintasyövän tai eturauhassyövän tunnistusta, malli alkaa oppimaan pyydettyä tehtävää. Näin pääsemme paljon nopeammin tarkempiin ratkaisuihin. Pystymme hyödyntämään mittavaa data-aineistoa, vaikka meillä ei olisi annotointeja. Se on hieno esitysaskel.”

ComPatAI-konsortio luo omaa foundation-tekoälymallia suomalaiseen dataan perustuen.

”Tämä on perustutkimusta, joka mahdollistaa sen, että olemme ensimmäisten joukossa kehittämässä tähän maahan näitä malleja. Toivon, että emme olisi pelkästään isojen ulkomaisten firmojen ja tutkimusryhmien varassa vaan että meillä rakennettaisiin suomalaiseen dataan perustuvaa mallia. Meillä on tässä maassa laadukasta populaatiotason kohorttidataa, jota pitää päästä hyödyntämään. Toivon, että se johtaa siihen, että saadaan Suomeen yrityksiä, joiden kehittämät ratkaisut viedään potilaan hyödyksi rutiinidiagnostiikkaan.”

Tärkeä kysymys on, kuinka nopeasti dataa pystytään siirtämään ja hyödyntämään. Laskentaa ja datan tallennuskapasiteettia tarvitaan koko ajan. Tähän tulevat apuun Suomen ELIXIR-keskuksen CSC:n tarjoamat palvelut.

”Olemme erittäin tyytyväisiä CSC:ltä saamaamme tukeen, kun puhutaan näin poikkeuksellisen isosta hankkeesta ja datamäärästä. Olemme etuoikeutetussa asemassa, koska meillä on apuna CSC:n tapainen toimija, jolta voimme saada resursseja tällaiseen tutkimukseen. Se on selvästi kilpailuetu ja sellainen asia, mistä voi olla valtavan kiitollinen.”

Pekka Ruusuvuoren tutkimus (Towards AI-enabled computational pathology) on Suomen Akatemian rahoittama ja kuuluu LUMI Extreme scale access-projekteihin, jossa pilotoidaan suurteholaskentaa julkisilla datoilla. Ruusuvuorella ja Leena Latosella on lisäksi Suomen Akatemian rahoittama suurteholaskentaan keskittyvä hanke kudosten virtuaalivärjäykseen liittyen. Suomen Akatemian rahoituksella vahvistetaan eurooppalaisen EuroHPC (European High-Performance Computing) -suurteholaskennan resurssien ja LUMI-supertietokoneen hyödyntämistä lippulaivojen aihealueiden tieteelliseen tutkimukseen. Kuva: CSC

Digipatologian ja muiden potentiaalistesti sensitiivisten terveysdatan datatyyppien kuten rekisteri- ja omiikkatietovarantojen saatavuus tietoturvallisessa CSC:n käyttöympäristössä kasvaa tulevaisuudessa.

”Kehitys on vasta alussa”, sanoo Tommi Nyrönen, joka on Suomen ELIXIR-toimintojen johtaja.

”Suomen ELIXIR on edistänyt CompPatAI-tutkimuksen edellyttämien biolääketieteellisten resurssien muuttamista CSC:n alustapalveluksi. Työn tuloksena syntynyt CSC Sensitive Data-alusta tukee muitakin vastaavia hankkeita. Tällainen on esimerkiksi EU:n digipatologian arkiston rakennushanke bigpicture.eu, joka suunnitelman mukaan alkaa vuonna 2026 tarjota kestävää ratkaisua hallita ja tuoda digipatologian data-aineistoja suurteholaskentapalveluihin Euroopan laajuisesti.”

Ari Turunen

26.12.2024

Lue artikkeli PDF-muodossa.

Sitaatti

Turunen, A., & Nyrönen, T. (2024). The ComPatAI consortium uses large datasets to create an AI learning model for pathology. https://doi.org/10.5281/zenodo.14823370

Lisätietoja:

FIRI

Suomen Akatemia on tukenut artikkelin tuotantoa apurahalla numerolla 345591, joka on myönnetty FIRI 2021-hankkeelle ”ELIXIR European Life-Sciences Infrastructure for Biological Information”.

Ruusuvuorilab

https://ruusuvuorilab.utu.fi

Fimlab

www.fimlab.fi

Turun yliopisto

https://www.utu.fi/fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

Ihon monipuolinen mikrobisto auttaa immuunipuolustusta

Ihon mikro-organismeilla on suoliston tavoin merkittävä rooli kehon immuunijärjestelmän parantamisessa. Helsingin yliopiston yhteisöekologi Mira Grönroos tutkii elinympäristön, mikrobiyhteisöjen ja ihmisen terveyden välisiä yhteyksiä. Hän on kiinnostunut millä tavalla metsässä oleskelu ja erilaiset kontaktit luontoon vaikuttavat ihon mikrobistoon. Tavoitteena on löytää ratkaisuja ihmisen immuunipuolustuksen toiminnan parantamiseksi. Aihetta ei ole paljon tutkittu.

Allergialääkäri Tari Haahtela on esittänyt erityisen terveyden biodiversiteettihypoteesin: llman altistumista muulle luonnolle ja sen mikrobeille, elimistömme immuunipuolustus ei toimi tarkoituksenmukaisesti. Jos vuorovaikutus on heikkoa, kehon puolustus ei opi erottamaan, mikä on vaarallista ja mikä ei. Elimistö menee stressitilaan, josta seuraa matala-asteista tulehdusta. Kehon puolustusjärjestelmän ylireagointi voi johtaa sairauksiin.

Mira Grönroos on tutkijatohtorina Suomen Akatemian rahoittamassa monitieteisessä NATUREWELL-hankkeessa (2019-2025). Dosentti Riikka Puhakan vetämässä hankkeessa tutkitaan suomalaisnuorten ulkoiluharrastusten vaikutuksia terveyteen ja hyvinvointiin. Grönroos keskittyy hankkeessa siihen, miten ulkoilu ja luonnossa liikkuminen vaikuttavat nuorten elimistön mikrobiston koostumukseen.

”Nuoret osallistuivat erilaisiin luontoaktiviteetteihin. Heidän iholtaan otettiin mikrobinäytteet ennen ja jälkeen näiden aktiviteettien. Tutkimme muuttaako metsävaellus tai ulkoilu kaupunkiluonnossa nuorten mikrobistoa. Etsimme myös keinoja, miten nuoria voidaan kannustaa luontoon”, Grönroos kertoo.

Grönroos toimii tutkimusryhmässä, jota johtaa Luonnonvarakeskuksen erikoistutkija Aki Sinkkonen. Tutkimusryhmän muissa tutkimuksissa on mitattu interleukiinien ja T-solujen määriä. Pienimolekyyliset proteiinit, sytokiinit, toimivat elimistön solujen toimintoja ohjaavan säätelyjärjestelmän viestinviejinä. Niihin kuuluvat interleukiinit, jotka lisäävät tai vähentävät tulehduksia. T-solut auttavat tuhoamaan solujen sisällä eläviä taudinaiheuttajia. B-solut huolehtivat vasta-ainevälitteisestä immuniteetista. Tutkimuksissa havaittiin, että tulehdusta vähentävien interleukiini 10-proteiinien tasot nousivat mikrobialtistuksen jälkeen.

Päiväkotilapsien immuunijärjestelmän toiminta muuttui

Grönroosin mukaan immuunijärjestelmä ja mikrobit ovat jatkuvassa vuorovaikutuksessa keskenään.

”Tähänastiset tulokset ovat hyvin rohkaisevia. Nyt tutkitaan, kuinka voimakas luontoaltistus olisi tarpeen. Luonnossa oleskelulla on myös monia muitakin hyvinvointihyötyjä ja jo niidenkin takia metsään kannattaa mennä. Jos haluaa retkeltä lisäksi enemmän mikrobikontaktia, voi hyvin vaikka unohtaa käsien desinfioinnin ennen eväiden syöntiä”, sanoo Grönroos.

Sinkkosen tutkimusryhmässä on tehty interventiotutkimuksia. Tiedonkeruussa tutkijoiden puuttuminen tutkittavaan ilmiöön on menetelmän olennainen osa. Yhdessä tutkimuksessa lisättiin päiväkotien lapsien kontakteja luonnon mikrobistoon. Tutkimuksessa seurattiin kuukauden ajan 3 – 5-vuotiaita päiväkotilapsia kymmenessä päiväkodissa Lahdessa ja Tampereella.

”Päiväkodin piha viherrettiin ja lapset olivat sitä kautta enemmän luonnonmateriaaleihin kontaktissa. Toisessa tutkimuksessa hiekkaan lisättiin mikrobistoa sisältävää materiaalia”, kertoo Sinkkonen.

Kokeilla osoitettiin ensimmäistä kertaa maailmassa, että lasten immuunijärjestelmän säätely muuttui, kun lapset olivat kontaktissa monimuotoiseen, luonnon materiaaleista peräisin olevaan mikrobistoon.

Hiekasta, ihosta ja suolistosta kerätty mikrobisto sekvensoitiin. Tutkimuksessa selvitettiin, miten mikrobisto muuttui koeryhmällä ja kontrolliryhmällä. Tutkimuksessa sekvensoitiin 16S- ribosomaalisen RNA:n geenialue (16S rRNA) ja bioinformatiikka tehtiin Suomen ELIXIR-keskuksen CSC:n resursseilla. 16S- geenialueet ovat säilyneet evoluutiossa muuttumattomana miljoonia vuosia bakteereilla, minkä vuoksi näiden geenialueiden perusteella voidaan tunnistaa eri lajeja.

Lasten ihosta saatiin selville bakteeriyhteisön koostumus, metagenomi. Yli 30 bakteerisuvun suhteellinen runsaus kasvoi lasten iholla. Iholla olevien immuunipuolustusta tehostavien gammaproteobakteerien runsastuminen oli yhteydessä allergioiden ja immuunivälitteisten sairauksien syntyyn yhdistetyn interleukiini-17A:n muutokseen.

”Tehokkaat sekvensointimenetelmät ja niillä saatu data ovat elinehto mikrobien monimuotoisuuden sekä sen vaikutusten tutkimiselle. Pelkillä kasvatusmenetelmillä ei pystytä tutkimaan tällaisia kysymyksiä”, sanoo Grönroos.

Rinnakkaissekvensointi tarkoittaa miljoonien, jopa miljardien DNA-pätkien tunnistamista yhdestä näytteestä yhdellä kertaa. Sinkkosen tutkimusryhmässä on aloitettu myös shotgun -sekvensointi eli satunnaissekvensointi.

”Tällä menetelmällä saadaan tarkempaa tietoa koko mikrobiomin taksonomisesta profiilista sekä sen toiminnallisuudesta, kuten geeneistä ja aineenvaihduntareiteistä”, sanoo Sinkkonen.

Luontoaltistusta ja mikrobien moninaisuutta on pyritty myös kaupallisesti hyödyntämään. Tampereen yliopiston molekyylivirologi Olli Laitinen ja silloinen yliopistotutkija Aki Sinkkonen olivat perustamassa Uute Scientific -firmaa. Se alkoi vuonna 2020 valmistaa Lohjalla uutetta, joka sisältää tuhansia mikrobeja, joita on saatu metsämaasta. Jauheen muodossa olevia tuotteita on jo yli 40. Sinkkonen, Laitinen ja Grönroos ovat kollegoineen patentoineet menetelmän Euroopassa ja Yhdysvalloissa. Kuva: Uute Scientific

Mira Grönroosin tutkimus on monitieteistä. Mukaan on tullut myös yhteiskunta- ja kasvatustieteellinen näkökulma. Nyt halutaan edistää vuorovaikutusta luonnon kanssa. Jo aiemmissa päiväkotitutkimuksissa havaittiin, että lapset rakastivat leikkimistä luonnon materiaaleissa. Vastikään alkaneessa Tampereen yliopiston hankkeessa tutkitaan lasten suhtautumista mikrobeihin. ”Mikrobeja tuodaan näkyviksi sekä taiteen että tieteen keinoin. Itse toteutan tiedeosuuden. Lapset saivat päättää, mistä haluavat ottaa näytteet. Videoviestien kautta he pääsevät seuraamaan näytteiden matkaa laboratoriossa. Lopuksi esittelen sekvensoinnin tulokset lapsille.”

Ari Turunen

21.10.2024

Lue artikkeli PDF-muodossa

Sitaatti

Turunen, A., & Nyrönen, T. (2024). The skin’s wide range of microbiota improves the immune system. https://doi.org/10.5281/zenodo.14823352

Lisätietoja:

Helsingin yliopisto

https://www.helsinki.fi/en/researchgroups/nature-based-solutions

Luonnonvarakeskus

https://www.luke.fi/en/projects/biwe

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

RNA:ta sitovista proteiineista uusia lääkekohteita

Itä-Suomen yliopiston farmasian laitoksen lääketutkijan Piia Bartoksen kiinnostuksen kohteena on RNA, RNA:ta sitovat proteiinit ja miten tähän järjestelmään vaikuttamalla voisi estää syövän kasvua. RNA:ta ja siihen sitoutuvan argonautti- proteiinin toimintaa hän on tutkinut massiivisilla simulaatioilla.

Molekyylidynamiikan simulaatiot ovat antaneet tietoa, miten biomolekyylit vuorovaikuttavat toisiinsa atomien tasolla. Koska atomit ovat jatkuvassa liikkeessä, niiden väliset voimat lasketaan ja tämän perusteella selvitetään esimerkiksi proteiinin atomien uudet sijainnit, nopeudet ja energiat. Näin saadaan uutta tietoa lääkeainesuunnitteluun.

Bartos on tutkinut RNA:han sitoutuvia proteiineja (RBP-proteiinit), joilla voi olla merkitystä syövän hoitamisessa. Niillä on havaittu olevan merkitystä syöpäsoluille etenkin lääkevasteissa ja lääkeresistenssin muodostumisessa. Yli 1500 RBP-proteiinia on löydetty. Muutoksen näiden proteiinien toiminnassa voivat vaikuttaa syöpägeenien ilmentymisen tasoon.

RNA-häirintä (RNA-interferenssi eli RNAi) on biokemiallinen mekanismi, jossa RNA aiheuttaa lähetti-RNA:n pilkkoutumisen solussa, jolloin geenin ilmentyminen häiriintyy. RNAi:n löytäneet tutkijat Andrew Fire ja Craig Mello saivat työstään lääketieteen Nobelin palkinnon vuonna 2006. RNAi:n avulla voidaan sammuttaa syövän kasvua edistävien proteiinien ilmentyminen.

”Erityisenä kiinnostuksen kohteenamme ovat argonauttiproteiinit, joilla on tärkeä rooli RNA-välitteisessä geenien hiljentämisessä eli RNA-häirinnässä. Näistä tärkeimpänä on Ago2,”sanoo Bartos.

Kun RNA on sitoutunut Ago2-proteiiniin, tätä yhdistelmää kutsutaan RNA-Ago2-kompleksiksi. Argonautti 2-proteiini sitoo mikro-RNA -molekyylejä soluissa.

”Koska argonautti-2 on solun toiminnalle elintärkeä proteiini, se todennäköisesti vaikuttaa kaikkiin syöpätyyppeihin. Jos se poistetaan soluista, solut eivät pysy elossa. Jos sen toiminta pystyttäisiin poistamaan syöpäsoluissa, syöpäsolutkaan eivät pysyisi elossa. Näin voitaisiin estää syöpäsolujen kasvaminen ja leviäminen.”

Kompleksi, jossa RNA on esitetty palloina ja Ago2:n (argonautti 2) eri osat (domeenit) eri väreillä. Nämä kompleksit voivat hyödyntää muita proteiineja lääkevaikutusten aikaansaamiseksi. Hyvä lääkeaine ei synny, ellei tiedetä, mihin proteiineihin se elimistössämme vaikuttaa.

Proteiinin rakenteen simulaation avulla etsitään täsmälääkkeitä

Haasteena on, että RNA-Ago2-kompleksissa voi olla sitoutuneena kahdenlaisia RNA-molekyylejä. Ensimmäinen estää, mutta toinen lisää proteiinin tuotantoa. Jälkimmäisessä tapauksessa syöpäsolujen tuotanto voikin lisääntyä.

”Simuloin RNA:n toimintaa erikseen ja yhdessä Ago-2-proteiinin kanssa. Olen pyrkinyt selittämään, miten Ago-2- kompleksit eroavat rakenteellisesta toisistaan, siis silloin kun siinä on sellainen RNA, joka lisää proteiinin tuotantoa ja silloin kun siinä on proteiinin tuotantoa vähentävä RNA. Olemme vasta saaneet simulaatiot ajettua ja nyt tuloksia analysoidaan.”

Molekyylidynamiikkasimulaation avulla voidaan tehdä eräänlaisia videoita Ago2-RNA-kompleksien liikkeistä ja vertailla aktivoivien ja hiljentävien kompleksien eroja.

Simulaatiossa käytetty RNA-sekvenssidata saatiin A.I Virtanen-instituutista. Simulaatioissa oli kuusi RNA-molekyyliä, joista kolme lisäsi ja kolme vähensi proteiinien tuotantoa. Näille kaikille tehtiin molekyylidynamiikan simulaatioita noin 50 mikrosekuntia eli sekunnin miljoonasosa systeemiä kohden. Simulaatioissa tarvittiin paljon Suomen ELIXIR-keskuksen CSC:n laskentaresursseja.

”Se on aika iso proteiini. Yhdessä RNA:n ja ympäröivän veden kanssa siinä on noin 300 000 atomia, ja niille kaikille piti laskea nopeus ja paikka neljän femtosekunnin välein.”

Femtosekunti on miljoonasosa sekunnin miljardisosasta. Bartos haluaa selvittää, muuttuuko kompleksin muoto ja liikkuuko joku proteiinin osa eri tavalla, kun siinä on lisäävä tai vähentävä RNA sitoutuneena.

”Kompleksin muodon muuttuminen voi todennäköisesti indikoida sitä, että kompleksi sitoutuu eri proteiineihin.”

Kompleksien rakenteissa tai liikkeissä täytyy siis olla jokin ero, joka saa aikaan erilaiset geenien ilmentymistä lisäävät ja vähentävät vaikutukset.

Ymmärtämällä geenien ilmentymistä vähentävien ja lisäävien RNA-proteiinikompleksien rakenteelliset erot, pystytään suunnittelemaan ja etsimään lääkeaineita, jotka sitoutuvat vain haluttuun kompleksiin. Bartosin mukaan tällaiset lääkeaineet olisivat lääketieteellinen läpimurto ja tarjoaisivat uuden mahdollisuuden hoitaa syöpäsairauksia, joissa proteiinien tuotanto on häiriintynyt.

”RNA-häirintään perustuvat lääkkeet ovat hyvä vaihtoehto. Nämä lääkkeet verrattuna tavalliseen pienimolekyyliseen syöpälääkkeeseen voisivat olla spesifisempiä ja tarkemmin syöpäsoluun kohdentuvia. RNA-häirinnällä pystyisimme tarvittaessa estää minkä tahansa haluamamme proteiinin ilmentymisen syövässä. Eli siitä saisi täsmälääkkeitä.”

Bartosin mukaan RNA:n toiminnan mallintaminen on kuitenkin vielä haasteellista. Simulaatioissa voimakenttämallit toimivat hyvin proteiineille, mutta eivät RNA:lle.

”Se johtuu siitä, että se RNA on kemiallisesti ja fysikaalisesti aika erilainen kuin proteiinit.”

Ongelma on esimeriksi fosfaatti, joka muodostaa RNA:n rangan yhdessä deoksiriboosin kanssa.

”RNA:n fosfaatti on sähköisesti varautunut ja sitä nämä nykyiset voimakenttäyhtälöt eivät kovin hyvin pysty mallintamaan. Eli tässä on selkeästi työsarkaa työkalujen kehittämisessä.”

Lääkeainesuunnittelu etenee suurin harppauksin monella tasolla. DeepMindin tekoäly Alphafold osaa jo ratkaista, miten sekvenssi muuttuu proteiinirakenteeksi. Se käyttää tunnettuja proteiinirakenteita ja ennustaa rakenteen kaikille tunnetuille proteiineille. Sekvensoinnin avulla voidaan puolestaan selvittää syövässä esiintyvät mutaatiot ja mallien avulla tutkia, miten mutaatiot vaikuttavat syöpälääkkeiden toimintaan.

”Mutaatio voi esimerkiksi estää syöpälääkkeen sitoutumisen kohdeproteiiniin lääkevaikutuskohteeseen, jolloin kyseisestä lääkityksestä harvoin on potilaalle hyötyä.”

Laskentakapasiteetin kasvaessa voidaan tulevaisuudessa myös simuloida isompia kokonaisuuksia.

”Olisi hienoa simuloida yksittäistä proteiinia isompaa yksikköä, esimerkiksi solutasolla. Voitaisiin simuloida, miten proteiini vaikuttaa muiden proteiinien, solukalvojen ja soluelinten kanssa.”

Ari Turunen

30.9.2024

Lue artikkeli PDF-muodossa

Sitaatti

Turunen, A., & Nyrönen, T. (2024). New drug targets from RNA-binding proteins. https://doi.org/10.5281/zenodo.14810576

Lisätietoja:

Hanna Baltrukevich & Piia Bartos: RNA-protein complexes and force field polarizability. Front. Chem., 22 June 2023

Sec. Theoretical and Computational Chemistry

Volume 11 – 2023 | https://doi.org/10.3389/fchem.2023.1217506

Milla Kurki et all: Structure of POPC Lipid Bilayers in OPLS3e Force Field. Journal of Chemical Information and Modeling. Vol 62/Issue 24

https://pubs.acs.org/doi/full/10.1021/acs.jcim.2c00395

Itä-Suomen yliopisto

www.uef.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

Finnish Use Cases 2- raportti julkaistu

Finnish Use Cases 2-julkaisuissa esitellään kattavasti suomalaista biolääketieteellistä tutkimusta, jossa on hyödynetty eurooppalaisen biolääketieteen infrastruktuurin ELIXIRin resursseja. ELIXIR-infrastruktuuriin on liittynyt lähes 200 tutkimusorganisaatiota ja vaikuttaa yli puolen miljoonan tutkijan työhön Euroopan maissa. Suomen toiminnoista vastaa CSC – Tieteen tietotekniikan keskus Oy.

Julkaisussa esitellään erilaisia tutkimuksia, joissa hyödynnetään uusia bioinformatiikan menetelmiä. Aiheet käsittelevät lääkeainesuunnittelua, tautien syntymekanismeja, solujen mallintamista, mikrobiomeja, tekoälymallien hyödyntämistä diagnostiikassa ja personoituja lääkehoitoja.

Biolääketieteellinen tutkimus on muuttunut data- ja laskentaintensiiviseksi. Datan analyysi tarvitsee koko ajan kehittyneempiä ohjelmistoja ja niiden yhdistelmiä. Lisäksi tutkijat tarvitsevat palveluita ja resursseja datan tallentamiseen ja sen kuvailuun jatkokäyttöä varten.

Esimerkiksi translationaalinen eli niveltävä lääketiede hyödyntää perustutkimusta kliinisessä tutkimuksessa ja toisaalta potilasnäytteitä ja tautimalleja tautimekanismien ja lääkevaikutuskohteiden selvittämisessä. Lähtökohtana on poikkitieteellisyys, joka auttaa tutkimuksen ohella myös potilaita. Monen eri datalähteen yhdistämisen lähtökohta on, että saataisiin enemmän tietoa esille. Yhdistäminen on hyvin paljon laskennallista ja siihen tarvitaan CSC:n resursseja ja ELIXIRin tapaisia infrastruktuureja.

CSC on kehittänyt erityisesti sensitiivisen datan palveluja infrastuktuuriin.

”Ihmisistä tuotetun tutkimusdatan hallinta pitää tehdä ammattitaitoisesti, ja tämä on ELIXIR Suomen yksi tärkeimmistä tavoitteista. Yhdistettynä laadukas sensitiivisen datan hallinta ja suurteholaskenta luovat ennennäkemättömiä mahdollisuuksia suomalaisille tieteentekijöille luoda malleja, jotka ennustavat ihmisten terveyttä, jolloin jokainen meistä hyötyy, ekosysteemi pitää vaan saada toimimaan yhteen”, korostaa Suomen ELIXIR-keskuksen johtaja Tommi Nyrönen.

Vuonna 2013 Euroopassa aloitettiin biotieteiden infrastruktuurin ELIXIRin rakentaminen. ELIXIR turvaa biolääketieteen tutkijoiden pääsyn biologisen datan tietokantoihin ja sen käsittelyyn tarvittaviin laskentaresursseihin, ohjelmistoihin ja niiden käytön koulutukseen. CSC:ssä oli huhtikuuhun 2024 mennessä 2386 biolääketieteen ja terveysalan tutkijaa asiakkaina.

Lue raportti täältä:

Euroopan tutkimusyhteisö valmistautuu seuraavaan pandemiaan

BeYond-COVID-projektin (By-COVID) tavoitteena on saattaa eri Euroopan maista kerätty COVID-19 data tutkijoiden, sairaaloiden ja julkishallinnon saataville. Datan tunnistaminen, yhdistäminen eri lähteistä ja sen integroiminen analyysejä varten on iso urakka. Tähän haasteeseen on tarttunut 53 organisaatiota 19 eri maasta. Suomesta mukana on THL ja Tampereen yliopisto. Suomesta THL:ssä kerättyä dataa on käsitelty CSC:ssä.

THL:n tutkimusprofessori Markus Perolan mukaan By-COVID-projekti yksinkertaisesti valmistautuu seuraavaan pandemiaan analysoimalla COVID-19 dataa.

”Nyt pilotoidaan, miten tällaista yhteistyötä voidaan tehdä kun seuraava pandemia tulee. Tämä näyttää olleen tarpeen.”

Perolan mukaan datan harmonisaatiota todella tarvitaan Euroopan maiden kesken.

”Esimerkiksi eri maiden käsitykset, mitä pidetään COVID-tartuntaketjuissa olennaisina tekijöinä voivat poiketa paljonkin toisistaan.”

Perola käyttää lähes kaikissa tutkimuksissaan CSC:n laskentaa ja sensitiivisen datan tallennus- ja analyysipalveluja. Geneettisen aineiston lisäksi hän hyödyntää paljon rekisteriaineistoja. By-COVID-projektissa hänen tutkimusryhmänsä on hyödyntänyt suomalaisia tartuntatautirekistereitä sekä Tilastokeskuksesta saatua kuolinsyydataa. Dataa käytetään yhteisiin -analyyseihin By-COVID-projektissa. THL:n raakadata on käytettävissä CSC:n sensitiivisen datan palveluissa, mutta se ei poistu Suomen rajojen ulkopuolelle. Tämän lisäksi By-COVID-hanke kerää tietoa viruksesta itsestään. Tämä tieto on avointa tutkimusdataa.

”THL osallistuu hankkeessa yhteen työpakettiin, jossa federoidusti analysoidaan eri maista saatua rekisteridataa. Hankkeessa poimitaan tiettyjä asioita eri rekistereistä ja yhdistetään niitä ja edetään yhteiseen analyysin Euroopan laajuisesti.”

Suomesta kerätty rekisteridata pitää sisällään kaikki Suomen asukkaat, joilla on henkilötunnus.

Markus Perolan mukaan tällainen datan kerääminen ja analysoiminen on välttämätöntä tehdä. Hänen mielestään olisi jopa epäeettistä jättää käyttämättä tärkeä tieto, joka Euroopan kansalaisista kerätään.

”Miksi dataa kerätään, jos sitä ei käytetä? Tilastointi on tärkeää, mutta se ei riitä, että informaatio saadaan siirrettyä kliiniseen työhön tai yhteiskuntapoliittiseen päätöksentekoon. Tähän tarvitaan vertaisarvioitua tieteellistä tutkimusta ja sitä By-COVID tarjoaa.”

Projekti päättyy syksyllä 2024.

COVID-19- portaali

By-COVID-projektin sivuilla on saatavilla COVID-19-dataa sisältämä portaali. Hanketta koordinoi ELIXIR-infrastruktuuri, jonka jäsenorganisaatio EMBL-EBI on koonnut portaalin tärkeimmät koronaviruksen data-aineistot. Tutkijat pääsevät portaalin kautta analysoimaan COVID-19 viitedataa. Se sisältää yli 8 miljoonaa COVID-viruksen sekvenssiä.

Suomen Akatemia rahoitti Suomen ELIXIR-keskuksen CSC:n kokeilua, jossa portaalin sisältämää dataa analysoitiin ja testattiin Suomen LUMI-supertietokoneella. Työ tukee By-COVID-hanketta: CSC:n tärkeä tehtävä on edistää supertietokoneiden käyttöä dataintensiivisessä laskennassa.

Suomen ELIXIR-keskuksen johtajan Tommi Nyrösen mukaan projekti selviytyi monista teknisistä datan hallinnan haasteista

“Laskennan työvuot Euroopan bioinformattikan instituutista EMBL-EBI:stä mahdollistivat COVID-19 – virusdatan analysoimisen ja tämä työ tehtiin yhteistyössä CSC:n ja EMBL-EBI:n asiantuntijoiden kanssa.. Eurooppalaisessa superlaskennassa voimme nyt siirtää satoja tuhansia viruksen datapisteitä päivittäin laskentakeskusten välillä ja tässä apuna ovat eurooppalaiset tutkimusverkot.”

Tästä seuraa, että supertietokoneen kapasiteettia tarvitaan tulevaisuudessa analysoimaan koko dataa.

“Tätä vaaditaan nopean vastatoimen takia pandemian ollessa kyseessä ja myös COVID-19-portaalissa olevan datasta saadun tiedon päivittämiseksi.”

Ari Turunen

1.4.2024

Lue artikkeli PDF-muodossa

Sitaatti

Turunen, A., & Nyrönen, T. (2024). European research community preparing for next pandemic. https://doi.org/10.5281/zenodo.13691578

FIRI

Suomen Akatemia on tukenut artikkelin tuotantoa apurahalla numerolla 345591, joka on myönnetty FIRI 2021-hankkeelle ”ELIXIR European Life-Sciences Infrastructure for Biological Information”.

COVID-19 Data Portal

https://www.covid19dataportal.org

BeYond COVID

https://by-covid.org

Terveyden ja hyvinvoinnin laitos THL

https://thl.fi/fi/

CSC – Tieteen tietotekniikan keskus Oy

on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keski- tettyä tietotekniikkainfrastruktuuria.

http://www.csc.fi https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

Dataa eri lähteistä yhdistämällä saadaan yksilöllisiä hoitoja

Itä-Suomen yliopiston Bioinformatiikan keskuksessa kehitetään Virpi Aholan johdolla biolääketieteellisen ja multimodaalisen datan analysoimiseen uusia sovelluksia. Näitä voidaan hyödyntää syöpien, metabolisten, sydän- ja verisuonisairauksien sekä hermostoa rappeuttavien sairauksien tutkimisessa.

Aholalla on pitkä ura bioinformatiikasta. Hän oli mukana professori Ilkka Hanskin metapopulaatiobiologian tutkimusryhmässä, jossa sekvensointiin täpläverkkoperhosen koko genomi. Se oli ensimmäinen Suomessa tehty referenssigenomi. Karolinska Institutissa Hong Kongissa hän analysoi geenien toimintaa eri taudeilla yhden solun tasolla ja tutki sen avulla, miten kantasoluja käyttämällä voidaan kehittää uusia lääkkeitä ja hoitoja. Nyt hän johtaa Bioinformatiikkakeskusta.

Bioinformatiikakeskuksessa yhdistellään erilaisia omiikka-datoja (genomiiikka, proteomiikka, transkriptomiikka) kliiniseen dataan ja jatkossa mahdollisesti myös kuvantamisdataan.

”Tavallisten omiikka-analyysien lisäksi tehdään eri tutkimusryhmille multimodaalista data-analyysiä. Siinä yhdistetään erityyppisten datojen analyysi ja pyritään siihen, että saadaan enemmän tietoa kuin erikseen analysoimalla.”

Multimodaalisen datan analyysitapa vaihtelee sen mukaan, onko erityypiset datat kerätty samasta potilaasta vai ovat ne peräisin eri potilaista.

Omiikka on tutkimustapa, jolla pyritään analysoimaan tutkimuskohteen kaikkia geneettisesti määräytyviä muuttujia samanaikaisesti. Kun genomiikassa analysoidaan geneettistä muuntelua ja geenien toimintaa, proteomiikassa keskitytään proteiineihin ja epigenetiikassa geenien toiminnan säätelyyn ja perinnöllisen tiedon tallentumiseen ilman DNA-sekvenssin muutoksia. Metabolomiikassa analysoidaan sairauden, ruokavalion tai lääkityksen aiheuttamia muutoksia aineenvaihdunnassa.

”Kehitämme bioinformatiikkapalveluja yhteistyössä biolääketieteen asiantuntijoiden kanssa. Yksi painopiste Itä-Suomen yliopistossa on keskeisten kroonisten kansansairauksien molekulaarisen taustan selvittämisessä sekä niiden ehkäisyn ja hoidon kehittämisessä”, sanoo Ahola.

Niveltävä lääketiede tarjoaa yksilöllisen hoidon

Translationaalinen eli niveltävä lääketiede hyödyntää perustutkimusta kliinisessä tutkimuksessa ja toisaalta potilasnäytteitä ja tautimalleja tautimekanismien ja lääkevaikutuskohteiden selvittämisessä. Lähtökohtana on poikkitieteellisyys, joka auttaa tutkimuksen ohella myös potilaita.

”Translationaalisen lääketieteen tulemista hidastaa se, että ei kerta kaikkiaan tiedetä tarpeeksi. Monen eri datalähteen yhdistämisen lähtökohta on, että saataisiin enemmän tietoa esille. Yhdistäminen on hyvin paljon laskennallista ja siihen tarvitaan CSC:n resursseja ja ELIXIRin tapaisia infrastruktuureja.”

Yhtenä esimerkkinä Ahola mainitsee yksisolutekniikat.

Transkriptiossa DNA:ssa olevaa geneettistä koodia kopioituu RNA:ksi. Transkriptio on proteiinisynteesin ensimmäinen vaihe. Transkriptomiikan avulla saadaan tarkkaa tietoa yksittäisen solun geenien ilmenemisestä juuri tietyllä hetkellä.

”Yksisolutranskriptomiikan käyttö on vielä kallista. Avoimen tieteen periaatteet ovat olemassa ja sen vuoksi kaikki data pitää jakaa, kun se julkaistaan. Tällöin dataa voi uudelleen käyttää ja eri datalähteitä yhdistellä.”

Haasteena on kuitenkin, että dataa on tuotettu erilaisilla teknologioilla.

”Eri datalähteissä voi solujen määrä vaihdella tai niissä voi olla eri solutyyppejä. Minkälaisia menetelmiä pitäisi tällöin käyttää erilaisten datojen yhdistämiseen? Jos tämä voitaisiin ratkaista, silloin voitaisiin tehokkaammin tutkia potilaan solujen kehitystä ja niiden erikoistumista.”

Laskennalliset menetelmät ison datan käsittelyssä on haaste jatko-opiskelijoille

Aholan tavoitteena on avustaa enemmän laskennallisten menetelmien käytössä. Itä-Suomen yliopiston Bioinformatiikan keskus tarjoaa tutkijoille laskentakapasiteettia ja auttaa tutkijoita esikäsittelemään ja analysoimaan dataa sekä avustamaan erilaisten laskennallisten menetelmien ja ohjelmistojen käytössä ja asentamisessa.

”Jos samassa ryhmässä tai yhteistyökumppanina ei ole bioinformaatikkoja, tutkijoiden oletetaan hallitsevan myös laskennalliset menetelmät ja ison datan käsittelyn.”

Ahola myöntää, että vaatimukset ovat kovat esimerkiksi jatko-opiskelijoille.

Itä-Suomen yliopistossa on tähän haasteeseen on tartuttu perustamalla laskennallisen biolääketieteen suuntautumisvaihtoehto.

”Yksi esimerkki datan uudelleenkäsittelyn haasteista ovat suomalaiset biopankit, joihin on tallennettu yli puolen miljoonan suomalaisen genomit. Ei ole ihan yksinkertainen juttu käydä biopankeissa analysoimassa dataa, koska sitä on ihan järjetön määrä.”

Ahola viittaa FinnGen -tutkimushankkeeseen, joka käynnistyi syksyllä 2017. Sen päätavoitteena on lisätä ymmärrystä sairauksien syistä ja edistää niiden diagnosointia, ennaltaehkäisyä ja hoitojen kehittämistä. FinnGen -tutkimuksessa hyödynnetään suomalaisten biopankkien keräämiä näytteitä. Kesäkuuhun 2023 mennessä FinnGen -tutkimukselle saatiin kerättyä yli 553 000 näytettä. Tutkimushankkeen ensimmäisen vaiheen kesto oli kuusi vuotta. Vastaavan kokoluokan tutkimushankkeita on maailmassa vain muutama.

Tutkimushankkeissa genomidata yhdistetään kansallisissa terveydenhuollon rekistereissä oleviin aineistoihin. Suomessa onkin harvinaisen hyvät edellytykset koko väestön kattavalle geenitutkimukselle.

Kliininen data pitkittäistutkimuksista yhdistettynä geenidataan tarjoaa paljon mahdollisuuksia. Mutta dataa pitää olla paljon.

”Datakokoelmia tarvitaan, koska yksikään tutkija ei voi kerätä 10 tai 100 tuhannen yksilön aineistoa. Jos aineisto on pienempi sillä ei välttämättä saada luotettavaa tietoa geneettisesti kompleksisten tautien tutkimiseen ”

Itä-Suomen yliopistossa on monia eri datalähteitä hyödyntäviä tutkimushankkeita. Itä-Suomen yliopiston ja Kuopion yliopistollisen sairaalan Alzheimerin tautia käsittelevässä hankkeessa yhdistetään potilaskäynneillä kerätty kliininen data FinnGen -aineistoon. Näin tutkijat pyrkivät selvittämään Alzheimerin taudin puhkeamiseen johtavia biologisia mekanismeja.

”FinnGenin biopankki on ainutlaatuinen resurssi, jota voitaisiin kuitenkin hyödyntää tutkimuksessa mahdollisesti vielä paljon enemmän”, sanoo Ahola.

”Toinen esimerkki Alzheimerin taudin tutkimuksesta on Rappta Therapeutics:in ja Itä-Suomen yliopiston professoreiden Mikko Hiltusen ja Annakaisa Haapasalon projekti, jossa tutkitaan transgeenisten solulinjojen avulla eri Alzheimerin hoitojen vaikutusta proteiinien toimintaan.”

Yksi mielenkiintoinen yhteistyöprojekti on akatemiatutkija Kirsi Ketolan kanssa.

Siinä tutkitaan eturauhassyövän hoitoon käytettyä karboplatiini-resistenssiä. Karboplatiini tuottaa ”DNA-ristilinkkejä”, mikä johtaa DNA:n korjausmekanismin aktivoitumiseen ja resistenssiin, jolloin syöpäsolut kykenevät taas jakautumaan. Tutkimukseen käytetään yksisolutekniikoita, jossa yksittäisen solun tasolla pystytään mittaamaan sekä geenien ilmentymistä että kromatiinin muutoksia.”

Kromosomit sijaitsevat tumassa pitkinä kromatiini-rihmoina.

Virpi Aholan mukaan hyvä datankäsittely ja sen taitava yhdistäminen voisi mahdollistaa yksilöllisen hoidon.

”Potilaille voitaisiin räätälöidä paremmin olemassa olevilla lääkkeillä tehtyjä hoitosuunnitelmia”.

Itä-Suomen yliopiston Bioinformatiikkakeskuksen tutkimuspalvelut.

Datan uudelleenkäyttö vaatii osaamista

Ahola kannattaa vahvasti datan avoimuutta ja uudelleenkäyttöä sekä sellaisen menetelmien ja infrastruktuurien luomista, joka helpottaa ja kannustaa tähän. Yhtenä esimerkkinä hän mainitsee EGA:n. European Genome-phenome Archive (EGA) on data-arkisto, jossa voi jakaa ja lupaa vastaan on mahdollista saada käyttöönsä jo julkaistuja biolääketieteellisiä datoja.

”Arkisto sisältää ihmisen genomista dataa, joka on yhdistetty kliiniseen ja muuhun metadataan. Koska periaatteessa henkilö voi olla mahdollista genomisen ja fenotyypin perusteella identifioida, datan jakamien on tarkkaan säädeltyä.”

Aholan mukaan EGA:n avulla datan jakaminen on hoidettu asianmukaisella tavalla ja näin arvokasta biolääketeteen tutkimusaineistoa on mahdollista käyttää uudelleen, kuten uusien tutkimushypoteesien luomiseen tai testaamiseen.

”Olemassa olevia aineistoja voidaan myös katsoa eri näkökulmasta. Esimerkiksi potilaita voidaan valita eri kriteereillä kuin jo julkaistussa tutkimuksessa tai aineistoja voidaan käyttää osana laajempaa datakokoelmaa.”

Aholan mukaan yhdessä pitäisi tehdä enemmän ja viittaa Biokeskus Suomeen, joka yhdistää seitsemän eri Suomen yliopiston biokeskusta. Yhteistyötä pitäisi pystyä lisäämään eri biokeskusten välillä ja yli valtakunnan rajojen esimerkiksi Suomen ELIXIR-keskus CSC:n avulla.

”ELIXIR on meille väylä verkostoitua ja oppia muiden bioinformatiikkakeskuksien kokemuksista sekä olla mukana niissä pöydissä, jossa tutkimusinfrastruktuuriin liittyvistä asioista keskustellaan ja uusia aloitteita tehdään.”

Koska uudet teknologiat tuottavat isoja ja kompleksisia data-aineistoja, tutkimusinfrastruktuureilta edellytetään muutakin kuin vain tutkimuslaitteistoja.

”Jotta aineistoja voitaisiin tehokkaasti hyödyntää, pelkkä esimerkiksi CSC:n tarjoama laskentakapasiteetti ei riitä vaan datojen käsittelyyn ja uudelleenkäyttöön tarvitaan niihin perehtynyttä henkilökuntaa. Näen, että biokeskusten parempi resursointi ja systemaattinen yhteistyö voisi olennaisesti helpottaa ja parantaa isojen genomisten datojen käsittelyä, yhdistämistä ja uudelleenkäyttöä.”

Ari Turunen

1.9.2023

Lue artikkeli PDF-muodossa

Sitaatti

Turunen, A., & Nyrönen, T. (2024). Improving breast cancer treatment prognoses with liquid biopsy. https://doi.org/10.5281/zenodo.13691344

Lisätietoja:

Bioinformatiikkakeskus, Itä-Suomen yliopisto

https://uefconnect.uef.fi/tutkimusryhma/bioinformatiikkakeskus/

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

https://www.elixir-finland.org

Mikro-RNA:t voivat paljastaa nuoruusiän diabeteksen

Mikro-RNA:t ovat lyhyitä RNA-pätkiä, joita tunnetaan ihmisellä yli 2300. Niiden häiriintyneellä toiminnalla on merkitystä monien tautien synnyssä. Tällaisia ovat esimerkiksi sydän- ja verisuonisairaudet, immunologiset taudit ja syöpä. Turun yliopistossa löydettiin mikro-RNA, joka voi jo varhain ennustaa riskiä sairastua nuoruusiän diabetekseen.

Turun yliopiston professori Laura Elon laskennallisen biolääketieteellisen tutkimusryhmässä kehitetään työkaluja monimutkaisten sairauksien, kuten diabeteksen, syövän ja reuman diagnostiikkaan ja hoitoon. Ryhmä seuloo laskennallisilla menetelmillä potilasdatasta tietoa, joka auttaa löytämään merkkejä sairauksista ja niiden riskitekijöistä.

Elo, joka toimii tutkimusjohtajana Turun biotiedekeskuksessa, etsii potilasaineistosta erilaisia biomarkkereita, jotka voivat ennustaa sairauksien puhkeamisen tai kertoa jotakin hoitovasteesta. Biomarkkeri on tekijä tai ominaisuus, joka ilmentää biologisen tilan muutosta esimerkiksi geeneissä tai proteiineissa.

Suomessa eniten nuoruusiän diabetesta maailmassa

Suomessa on pitkään yritetty selvittää tyypin 1 diabeteksen syntymekanismeja. Ykköstyypin diabetes johtuu insuliinia tuottavien solujen tuhoutumisesta. Haima ei tuota elimistön tarvitsemaa insuliinihormonia, jolloin verensokeri kohoaa.

”Olemme pitkään tehneet tutkimusta, jonka avulla pystyisimme ennustamaan mahdollisimman varhain, ketkä lapset sairastuvat tyypin 1 diabetekseen. Suomi on luonteva maa tehdä tällaista tutkimusta, koska Suomessa tyypin 1 diabeteksen esiintyminen on korkeinta suhteessa väkilukuun maailmassa.”

Sekä geeniperimällä että ympäristötekijöillä on sairauden syntyyn jokin osuus. Elon ryhmässä etsitään diabetekseen sairastuneista biomarkkereita, jotka voisivat kertoa jotakin taudin kehittymisestä.

Dataa saadaan eri lähteistä. Yksi tärkeä data-aineisto on lapsista saadut seurantamittaukset. Jo vuonna 1994 Suomessa aloitettiin diabeteksen ennustamiseen ja ehkäisemiseen tähtäävä kunnianhimoinen ja laaja tutkimusprojekti DIPP (Diabetes Prediction and Prevention). Projektissa kerätyistä verinäytteistä etsitään tyypin 1 diabetekselle altistavia perintötekijöitä. Lapset, joilla todetaan geneettinen riski sairastua diabetekseen, kutsutaan seurantatutkimukseen.

”Lapsia on vauvasta asti on seurattu vanhempien suostumuksella sairastumiseen tai 15 ikävuoteen saakka.”

Näytteitä otetaan joka kolmas kuukausi ja 2-vuotiaasta eteenpäin puolen vuoden tai vuoden välein. Seulontaan osallistuvat Turun, Tampereen ja Oulun yliopistolliset keskussairaalat.

Beetasolut tuottavan haiman Langerhansin saarekkeissa insuliinia. Insuliini on ainoa veren glukoosipitoisuutta merkittävästi alentava hormoni

Markkereita etsitään verinäytteistä

Näytteitä on kerätty muun muassa sellaisilta lapsilta, joille jossakin vaiheessa tapahtuu serokonversio. Serokonversio tarkoittaa kun autovasta-aineita alkaa ilmaantua vereen. Osa näistä lapsista sairastuu. Seurantatutkimuksessa on mukana sellaisia lapsia, joilla on geneettinen sairastumisriski.

”Suurin osa näistä ei koskaan sairastu eikä kehitä autovasta-aineita. Tavoitteemme on mahdollisimman varhain ennustaa, ketkä sairastuvat. Tätä varten tutkimme sekä niitä, jotka myöhemmin sairastuvat, että niitä, jotka pysyvät terveinä koko seurannan ajan.

Jossakin vaiheessa osalle lapsista tulee vereen autovasta-aineita, mikä indikoi sitä, että elimistö hyökkää itseään vastaan, jolloin haiman beeta-solut alkavat tuhoutua. Nämä pystytään mittaamaan seurantanäytteistä”, sanoo Elo, mutta huomauttaa, että iso osa lapsista, joita seurataan, eivät koskaan sairastu eivätkä kehitä autovasta-aineita.

Menetelmänä on verrata sairastuneiden lasten näytteitä näytteisiin, jotka on saatu mahdollisimman samankaltaisista terveistä lapsista.

Vertailun avulla Elon tutkimusryhmä löysi yhden lupaavan biomarkkerin, tietyn mikro-RNA:n.

”Mikro-RNA:t ovat hyvin lyhyitä RNA-pätkiä, jotka voidaan laskea kuuluvaksi epigeneettiseen säätelyyn – ne säätelevät siis solujen toimintaa koodaamatta proteiineja. Mikro-RNA:t voidaan tunnistaa verestä.”

Mikro-RNA:t on yhdistetty erilaisiin sairauksiin, kuten diabetekseen. Eri näyteryhmien vertailun perusteella löydettiin tutkimu ksessa mikro-RNA (6868-3p), joka vaikuttaa varsin lupaavalta.

”Eri näyteryhmien väliltä etsittiin mikro-RNA:ta, joka assosioitiin sairastumiseen ja ei-sairastumiseen seuranta-ajan kuluessa. Tässä tapauksessa yksi mikro-RNA selvästi näytti liittyvän sairastumiseen.”

Tätä tulosta lähdettiin tutkimaan laboratoriokokein lisää.

”Meidän aineistosta pystyttiin erottamaan tämä markkeri hyvin varhaisessa vaiheessa – ja itse asiassa ennustamaan tällä hetkellä käytetyjä markkereita aikaisemmin kuka myöhemmin sairastuu ja kuka ei.”

Laskentamenetelmä ajan myötä kehittyviin sairauksiin

Laura Elon ja Riitta Lahesmaan tutkimusryhmät analysoivat yhdessä tutkimuksessaan RNA-sekvenssidataa, jonka perusteella pystyttiin tunnistamaan ykköstyypin diabetekseen etenemiseen liittyviä geenejä niillä potilailla, joilla tauti oli hiljattain puhjennut. Geenien ilmentyminen on prosessi, jossa DNA:n ohjeen kautta (transkriptio) syntyy RNA:n kautta proteiinia (translaatio). Proteiinien väliset vuorovaikutukset voivat häiriintyä ja aiheuttaa sairauksia. Kuvan verkostossa on diabetekseen liittyviä proteiinien vuorovaikutuksia. Kuvassa esiintyy niitä proteiineja, joiden ilmentyminen (geeniekspressio) oli tilastolllisesti muuttunut ensimmäisen seurantavuoden aikana diabeteksen puhkeamisesta. Väritys kertoo muutoksen suuruudesta. STRING-tietokantaan kerätään eri datalähteistä proteiinien välisiä vuorovaikutuksia.

Laura Elo korostaa, että hänen ryhmänsä kehittämät laskentamenetelmät sopivat toki muidenkin sairauksien tutkimiseen kuin diabetekseen. Koska näytteitä voidaan mitata verestä, ajatuksena on, että veri heijastelee tautiprosesseja myös muualla elimistössä. Esimerkiksi diabeteksen ollessa kyseessä haimasta on vaikeaa saada näytteitä.

”Olemme myös analysoineet esimerkiksi proteiinitasoja eri autoimmuunisairauksissa ja syövissä. Diagnoosi tapahtuu usein vasta jossakin vaiheessa kun alkaa olla kliinisiä oireita. Meitä motivoi laskentamenetelmien kehittämisessä se, että voimme pitkiä seurantamittauksia hyödyntämällä löytää sairauksille hyvin varhaisia markkereita.”

Elon mukaan enenevässä määrin onkin tajuttu, että ei kannata ottaa pelkästään yhtä mittausta.

”Seurantatutkimuksella saadaan ajan kuluessa ihmisestä ikään kuin oma referenssinsä, jolloin pystytään seuraamaan muutoksia elimistössä ja selvittämään paremmin tautiin liittyviä prosesseja. Markkerina voi olla molekyyli, joka assosioituu sairauteen. Mikro-RNA on yksi esimerkki tällaisesta lähestymistavasta.”

Elon mukaan tulevaisuudessa on otettava sairauksien tutkimisessa huomioon eri omiikat, kuten genomiikka (DNA), proteomiikka (valkuaisaineet), transkriptomiikka (RNA) tai metabolomiikka (aineenvaihdunta). Elon ryhmä onkin käyttänyt Suomen ELIXIR-keskuksen CSC:n laskentaresursseja laajojen mittausaineistojen prosessointiin.

”Julkaisimme hiljattain uuden pitkittäismallinnusmenetelmän Nature Communications -lehdessä.

Meidän menetelmämme tavoitteena on löytää mahdollisimman luotettavia markkereita pitkittäisaineistoista ja fokus oli erityisesti proteiinimittauksissa. Tärkeä kysymys on, miten pystyisimme luotettavasti analysoimaan kohinaista dataa. Vertailimme aikaisemmin käytettyjä menetelmiä ja saimme hyviä tuloksia sekä simuloiduissa ja oikeissa aineistoissa. Pystymme nyt entistä luotettavammin löytämään sellaisia proteiineja, jotka esimerkiksi assosioituvat sairauksiin.”

Kun laboratorioon lähdetään vahvistamaan löydöksiä niin se on pitkä ja kallis prosessi. Siksi luotettavien muutosten ja markkerien löytäminen on tärkeää.

Ari Turunen

10.6.2023

Lue artikkeli PDF-muodossa

Sitaatti

Nyrönen, T., & Turunen, A. (2023). MicroRNAs may reveal type 1 diabetes. https://doi.org/10.5281/zenodo.10017409

Turun biotiedekeskus

www.bioscience.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

https://www.elixir-finland.org

Kudosnäytteet, jotka on analysoitu sensitiivisen datan (SD) palveluilla, antavat uutta tietoa keliakiasta ja muista autoimmuunisairauksista

Keliakia on sairaus, jossa viljatuotteiden – rukiin, vehnän ja ohran – gluteeni aiheuttaa ohutsuolen limakalvolla tulehduksen ja suolinukan vaurion. Vaurion takia ravintoaineet eivät imeydy elimistöön kunnolla. Potilaiden solujen RNA-sekvensoinnin ansiosta voidaan tutkia elimistön immuunijärjestelmää, jos se toimii virheellisesti.

Keliakiaa pidetään autoimmuunisairautena, jossa elimistön puolustusjärjestelmän torjunta kohdistuu virheellisesti omiin kudoksiin. Vaikka keliakian tarkkaa syntymekanismia ei tunneta, sen puhkeamiseen tarvitaan kuitenkin perinnöllinen alttius.

Immunologi Helka Kaunisto Tampereen yliopiston Keliakiatutkimuskeskuksesta tutkii ihokeliakiaa.

”Minua on aina kiinnostanut autoimmuunisairaudet. Niihin sairastuneilla on riski sairastua muihinkin autoimmuunitauteihin.”

Miten sairaus muuttuu systeemiseksi

Ihokeliakia on keliakian yleinen suoliston ulkopuolinen ilmenemismuoto. Se aiheuttavaa gluteenin syönnin yhteydessä kutiavaa, pienirakkulaista ihottumaa. Sekä keliakiaan että ihokeliakiaan liittyy vahva perinnöllinen taipumus.

Kuva ihonäytteestä, jossa solujen tumat sinisellä, transglutaminaasi 3 vihreällä, ja IgA-vasta-aineet (immunoglobuliini) punaisella. Keltaiset alueet osoittavat IgA:n ja transglutaminaasi 3:n päällekkäistä sijaintia ihossa.

”Puolet työstä on RNA-sekvensointia. Emme etsi mitään tiettyä geeniä tai proteiinia sekvensoinnissa, vaan haluamme tutkia minkälaisia muutoksia gluteenin syönti saa aikaan ihokeliaakikkojen RNA-profiilissa.”

Kauniston mukaan on mahdollista, että gluteenin syönti johtaa tiettyjen RNA-molekyylien ekspression muuttumiseen ihokeliaakikoissa. Se kertoo gluteenin vaikutuksesta immuunisysteemiin, kuten esimerkiksi solujen aineenvaihduntaan tai tulehdustilaan.

Samalla voidaan tutkia, miten keliakiassa immuunivaste voi levitä paikallisesta reaktiosta suolessa systeemiseksi reaktioksi, joka leviää iholle tai muihin elimiin. Tällä tarkoitetaan sairauden monimuotoisuutta, johon kuuluvat immunologiset poikkeavuudet.

Kaunisto tutkii immuunisoluja ja immuunipuolustusta selvittääkseen, miksi osalle keliaakikoista tulee ihokeliakia.

”On muistettava, että suolessa ja ihossa on eri kerroksia, jotka toimivat eri tavoin immunologisesti. Ihokeliakia on todella hyvä kohde tutkia keliakian suoliston ulkopuolisia oireita. Tätä tietoa voi hyödyntää myös muiden autoimmuunitautien tutkimiseen. Miten esimerkiksi reumassa tauti voi alun perin olla yhdessä paikassa ja sitten levitä muualle ja muuttua systeemiseksi?”

Noin 10% keliaakikoista sairastaa ihokeliakiaa. Keliakiaa ja ihokeliakiaa voidaan tutkia verestä mitattavien vasta-aineiden avulla. Keliaakikolla sekä ihokeliaakikoilla gluteeni saa aikaan kudosvasta-aineiden muodostumisen.

Pohjoismaissa yleensä ja erityisesti Suomessa on hyvä tietoisuus keliakiasta. Sitä seulotaan paljon ja lääkärit tietävät milloin epäillä keliakiaa. Suomessa lähes 2% väestöstä sairastaa keliakiaa. Suomessa on hyvät gluteenittomat vaihtoehdot ruoalle.

”Keliakia tunnetaan suolistotautina, mutta siihen kuuluu paljon muita oireita, jotka eivät liity suolistoon lainkaan. Voi olla neurologisia ja ihoon liittyviä ongelmia. Onko immuniteetissa ero keliaakikkojen ja ihokeliaakikkojen välillä? Entä miten immuunivaste voi levitä suolesta iholle? Ja miksi ihottuma syntyy? ”

Keliakian diagnoosissa analysoidaan vasta-ainemääriä. Transglutaminaasit ovat entsyymejä, jotka sitovat kudoksissa proteiineja yhteen. Jos transglutaminaasi 2:n vasta-ainepitoisuudet (S-tGAbA) ovat korkeita, ne viittaavat keliakiaan. Transglutaminaasi 2 muuntaa syödyn gluteenin rakennetta. Tällöin ohutsuolen limakalvo tulehtuu ja vaurioituu.

Keliakiatutkimuskeskuksessa on tehty tutkimus jossa gluteenittomalla ruokavaliohoidolla olleet ihokeliakiapotilaat altistettiin lyhytkestoisesti gluteenille. Ennen altistusta ja altistuksen aikana potilaista otettiin ohutsuoli ja verisolunäyte. Näitä näytteitä tutkimalla selvitetään miten gluteeni vaikuttaa verisolujen ja ohutsuolen RNA ekspressioon.

”Vaikka osalla keliaakikoista on seerumin perustella samat vasta-aineet kuin ihokeliaakikoilla, niin silti kaikki eivät saa ihokeliakiaa,” sanoo Kaunisto.

”Ihokeliakiassa potilailla on transglutaminaasi 2:n vasta-ainetta, mutta heillä on myös vasta-aineita sellaiseen sukulaisentsyymiin kuin transglutaminaasi 3. Transglutaminaasi 3 vasta-aineita löytyy myös iholta, sieltä ihottuman läheltä ja niiden on ajateltu osallistuvan ihottuman kehittymiseen. TG3 vasta-aineita löytyy myös ihokeliakiapotilaiden verenkierrosta. Vaikka myös osalla keliaakikoista on transglutaminaasi 3:n vasta-ainetta verenkierrossa, kaikki keliaakikot eivät kehitä ihokeliakiaa. Miksi näin on, sen haluamme ratkaista.”

Keliakian tulehdusreaktio ohutsuolessa. Transglutaminaasi 2 (TG2) pilkkoo gluteeni-proteiineja, jotka esitellään taudinaiheuttajia tuhoaville T-soluille. T-solut aiheuttavat tulehdusta, jonka joh- dosta suolen epiteelisolut kuolevat. T-solut myös aktivoivat vasta-aineita tuottavia B-soluja tuot- tamaan TG2:een kohdistuvia vasta-aineita. Kuvassa punainen X kuvastaa muutoksia suolessa, jonka johdosta suolinukka tuhoutuu tai vaurioituu.

Helka Kauniston mukaan tutkimuksesta on paljon hyötyä kliiniselle tieteelle.

”Jos keliakiaa ei esimerkiksi hoideta hyvin eli jos ei siis pysytä gluteenittomalla ruokavaliolla, onko sitten suurempi mahdollisuus, että kehittyy suoliston ulkopuolisia oireita?”

CSC:n sensitiivisen datan palvelut

CSC voi asentaa tutkijan toiveesta uusia ohjelmia CSC:n laskentaympäristöön SD Desktopiin.

Tutkimuksessa analysoidaan sensitiivisen datan potilasnäytteitä, joihin on saatu potilailta lupa. Koska tämä on EU:n tietosuoja-asetuksen GDPR:n alaista informaatiota, dataa käsitellään CSC:n sensitiivisen datan palveluissa (SD Desktop ja SD Connect).

Sekvensointi on tehty yhteistyössä Helsingin yliopiston kanssa ja koodattu data on kryptattuna tallennettu CSC Connect-palveluun ja analysoitu SD Desktopissa.

Kaunistolla ei ollut aikaisempaa kokemusta suuren kapasiteetin laskentapalvelujen tai tallennuspalvelujen käytöstä.

”Aloin käyttää sensitiivisen datan palveluita, koska tarvitsin enemmän laskentakapasiteettia, mitä yliopisto pystyi tarjoamaan. Tarvitsin tälle tehokkaalle laskennalle tietoturvallisen ympäristön. Mielestäni palvelut ovat hyvin helppoja käyttää, koska verkko-ohjeet ovat erittäin perinpohjaiset. Jos minulla on ongelma, jota en pysty itse ratkaisemaan, helpdesk on aina avulias.”

Kun keliakia huomataan ajoissa, hoito voidaan aloittaa mahdollisimman pian, jotta gluteenin pitkäaikaishaitoilta voidaan välttyä. Gluteeniton ruokavaliohoito on kuitenkin haastavaa, koska gluteenia on monissa elintarvikkeissa.

”Tällä hetkellä ainoa hoito on tiukka gluteeniton ruokavalio. Mutta nykyään tutkitaan myös paljon lääkeaineita mahdollisina tulevaisuuden hoitoina. Keliakiatutkimuskeskuksessakin tehdään paljon yhteistyötä uusia lääkeaihioita kehittävien yritysten kanssa. Lääkkeillä pystyttäisiin tulevaisuudessa kenties ehkäisemään suolivaurioita ja muita vaurioita potilaissa, mutta näillä näkymin ne eivät tule korvaamaan ruokavaliohoitoa. Tampereen yliopiston alustavassa tutkimuksessa havaittiin, että ZED1227-lääkeaihio estää transglutaminaasi 2 toimintaa, ja sen käyttö vähensi gluteenin aiheuttamaa suolivaurioita potilaissa.”

Ari Turunen

12.4.2023

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Helka Kaunisto, Tommi Nyrönen, & Francesca Morello. (2023). Tissue samples analysed with Sensitive Data (SD) services provide new information on celiac disease and other autoimmune diseases. https://doi.org/10.5281/zenodo.8154655

Lue artikkeli:

Sensitiivisen datan palvelut tutkimukselle: muutamalla klikkauksella tutkija voi käynnistää turvallisen ja henkilökohtaisen laskentaympäristön

Lisätietoja:

Keliakiatutkimuskeskus, Tampereen yliopisto

https://www.tuni.fi/fi/tutkimus/keliakiatutkimuskeskus

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

https://www.elixir-finland.org

Kantasoluista kasvatetut organoidit tehostavat syöpätutkimusta

Kantasoluista kasvatetut soluryppäät, organoidit, tarjoavat uuden tavan mallintaa erilaisia sairauksia, kuten syöpää. Oulun yliopistossa on hyödynnetty uutta alkiokudosten muuntelutekniikkaa syöpää aiheuttavien geenien löytämiseksi.

Kehitysbiologian professori Seppo Vainion tutkimusryhmässä tutkitaan munuaissyöpää aiheuttavia geenejä organoidien avulla. Kantasolut voidaan ohjata muodostamaan elimiä, kuten munuaisia muistuttavia kolmiulotteisia soluviljelmiä, joissa on lähes kaikkia oikeiden elinten solutyyppejä. Organoidit voivat olla myös soluryppäitä, jotka on kasvatettu tietyn potilaan syöpäkasvaimesta otetuista soluista. Organoidit ovat peräisin muutamasta kudoksesta saadusta solusta tai kantasoluista.

”Voimme mallintaa sisäelinten kuten munuaisen kehitystä. Tämän lisäksi työkalupakissamme on metodit luoda, eli toisintaa ihmisessä havaittuja eri sairauksiin liittyviä geenitason muutoksia ihmisen alkion kantasoluissa. Tämän perusta on ns. geenin kohdennustekniikoissa,” sanoo Seppo Vainio.

Syöpää aiheuttavien geenien etsiminen organoidien avulla

90% kaikista munuaissyövistä johtuu munuaissolukarsinoomasta. Tautia aiheuttavia tekijöitä ovat mm. tupakointi, ylipaino ja perinnöllisyys. Oulun yliopistossa tutkitaan erityisesti munuaisen kehittymisen ja syövän synnyn samankaltaisuuksia. Tutkimusryhmä tutki geenien ilmentymistä ja selvitti, ovatko jotkut munuaisen kehitykseen osallistuvat geenit myös merkityksellisiä syövän synnylle. Tutkimusryhmässä kokeiltiin erilaisia organoideja. Osassa oli hiiren munuaisen soluja ja syöpäsolujen ja joissakin oli yhdistetty hiiren munuaisen soluja ja ihmisestä saatuja kohdunkaulan syövän soluja.

”Kun yhdistimme alkioasteella olevat munuaisen solut ja munuaissyöpäsolut yhteen organoidiin, alkioasteella olevat munuaissolut eivät muodostaneet munuaiselle tyypillisiä putkimaisia rakenteita. Mutta kun estimme syöpäsoluissa tiettyjen munuaisen kasvuun liittyvien geenien ilmentymisen, syöpäsolujen kasvu hidastui ja huomasimme normaalin putkimaisten rakenteiden kehittymisen, ” sanoo tutkija Anatoliy Samoylenko.

Tutkimusryhmä löysi geenejä, joiden aktiivisuuden poistaminen syöpäsoluissa johti siihen, että alkio pystyi tuottamaan uusia rakenteita normaalisti. Oulussa kehitetty organoidimalli tarjoaa uuden keinon tarkastella haitallisia viestejä, joita syöpäsolut levittävät ympäristöönsä.

Alkioasteella olevat kantasolut ovat mullistaneet tautien tutkimuksen. Kantasoluista voidaan tehdä in vivo -malleja. Organoidien avulla voidaan tunnistaa kasvaimen kasvun ensivaiheet, solujen lisääntyminen ja erikoistuminen, kulkeutuminen ja kuolema.

Organoidit ovat merkittävä edistysaskel biolääketieteessä

Fluerisoivalla proteiinilla värjätty kasvain, joka kasvaa vieraslajisiirron seurauksena. Ensimmäisessä kuvassa kanan alkiossa kasvaa jalassa kasvain, joka näkyy punaisena pisteenä. Toisessa kuvassa sama kohta on valaistu fluoriloisteella. Kasvain, joka on värjätty fluorisoivalla proteiinilla, näkyy vihreänä pisteenä. Kuva: Oulun yliopisto

Tutkija Ilya Skovorodkin pitää organoidien tutkimusta mullistavana.

”Oikea tiede alkaa kokeista. Tavallaan klassinen lääketiede ei voi olla oikeaa tiedettä siinä mielessä, koska ihmisillä ei voi tehdä kokeita.”

Skovorodkinin mukaan organoidit muuttavat tilanteen. Organoidit tarjoavat keinon tutkia ihmisen sairauksia kokeellisesti. Niiden kautta voidaan kehittää uusia lääkkeitä ja hoitoja.

”Olemme luonnollisesti vielä kaukana siitä, että voisimme tutkia kaikkia organismin vuorovaikutussuhteita. Voimme kuitenkin aloittaa solujen välisistä vuorovaikutussuhteista ja kuinka solut viestivät toisilleen.”

Organoidit voivat olla minimunuaisia, minisydämiä tai minisyöpiä.

”Parhaassa tapauksessa voimme saada potilaasta soluja ruumiinavauksen yhteydessä tai esimerkiksi ihosta. Solut voidaan istuttaa takaisin alkioasteelle ja sitten luoda minielimiä. Näin voidaan tehdä kokeita. Minkälainen lääke olisi sopiva potilaalle? Meidän tärkein kiinnostuksen kohteemme on elinten kehitys ja erityisen munuaisen kehitys alkiosta. Organoidi on erittäin vaikuttava työkalu. Oulu oli ensimmäisiä laboratorioita, jotka pystyivät rakentamaan munuaisen organoidin.”

Ilya Skovorodkinin mukaan seuraava askel biolääketieteessä on kasvattaa organoideja, joissa on verenkierto.

”Yksittäisen organoidin avulla voi tutkia solujen välistä vuorovaikutusta ja kuinka elimet toimivat, mutta oikeassa elämässä elimet ovat kytkeytyneet koko organismiin verenkierron avulla. Verenkierron avulla solut saavat kaikki tarpeelliset aineensa ja viestinvälitys tapahtuu solujen ja elinten avulla. Kanan alkion verisuonia voidaan jo kasvattaa organoideissa.”

Skovorodkinin tavoitteena on mallintaa solujen ja elinten välistä vuorovaikutusta. Mikrofluidistiikan eli mikroskooppisten neste- ja kaasuvirtausten hallinnan avulla voidaan rakentaa keinotekoisia verisuonia ja tutkia verenvirtausta elimissä.

Mallinnus edistäisi paljon syöpien tutkimusta.

”Syöpä ei kasva eristyksissä vaan se on aina jollakin tavalla yhteydessä koko organismiin verenkierron avulla.”

Tutkija Susanna Kaisto selittää, miten organoideja kasvatetaan.

Professori Seppo Vainion mukaan organoideista toivotaan yhdessä 3D- biotulostustekniikoiden kautta keinoja myös solu- ja kudosterapioihin.

”Meillä on todella suuri tarve saada ei- hyljittäviä elimiä elinsiirtoihin. Tällaisia menestystarinoina on jo saatu aikaan, ” sanoo Vainio.

Ihmisperäisten näytteiden keräykseen iittyvästä laillisuudesta ja tietoturvasta vastaavat Suomessa biopankit. Biopankit koodavat jokaisen luovuttajan näytteen, joka turvaa henkilön anonymisoinnin.

”Lupien hakeminen on lisännyt kuitenkin byrokratiaa näytteiden ja niihin liittyvien kliinisten tietojen saamisessa tutkimuskäyttöön.”

Vainion mukaan lainsäädäntöä pyritään edistämään niin, että tutkimuksen tekeminen mukaan lukien ihmisorganoidien tuottaminen ja niihin liittyvät potilastiedot turvaavat yksilön anonymiteetin. Tällä hetkellä yliopistosairaalat ja Findata hallinnoivat operatiivisen potilastoiminnan kliinisiä mittaustuloksia.

”Tutkijat voivat uudelleenkäyttää ihmisten sairauksissa havaittuja geenitason muutoksia kantasoluissa ja niistä luoduissa organoideissa. Tämä edustaa perustutkimusta ja tuottaa kokeellista aineistoa, kuten kuva-analyysiä ja geenitason tietoa. Tällaisen digitaalisen aineiston säilyttämiseen CSC tarjoaa jo nyt oivat puitteet.”

Vainion mukaan kokeellisten solulinjojen tiedontuotanto ei ole samassa määrin anoinymisointiin liittyvää ja siksi sen hallinto esimerkiksi CSC:n kautta olisi mahdollista.

”Jos näitä tietoja halutaan linkittää myös potilasaineistoon tämä voisi tapahtua Findatan yhteistyön kautta. Jos organoideja tehdään Suomessa esimerkiksi potilaiden luovuttamista näytteistä, niin tämän prosessin voisi myös luvittaa.”

Ari Turunen

27.2.2023

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Seppo Vainio, Anatoliy Samoylenko, Ilya Skovorodkin, Susanna Kaisto, & Tommi Nyrönen. (2023). Organoids grown from stem cells boost cancer research. https://doi.org/10.5281/zenodo.8154628

Lisätietoja:

Oulun yliopisto

www.oulu.fi

Kehitysbiologan laboratorio

https://www.oulu.fi/en/research-groups/developmental-biology-laboratory-organogenesis-extracellular-vesicles

Findata

https://findata.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

Valtamerien mikrobiyhteisöjen rakennetta ja toimintaa selvitetään geenisekvensoinnin avulla

Suomen Akatemian tutkijatohtori Guilhem Sommeria-Klein kehittää matemaattisia malleja mikrobiyhteisöistä. Hänen tavoitteenaan on rakentaa tilastollinen kehikko mikrobiyhteisöjen rakenteen kuvaamiseen. Näitä malleja voidaan sitten soveltaa eri ympäristöihin, kuten merien tai ihmisen suoliston mikrobiomeihin. Tavoitteena on ymmärtää mikrobistojen rooli ekosysteemien toiminnassa tai ihmisten terveydessä. Turun yliopistossa tehtävän tutkimuksen tuloksena syntyy avoimen lähdekoodin laskentamenetelmiä, joita myös muut tutkijat voivat hyödyntää omassa työssään.

Mikro-organismien tutkimus on tehostunut huomattavasti suurta kapasiteettia hyödyntävän DNA-sekvensoinnin ansiosta (high-throughput DNA sequencing). Menetelmä mahdollistaa minkä tahansa ympäristöstä otetun sekvenssinäytteen perusteella mikrobiyhteisön koostumuksen selvittämisen, oli sitten kyse maaperästä, valtameristä tai suolistosta.

”Ensin katsomme, mitä näytteistä saaduista DNA-pätkistä eli sekvensseistä voidaan löytää tietokannoista. Jos samanlaista sekvenssiä ei löydy tietokannoissa, on vaikeaa tietää mikä se on. Esimerkiksi valtameristä löytyy paljon organismeja, joita emme tunne. Olemme siis loppujen lopuksi riippuvaisia tietokannoista.”

Somneria-Klein kuitenkin korostaa, että kaikkia plankton-lajeja ei voida mahdollisesti sisällyttää tietokantoihin.

”Kaikkia plankton-lajeja ei voida ikinä kuvailla ja sekvensoida. Valtava monimuotoisuus yksinkertaisesti tekee siitä mahdottoman tehtävän.”

Ongelma voidaan kuitenkin ohittaa. Eri mikrobiyhteisöjä voidaan luokitella laskennallisten menetelmien avulla ns. operationaalisiin taksonomisiin yksiköihin (OTU). Luokittelu perustuu DNA-sekvenssien samankaltaisuuksiin ja sitä käytetään paljon mikrobien tutkimuksessa. Samankaltaisuutta määrittää yleensä tietty mikrobeissa esiintyvä geenisekvenssi. Tämä sekvenssi on valittu perustuen sen laaja-alaiseen esiintymiseen ja stabiilisuuteen kohdennetuissa mikro-organismeissa.

”Kiehtovaa, että samanlaista dataa tulee hyvin erilaisista ekosysteemeistä DNA-sekvenssien analyysin perusteella. Organismit, varsinkin bakteerit, eivät ole välttämättä erilaisia, elivätpä ne ihmisen suolistossa tai valtamerissä.”

Ympäristöstä noukittuja ja sekvensoituja mikrobiston geenejä analysoidaan yhdessä ryppäässä samalla tavoin kuin yksittäisen lajin geenejä. Tämä lähestymistapa, metagenomiikka, on yleinen konsepti mikrobien tutkimuksessa.

”Metagenomiikan avulla voimme vertailla eri paikkojen mikrobiyhteisöistä kerättyjä näytteitä ja tutkia niiden spatiaalisia variaatioita esimerkiksi. Voimme myös selvittää, mitä tietyt geenit mikrobiyhteisöissä tekevät ja miten niiden toiminta muuttuu eri paikoissa ja olosuhteissa.”

Meren mikrobiomi koostuu prokaryooteista eli tumattomista bakteereista ja arkkieliöistä sekä eukaryoottisista eli tumallisista mikrobeista. Kasviplanktoniin kuuluvat mm. sinilevät eli syanobakteerit, viherlevät, piilevät, panssarilevät, nielulevät. Plankton tuottaa 50 prosenttia hengittämästämme hapesta.

Muutokset ekosysteemissä ja plankton-yhteisöissä

Toisin kuin maalla, merissä mikrobit tuottavan suurimman osan biomassasta. Merissä on isoja mikrobiyhteisöjä eli mikrobiomeja. Kasviplanktonit ovat olennainen osa valtamerten mikrobiyhteisöjä. Nämä organismit voivat yhdistää vettä ja hiilidioksidia käyttämällä auringonvalosta saatua energiaa muodostaakseen orgaanisia molekyylejä, joista koostuvat kaikki elävät organismit. Ne tekevät samaa kuin kasvit maalla eli yhteyttävät.

”Koska avomerellä ei ole kasveja, kasviplankton muodostaa perustan koko valtamerien ravintoketjulle”, sanoo Sommeria-Klein.

Prosessi myös vapauttaa happia: kasviplankton vastaa 50% ilmakehän hapesta. Sillä on merkittävä vaikutus meriveden happipitoisuuteen ja siten myös mahdollistaa eläinten elämisen meressä.

”Vaikka kasviplankton tarvitsee valoa, sitä on usein itse asiassa kaikkein eniten noin sadan metrin syvyydessä, jossa ravinteita kuljettava kylmempi vesi merten syvyyksistä kohtaa auringonvalon. Valtameri on kolmiulotteinen ympäristö: jos tutkii vain pintaa, menettää paljon. Biomassaa on paljon enemmän valtameren syvyyksissä, tuhansiin metriin saaakka, kuin olemme aiemmin ajatelleet. Siellä on pimeää, joten yhteyttämistä ei tapahdu. Mutta koska paljon orgaanista ainetta vajoaa pohjaan, se myös ravitsee ekosysteemiä syvyyksissä.”

Guilhelm Sommeria-Klein hyödyntää valtavaa datamassaa, joka kattaa kaikki valtamerialueet eri syvyyksistä. Tara-tutkimusalus keräsi vuosina 2009-2013 DNA-aineistoa maailman meristä. 35 000 näytettä kerättiin 210 eri paikasta ympäri maailmaa. DNA-analyysissa havaittiin yli 40 miljoonaa geeniä, joista enemmistö oli tieteelle uusia. DNA-näytteistä voitiin erottaa noin 250 000 erilaista molekulaarista ”planktonlajia”. Analyysi perustui metaviivakoodi-menetelmään, jolla tarkoitetaan DNA-sekvenssien analysointia tietyltä genomin alueelta, jotta saataisiin tunnistettua eri lajeja tai yksilöitä.

”Valtameri antaa itse asiassa kasviplanktonin lisäksi suojapaikan hyvin suurelle valikoimalle mikrobeja. Tämä näkemys oli hyvin aliarvostettu ennen Taran tutkimusmatkaa. Mikrobiset eukaryootit erityisesti ovat hyvin monimuotoisia mutta kuitenkin huonosti tunnettuja. Tämän lisäksi planktonin maantieteelinen levinneisyys ei ole hyvin tiedossa, koska niiden elinympäristön tutkiminen on vaikeaa. Viimeaikaisessa tutkimuksessamme analysoimme eukaryoottisten plankton-ryhmien maantieteellistä levinneisyytä eri puolilla maailmaa ja tarkastelimme tätä niiden ratkaisevien erityispiirteiden valossa.”

Sommeria-Klein on kiinnostunut, mitä nämä mikrobiyhteisöt tekevät ja miten niiden toiminta vaihtelee eri puolilla maailman meriä.

”Planktonit liikkuvat alituisesti valtamerten virtausten mukana. Virtaukset muodostavat uudelleen yhteisöjä ja vievät mukanaan organismeja erilaisiin ympäristöoloihin. Minua kiehtoo se, miten nämä yhteisöt voivat edelleen vuorovaikuttaa ja erikoistua ja kehittyä haastavissa olosuhteissa.”

Valtameret ovat tärkeä hiilinielu

Valtameret ovat myös tärkeässä roolissa hiilinieluna. Plankton-yhteisöt vaikuttavat tähän suuresti sitomalla ilmakehän hiilidioksidiä yhteyttämisen avulla. Hiili sitten kierrätetään valltameren ravintoketjussa ja lopulta eristetään merenpohjaan, kun kuolleet organismit vajoavat pohjalle.

”Ilmaston lämpeneminen muuttaa veden lämpötilaa, mutta myös merivirtoja. Nämä muutokset yhdessä voivat aiheuttaa perusteellisia seuraamuksia ekosysteemissä, kuten vaikutukset kalakannoissa ja kuinka paljon meret voivat toimia hiilinieluna.”

TARA Oceans Expedition (2009–2013) keräsi 35 000 näytettä merivedestä ja planktonista. Näytteet myöhemmin sekvensoitiin ja kuvannettiin. Tutkimusmatka keräsi näytteitä 210 erilaisesta avomeren kohteesta eri syvyyksistä. Kuunari on tämän jälkeen osallistunut säännöllisesti uusiin tutkimusmatkoihin dokumentoidakseen erilaisia meren ekosysteemia ympäri maailmaa.

Guilhelm Sommeria-Klein haluaa kehittää datan analysoimiseen ja tulkintaan entistä tehokkaampia menetelmiä. Tutkimuksessaan hän ei erikoistu puhtaasti matematiikkaan eikä biologiaan vaan yrittää kuroa umpeen katkoksia eri tutkimusalojen välillä.

”Tämä on tieteelliseen laskentaan keskittyneen tutkimusryhmämme ydinalaa, jota Sommeria-Kleinin työ erinomaisesti tukee”, sanoo Turun yliopiston apulaisprofessori Leo Lahti, jonka ryhmässä kehitetään koneoppimismalleja mikrobiryhmien seulomiseen.

”Mikrobiekologiassa on erityisen vahva tarve tällaiselle laskennalliselle perustutkimukselle. Näiden mallien avulla monimuotoinen mikrobien ekosysteemi voidaan palauttaa muutamiin yksinkertaisiin perusrakenteisiin. Merten mikrobiomin tutkimus on kiinnostavaa myös esimerkiksi Itämeren tilassa tapahtuvien muutosten seuraamiseksi. Tilastolliseen päättelyyn pohjautuvilla malleilla voidaan ottaa huomioon jo tunnettuja ennakkotietoja ja kuvata päättelyn varmuutta tuloksissa. Tässä tarvitaan CSC:n suurteholaskentaa, koska näiden mallien sovitus sisältää vaativaa laskentaa.”

Sommeria-Klein haluaa tutkia myös tulevaisuudessa erilaisia ekosysteemejä, jotka poikkeavat toisistaan.

”Haluamme tuoda yhdenmukaisen perspektiivin mikrobiekologiaan ekosysteemistä toiseen, koska sillä on merkittäviä seurauksia niinkin erilaisiin yhteiskunnallisiin asioihin, kuten ihmisen terveys, valtamerien ruokaketju ja globaali hiilen kierto.”

Bakteerit, arkkieliöt ja aitotumaiset eli eykaryootit ovat polveutuneet samasta kantamuodosta. Nämä ryhmät ovat kuitenkin eronneet toisistaan erittäin varhaisessa vaiheessa. Bakteerit edustavat kaikkein vanhinta mikrobien muotoa, josta arkit ja eykaryootit erkanivat. Arkit ja eukaryootit erosivat toisistaan myöhemmin, ja tämä on nykyään kiinnostava tutkimuksen kohde.

Ari Turunen

29,9.2022

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Guilhaume Sommeria-Klein, Leo Lahti, & Tommi Nyrönen. (2022). Gene sequencing used for study of structure and functioning of microbial communities in oceans. https://doi.org/10.5281/zenodo.8154571

Lisätietoja:

Turun yliopisto

www.utu.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

https:/www.elixir-finland.org

Antibiooteille vastustuskykyiset bakteerit ovat maailmanlaajuinen ongelma

Antibiooteille vastustuskykyiset bakteerit kantavat resistenssigeenejä ja niistä tulee usein mikrobipopulaatioissa vallitsevia. Bakteerit voivat myös mutatoitua ja saada muilta mikrobeilta geenejä, jotka tekevät niistä antibiooteille vastustuskykyisiä. Suomen Akatemian tutkijatohtori Katariina Pärnänen etsii ja tunnistaa näitä geenejä, jotka on kerätty tietokantoihin eri ympäristöistä ympäri maailmaa.

Antibiootteja eli mikrobien tuottamaa ja toisia mikrobeja, erityisesti bakteereja tappavia lääkeaineita on käytetty infektioiden torjunnassa jo 1930-luvulta lähtien. Kun antibiootteja käytetään, alkaa syntyä näille lääkkeille vastustuskykyisiä bakteereja, varsinkin jos antibiootteja käytetään väärin tai liikaa. Tilanne pahenee koko ajan ja ihmisiä kuolee infektioihin, joihin antibiootit eivät tehoa. Katariina Pärnänen tutkii Turun yliopistossa antibioottiresistenssiä.

”Käytännössä tämä tarkoittaa sitä, että henkilöllä on joku antibiootille vastustuskykyinen bakteeri, joka aiheuttaa infektion. Kun tulehdusta yritetään hoitaa antibiooteilla, niin paranemista ei tapahdu. Nykyään on hyvin tavallista, että antibiootille vastustuskykyiset bakteerit eivät ole vastustuskykyisiä vain yhdelle vaan esimerkiksi 15 eri antibiootille.”

Biofilmi on mikrobien organisoima rakenne, joka on kiinnittynyt orgaaniseen tai elottomaan pintaan. Antiobiooteille vastustuskykyistä bakteeristoa, sauvamaisia ja pyöreitä bakteereja: Escherichia coli, Pseudomonas aeruginosa, Mycobacterium tuberculosis, Klebsiella sekä Staphylococcus aureus.

Ihmisen ja ympäristön terveyteen liittyvä ongelma

Bakteerien resistenssigeenit ovat kasvava maailmanlaajuinen ongelma. Niitä on maaperässä, jätevesissä, kalankasvattamoissa ja eläintiloilla, eikä vain ihmisen suolistossa. Lopulta ympäristönkin resistenssigeenit saatavat päätyä lopulta myös ihmisen suolistoon.

”Minua kiinnostaa kaikki mikrobeissa. Tutkimuksiani edistää, että ymmärrän myös jonkin verran mitä sikatiloilla, kalankasvattamoilla tai Indonesian suurkaupungin läpi virtaavassa joessa tapahtuu. Helsingin yliopistossa tutkin vauvojen suolistomikrobistoa ja miten vauvojen saama äidinmaitokorvike tai imetys ovat yhteydessä resistenssigeenien määrään. Tavallaan tutkimukseni edustaa ”yksi terveys”-suuntausta”, Pärnänen toteaa.

Kun 2000-luvun alussa havaittiin uusia virustauteja ja niiden uhkia, syntyi One Health and Global Health -tutkimussuuntaus: kokonaisvaltainen käsitys ihmisten ja eläinten terveyden ja ekosysteemin suojelemisen tärkeydestä. Lääkärien ja eläinlääkärien aloittama liike edustaa poikkitieteellistä lähestymiskulmaa, jossa on mukana paikallinen, alueellinen, kansallinen ja globaali taso.

”Haluan ymmärtää antibioottiresistenssiä sekä ihmisten terveyteen että eläin- ja ruoantuotantoon sekä ympäristöterveyteen liittyvänä ongelmana. Aiemmin olen tutkinut miten resistenssigeenit siirtyvät äidiltä lapselle ja miten imetyksen pituus vaikuttaa geenien määrään. Nyt olen keskittynyt siihen, minkälaiset tekijät ovat yhteydessä suolistomikrobiston antibioottiresistenssiin. Näitä ovat antibioottien liiallinen käyttö, asuinympäristö sekä terveyshistoria, joka voi paljastaa, kantaako todennäköisesti antibiooteille vastustuskykyisiä bakteereja.”

Suoliston bakteeristo auttaa säätelemään ruoansulatusta ja immuunijärjestelmää. Probiootit ovat hyödyllisiä bakteereja ja niitä käytetään lisäämään terveellisen suolistoflooran, kuten maitohappobakteerien määrää.

Uudet sekvensointitekniikat toivat läpimurron mikrobien tutkimukseen

Ympäristössä olevien bakteereiden ja niiden geenien tutkimus otti suuren harppauksen eteenpäin, kun uuden sukupolven sekvensointimenetelmät tulivat käyttöön. NGS-sekvensointi (Next Generation Sequencing) perustuu massiiviseen rinnakkaissekvensointiin, jossa miljoonia lyhyitä DNA-fragmentteja monistetaan samanaikaisesti. Koska joukko ympäristöstä noukittuja ja sekvensoituja geenejä voidaan analysoida samalla tavoin kuin yksittäisen lajin perimää, tutkimussuuntausta alettiin kutsua metagenomiikaksi. Ensimmäinen metagenomiikkaa hyödyntävä tutkimusartikkeli antttiresistenssistä julkaistiin vuonna 2014.

”Antibioottiresistenssiä on tutkittu pitkään, mutta NGS mahdollisti – ei pelkästään yksittäisten geenien – vaan kaikkien vastustuskykyisen geenien analysoimisen yhdestä näytteestä”, Pärnänen huomauttaa.

Metagenomiikkaan liittyvät tutkimukset ovat osoittaneet, että antibioottien resistenssigeenit ovat yleisiä elinympäristössä. On suuri riski, että nämä geenit siirtyvät bakteereihin, jotka aiheuttavat tulehduksia ihmisissä.

Pärnänen hyödyntää metagenomien sekvenssidataa, jota on myös kerätty laajoihin avoimiin tietokantoihin. Dataa hän analysoi tieteen tietotekniikan keskuksen CSC:n supertietokoneiden avulla. Näin pystytään tunnistamaan eri bakteerilajeja ja niissä olevia resistenssigeenejä.

”Jostakin bakteerilajista voidaan tunnistaa sellaisia geenejä, mitkä esiintyvät sen perimässä vain kerran ja sitten vertailemalla niitä muiden lajien tietokannoissa oleviin geeneihin pystytään sanomaan, mikä bakteerilaji on kyseessä. Resistenssigeeneistä etsitään osumia: sopiiko se tietokannoissa olevaan resistenssigeeniin? Sitten voidaan todeta, että jollakin ihmisellä on ulostenäytteessään kymmenen resistenssigeeniä tai että hänellä on tietty määrä kolibakteereja.”

Resistenssigeenejä on kaikkialla

Yhdessä tutkimuksessa Pärnänen oli mukana analysoimassa resistenssigeenejä ihmisen ulosteista. Tutkimuksessa vertailtiin seitsemän maan jätevesien käsittelylaitosten bakteereja. Puolet maapallon väestöstä kantaa suolistossaan CrAssphage-faagia eli bakteerin loisena olevaa virusta. Tämän faagin geenisekvenssiä käytettiin tutkimuksessa markkerina osoittamaan ulostepohjaista tartuntaa.

”Samoja resistenssigeenejä löytyy kaikkialta maailmasta. Antibioottiresistenssistä puhutaan, että se olisi näkymätön pandemia, koska samat resistenssigeenit leviävät maan rajojen ulkopuolelle. Tietyt geenit ovat tosin yleisempiä jossakin päin maailmaa kuin toiset.”

Intiassa voi olla huomattavasti enemmän näitä geenejä kuin esimerkiksi Pohjois-Euroopassa. Etelä-Euroopan ja Pohjois-Euroopan välillä alkaa olla myös suuria eroja.

”Esimerkiksi virtsatieinfektioita aiheuttavat E. coli-kannat Etelä-Euroopassa voivat olla hyvin resistenttejä.”

Terveelle ihmiselle bakteerit eivät aiheuta vakavaa tautia, mutta aina välillä käy, että suolistoinfektion aiheuttajana on resistentti bakteeri.

”Resistentin bakteerin aiheuttamaa infektiota on vaikea hoitaa. Yleensä nämä ongelmallisimmat resistentit infektiot, joita tavataan Suomessa ovat usein tulleet sellaisille ihmisille, jotka asuvat Suomessa mutta jotka ovat matkustaneet ulkomaille.”

Vuonna 2002 Terveyden ja hyvinvoinnin laitoksen THL:n FINRISKI – väestöaineistoon kerättiin ulostenäytteitä ja määritettiin näytteissä olevien mikrobien sekvenssitiedot.

”Analysoimme yhdessä THL:n tutkijoiden kanssa suomalaisesta populaatiosta saaduista näytteistä, mihin resistenssi mahdollisesti vaikuttaa ja minkälaisia terveydellisiä seuraamuksia on, jos ihmisellä on paljon vastustuskykyisiä bakteereja. Ovatko korkeat antibioottiresistenssigeenien määrät yhteydessä riskiin kuolla seurantajakson aikana?

On ennustettu, että 2050 vuonna antibioottiresistentit infektiot tappaisivat enemmän kuin syöpä. Tuolloin infektiotaudit olisivat yleisin kuolinsyy. Antibiootteja käytetään jo nyt enemmän tuotantoeläimiin kuin ihmisiin ja samalla eläinproteiinin kulutus kasvaa. Pärnäsen mukaan resistenssikriisiä vastaan voidaan taistella siten, että antibiootteja käytetään vain bakteeri-infektioiden hoitamiseen ja vain silloin kun antibiooteista on tutkitusti apua. Myös ruokavalio tai elämäntapa voivat ehkä vähentää resistenssigeenejä suolistomikrobistossa.

”Esimerkiksi kuidun syönti on hiljattain yhdysvaltalaisissa tutkimuksissa yhdistetty resistenssigeenien pieneen määrään kun taas eläinproteiinin määrä ruokavaliossa oli yhteydessä geenien suureen määrään. Voidaan sanoa, että sinun suolistomikrobistosi on sitä mitä syöt.”

Katariina Pärnänen työskentelee apulaisprofessori Leo Lahden tutkimusryhmässä. Ryhmä kehittää koneoppimismalleja, jotka seulovat laajoista datakokoelmista mikrobiryhmiä.

”Antibioottiresistenssi on yksi esimerkki tutkimuksesta, jossa hyödynnetään uusia mittausmenetelmiä ja laskentakapasiteettia tavalla mitä ei ole aiemmin tehty. Tässä tutkimusaiheessa yhdistyvät luontevasti eri mittausympäristöt ihmiskehosta ympäristön mikrobistoon. Tällainen tutkimus mahdollistaa menetelmäkehitykseen ideoita, joista myös eri alojen tutkijat voivat hyötyä,” sanoo Leo Lahti.

Katariina Pärnäsen toiveena on tutkia kaikkien maailman ihmispopulaatioiden suolistomikrobinäytteet, joista on tehty metagenomisekvensoinnit ja jotka ovat tietokannoissa avoimesti saatavilla.

”Olisi kiinnostavaa keskustella CSC:n asiantuntijoiden kanssa, miten tämä olisi teknisesti mahdollista. Tämä myös edistäisi avointa tiedettä, koska tunnistetut resistenssigeenit ja mikrobiomeista löydetyt eliölajit voitaisiin tallettaa myös muiden tutkijoiden käyttöön.”

Ari Turunen

1.9.2022

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Katariina Pärnänen, Leo Lahti, & Tommi Nyrönen. (2022). Antibiotic-resistant bacteria are a global problem. https://doi.org/10.5281/zenodo.8154563

Lisätietoja

Turun yliopisto

www.utu.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org http://www.elixir-europe.org

Yksilöity lääketiede syövän ja virusten torjunnassa

Solujen mallintaminen ja niiden toiminnan simuloiminen parantaa huomattavasti henkilökohtaisia hoitosuunnitelmia. PerMedCoE- hankkeessa yhdistetään kliinistä potilastietoa geenien ja proteiinien ja solujen toimintaan liittyvään tietoon. Tavoitteena on kehittää täsmälääketieteessä käytettäviä työkaluja. Solujen mallintaminen yksityiskohtaisesti on kuitenkin valtava urakka ja vaatii paljon supertietokoneiden laskentatehoa.

Yksilöity lääketiede avaa tulevaisuudessa suuria mahdollisuuksia. Tavoitteena on, että potilaan kliininen data voidaan yhdistää geneettiseen dataan ja näiden tietojen pohjalta voidaan laatia yksilöllisiä hoitosuunnitelmia. PerMedCoE– hankkeessa (HPC/Exascale Centre of Excellence in Personalised Medicine) pyritään parantamaan yksilöidyn lääketieteen mallinnusohjelmistojen yhteensopivuutta eksaskaalan supertietokonejärjestelmiin. Eksaskaalan supertietokoneet ovat seuraavan sukupolven järjestelmiä joiden teoreettinen laskentateho vastaa jopa 10^18 laskutoimitusta sekunnissa. Hankkeeseen osallistuu tutkijoita useasta eurooppalaisesta yliopistosta ja sairaalasta. Projekti keskittyy neljään avoimen lähdekoodiin perustuvaan solutason mallinnusohjelmistoon. Ohjelmistokehityksen lisäksi tutkimushankkeessa pyritään edistämään täsmälääketieteen työkalujen helppokäyttöisyyttä ja toimivuutta useissa eurooppalaisissa suurteholaskentakeskuksissa.

”Tavoitteena on että nämä neljä ohjelmistoa pystyisivät tulevaisuudessa toimimaan useassa supertietokoneessa”, sanoo CSC:n projektipäällikkö Sampo Sillanpää.

”Tällä hetkellä tämä on teknisesti hyvin haastavaa toteuttaa, koska jokainen suurteholaskentaympäristö on omanlaisensa johtuen järjestelmäarkkitehtuurista.”

Ohjelmistojen ja datamassojen saumaton toiminta on tarkoitus saavuttaa yhteisesti sovituilla teknologioilla. PerMedCoE-hankkeessa tämä toteutetaan ns. konttitekniikan ja työvuo-ohjelmistojen avulla. Työvuo on tutkimusprosessin automaatio, jonka aikana dokumentteja, tietoa ja tehtäviä siirretään suoritettaviksi tiettyjen sääntöjen mukaisesti. Konttitekniikan avulla voidaan määrittää vakioitu ympäristö, jossa tieteellisiä ohjelmistoja ajetaan jokaisessa hankkeeseen osallistuvassa suurteholaskentaympäristössä. Kun ohjelman koodi kirjastoineen ja asetuksineen asetetaan konttiin, sitä voidaan siirrellä koneelta ja konesalista toiseen.

”Ohjelmistot ja data on tavallaan paketoitu omaan laatikkoonsa, jotta niitä voidaan siirtää ympäristöstä toiseen. CSC:llä on useita konttitekniikan asiantuntijoita, joten työkaluja pystytään siirtämään alustalta toiselle”, Sillanpää sanoo.

”Kontteja hyödyntämällä asiantuntijat pystyvät rakentamaan käyttäjäystävällisiä työnkulkuja, eli työvoita. PerMedCoE-hankkeessa työvuot koostuvat useammasta rakennuspalikasta, joista jokainen toteuttaa tietyn täsmälääketieteen laskentatehtävän. Yhdessä rakennuspalikassa voidaan tehdään esikäsittelyä datalle, toisessa varsinainen analyysi ja viimeinen antaa tuloksen loppukäyttäjälle. Käyttäjän ei siis välttämättä tarvitse huolehtia miten useasta rakennuspalikasta rakennettu automatisointi toimii, vaan keskittyä tulosten tulkintaan.”

COVID-19 mallintaminen solutasolla

Hankkeessa rakennettujen teknologioiden hyödyllisyyttä arvioidaan erilaisten käyttötapausten avulla. Työvoiden avulla analysoidaan, mitä häiriöitä taudit voivat aiheuttaa solutasolla tai miten lääkeaineet toimivat. Mallien avulla voidaan tutkia solujen aineenvaihduntaa tai signaalinvälitystä.

”PerMedCoE-käyttötapauksissa hyödynnetään julkisesti saatavilla olevia genomidata-aineistoja. Nyt voimme tutkia koronaviruspotilaista otettuja näytteitä ja etsiä genomidatasta sellaisia markkereita, jotka ilmentävät, mitkä potilasryhmät ovat erityisen alttiita taudin vaaralliselle muodolle.”

Projektissa mallinnetaan ihon epiteelikudosta, joka reagoi koronavirustartuntaan kutsumalla erilaisia immuuneja soluja vaikuttamaan virukseen. Näin voidaan mahdollisesti paremmin tunnistaa sellaisia potilasryhmiä, jotka ovat alttiita koronan vakavalle tautimuodolle.

“Ajatuksena on, että pystytään rinnakkain ajamaan useita malleja yksittäisille potilaille. Näin voidaan tehokkaasti analysoida riittävän suuria datamääriä, jotta mallinnustuloksia voitaisiin käyttää yksilöidyn lääketieteen apuna”, sanoo vanhempi datatieteilijä Jesse Harrison CSC:stä.

COVID 19-käyttötapauksen mallinnuksessa käytetään solutason RNA-sekvenssidataa. RNA-sekvensointi yhden solun tarkkuudella (scRNA-seq) voi paljastaa geenien välisiä säännöllisiä vuorovaikutusyhteyksiä, solujen syntyperälinjat, solujen eroavaisuuksia sekä solun viitekehyksen ympäristössään.

COVID-19-tautia ja eri solupopulaatioiden käyttäytymistä voidaan tutkia moniskaalautuvien mallien ja yhden solun dataa käyttämällä. MaBoSS on ohjelmisto, joka mahdollistaa solupopulaatioiden simuloimisen ja mallintamisen stokastisesti (Boolen mallinnus) ja solunsisäisiä mekanismeja, joiden säätelyyn taudit vaikuttavat. PhysiBoSS yhdistää MaBosS-ohjelmiston vapaan lähdekoodin PhysiCell-ohjelmistoon, joka simuloi isoja solujärjestelmiä. 3D-kudoksia voidaan tutkia standardeilla pöytäkoneilla. PhysiBoSS-ohjelmisto avulla tutkijat voivat analysoida yksittäisten solujen geneettisiä muutoksia väestötasolla.

Toinen tärkeä projektin käyttötapaus on syöpädiagnostiikka. Tavoitteena on luoda mallinnustyökaluja syöpäkasvainten kasvun ennustamiseen ja potilaskohtaisten hoitojen kehittämiseen. Aineistona käytetään Wellcome-instituutin ja Massachusettsin syöpäkeskuksen keräämää aineistoa. Tietokantaan on kerätty yli tuhat erilaista kasvainkudoksen solulinjaa.

”Projektissa pyritään esimerkiksi tunnistamaan uusia lääkeyhdistelmiä, jotka voisivat olla syöpähoidossa hyödyllisiä” Jesse Harrison sanoo.

Tämä johtaisi toivottavasti potilaskohtaisten syöpähoitojen tarkempaan kohdistamiseen ja diagnostiikan nopeutumiseen.

”Jotta nämä tavoitteet täyttyisivät läheisempää yhteistyötä tarvitaan suurteholaskentakeskusten ja lääketieteellisen organisaatioiden kanssa. Tämä siksi, koska nyt puhutaan isoista datamassoista ja suurten potilaskohtaisen datan analysointi ei ole omalla pöytäkoneella mahdollista.”

PerMedCoE:n tulokset ja työkalut on tarkoitettu kaikille tutkijoille.

“Kun projekti päättyy kesällä 2023, meillä on päivitettyjä versioita avoimen lähdekoodin pohjalta kehitetyistä mallinnustyökaluista ja ne saatetaan tutkijayhteisön saataville. Hankkeessa luodaan myös uutta osaamista tukemaan täsmälääketieteen työkalujen käyttöä CSC:n laskentaympäristöissä.”

Miten solut toimivat eri tasoilla, yksittäisestä solusta laajoihin solupopulaatioihin? CSC – Tieteen tietotekniikan keskus ja Barcelonan superlaskentakeskus (BSC), yhdessä kymmenen muun akateemisen ja kaupallisen toimijan kanssa, aloittivat lokakuussa 2020 Euroopan komission huippuyksikköhankkeen HPC/Exascale Center of Excellence for Personalised Medicine (PerMedCoE). Hankkeessa kehitetään solutason mallinnusohjelmistoja suurteholaskentaan soveltuviksi. Suurteholaskennan avulla biologinen data kuten genomiikka ja proteomiikka voidaan tuoda osaksi täsmälääketiedettä, koska datan analysointi nopeutuu huomattavasti. Esimerkiksi sairauden diagnooseja pitäisi käytännössä pystyä tekemään tuntien tai päivien sisällä. PerMedCoE on osa ELIXIR Suomen kehitysohjelmaa.

Syövän voittaminen

EU rahoittaa monia projekteja, jotka tulevaisuudessa mahdollistavat yksilölliset potilashoidot. Syöpä on yksi esimerkki taudista, joka on erittäin yksilöllinen, oli kyse sitten rinta-, keuhko-, maksa-, tai eturauhassyövästä.

Esimerkiksi Horisontti Eurooppa -puiteohjelman Conquering Cancer: Mission Possible näyttää Suomen molekyylilääketieteen instituutin (FIMM) tutkijan Esa Pitkäsen mukaan suuntaa tulevaisuuden syöpätutkimukselle ja -hoidoille. Kunnianhimoinen ohjelma tavoittelee syöpien syntyyn johtavien mekanismien ymmärtämistä, uusia menetelmiä syöpien aikaiseen havaitsemiseen, sekä henkilökohtaisen eli yksilöidyn syöpälääketieteen läpimurtoja.

”Kaikille näille tavoitteille yhteistä on monipuolisen ja laajan terveysdatan hyödyntäminen uusien laskennallisten menetelmien avulla. Koneoppimiseen perustuvien tekoälyalgoritmien avulla onkin jo saavutettu rohkaisevia tuloksia esimerkiksi digitaalisen patologian alalla. Seuraavat harppaukset tehdään yhdistelemällä useita eri tietolähteitä yksilöllisten syöpäseulonta- ja hoitosuositusten antamiseksi”, Pitkänen uskoo.

Ohjelmassa syöpäpotilaat halutaan mukaan syöpähoitojen kehitykseen esimerkiksi antamalla potilaille mahdollisuuksia lähettää tietoturvallisesti omaa terveysdataansa tutkijoiden käyttöön. Samalla potilaat saavat myös uutta tutkimustietoa omasta sairaudestaan.

”On tärkeää, että hoitomuotojen kehittyessä pidetään huolta siitä, että ihmisille taataan tasa-arvoinen mahdollisuus hyötyä uusista hoidoista taustasta riippumatta. Olen iloinen siitä, että tämä on huomioitu ohjelman suosituksissa. Lisäksi lasten ja nuorten syöpiin kiinnitetään erityistä huomiota.”

Ari Turunen

23.8.2022

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Sampo Sillanpää, Esa Pitkänen, & Tommi Nyrönen. (2023). Personalised medicine against cancer and viruses. https://doi.org/10.5281/zenodo.8154548

Lisätietoja:

HPC/Exascale Centre of Excellence in Personalised Medicine

https://permedcoe.eu

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

BIGPICTURE mahdollistaa patologian muuttumisen digitaaliseksi

Helmikuussa 2021 alkanut kuusivuotinen BIGPICTURE -projekti kerää kolme miljoonaa skannattua ja digitalisoitua patologian kuvaleikettä Euroopan eri sairaaloista, tutkimusorganisaatioista ja lääkealan yrityksistä. Yksi hankkeeseen osallistuva tutkija on Helsingin Biopankin (HUS) patologi Yossra HS Zidi-Mouaffak, joka on toinen koordinaattori BIGPICTURE -projektin Suomen solmupisteessä. Hän keskittyy siihen, miten tekoälyä voidaan käyttää patologiassa.

Hankkeeseen osallistuu 45 organisaatiota 15 maasta. Suomesta mukana on Helsingin yliopistollinen sairaala HUS ja erityisesti Helsingin Biopankki sekä CSC – Tieteen tietotekniikan keskus. BIGPICTURE -alustaa rakennetaan patologien, tutkijoiden, tekoälyn kehittäjien, potilaiden ja teollisuuden edustajien yhteistyönä. Tiedostot tallennetaan arkistoon tietokannaksi, joka mahdollistaa uudet ja tehokkaat tekoälysovellukset. Tämä edesauttaa patologian diagnostiikan digitalisaatiota ja tuo uusia menetelmiä kudosten analysoimiseen. Näytteitä voidaan analysoida tekoälyn avulla.

Yossra HS Zidi-Mouaffak on Helsingin Biopankin (HUS) patologi ja väitöskirjatutkija professori Olli Carpénin tutkimusryhmässä Helsingin yliopistossa. Yksi Zidi-Mouaffakin projekteista liittyy digitaaliseen patologiaan ja paksunsuolen syöpään.

”Paksunsuolen syöpä on toiseksi tappavin ja kolmanneksi yleisin diagnosoitu syöpä maailmassa. Se on myös toiseksi yleisin syöpätyyppi Suomessa. Syöpäpotilaita hoidetaan pääsääntöisesti kirurgisilla ja onkologisilla toimenpiteillä riippuen taudin asteesta,” sanoo Zidi-Mouaffak.

Onkologiset toimenpiteet voivat sisältää kemoterapiaa ja sädehoitoa.

”Projektissamme keskitymme erityisesti niihin potilaisiin, joilla on II asteen paksunsuolensyöpä ja joilla tehostetun kemoterapian riski-hyöty –suhde on usein marginaalinen. Tätä voidaan parantaa luokittelemalla potilaat korkeamman ja alhaisemman riskin ryhmiin.”

Kaksi algoritmin tuottamaa lämpökarttaa (kuumat alueet punaisella ja kylmät sinisellä). Punaiset alueet sisältävät algoritmin tunnistamia piirteitä, jotka indikoivat korkeaa todennäköisyyttä (riskiä) syövän uusiutumisesta, siniset alueet puolestaan matalaa riskiä. Mitä suuremmat punaiset alueet, sitä korkeampi riski potilaalla on syövän uusiutumiseen.

Työkalu syövän hoitotuloksen ennustamiseen edellyttää dataa ja kuvia

II asteen paksunsuolen syöpää pidetään sairauden varhaisena vaiheena, jolloin kasvaimen tunkeutuminen pysyy ”paikallisena” ilman, että etäpesäkkeet olisivat levinneet muualle kehoon. Kasvain voi myös ulottua rasvakudokseen tai viereiseen elimeen, mutta se ei ole levinnyt imusolmukkeisiin. Noin 75 prosentilla II asteen potilaista syöpä ei uusiudu, kun leikkauksesta on kulunut viisi vuotta.

”Valitettavasti 25 prosentilla potilaista syöpä uusiutuu, mutta nämä potilaat voisivat hyötyä operaation jälkeisestä kemoterapiasta. Kysymys onkin: kuinka arvioida, keillä potilaista on korkea riski saada syöpä uudestaan? Projektimme perimmäinen tavoite on tarjota paksunsuolen syövän ennustava työkalu. Luotettavien tulosten saamiseksi tarvitaan merkittävä määrä dataa ja kuvia. BIGPICTURE auttaa tarjoamalla tutkijoiden käyttöön suuret määrät dataa ja tekoälyyn liittyviä työkaluja. Tämä edistää luonnollisesti nopeammin tämän alan tutkimusta.”

Zidi-Mouaffak valitsee, annotoi ja analysoi skannattuja mikroskooppikuvia, jotka on saatu syöpäpotilaiden kirurgisista kudosnäytteistä. Kudosnäytteet on värjätty hematoksyliini-eosiini -tekniikalla, jolloin kudosten osat värjäytyvät pH:n mukaisesti.

Kaksi suomalaista biopankkia, Auria ja Helsingin Biopankki, toimittavat data-aineistoja, jotka sisältävät kokoleikekuvia varustettuna kuratoidulla metadatalla. Tällaisia tietoaineistoja käytetään koneoppimisen malleiksi konvoluuvio-neuroverkkojen avulla.

Auria Biopankista ja Helsingin Biopankista toimitetut kokoleikekuvat ovat dataa, jolla luodaan koneoppimisen. Tekoälymallit analysoivat kuvia, jotka on aiemmin valittu ja annotoitu.

“Patologina uskon, että koneoppimisella on potentiaalia patologien työn parantamisessa. Koneoppimisen algoritmeja voidaan käyttää diagnostiikan työkaluina rutiinitöissä, joissa ne olisivat ilmeisen nopeampia ja tarkempia kuin ihmissilmä.”

BIGPICTURE on eurooppalainen yhteenliittymä, jonka tarkoituksena on luoda tietoturvallinen ja eurooppalaista tietosuojaa noudattava tallennuspaikka ja alusta. Alustalle voi tallentaa kokonaisia mikroskooppileikekuvia sekä koneoppimisen algoritmeja, joiden ansiosta kuvien analysoiminen tekoälyn avulla onnistuu. Suomen ELIXIR keskus CSC rakentaa yhdessä Linköpingin ja Uppsalan yliopistojen kanssa patologisen datan tietokannan sisältäen turvallisen luvittamismekanismin patologisten kuvien ja niitä kuvailevien tietojen vastaanottamiseksi ja tallentamiseksi. Datan kuvailulla on keskeinen osa myös sen luvituksessa. BIGPICTURE nojaa ELIXIR AAI:n teknologioihin kuvantamisdatan luvittamisessa. Hankkeeseen osallistuvat organisaatiot ovat lupautuneet tuottamaan ja jakamaan kuvadataa.

Zidi-Mouaffak antaa muutamia esimerkkejä tekoälyn mahdollistamasta diagnostiikasta: solunjakautumisen tunnistaminen ja laskeminen (mitoosi), tiettyjen immuunisolujen laskeminen tietyillä alueilla tai solujen leviämisindeksien tarkka arvioiminen.

“Kuvadataan perustuvia tekoälytyökaluja, joita voidaan käyttää päätöksenteossa ennustettaessa sairauden lopputulemaa, on kuitenkin erittäin haasteellisia kehittää. Ne edelleenkin vaativat pitkiä testausjaksoja ja validointia ennen kuin niitä voidaan varsinaisesti käyttää kliinisessä työssä.”

Esimerkki annotoidusta hematoksyliini-eosiini-tekniikalla värjätystä digitaalisesta leikekuvasta.

Valtava määrä kuvia mahdollistaa tehokkaan tekoälyn kehittämisen

BIGPICTURE-projektissa luodaan ensimmäiseksi tallentamiseen tarkoitettu infrastruktuuri, joka mahdollistaa miljoonien erittäin isojen kuvatiedostojen käsittelyn, tallentamisen ja jakamisen. Patologiset kuvat voivat olla jopa gigatavujen suuruisia. Leikekuvat on varustettu metadatalla. Tämän materiaalin avulla voidaan kehittää tekoälytyökaluja, kuten algoritmeja. Syväoppimisen algoritmit opetetaan luokittelemaan morfologisesti samankaltaiset kohortit eli ne analysoivat näytteiden muotoja ja rakenteita. Tekoäly pystyy löytämään syöpään viittaavia piirteitä eli biomarkkereita ja ne voidaan todentaa.

“Viimeaikaisten tutkimusten perusteella uskomme, että tekoälyn soveltaminen etukäteen valittuihin digitaalisiin leikekuviin, jotka on saatu hyvin kuratoiduista kohorteista, voisi tarjota mielenkiintoisen vaihtoehdon käytössä oleville molekulaarisille ja morfologisille ennustaville markkereille.”

Tutkimusryhmän, jossa Zidi-Mouaffak on mukana, tavoitteena on kehittää ja todentaa uusi erilainen ja ennustava markkeri, joka voisi helpottaa II asteen paksunsuolen syöpää sairastavien potilaiden luokittelua.

Zidi-Mouaffakin mukaan syväoppimisen algoritmit voivat antaa yllättävän ja riittävän tarkkoja ennusteita tietyille syöpätyypeille, mutta monissa tapauksissa ei tiedetä, mihin algoritmi perustaa päätöksensä.

“Se on jonkinlainen musta laatikko. Tälle on selvästi lisätutkimuksen tarve ja säilytyspaikat, kuten BIGPICTURE-projektissa kehitetään, tulevat äärimmäisen relevanteiksi. Tämän tapainen tutkimus tarvitsee valtavia korkealaatuisia digitaalisia leikekuvia ja metadataa sisältäviä tietokantoja, mikä onkin BIGPICTURE-hankkeen tarkoitus.”

Ari Turunen

10.2.2022

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Yossra HS Zidi-Mouaffak, & Tommi Nyrönen. (2022). BIGPICTURE helps pathology go digital. https://doi.org/10.5281/zenodo.8154477

Lisätietoja:

BIGPICTURE

https://bigpicture.eu

HUS Helsingin yliopistollinen sairaala

https://www.hus.fi

Helsingin Biopankki

https://www.helsinginbiopankki.fi/

Auria Biopankki

https://www.auria.fi/biopankki/

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org http://www.elixir-europe.org

Sensitiivisen datan infrastruktuuri

Ihmisistä kerätyn biolääketieteellisen datan jakaminen on nykyaikana edellytys sairauksien ennaltaehkäisylle ja hoitamiselle. Suomen ELIXIR-keskus CSC rakentaa infrastruktuuria, jossa Suomen biopankeista ja tutkimusorganisaatioista saatu suostumukseen perustuva ihmisperäinen data on esikäsitelty ja kuvailtu sekä tietoturvallisesti tallennettu. Datan jakamisesta päättävät tahot voivat automatisoida lupaprosessiaan CSC:n alustan avulla. Siten datan luvanvarainen saatavuus tutkimukseen ja terveydenhuoltoon kohentuu.

Yksilölliset lääkehoidot ovat mahdollisia vain, jos potilasdataa on tarjolla ja se on tallennettu ja esikäsitelty oikein. Suomen Akatemian rahoittamassa hankkeessa luodaan infrastruktuuri, joka täyttää sensitiivisen datan tallentamiseen ja käyttöön liittyvät vaatimukset. Data on kliinistä rekisteridataa, genomitietoa ja biokuvantamiseen liittyvää aineistoa. Hankkeeseen osallistuvat CSC:n lisäksi biokuvantamisen infrastruktuuri Euro-Bioimaging, THL Biopankki sekä Suomen molekyylilääketieteen instituutti FIMM.

Hankkeessa luodaan ratkaisuja, jotta erilaisen datan saaminen tutkijoiden käyttöön olisi nopeaa ja helppoa. Data voidaan tallentaa CSC:n sensitiivisen datan infrastruktuuriin. Tutkijat saavat käyttöönsä tilan, jossa data ja laskentakapasiteetti ovat samassa paikassa. Tutkija pääsee vain sellaiseen dataan, johon on saatu datan omistajalta lupa. Hankkeessa hyödynnetään CSC:n kehittämää federoitua tietohallintoa. ELIXIR AAI ja REMS ovat CSC:n kehittämiä sovelluksia ELIXIR-infrastruktuurin käyttäjähallintoon.

Datan tietoturvallinen siirtäminen muuttaa terveydenhuoltoa merkittävästi seuraavien vuosikymmenten aikana. Hankkeessa tuetaan tekoälyalgoritmeja kehittäviä tutkijoita tarjoamalla heille laskentapalveluita, terveystiedon tehokkaampaa tutkimuskäyttöä sekä datan hallintaan liittyviä teknologioita. Samalla data-aineistojen yhteensopivuus kansainvälisten standardien kanssa varmistetaan.

Hankkeen työ on jaettu neljään pilariin: tekoälyalgoritmeihin, laskentapalveluihin, terveystiedon tutkimuskäyttöön ja datan hallintateknologiaan. Pilarit ovat teemoja, jotka yhdistettyinä tuottavat ratkaisuja sensitiivisen tiedon palveluiden rakentamiseksi. Kehitystyön onnistumista mitataan kolmen käyttötapauksen avulla, jotka tehdään yhteistyössä ELIXIRin, biopankkien osuuskunnan FINBB:n, THL:n sekä Euro-BioImaging Suomen ja FIMM:n kanssa.

Tietoturvallinen genomitiedon esikäsittely

Suomen molekyylilääketieteen instituutin ja Helsingin yliopistollisen keskussairaalan HUS:n sekvensointikapasiteettia tehostetaan niin, että se on suoraan yhteydessä CSC:n laskenta ja datapalveluihin. Genomidata siirretään CSC:lle huippunopean ja turvallisen valopolkuyhteyden ansiosta. Datan esikäsittely ja laadunvarmistus on nopeaa, koska data sijaitsee CSC:llä.

Kun sekvenssidata on fyysisesti lähellä laskentapalveluja, tutkija saa esikäsitellyn datan nopeammin. Kapasiteetilla voidaan sekvensoida tehokkaasti eksomeja, genomeja ja transkriptomeja.

Geenidatan ja kliinisen datan yhdistäminen vaatii vielä paljon datan tallennus- ja laskentakapasiteettia. CSC:n ja Barcelonan superlaskentakeskuksen (BSC) yhteinen projekti European HPC Center of Excellence for Personalised Medicine (PerMedCoE) toi henkilökohtaisen lääketieteen data-analyysimenetelmiä supertietokoneympäristöön. Hankkeessa kehitetyillä algoritmeilla pystytään merkittävästi lyhentämään analyysin vaatimaa laskenta-aikaa. Geeni- ja proteiinidatan analysointi nopeutuu, mikä helpottaa ja nopeuttaa sairauksien tunnistamista ja oikeiden hoitojen löytämistä. Sairauksien diagnosointi molekyylibiologian tietoa hyödyntämällä onnistuu jatkossa jopa tuntien tai päivien sisällä.

Biokuvantamisen aineistot ja tekoälyalgoritmi

Rintasyöpäsolu visualisoituna. EOSC -Life (European Open Science Cloud) on ELIXIR -infrastruktuurin koordinoima projekti, joka tavoitteena tarjota kaikille eurooppalaisille tutkijoille laajan valikoiman bioalan IT-palveluja. Sen tarkoituksena on integroida erilaiset federoidut infrastruktuurit ja datapalvelut. Kuva: Guillaume Jacquemet, Turku Bioscience Center, Ivaska Laboratory

CSC yhdessä Suomen biopankkien, Terveyden ja hyvinvoinnin laitoksen sekä Turussa toimivan Euro-BioImaginin kanssa kehittävät tekoälyalgoritmia lääketieteellisen datan louhimiseen.

Euro-BioImaging Finland tarjoaa kuvan tallentamiseen ja dataan liittyviä palveluja, kuten kuvakokoelmia. Kokoelmiin on tallennettu teratavujen verran kuvia, joita voidaan käyttää mm. referenssidatana. Materiaalia on planktonin kuvantamisesta syöpäsoluihin.

Euro-BioImaging Finland tarjoaa myös lääketieteellisen kuvantamisen aineistoja. Vapaan pääsyn kuvantamispalvelut kattavat Suomessa kuusi yliopistoa ja kolme yliopistosairaalaa. Käytössä ovat OMERO-palvelimet (Open Microscopy Environment), joiden ansiosta tutkijat voivat katsoa, organisoida, analysoida ja jakaa kuvia mistä paikaista tahansa, jossa on pääsy internetiin.

“Turussa on jo tuotantokäytössä kaksi uutta OMERO-serveriä kuvadatalle, toinen tutkimukseen ja toinen opetukseen. Molemmat palvelevat rajoitetusti myös koko maata. Nyt olisi tärkeää suunnitella, miten nämä voisi linkittää CSC:n palveluihin”, sanoo Euro-BioImagingin johtaja Pasi Kankaanpää.

Kankaanpää on kirjoittanut Nature Methods-julkaisusarjaan, jossa määritellään suosituksia kuvadatan hallinnointiin ja sen metadataan.

”Tämä lisää yhteistyötä ja korostaa samalla myös sensitiivisen datan hallinnan tärkeyttä. Datan hallinnointi ja sen käsittely on Euro-BioImaging Finlandissa yksi keskeisiä kehityssuuntia – sitähän heijastaa myös tämä Suomen Akatemian rahoittama hanke”, sanoo Kankaanpää.

Kansallisen biodatan käyttö tutkimuksessa

Tällä hetkellä genomidatan siirtäminen ja hyödyntäminen ei toimi yli rajojen. CSC kehittää genomidatan teknologioiden standardeja (mm. GA4GH.org Passport, Cloud, Beacon), joilla on myös merkitystä Euroopan ulkopuolella, kuten Pohjois-Amerikassa, Japanissa ja Australiassa. ELIXIR-infrastruktuurin tavoitteena on ottaa käyttöön globaalit genomidatan vastuullisen jakamisen standardit. Euroopassa on myös vahva halu luoda federoitu tietoturvainfrastruktuuri sensitiiviselle genomidatalle. Tarkoituksena on luoda Euroopan terveysdata-avaruus European Health Data Space (EHDS).

”ELIXIR on kehittänyt jo pitkään hyviä työkaluja tutkijoille – parantamaan käytettävyyttä luomalla uusia työkaluja. ELIXIRin yhteistyö Global Alliance for Genomic Health-konsortion kanssa on luonut hienon vision siitä, miten tämä globaali yhteistyö toimisi sekä konkreettisia työkaluja ja malleja”, sanoo THL Biopankin johtaja Sirpa Soini.

Biopankkien toimintaa yritetään saada yhteensopivaksi valtakunnan rajat ylittävään federoituun datainfrastruktuuriin. Tässä on yhteys EU:n jäsenmaiden ja komission rahoittamiin ”miljoonan genomin”-projekteihin (1+million genomes ja Beyond million genomes). Beyond million genomes-hankkeessa CSC johtaa teknistä infrastruktuurityötä.

THL Biopankki suunnittelee hankkeessa kansallisen terveysdatan hallinnointiprosesseja tutkimukseen. Tavoitteena on luoda tutkijoille ja opiskelijoille nopeampi pääsy Suomen eri biopankkien aineistoihin. Samalla dataa voidaan turvallisesti siirtää biopankeista CSC:n sensitiivisen datan ympäristöön ja jakaa aineistoja niille, jotka ovat saaneet käyttöluvan.

Sirpa Soini on hyvin perillä sensitiivisen datan käyttöön liittyvistä huolenaiheista ja sääntelystä. Hänestä tuntuu kuitenkin, että liian helposti syytetään EU:n yleistä tietosuoja-asetusta GDPR:ää kaikista vaikeuksista, vaikka moni jäsenmaa itse rajoittaa lainsäädännössään tai omissa tulkinnoissaan arkaluonteisen datan liikkumista. Soini on koulutukseltaan myös juristi ja hänen mielestään asiat ovat ratkaistavissa, jos poliittista tahtoa löytyy.

”Nyt tuntuu siltä, että monessa maassa sanotaan, että ei voida tehdä sitä tai tätä GDPR:n takia. Mutta se ei ole oikeasti se syy. Se ei ole syy Suomessa eikä muuallakaan ja tilanteeseen on olemassa ratkaisuja.”

Soinin mukaan GDPR ei rajoita datan käyttöä, vaan nimenomaan itse asiassa mahdollistaa sen, mutta vastuullisesti ja riskilähtöisesti. Kansallista lainsäädäntöä tarvitaan tukemaan joitakin käyttötapauksia.

Soinin mukaan datan toisiokäytössä on vaikeaa ennakoida tulevia käyttötarkoituksia. Mutta silloin pitäisi lähteä siitä, että lääketieteellinen ja soveltava tutkimus sekä tuotekehitys on mahdollista GDPR:n mukaan nimenomaan lakiperusteisesti.

”Silloin ei välttämättä suostumusta tarvita. Meillä voi olla laissa säädelty käyttötarkoitus yleisen edun nimissä ja asianmukaiset tietosuoja- ja tietoturvatoimenpiteet. Joka ikiseen asiaan ei tarvita täysimittaista yksityiskohtaista suostumusta sellaisenaan, vaikka läpinäkyvää informaatiota pitääkin edistää.”

Myöskään datan siirtoon ulkomaille ei ole Soinin mukaan absoluuttisia juridisia esteitä. THL Biopankissa sopimuksia datansiirrosta on tehty esimerkiksi Yhdysvaltoihin ja Australiaan.

”Ehdotin amerikkalaisille ja australialaisille juristeille yhteistyösopimusta, jossa korostetaan, mitä vastuita kullakin partnerilla on riskienhallintanäkökulmasta. Tärkeää, että sopimuksissa on tarkat rajoitukset ja että aineistot on pseudonymisoitu. Lisäksi aina mainitaan mihin data voidaan tallentaa. ”

Yksi säilöntäpaikka voi olla esimerkiksi Euroopan genomitiedon tietokanta EGA. Datan luovuttajien yksityisyyden suojaamiseksi tutkimukseen luvitettu tieto on pseudonymisoitu. Vain valtuutettu taho kuten THL voi purkaa pseudonymisoinnin.

Soini puhuu unelmapilvestä, jossa data ei itse asiassa liikkuisi.

”Dataa voitaisiin tallentaa tietoturvallisesti kansainväliseen tietokantaan. Haku ja tunnistautuminen olisi suoraan mahdollista ja saatavilla luottamusverkoston puitteissa edellyttäen, että datasetit olisivat valmiina. Tällöin jokainen rekisterinpitäjä kontrolloisi dataansa ja arvioisi pyyntöjä käyttää rekisteriä. Ideaalitapauksessa lupa voi kohdistua useisiin datasetteihin ympäri maailmaa, jolloin meillä olisi jonkinlainen federoitu ratkaisu: data itsessään ei liikkuisi vaan tutkija saisi käyttöönsä ”unelmapilven.” Siihen olisi tutkijoilla pääsy eri paikoista.”

Ari Turunen

30.12.2021

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Pasi Kankaanpää, Sirpa Soini, & Tommi Nyrönen. (2021). Sensitive data infrastructure. https://doi.org/10.5281/zenodo.8135532

Lisätietoja:

Suomen molekyylilääketieteen instituutti (FIMM), Helsingin yliopisto

www.fimm.fi

THL Biopankki

thl.fi/web/thl-biopankki

Euro-BioImaging

www.eurobioimaging.eu

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org http://www.elixir-europe.org

Tulevaisuudessa algoritmi voi tunnistaa glaukooman silmänpohjakuvista

Glaukooma eli vanhalta nimeltään silmänpainetauti on näköhermon etenevä sairaus, joka aiheuttaa vaurioita näköhermonpäähän ja hermosäiekerrokseen. Riski sairastua glaukoomaan suurenee iän myötä. Glaukoomaa esiintyy yli 50-vuotiailla noin 2%:lla ja yli 75-vuotiailla yli 5 %:lla. Maailmassa on arviolta yli 60 miljoonaa glaukoomaa sairastavaa potilasta, heistä noin 6 miljoonan arvioidaan olevan näkövammaisia.

Haasteena taudissa on, että glaukooma on usein alkuvaiheessa täysin oireeton tai vähäoireinen. Koska vaurioita ei voida korjata, tauti tulisi löytää mahdollisimman varhain. Hoidon tavoitteena on ehkäistä glaukoomasta johtuvaa näkövammaisuutta. Suurimmalla osalla potilaista tautimuutokset etenevät hitaasti vuosien aikana. Pienellä osalla potilaista tauti voi johtaa vaurioihin jo lyhyessä ajassa.

Glaukooman havaitsemisen ja etenemisnopeuden tunnistamiselle olisi tärkeää, että terveydenhuollon järjestelmien avulla löydettäisiin mahdollisimman varhain suuren riskin tapaukset. Glaukooman varhaisen havaitsemisen avuksi on nyt kehitteillä tekoälymalleja.

Tutkija ja projektipäällikkö Ara Taalas on erikoistunut datatieteeseen, tekoälyyn ja koneoppimisen algoritmeihin lääketieteessä. Yksi hänen tutkimuskohteistaan on kehittää tehokkaita oppivia algoritmeja glaukooman havaitsemiseen Suomen molekyylilääketieteen instituutin (FIMM) ja Terveystalon yhteisessä projektissa. Aiemmin Taalas on mallintanut kantasolujen erilaistumisprosesseja ja tehnyt lääkeainesuunnittelua.

Terveystalon erikoisalajohtajan ja ylilääärin Matti Seppäsen mukaan glaukooman diagnoosi ja luokittelu perustuvat näköhermon pään, hermosäiekerroksen ja kammiokulman tutkimiseen, silmänpaineen mittaamiseen sekä näkökenttätutkimukseen.

”Glaukooman tarkkaa syntymekanismia ei tunneta, mutta todennäköisesti glaukoomavaurioiden taustalla ovat vauriot hermosolujen rakenteissa.”

Todennäköisesti noin 30-50 prosentilla potilaista silmänpaine on niin sanotulla normaalialueella (10-21 mmHg). Potilailla on yksilöllinen alttius glaukoomavaurioiden kehittymiseen eri painetasoilla. Osalla potilaista syntyy glaukoomavaurioita alhaisemmalla painetasolla, osalla potilaista muutokset voivat olla vähäisiä vaikka painetaso olisi suurempi.

”Nykyisin glaukoomadiagnoosiin tarvitaan silmälääkärin tutkimus ja useita lisätutkimuksia. Näköhermon päätä voidaan tutkia mm. biomikroskopian ja stereopapillakuvauksen avulla. Hermosäiekerrosta voidaan arvioida esim. värisuodatetun silmänpohjakuvauksen tai hermosäiekerroksen valokerroskuvauksen (ns. OCT-tutkimus) avulla. ”

Tutkimuksissa glaukoomaepäily voi herätä esimerkiksi näköhermonpään muodon perusteella. Näköhermonpään rakennetta voidaan arvioida ns. cup/disc –suhteen mittauksella, jossa näköhermon keskuskuopan suuruutta verrataan näköhermonpään ulkoreunan suuruuteen.

”Hermosäiekerroksen vauriot voivat tulla esiin hermosäiekerroksen valokerroskuvauksessa ohentuneena hermosäiekerroksena. Silmänpohjan värisuodatetussa valokuvauksessa voidaan myös saada esiin hermosäiekerroksen puutoksia. Glaukoomadiagnoosi perustuu usein useaan eri tutkimukseen ja tällä hetkellä ei ole saatavilla yksittäistä tutkimusmenetelmää, jonka avulla glaukooman seulontaa väestötasolla olisi päästy toteuttamaan. Tekoälysovellukset voivat tulevaisuudessa tuoda seulontaan ja diagnostiikkaan merkittävää apua.”

Esa Pitkänen Molekyylibiologian instituutista FIMM:stä (Helsingin yliopisto) kertoo glaukooman tutkimisesta algoritmien avulla.

Algoritmi tunnistaa kuvioita hermokerroksista

Ara Taalaksen mielenkiinnon kohteena tekoälymallia kehitettäessä on mm. silmänpohjan hermokerrosten kuvautuminen kuvantamistutkimuksissa. Algoritmin avulla pyritään havaitsemaan silmänpohjakuvista niitä muutoksia, jotka voivat viitata hermosäiekerroksen vaurioon. Mallin avulla pyritään selvittämään, voivatko silmänpohjan hienosyiset verkottuneet muutokset muuttuessaan tummemmiksi ja monotonisiksi olla yhteydessä hermosäiekerroksen vaurioon.

”Tämä on yksi tekijöistä, joihin malli on kohdennettu. Jatkossa mallille opetetaan lisää silmänpohjan hermosäikeiden kuvioita. Tällaisten algoritmien tavoitteena on pyrkiä löytämään keinoja, jotka auttavat kehittämään päätöksentukijärjestelmiä lääkärin työhön. Pitkälle kehittynyt keinoäly voi löytää muutoksia, joita kokenutkaan kliinikon silmä ei välttämättä havaitse.”

Ara Taalaksen laatima tekoälymalli toimii niin, että silmänpohjankuva puretaan kolmeksi isoksi lukumatriisiksi, jotka vastaavat punaista, vihreää ja sinistä kanavaa. Punaisella kanavalla silmänpohjan kudoksen rakenne erottuu vahvemmin kuin muilla kanavilla. Malli kiinnittäää kaikilla värikanavilla huomion näköhermonystyyn eli papillaan. Tämän lisäksi punainen kanava kiinnittää huomiota papillaa ympäröivään kudokseen osaksi siksi, että punaisella kanavalla papillaa on vaikeampaa erottaa ympäröivästä kudoksesta. Verisuonet eivät siis kiinnitä mallin huomiota. Malli ilmoittaa punaisella, jos silmänpohjakuvassa on jotakin huomionarvoista. Kuvassa vasemmalla punainen, keskellä sininen ja oikealle vihreä värikanava.

Silmän rakennetta ja toimintaa mittaavissa tutkimuksissa esiintyy vaihtelua, joka johtuu käytössä olevasta tutkimusmenetelmästä, arvioijan kokemuksesta, tutkittavasta sekä taudin vaikeusasteesta. Näköhermon pään arvioimisella ei saavuteta aina riittävää tarkkuutta nykyisillä menetelmillä. Näkökenttätutkimus voi olla normaali, vaikka näköhermossa ja hermosäiekerroksessa esiintyisi vaurioita. Tämä johtuu siitä, että rakennevauriot tulevat yleensä ennen kuin näkökenttäpuutokset esiintyvät. Mikäli jatkossa pystytään kehittämään sovelluksia, jotka arvioivat aiempaa tarkemmin ja tehokkaammin rakenteellisia muutoksia, voidaan sillä varhaistaa glaukooman diagnostiikka.

Taalaksen mukaan eräänä sovelluskohteena mallille olisi, että tekoälymalli olisi käytettävissä aina kun tehdään näöntarkastus.

”Väestötutkimuksissa on todettu, että jopa puolet glaukoomaa sairastavista on tällä hetkellä diagnosoimatta. Nykyisillä seulontamenetelmillä ei ole päästy riittävän kustannusvaikuttavaan tulokseen ja yleisen väestöseulonnan esteenä on riittävän hyvien menetelmien puuttuminen.Jos keinoälysovellusten avulla pystytään riittävällä tarkkuudella tunnistamaan ne potilaat, joilla on keskimääräistä suurempi alttius sairastua glaukoomaan, voitaisiin oireettomasta väestöstä löytää sairaus helpommin jo niin varhaisessa vaiheessa että sen hoito olisi mahdollisimman tehokasta.”

Yhtenä tulevaisuuden visiona on, että esimerkiksi optikkokäynnin tai terveydenhoitajan tutkimuksen yhteydessä voitaisiin ottaa silmänpohjakuvaus ja samassa yhteydessä keinoäly analysoisi potilaan silmänpohjakuvan. Jos keinoäly ilmaisisi potilaalla olevan tavallista suuremman riskin glaukoomaan sairastumiseen, voitaisiin potilas ohjata jo varhaisessa vaiheessa jatkotutkimuksiin.

Tekoälysovellusten avulla työnjako tullee merkittävästi muuttumaan optisella alalla ja silmäsairauksien diagnostiikassa. Tämä tarjoaa myös avaimia merkittävästi lisääntyvän potilasmäärän hoitoon. Väestön ikärakenteen muuttumisen myötä glaukoomaa sairastavien potilaiden määrä Suomessa kaksinkertaistuu nykytasosta vuoteen 2030 mennessä.

Taalas on Suomen ELIXIR-keskuksen CSC:n laskentapalvelujen käyttäjä. Hän kehittää malleja yhteistyössä FIMM:in Machine Learning in Biomedicine-ryhmän tutkijoiden kanssa, ja samaa lähdekoodia pystytään käyttämään ristiin CSC:n ja Terveystalon laskentapalvelimilla.

”Suomessa ollaan datanhallinnassa nyt korkealla tasolla, mutta potilaista ei ole yksittäisillä terveydenalan toimijoilla tyypillisesti kaikenkattavaa kuvaa – potilasdataa on usein hajautuneena useille eri toimijoille. Kun asiakas vaihtaa organisaatiota, data ei aina liiku perässä, mikä voi vaikeuttaa hoidonohjausta. Tutkijan kannalta olisi ihanteellista, mikäli meillä olisi valtakunnallisesti keskitetty paikka, josta kansalaisen potilashistoria löytyisi kokonaisuudessaan.”

Myös datan kuvaaminen pitäisi saada standardoiduksi.

”Potilastietojärjestelmien rakenne vaikuttaa vahvasti syntyvän datan käytettävyyteen. Vapaatekstikentät ovat usein järjestelmän käyttäjälle miellyttäviä, mutta tuottavat tiedon hyödynnyksessä runsaasti päänvaivaa data-analyytikolle. Analyytikko joutuu usein tekemään runsaasti työtä tiedon standardoimiseksi, ja virheellisten kirjausten tunnistamiseksi. Modernit potilastietojärjestelmät ovat tässä mielessä menneet eteenpäin aiemmasta maailmasta, ja rakenteisuus korostuu niiden tietorakenteissa.”

Ari Turunen

23.11.2021

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Lila Kallio, Arho Virkki, & Tommi Nyrönen. (2021). Patient data creating better artificial intelligence models. https://doi.org/10.5281/zenodo.8135413

Lisätietoja:

Suomen molekyylilääketieteen instituutti (FIMM), Helsingin yliopisto

www.fimm.fi/fi

Terveystalo

www.terveystalo.com

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

Potilasdatan ansiosta saadaan entistä parempia tekoälymalleja

Ilman dataa ja sen uusiokäyttöä lääketieteellinen tutkimus ei edisty. Kerätyn datan ansiosta voidaan luoda hoitopäätösten tueksi tekoälymalleja, jotka nopeuttavat diagnooseja. Uusia datan analyysitekniikoita tulee koko ajan lisää, mutta miten data saataisiin kaikkien tutkijoiden käyttöön?

Suomeen perustettavan Genomikeskuksen yksi vahvuuksista on biopankkien tietokannat. Keskus vastaisi kansallisen genomitietorekisterin kehittämisestä eli keskitetystä geneettisen tiedon tallennuksesta ja hallinnoinnista. Tarkoituksena olisi saada aikaan laadukas suomalaisten geneettistä variaatiota kuvaava tietokanta. Auria Biopankin johtaja Lila Kallio uskoo, että biopankkien ja Genomikeskuksen hyvä yhteistyö voi johtaa merkittäviin tuloksiin geenivarianttien seulonnassa.

”Kun Genomikeskus on perustettu ja se aloittaa toimintansa, voitaneen tutkimuksessa tuotettu genomitieto tallentaa myös genomikeskukseen. Genomikeskus voisi sitten analysoida uudelleen sinne talletettua genomidataa vasten kaiken aikaa karttuvaa referenssigenomitietoa. Näin esimerkiksi uusien tunnistettujen kliinisesti merkittävien varianttien seulonta olisi mahdollista jo aiemmin tuotetusta ja tallennetusta datasta,” sanoo Lila Kallio.

Vuonna 2013 Suomessa säädettiin laki biopankeista. Laki mahdollisti biopankkien perustamisen. Suomessa on tällä hetkellä 11 biopankkia. Vuonna 2020 biopankkien verkostoon liittyi Arctic Biopankki, joka säilyttää Oulun yliopiston Pohjois-Suomen alueelta keräämiä laajoja väestöaineistoja. Tutkijat voivat Suomessa hyödyntää kaikkien biopankkien aineistoja Fingenious-verkkopalvelun kautta. Fingenious on digitaalinen työkalu, jonka kautta tutkija voi jättää aineiston luovutuspyynnön. Palvelusta vastaa Suomen biopankkien osuuskunta FINBB.

”Biopankit säilyttävät näytteisiin liittyvää dataa tietoturvallisesti. Biopankkien näytteisiin liittyvä tieto on kaikkien tutkijoiden käytettävissä. Tutkijalla tulee olla tutkimussuunnitelma, jonka biopankkien ohjausryhmät tai eettinen toimikunta hyväksyy. Näytteiden ja niihin liittyvän datan saamiseksi tutkimuskäyttöön biopankeilla on valmis prosessi olemassa.”

Suomessa on poikkeuksellisen kattavat ja laadukkaat terveysalan tietovarannot. Vuonna 2019 Suomessa tuli voimaan laki terveystietojen toissijaisesta käytöstä. Datan toisiokäyttö tarkoittaa sitä, että sosiaali- ja terveydenhuollon asiakas- ja rekisteritietoja käytetään muussa kuin siinä ensisijaisessa tarkoituksessa, jonka vuoksi ne on alun perin tallennettu. Laki toisiokäytöstä on luonut paineita myös vuonna 2013 säädetyn biopankkilain uudistamiselle. Datan merkitys biolääketieteen tutkimuksessa kasvaa ja lainsäädännön olisi luotava edellytykset sekä tutkimukselle että tarkoituksenmukaiselle tietoturvalle.

Toisiokäyttö luonnollisesti edellyttää, että ihmisistä kerättyjen tietojen hallinnointi on tietoturvallista. Biopankkeihin saatu ja ihmisistä kerättyjen näytteiden tunnistedata suojataan tarkasti.

”Biopankissa näytteistä poistetaan henkilötunnisteet, jotka korvataan pseudonyymikoodilla. Kun näytteitä luovutetaan edelleen tutkimuksiin, korvataan pseudonyymi vielä uudella, tutkimuskohtaisella koodilla. Koodiavain säilytetään biopankissa. Jos alkuperäiseen näytteeseen pitää palata esimerkiksi siitä löytyneen kliinisesti merkittävän tiedon vuoksi, voidaan se tehdä koodiavaimen avulla,” Kallio sanoo.

Koodiavain mahdollistaa datan uusiokäytön ja tutkimuksen tulevaisuudessa.

”Mikäli näyte anonymisoitaisiin eli tehtäisiin täysin tunnisteettomaksi, siihen palaaminen mahdollisten biopankkitutkimuksessa tehtyjen löydösten vuoksi ei olisi mahdollista, eikä siihen jälkeenpäin myöskään voisi liittää enää lisää näytekohtaista tietoa.”

Lila Kallion mukaan näytteen todellinen arvo muodostuu siitä tuotetusta datasta.

”Dataa syntyy diagnostiikan ja hoidon yhteydessä. Myös tutkimuksissa syntyy näytteestä analysoitua tietoa, mikä tulee palauttaa näytteen omistavalle biopankille liitettäväksi näytteeseen. Biopankki hallinnoi tunnistedatan lisäksi näytteeseen liittyvää kliinistä sekä tutkimuksessa tuotettua dataa.”

Toiveena erilaisia suojaustasoja datan käytölle

Datan toisiokäyttöä koskeva laki keskitti lupaprosessin hallinnoinnin uudelle viranomaiselle Findatalle. Ongelmaksi on tullut lupahakemusten ruuhkautuminen. Hakijat ovat kaikki samalla viivalla riippumatta siitä, koskeeko pyyntö pieniä tai äärimmäisen suuria aineistoja.

Aurian tietopalvelujohtaja ja lääketieteellisen matematiikan dosentti Arho Virkki tähdentää, että aineistolle on moninaista käyttöä ja siksi käyttötarkoituksen pitäisi myös määrittää datan suojaamisen tason. Datan toisiokäytön tietoturvaharppaus Suomessa oli Virkin mielestä liian iso askel yhdellä kertaa.

”Äärimmäinen suojaaminen huonontaa datan saatavuutta, jolloin tietoturva ei ole optimaalisella tasolle. Minulle optimaalinen tietoturva tarkoittaa, että aineisto on saatavilla ja sitä voidaan hyödyntää lääketieteen kehitykseen, uusien hoitojen suunnitteluun ja hoidollisten prosessien ohjaamiseen. Optimaalista on, että tieto on käytettävissä mutta samalla riittävästi suojattu. Suojaamisen tason pitäisi tulla riskiperusteisuudesta.”

Koska datanhallinta on kiinteä osa lääkärien ja hoitajien ammattia, datan hyödyntämiseen pitäisi Virkin mielestä löytää tasapaino aineiston saatavuuden ja suojaamisen välillä. Nyt se on heilahtanut toiseen ääripäähän.

”Aineiston käsittely on esimerkiksi osa lääketieteen opiskelijoiden opintoja. Yksi osahan kouluttautumista on, että opiskelijat käyvät läpi operatiiviset järjestelmät ja poimivat itse tietoja oppiakseen.”

Virkin mielestä ongelma on pitkän aikaan ollut tietoarkkitehtuuri. Lääketieteen ja terveydenhuollon defensiivisyyden ja sääntely takia tietoarkkitehtuuri on perinteistä verrattuna esimerkiksi logistiikkaan tai finanssialaan. Sen takia erilaisten tietojärjestelmien integraatio ei ole hyvä.

Virkki toki myöntää, että sairaalat ovat monimutkaisempia paikkoja kuin esimerkiksi logistiikkakeskukset. Logistiikassa paketti menee linjalle ja se kirjataan järjestelmiin, mutta kun potilas tulee sairaalaan, erilaisia kirjauksia ja järjestelmiä on valtava määrä.

Laki datan toisiokäytöstä määrittelee Virkin mukaan kuitenkin liian tarkasti sen, että yksi järjestelmä sopisi kaikille. Virkin mielestä luvan antaja voisi määrittää erilaisia käyttöympäristöjä tutkijoiden tarpeista riippuen.

”Luvanantaja voisi antaa perustasoisen ympäristön, mikä kelpaa yksinkertainen taulukkolaskenta-tyyppiseen data-analyysiin ja jossa olisi käytettävissä tavallisia tilastotieteen ohjelmointikieliä.”

Jos tutkijat taas tarvitsevat oman ympäristön, tutkijoille pitäisi antaa tarkat ohjeet tietoturvasta jaedellyttäätutkijoiden vakuutukset ohjeiden noudattamisesta.

”Tällöin viranomaiset vastaisit tietoturvan varmistamisesta ja tutkijat vastaisivat toiminnastaan tutkimusrekisterin pitäjälle, eli tutkimusta johtavalle kokeneelle tutkijalle, kuten tähänkin asti. Loppupeleissä on tutkijoiden vastuulla varmistaa, että tutkimustulokset ovat oikein, rehellisiä, tieteellisiä ja anonyymejä.”

Suomessa lääketieteen alan ihmisillä on Virkin mukaan korkea ammattiylpeys ja lääketieteellisen aineiston käsittely on ollut tähänkin asti alan tutkijoilla asianmukaisesti hoidettu. Virkin mielestä tietoturvasta voidaan huolehtia luvanvaraisuuden lisäksi koulutuksella. Tietoturva pitäisikin ottaa osaksi lääketieteen opetusta. Virkki käy säännöllisesti puhumassa Turun yliopistossa kliiniset tutkimuksen perusteet -kurssilla tietoalustoista ja tietoturvasta.

Datan toisiokäyttö luo edellytykset tekoälyn hyödyntämiselle lääketieteesssä

Virkin mukaan lakia datan toisiokäytöstä on alettu korjata. Jos säädökset datan toisiokäytöstä saadaan joustavimmiksi ja lupaprosessit nopeutuvat, tarjoaa se monia mahdollisuuksia tekoälytutkimukseen.

”Nyt kun Suomessa sosiaali- ja terveydenhuollon uudistus meni läpi, on hyvät edellytykset yhdistää perusterveydenhoidon ja erikoissairaanhoidon potilastiedot eli potilasdataa voidaan tarkastella kokonaisuutena. Se puolestaan antaa mahdollisuuksia kehittää uusia tekoälysovelluksia kliiniselle puolelle. ”

Tekoälymallien algoritmit voivat tehdä tekstipohjaisia analyyseja potilaskertomuksia tai oppia tunnistamaan kuvista piirteitä, joita voidaan hyödyntää diagnooseissa.

”Tekoälyhän on itse asiassa modernia tilastotiedettä, tilastomatematiikan hienostunut sovellus. Tekoälymalleissa hyödynnetään monimutkaisia tilastollisia menetelmiä. Kun puhutaan koneoppimisesta tarkoitetaan tilastollista oppimista. Nykyään voidaan laskea niin tarkkoja tilastomalleja, että se suorastaan tuntuu taikuudelta.”

Tekoälymallit ovat kiinnostaneet Virkkiä pitkään. Omassa väitöskirjatutkimuksessaan hän laati tekoälymallin ihmisen nukkumisen aikaiseen aineenvaihduntaan. Viime aikoina hän on ollut kehittämässä keuhkoveritulpan ennustemallia tutkijoiden kanssa. Mallia käytetään päätöksenteon työkaluna. Keuhkoveritulppa syntyy, kun muualta elimistössä liikkeelle lähtenyt verihyytymä tukkii keuhkoihin johtavan valtimon. Yleisin oire on äkillinen hengenahdistus. Isoissa keuhkoveritulpissa käytetään verihyytymien liuotushoitoa, jolloin laskimoon annetaan pistokselle veren hyytymistä estävää ainetta.

”Jos on epäilys, että päivystykseen tullut potilas on saanut keuhkoveritulpan, on toimittava nopeasti. Kone pystyy nopeasti vilkaisemaan kuvapakan läpi ja neuvomaan radiologia, mitä kohtaa kuvasta kannattaisi katsoa tarkemmin. Sitten päätetään, pitääkö aloittaa liuotus. Jos ei, niin hoitolinja on toinen. Kaikki pitäisi pystyä tekemään alle 10 minuutissa: keuhkojen kuvaus, diagnoosi ja hoidon aloittaminen.”

Virkin mukaan malli keuhkoveritulpasta oli ensimmäinen tieteellinen testi, jossa yritettiin ratkaista vaikeaa ongelmaa hyvin pienellä määrällä dataa. Laajempi ja tarkempi tekoälymalli on kuitenkin kehitteillä. Tulossa on tieteellisten julkaisujen lisäksi väitöskirjoja.

”Toteutuessaan malli nopeuttaa päätöksentekoa hoitotilanteessa, mutta se auttaa myös laaduntarkkailussa. Voimme esimerkiksi seuloa jälkikäteen tuliko havaittua kaikki pienetkin keuhkoveritulpat.”

Tekoälymallien kehittäminen edellyttää paljon dataa, joilla algoritmeja opetetaan sekä laskentatehoa.

Varsinais-Suomen sairaanhoitopiiri käyttää Suomen ELIXIR-keskuksen CSC:n ePouta -pilvipalvelua ja sairaanhoitopiiriin on saatu CSC:n laskentaympäristöön dedikoitu 10 gigabitin yhteys. Virkki toivoo tutkijoille parempaa pääsyä ELIXIR-verkostoon.

”Olisi hienoa, jos tutkijoilla olisi mahdollisuus saada kapasiteettia suoraan ELIXIR-infrastruktuurilta käyttöönsä. Tietoaineisto tulisi suoraan ELIXIRin ympäristöön ja ELIXIR pitäisi huolen riittävästä laskentakapasiteetista.”

ELIXIR-infrastuktuurin Suomen toiminnasta vastaa CSC – Tieteen tietotekniikan keskus. CSC hallinnoi resursseja ja palveluja, jotka ovat osa ELIXIRiä, kuten tunnistautumis- ja auktorisointipalvelut (ELIXIR AAI). ELIXIRissä tavoitteena on muodostaa yksi yhteinen, eurooppalainen tutkimusinfrastruktuuri, jonka ansiosta bio- ja terveystieteiden tutkijat voivat aiempaa helpommin löytää, analysoida ja jakaa aineistojaan. Tutkija voi käyttää ELIXIRin tunnistautumis- ja auktorisointipalveluja luodakseen turvallisen analyysiympäristön ja päästäkseen käsiksi pilveen tallennettuihin tutkimusaineistoihin.

Tekstipohjainen tekoälymalli

Lääkärin kirjoittamaa tai sanelemaa tekstiä voidaan hyödyntää tekoälymalleissa, jotka ovat hoitosuositusten ja diagnoosien apuvälineinä. Lausunnoista ja lauseista voidaan rakenteistaa dataa ja opettaa alogoritmi tekemään päätelmiä. Auria biopankin ja Turun yliopistollisen keskussairaalan ja Turun yliopiston hankkeessa tekoäly opetettiin lukemaan lähes 30 000 potilaskertomuksista tupakointia käsitteleviä teitoja. Tutkija Antti Karlssonin vetämässä hankkeessa hyödynnettiin kielimallia nimeltä ULMFiT. Malli koulutettiin VSSHP:n analyysikoneilla suomenkielisen Wikipedian tekstimassaa hyödyntäen. Tämän jälkeen mallista koulutettiin luokittelija käyttäen noin 5000 tupakointiin liittyvän, käsin annotoidun lauseen aineistoa. Nykyään saatavilla on myös kehittyneempiä, valmiiksi esikoulutettuja suomenkielisiä kielimalleja, joista kuuluisin lienee Googlen BERT-malliin perustuva FinBERT. Sen on tuottanut Filip Ginterin vetämä Turun yliopiston tutkimusryhmä käyttäen Suomen ELIXIR-keskus CSC:n laskentatehoa.

Tekoälymallin keräämää dataa hyödyntämällä tutkimus osoitti, että tupakoinnin lopettaminen vaikka vasta syövän diagnoosihetkeen saattaa pidentää elinikää huomattavasti.

”Olen varma, että tulevaisuuden potilastietojärjestelmät eivät ole kaavakemaisia alasvetolaatikoineen, vaan nimenomaan proosallista potilaskertomusta tukevia ja siitä tiedot automaattisesti rakenteistavia versioita,” Karlsson sanoo.

”Tämä on työn tehokkuuttakin ajatellen tärkeää. En halua edes ajatella, millaista monimutkaisien asioiden kirjaaminen mahtaa olla kiireisessä lääkärin arjessa.”

Kun louhitaan isoa massaa dataa, säästetään tavattomasti aikaa ja rahaa. Antti Karlssonin kouluttama tekoälymalli analysoi potilastietoa tupakointiin liittyen. Em. tutkimuksessa malli analysoi 30 000 potilaan sairaskertomuksista saatua tekstidataa. Karlssonin mukaan tällaisia malleja käyttämällä saadaan yli 90% tarkkoja analyyseja jopa tunneissa tai minuuteissa. Se on eri asia kuin että manuaalisesti luettaisiin 30 000 potilaan tekstit ja kerättäisiin muuttujat taulukkoon.

”Parhaassa tapauksessa nämä mallit voisivat olla valmiina saatavilla tietoaltaassa ja voisivat rakenteistaa esimerkiksi tätä tupakkatietoa automaattisesti juuri tutkimuskäyttöä varten,” sanoo Karlsson.

Malli ei anna yksittäiselle potilaalle hoito-ohjetta, mutta luo hyvän kokonaiskuvan.

”Uskon, että ainakin aluksi tulevaisuuden automaattiset järjestelmät keräävät pikemminkin raportointiin ja tutkimukseen tärkeää dataa, kun taas todella tärkeät asiat, kuten esimeriksi lääkeannokset tai allergiat täytyy vielä asiantuntijoiden tarkistaa ja syöttää tiedot manuaalisesti.”

Ari Turunen

26.10.2021

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Pasi Kankaanpää, Sirpa Soini, & Tommi Nyrönen. (2021). Sensitive data infrastructure. https://doi.org/10.5281/zenodo.8135532

Lisätietoja:

Karlsson et al. (2021): Impact of deep learning-determined smoking status on mortality of cancer patients: never too late to quit. Esmo Open Cancer Horizons. Vol 3. Issue 3.

https://www.esmoopen.com/article/S2059-7029(21)00135-6/fulltext

Auria Biopankki

www.auria.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org http://www.elixir-europe.org

Algoritmi opetetaan tunnistamaan syöpä sekvenssidatasta

Syväoppiminen on mullistanut syöpäsairauksien tutkimisen. Syvillä neuroverkoilla voidaan automaattisesti löytää potilaan näytedatasta piirteitä, joiden perusteella voidaan tunnistaa syöpiä. Oppivat algoritmit voivat tunnistaa jatkossa verinäytteestä mahdollisia syövän esiasteita. Esa Pitkänen ja hänen tutkimusryhmänsä Suomen molekyylilääketieteen instituutista kehittävät uuden sukupolven syväoppimisen algoritmeja.

Algoritmeja on hyödynnetty kudosnäytteiden leikekuvien solujen tunnistamisessa. Esimerkiksi jos kudoksen solut näyttävät epätyypillisiltä, algoritmi tunnistaa sen ja päättelee onko kyseessä syöpä. Nyt kuvantamisdatan rinnalla käytetään syöpien tunnistamisessa kasvaimista saatua DNA-sekvenssidataa.

”Aikaisemmin on ollut vaikea sanoa DNA-sekvenssin perusteella, minkälaisesta kasvaimesta sekvenssi on tullut. Nyt on luotu uusia tekniikoita ja syväoppimisen algoritmeja”, sanoo tutkija Esa Pitkänen.

Pitkänen ryhmineen kehittää algoritmeja, jotka tunnistavat DNA-sekvensseistä lyhyitä, toisteisia pätkiä. Algoritmien avulla voidaan löytää pätkiä, jotka mutatoituvat tietyssä syöpätyypissä usein tai joihin tietyt geenien säätelyyn osallistuvat proteiinit sitoutuvat. Näitä pätkiä analysoimalla voidaan saada tietoa esimerkiksi syöpäsairauksien syiden kartoittamiseen ja lääkkeiden kehittämiseen.

”DNA:n kopioituminen solun jakautumisen yhteydessä ei ole täydellistä. Kun solu jakautuu niin on mahdollista, että mutaatioita syntyy. Kun solu jakautuu, kopioitavaa DNA:ta on kuuden miljardin merkin verran eli virheitä tapahtuu. Pienikin todennäköisyys riittää että mutaatioita tulee”, sanoo Pitkänen.

”Jos riittävästi mutaatioita tapahtuu esimerkiksi kasvaimen syntyä ehkäisevissä geeneissä, syöpä voi alkaa kehittyä.”

Esimerkiksi pistemutaatiossa yksi emäs vaihtuu toiseksi DNA-ketjussa. Virhe voi syntyä, kun solun jakautuessa DNA kopioidaan ja kopioinnista vastaavat entsyymit korjaavat esimerkiksi auringonvalon ultraviolettisäteilystä vaurioituneen kohdan väärin. Ihosyöpää aiheuttavan ultraviolettisäteilyn aikaansaama tyypillinen mutaatio on se, että ihmisen DNA:n emäspareissa kaksi peräkkäistä sytosiinia (C) muuttuvat kahdeksi tymiiniksi (T). Kun tällaisia, ihosyövälle tyypillisiä mutaatioita havaitaan riittävästi, oppivat algoritmit yhdistämään mutaatiot tiettyyn syöpätyyppiin.

”Yritämme ennustaa mutaatioiden perusteella mikä syöpätyyppi ja kasvain on kyseessä. Samalla saadaan tietoa, joka voi vaikuttaa hoitoon.”

Algoritmi tunnistaa verinäytteestä saadusta DNA:sta syövän

Pitkänen ryhmineen analysoi sekvenssijaksoja ja algoritmeja opetetaan tunnistamaan sekvenssijaksojen poikkeavuuksia. Näistä poikkeavuuksista algoritmi pystyy tunnistamaan, että kyseessä on kasvain ja luokittelemaan kasvaimet eri syöpätyyppeihin.

“Ennen siirtymistäni Suomen molekyylilääketieteen instituuttiin olin Euroopan molekyylibiologian laboratoriossa EMBL Heidelbergissä, jossa osallistuin PCAWG-syöpägenomiprojektiin. Projektissa analysoitiin yli 2600 syövän kokogenomia. PCAWG-data toimii aineistona useassa ryhmäni syöpägenomiikkaa käsittelevissä projekteissa.”

Esa Pitkäsen ryhmän kehittämälle algoritmille on opetettu näiden 2600 syöpäpotilaan kasvainnäytteistä löydetyt löytyneet mutaatiot, joita on yhteensä 47 miljoonaa.

“Algoritmi on koulutettu siten, että se yrittää näistä sekvenssien muutoksista päätellä syöpätyypin. Kun algoritmille on annettu eri kasvainten kaikki mutaatiot sekvensseineen, se pystyy jatkossa päättelemään minkälainen kasvain on kyseessä. Päättely perustuu siihen, että algoritmi oppii nämä yhteydet.”

Algoritmi oppii kasvaimissa olevan sekvenssidatan poikkeamien kautta tunnistamaan, että kyseessä on tietylle syövälle olennainen mutaatio. Algoritmi pystyy ryhmittelemään kasvaimet pelkän sekvenssidatan perusteella.

”Ryhmässäni tutkija Prima Sanjaya on kehittänyt neuroverkkomalleja sekvenssidatan analysoimiseen. Silloin tällöin törmätään metastaattisiin eli levinneisiin syöpiin, josta ei tiedetä mistä se on levinnyt. Tulevaisuudessa voidaan hyödyntää myös ns. nestebiopsiaa. Tällöin pystytään toivottavasti verinäytteestä sanomaan, onko potilaalla syöpä ja jos on niin minkälainen.”

Esa Pitkänen ja hänen tutkimusryhmänsä hyödynsivät yhtä suurimmista syöpänäytteiden (PCAWG) datakokoelmaa, joka koostuu 47 miljoonasta mutaatiosta. Data on peräisin 2600 potilaan kasvainnäytteistä, jotka on sekvensoitu. Kokoelmassa oli 37 eri kasvaintyyppiä eri syövistä, kuten paksusuolensyövästä, keuhkosyövästä ja melanoomista. Prima Sanjaya teki koneoppimismallin syvillä neuroverkoilla, joka ottaa huomioon kunkin potilaan sekvenssidatan ja ikään kuin heijastaa tämän datan kaksiulotteiseen karttamuotoon. Tässä kuvassa jokainen piste on yksi erillinen potilaalta saatu kasvain . Värit ovat eri kasvaintyyppejä. Mielenkiintoisesti malli ryhmittelee paksusuolensyövät yhteen mutta myös näkee eron kolmen alatyypin välillä (merkitty kuvaan nuolilla).

Nestebiopsia perustuu siihen, että elimistön solut vapauttavat verenkiertoon ja ruumiinnesteisiin DNA:ta, jota kutsutaan solunulkoiseksi tai soluvapaaksi DNA:ksi (cell free DNA, cfDNA). Myös syöpäsoluista vapautuu DNA:ta, joka mahdollistaa syöpämutaatioiden etsimisen veren plasmasta.

“Jos nestebiopsiassa näkyy jälkiä syövästä, emme tiedä suoraan mikä syöpä on kyseessä, koska se voi tulla verenkiertoon mistä vain kehosta. Jos meillä on keinoja katsoa tarkemmin, kuten syväoppimisen algoritmit, saamme arvokasta tietoa, mihin kohtaan potilaan kehossa tutkimus pitää suunnata. Algoritmi voi kehottaa katsomaan esimerkiksi paksusuoleen. Uskon, että tulevaisuudessa tällaisilla algoritmeilla on suuri merkitys. Nestebiopsian ja algoritmien ansiosta voidaan tehdä tutkimusta ilman potilasleikkauksia”

Algoritmi suolistosyövien tunnistamisessa

Syövän syntyyn vaikuttavat perintötekijöiden lisäksi elintavat. Helsingin yliopistossa on tutkittu paljon esimerkiksi suolistosyöpiä.

”Se tiedetään, että punaisen lihan syömisellä on yhteys paksunsuolen syövän syntyyn. Syntymekanismit vaativat vielä lisätutkimuksia mutta esimerkiksi punaisen lihan aiheuttamien DNA:n alkylaatioreaktioiden merkitystä on selvitetty viime vuosina paljon.”

Paksunsuolen syöpä (CRC) on yksi vaarallisimpia syöpiä länsimaissa ja johtaa 30% tapauksissa esimerkiksi Suomessa kuolemaan. Noin 15% paksunsuolen syövistä kuuluvat joukkoon, jossa esintyy ns. mikrosatelliiti-instabiliteettia (MSI). Mikrosatelliitit ovat DNA:n toistojaksoja, joiden pituus vaihtelee yksilöstä toiseen ja ovat siten yksilöllisiä “sormenjälkiä”. Mikrosatelliiti-instabiliteetissa solun DNA:n replikaation jälkeinen korjausmekanismi ei toimi, jolloin mutaatioita alkaa kertyä erityisesti mikrosatelliitteihin.

”MSI-kasvaimessa mikrosatelliitteihin tulee helposti yhden emäksen lisäyksiä tai poistoja. Esimerkiksi kahdeksan peräkkäisen adeniinin mikrosatelliitista häviää yksi adeniini. Osuessaan geeniin tällainen muutos aiheuttaa geenin koodaaman proteiinin aminohappoketjun sisällön muuttumisen täysin. Jos riittävästi muutoksia tapahtuu hallitsematonta solujakautumista estävissä geeneissä, saattaa syövän kehittyminen alkaa.”

MSI liittyy usein paksunsuolensyövän lisäksi muihin syöpiin, kuten vatsasyöpiin, kohdunrungon ja munasarjan syöpään tai aivosyöpään. Syövän ennusteen arvioinnissa voidaan käyttää apuna MSI-analyysiä. Analyysin perusteella on joskus mahdollista määrittää sopiva hoito.

”Mielenkiintoista on, että syvä neuroverkko oppii myös luokittelemaan eri syöpien alalajeja. Se tunnisti esimerkiksi suolisyöpien MSI-alatyypin”, Pitkänen sanoo.

Suomen ELIXIR-keskus CSC on yksi pääpartnereita PerMedCoE-hankkeessa. Kolmevuotisen HPC/Exascale Centre of Excellence in Personalised Medicine -hankkeen (PerMedCoE) avulla esimerkiksi syöpään liittyvä data saadaan tehokkaasti terveydenhoidon käyttöön ja diagnoosit nopeutuvat.

”Tulevaisuuden yksilöidyt hoidot kuten syöpähoidot rakentuvat täsmälliseen käsitykseen potilaasta ja hänen sairaudestaan. Tämä käsitys muodostetaan keräämällä suuri määrä erilaista tietoa, kuten syöpää hoidettaessa kasvaimen genomi- ja kuvantamistietoa. Monet tiedonkeruumenetelmät tuottavat valtavan määrän tietoa, joiden analysoimiseksi kehitetyt uudet laskennalliset menetelmät puolestaan vaativat suuria laskentaresursseja”, Pitkänen toteaa.

”Uuden laskennallisen menetelmän kehittäminen ideasta toimivaksi, terveydenhoidossa käytettäväksi työkaluksi on tällaisessa toimintaympäristössä valtava haaste. Erityisesti syöpähoidoissa on tärkeää, että potilaan hoitoon vaikuttava tieto saadaan lääkärin käyttöön mahdollisimman nopeasti. Uskon, että PerMedCoE:n tuloksilla luodaan pohjaa sille, että valtavasta terveystietomäärästä voidaan lääkärin avuksi jalostaa merkityksellistä tietoa ja näin parantaa hoitotulosta merkittävästi.”

Ari Turunen

16.9.2021

Lue artikkeli PDF-muodossa

Citation

Ari Turunen, Esa Pitkänen, & Tommi Nyrönen. (2023). Teaching an algorithm to identify cancer from sequence data. https://doi.org/10.5281/zenodo.8135303

Mutaatioiden lähteet

Mutaatioiden lähteinä ovat 1.ulkoiset tekijät: esimerkiksi auringon UV-säteily. 2.sisäiset tekijät: spontaani deaminaatioreaktio eli emäksen amiiniryhmän muutos, jolloin alkuperäinen emäs muuttuu joksikin toiseksi, esimerkiksi adeniini urasiiliksi 3. DNA:n kopioinnissa aiheutuneet virheet.

Mutaatio tarkoittaa muutosta DNA:n tai RNA:n nukleotidijärjestyksessä. Nukleotidiin kuuluu emäs, sokeri ja fosfaatti. DNA:n sokeri on D-deoksiriboosi ja RNA:n D-riboosi. DNA:n emäksiä ovat guaniini (G), adeniini (A), sytosiini (C) ja tymiini (T). RNA:n emäsosassa tymiinin tilalla on urasiili (U). Mutaatio voi olla vain yhden nukleotidin muutos eli pistemutaatio, tai se voi käsittää useita nukleotideja. Pistemutaatiossa yksi emäs vaihtuu toiseksi RNA- tai DNA-ketjussa. Iso mutaatioita, jotka voivat käsittää tuhansia nukleotideja, kutsutaan rakennemuutoksiksi.

Rakennemuutos voi vaikuttaa yhtä aikaa useaan geeniin. Syövät ovat yleensä useiden somaattisten mutaatioiden aiheuttamia; somaattiset mutaatiot eivät periydy, ja niitä voi syntyä milloin tahansa alkionkehityksen aikana ja sen jälkeen. Mutaatioiden seurauksena normaalin solun toiminta voi muuttua siten, että solu alkaa jakautua hallitsemattomasti. rilaisia mutaatiotyyppejä mutaatioiden jakautuminen kromosomeihin epigeneettinen tieto. Epigeneettiseen periytymiseen vaikuttavat monet ulkoiset tekijät, kuten esimerkiksi ravinto. Esimerkiksi identtiset kaksoset, voivat kehittyä ulkoisilta olemuksiltaan erilaisiksi. Mutaatioiden mallintaminen lineaariset mallit syvät neuroverkot transformer-mallit. Transformerit ovat syväoppimismalliperhe, jotka toimivat erityisen hyvin esim. tekstimuotoiseen dataan, sovelluksena vaikkapa konekääntäminen. Syöpätutkimuksessa transformer-mallit voivat kiinnittää huomiota mutaatiotyyppeihin, jotka ovat tärkeitä tietyn syöpätyypin tunnistamiseksi. Esimerkiksi ihosyövissä, joissa on paljon auringonvalon aiheuttamia mutaatioita (C>T, CC>TT), huomio kohdistuu juuri näihin mutaatioihin.

Kuvassa keskellä erilaisia mutaatiotyyppejä ja miten mutaatiot jakautuvat kromosomeihin. Mutaatioihin liittyy epigeneettinen tieto. Epigeneettiseen periytymiseen vaikuttavat monet ulkoiset tekijät, kuten esimerkiksi ravinto. Esimerkiksi identtiset kaksoset, voivat kehittyä ulkoisilta olemuksiltaan erilaisiksi.

Mutaatioiden mallintaminen:

lineaariset mallit

syvät neuroverkot

transformer-mallit. Transformerit ovat syväoppimismalliperhe, jotka toimivat erityisen hyvin esim. tekstimuotoiseen dataan, sovelluksena vaikkapa konekääntäminen. Syöpätutkimuksessa transformer-mallit voivat kiinnittää huomiota mutaatiotyyppeihin, jotka ovat tärkeitä tietyn syöpätyypin tunnistamiseksi. Esimerkiksi ihosyövissä, joissa on paljon auringonvalon aiheuttamia mutaatioita (C>T, CC>TT), huomio kohdistuu juuri näihin mutaatioihin.

Lisätietoja:

HPC/Exascale Centre of Excellence in Personalised Medicine (PerMedCoE)

https://permedcoe.eu

Suomen molekyylilääketieteen instituutti FIMM

https://www.fimm.fi/

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
https://www.elixir-finland.org
http://www.elixir-europe.org

Kudosnäytteet digitaalisiksi kuviksi ja tekoäly tulkitsemaan

Turun yliopistollisen keskussairaalan ja Auria biopankin tavoitteena on saada kaikki kudosleikenäytteet digitaaliseen muotoon. Näytteet skannattaisiin lasilevyiltä ja jokapäiväisessä patologian työssä diagnostiikka siirtyisi tietokoneelle. Samalla kehitetään tekoälymalleja eli luokittelijoita, jotka tunnistavat digitoiduista näytteistä esimerkiksi syövän.

Pelkästään Turun yliopistollisessa keskussairaalassa (TYKS) otetaan potilailta 200 000 kudosnäytettä vuosittain. Kudosnäyte käsitellään formaliinissa ja valetaan parafiiniblokkiin, jonka jälkeen siitä voidaan höylätä leikkeitä mikroskoopilla tarkasteltavaksi. Lopulta parafiiniblokit varastoidaan. Näytteiden hallinnoiminen on työlästä ja vie paljon aikaa. Näytteiden järjestelmällinen digitoiminen tuo tähän apua.

”Koska näytteitä on paljon, metadatatiedon avulla löydetään halutut ja oikeat näytteet nopeasti”, sanoo Auria biopankin data-analyytikko Antti Karlsson.

Tietokantaan voi siis tehdä esimerkiksi haun, joka etsii kaikki ne näytteet, joissa on rintasyöpäkasvainta. Hakua voi metatiedon avulla tarkentaa, jolloin voidaan etsiä esimerkiksi 60-vuotiaiden rintasyöpäpotilaiden näytteet, joissa on tietty reseptoristatus.

Digitaalisen patologian hankkeessa mikroskooppilaseilla olevat näytteet skannataan. Sitten patologi voi katsoa tietokoneella näytteet ja kuvailla ja luokitella ne. Nämä ns. annotaatiotiedot ovat olennaisia, jotta voidaan opettaa tekoälyä automaattisesti tunnistamaan näytteistä esimerkiksi syöpäsolut. Tämä nopeuttaisi huomattavasti patologin työtä jatkossa. Auria biopankissa on panostettu data-analytiikkaan, algoritmien kehitykseen ja koneoppimismalleihin.

Kielimalli avuksi metadatan kuvailuun

Turun yliopistollisessa keskussairaalassa (Tyks) on valtavasti mikroskooppilaseille säilöttyjä kudosleikkeitä. Ongelma on, että lasiin ei saa tallennettua metadataa, joka saataisiin siirrettyä tietokantoihin automaattisesti. Nyt tarkoituksena on, että uusiin näytteisiin patologit merkitsevät metadatan kuvankäsittelyohjelman avulla.

Karlssonin mukaan työ on ensin mekaanista. Patologi käyttää kuvankäsittelyohjelmaa, jonka avulla piirtää skannattuihin näytteisiin ne kohdat, joissa on esimerkiksi syöpää.

Tämän lisäksi tarvitaan kuvailutietoja. Tässä apuna olisivat neuroverkko-kielimallit. Patologi voisi kuvailla suoraan tietokoneelle näytteen tietoja. Aihetta on tutkittu Turun yliopiston tulevaisuuden teknologioiden laitoksen Filip Ginterin tutkimusryhmän kanssa,. Tutkimusryhmä on keskittynyt siihen, miten tietokoneohjelmia voidaan käyttää luonnollisen tekstin ja puheen analysointiin. Kielimalli oppii isosta määrästä luokittelematonta tekstiä, miten jokin puhuttu kieli näyttää tilastollisesti toimivan. Auria biopankki ja Tyks ovat kiinnostuneita siitä, miten lääkärinlausuntojen teksteistä saataisiin muodostettua luokiteltua ja rakenteistettua tietoa kielimallien avulla

”Digipatologiassa yksi sovellus voisi olla se, että jälkikäteen louhitaan lausuntoteksteistä erilaisia tietoja, kuten vaikka missä näytteen osassa on mitäkin kiinnostavaa kudosta, jolloin näytteiden valinta tutkimusten tarpeisiin helpottuu. Lisäksi voitaisiin kehittää vapaata lausuntotekstiä automaattisesti rakenteistavaa mallia. Patologi voisi lausua ’proosaa’, jonka tekoäly sitten keräisi ja koostaisi rakenteiseksi taulukoksi. ”

Karlssonin mukaan tällaisia taulukoita käytetään jo nyt aika paljon esimerkiksi silloin, kun patologit ovat sopineet, mitkä kaikki asiat kustakin kasvaimesta pitää raportoida.

”Tällä hetkellä kokeilemme jo näitä malleja esimerkiksi tupakointitiedon löytämiseen ja luokitteluun satojentuhansien lausuntotekstien sisältä, sekä syövän metastasointitietojen, sairaalainfektioihin liittyvien oireiden ja erilaisten diagnoosien löytämiseen.”

Haasteena on vielä monimuotoinen data. Esimerkiksi eri laitevalmistajien skannerit tuottavat erilaista dataa, joka pitäisi luotettavasti yhteensovittaa.

Yleisin värjäys kudosten perusrakenteiden selvittämisessä on HE- eli hematoksyliini-eosiini -värjäys, jolla voidaan värjätä erilaisia rakenteita kudoksista pH:n mukaisesti. Emäksinen hematoksyliini värjää solun happamat tumat violeteiksi ja hapan eosiini värjää solun emäksiset tukirakenteet, kuten side- ja lihaskudoksen punaisiksi. Kuvassa on HE -värjättyä kudosta, johon on merkitty mahdollisesti kiinnostava rakenne. Patologi piirtää kuvaan alueen, jonka nimeää haluamallaan tavalla. Tällaisia esimerkkejä tarpeeksi kartuttamalla voidaan kouluttaa tekoälymalleja, jotka tekevät vastaavia kuvailuja ja luokitteluita automaattisesti.

Tekoälymalli tunnistaa syövän automaattisesti näytteestä

Metadatan ja digitoidun näytemateriaalin avulla kehitetään esimerkiksi tekoälysovelluksia, jotka opetetaan luokittelemaan automaattisesti, missä kohtaa kuvassa on syöpäsoluja. Tekoälyn opettamiseen tarvitaan patologien luokittelemaa materiaalia. Antti Karlssonin mukaan kuvia ei tarvita itse asiassa kovinkaan paljon, jotta algoritmi oppisi.

”Kymmenillä kuvilla päästään jo alkuun. Yksi iso leikekuva voi tuottaa tuhat pientä kuvaa, joilla voi kouluttaa malleja.”

Tällöin 20 potilaasta saadaan jopa 10 000 pientä kuvaa.

”Isoa kuvaa ei sellaisenaan pysty vielä lykkäämään algoritmeille, koska minkään tietokoneen grafiikkaprosessorin muisti ei riitä siihen.”

Karlsson haluaa tähdentää sitä, että kuvia katsovat tekoälymallit ovat eri asia kuin tekstiä katsovat mallit.

”Ne ovat toki kaikki tekoälyä ja vieläpä neuroverkkoja, mutta rakenteeltaan ja toimintaperiaatteeltaan erilaisia. Tekoäly on ennemminkin kokoelma työkaluja, joista jokainen on sitten käyttökelpoinen omaan tiettyyn sovellukseensa.”

Patologiselle datalle suunnitellaan digitaalista tallennuspaikkaa Eurooppaan.

Auria biopankin johtaja Lila Kallio toteaa, että genomidatan tutkimuskäytön lisäksi digipatologiaa hyödyntävä data-analytiikka on yksi keskeisiä Aurian painopisteitä.

”Entistä enemmän ollaan kiinnostuneita siitä, miten digitoidusta syöpäkudosleikkeestä voidaan tunnistaa eri asioita. Olemme mukana tutkimuksissa, joissa pyritään algoritmin avulla ennustamaan primäärisyöpäkasvaimen näytteen kuvasta esimerkiksi taudin hoitovastetta tai sitä, tuleeko primäärisyöpäkasvain levittämään etäispesäkkeitä. On viitteitä siitä, että algoritmi pystyisi ennustamaan histologisesta kuvasta sellaista, mikä ei silmämääräisesti ole nähtävissä.”

Yhden luukun palvelu

Suomessa on Lila Kallion mielestä oltu datan hallinnoimisessa ja jakamisessa hyvin edistyksellisiä. Suomen biopankkilaki on mahdollistanut tutkimuksen ja tiedon yhdistelemisen eri rekistereistä. Erityisen tärkeää on, että kliininen tieto voidaan yhdistää näytteisiin.

”Palvelua tutkijoille on voitu toteuttaa yhden luukun periaatteella. Biopankki hoitaa luvat, kerää näytteet ja yhdistää niihin tutkimukselle oleellisen kliinisen tiedon. Tämä kaikki voidaan sitten yhdistää muuhun dataan, esimerkiksi geenitietoihin. ”

Biopankin kautta tutkija saa tarvitsemansa näytteet.

”Biopankit tekevät Suomessa yhteistyötä. Tutkija voi pyytää näytteitä kaikista Suomen biopankeista Suomen biopankkien osuuskunnan kautta yhdellä pyynnöllä.”

Haasteena nyt ja tulevaisuudessa on Lila Kallion mielestä datan tallentaminen ja hallinnoiminen.

”Dataa tallennetaan sairaanhoitopiirin palomuurien sisälle. Jos patologian diagnostisia näytteitä ruvetaan rutiininomaisesti digitoimaan, tulee myös tallennuskapasiteetti ratkaista. Lisäksi kuvien koko on niin valtava, etteivät ne helposti siirry tavallisten tietoverkkojen kautta.

Laskentateho ja tietoturvalliset tallennus- ja käyttöympäristöt Suomen ELIXIR-keskuksen CSC:n kanssa tulevat tässä tärkeään rooliin.

Ari Turunen

28.8.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Antti Karlsson, Lila Kallio, & Tommi Nyrönen. (2020). Tissue samples into digital images, interpreted by artificial intelligence. https://doi.org/10.5281/zenodo.8134949

Lisätietoja:

Auria Biopankki

https://www.auria.fi/biopankki/

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Koneoppimisella etsitään merkkejä rintasyövästä

Geenivarianttien lisäksi on genomisia variantteja yksittäisissä DNA:n emäsparijaksoissa. Nämä variaatiot aiheuttavat yksilöiden väliset erot, mutta ne voivat myös auttaa paikallistamaan tautia aiheuttavia geenejä. Nämä yhden emäsparin vaihtelut eli snipit (single nucleotide popymorphism, SNP) voivat toimia markkereina, jotka viittaavat sairauteen. Itä-Suomen yliopistossa kehitetty tekoälymalli etsii rintasyöpään viittaavia snippejä.

Genomidatan valtava määrä on mahdollistanut sen, että tutkijat voivat laskea, mitä geenimuunnoksia on niissä ryhmissä, jotka ovat sairastuneet syöpään. Yhteen tautiin voi vaikuttaa satoja tai tuhansia geenimuunnoksia.

Tilastollisten menetelmien ansiosta tutkijat voivat arvioida, miten yhden ihmisen geenimuunnokset lisäävät riskiä sairastua tautiin eli näin saadaan monitekijäisten geenien riskiarvo. Mutta variaatioita on myös DNA:n emäspareissa eli nukleotideissä. Ne tunnetaan genomisina variantteina eli snippeinä. DNA:n sekvenssivariaatiot tapahtuvat, kun yhdessä emäsparissa genomisekvenssi (adeniini-tymiini, sytosiini-guaniini) muuttuu. Jokainen SNP edustaa muutosta yhdessä emäsparissa. Esimerkiksi yksi SNP voi vaihtaa jossakin DNA-ketjun emäsparissa sytosiinin tymiiniksi. Se tarkoittaa, että sytosiini-guaniini -emäspari voi muuttua DNA-ketjusssa esimerkiksi tymiini-adeniini -pariksi. Toisin kuin geenimuunnokset, snipit eivät välttämättä sijaitse geeneissä. Snippejä sijaitsee myös ei-koodaavissa geeneissä tai geenien välissä. Ihmisen genomissa on paljon snippejä. Niitä on keskimäärin melkein joka tuhannen emäsparin jälkeen, mikä tarkoittaa, että ihmisen genomissa on arviolta 4-5 miljoonaa snippiä.

Snipit voivat olla hyödyllisiä, kun etsitään syövän geneettisiä riskitekijöitä. Biolääketieteellisessä tutkimuksessa snippejä käytetään tutkimusaineistossa vertailemalla genomialueita sairastuneiden ja terveiden välillä.

“Kun snipit ilmaantuvat geenissä tai regulatiivisella alueella lähellä geeniä, niillä voi olla suora rooli taudin syntymiseen, koska ne vaikuttavat geenin toimintaan. Meillä on uudenlainen koneoppimisen lähestymistapa, jolla voidaan tunnistaa joukko vuorovaikuttavia snippejä, jotka ovat eniten osallisina rintasyövän riskitekijöissä”, sanoo tutkija Hamid Behravan Itä-Suomen yliopistosta. Hän työskentelee Kuopiossa Kliinisen lääketieteen yksikössä.

”Olemme julkaisseet useita tuloksia siitä, miten geneettinen osatekijä rintasyövän riskissä tunnistetaan, jolloin erotettaisiin luotettavasti sairastapaukset terveiden vertailuryhmästä. Rintasyöpään liittyvien snippien tunnistaminen on erityisen hyödyllistä, koska rintasyövän ennustettavuutta voidaan parantaa ja kehittää yksilöllisiä hoitosuunnitelmia”, sanoo Behravan.

Standardeilla hypoteesien testausmenetelmillä on mitattu ainoastaan yhden snipin yhteyttä tautiin. Kuitenkin Itä-Suomen yliopiston tutkimukset ovat osoittaneet, että rintasyövän riskitekijät voidaan ennustaa paremmin kun snippejä tarkastellaan ryhminä, jotka itse asiassa vuorovaikuttavat toistensa kanssa.

Genominlaajuisten assosiaatiotutkimusten (GWAS) idea on tunnistaa snipit DNA:ssa. Se auttaa selvittämään geneettiset osatekijät tutkittavassa fenotyypissä joukossa genotyypitettyjä ihmisiä. Genotyypityksessä luetaan vain ne tiedossa olevat kohdat kromosomeissa, joissa esiintyy tutkittavaan tautiin liittyviä geenivariantteja.

”Genominlaajuiset assosiaatiotutkimukset mittaavat yksittäisen snipin yhteyttä sairauteen, mutta jättävät huomioimatta mahdollisen korrelaation snippien välillä”, sanoo Behravan.

”Tähän päivään asti koko populaation kattavat GWAS-tutkimukset ovat usein käyttäneet ns. PRS- pisteytystä (polygenic risk scoring, PRS), joka kerää yhteen riskialleelien (geenien vaihtoehtoiset muodot) vaikutukset tautiin. Kuitenkin PRS olettaa, että tauteihin liittyvät snipit ovat riippumattomia toisistaan ja että riskivaikutukset ovat lineaarisia ja yhteenlaskettavissa. Olemme osoittaneet, että sen sijaan, että arvioisimme yksittäisiä osatekijöitä (snipit) yksi kerrallaan, olisi erityisen hyödyllistä parantaa rintasyöpäriskin ennustettavuutta tutkimalla vuorovaikuttavien snippien ryhmää käyttäen koneoppimista.”

Tutkijat ovat löytäneet yli miljoona snippiä (single nucleotide polymorphisms) populaatioissa kaikkialla maailmassa. Kaikkein yleisimmin nämä variaatiot löytyvät DNA:sta geenien välistä. Nämä variaatiot voivat olla ainutlaatuisia tai esiintyä monella yksilöllä. Kuva perustuu David Ecclesin SNP-malliin.

Snipit, joilla on todellista biologista merkitystä, löydettiin koneoppimisen avulla

Itä-Suomen yliopistossa kehitetty koneoppimisen menetelmä on osoittautunut tehokkaaksi.

“Löysimme ryhmän vuorovaikuttavia snippejä, joilla on todellista biologista merkitystä. Tunnistettujen snippien biologinen analyysi paljasti geenejä, jotka liittyivät tärkeisiin rintasyöpään viittaaviin mekanismeihin, kuten estrogeeniaineenvaihduntaan ja ohjelmoituun solukuolemaan, apoptosikseen.”

Kohonneet estrogeenitasot liittyvät vaihdevuosien jälkeen kasvaneeseen rintasyövän riskiin. On myös vahva näyttö, että kasvaimen kasvu ei johdu pelkästään rajoittamattomasta leviämisestä vaan myös pienentyneestä solukuolemasta.

”Löysimme siis menetelmämme avulla geenit noiden tunnistettujen snippien taustalta. Laadimme näistä geeneistä interaktiivisia karttoja. Sitten tarkkailimme useita erilaisia rintasyöpään liittyviä geenien vuorovaikutusverkostoja, kuten estrogeeniaineenvaihduntaa ja ohjelmoidun solukuoleman verkostoja. Meidän systeemimme ei ainoastaan löytänyt mahdollisimman hyvin vuorovaikuttavia rintasyövän riskejä ennustavia snippejä, vaan se myös tunnisti ne snipit, jotka muodostivat merkittävän määrän tärkeitä biologisia rintasyövän osa-alueita. Näin ollen, vuorovaikuttavat snipit ilmaisevat myös ne snipit, jotka ovat mukana syöpään liittyvissä biologisissa verkostoissa.”

125 000 snipin genotyypitys tehtiin iCOGS-sirulla yteistyössä BCAC:n (Breast Cancer Association Consortium) kanssa. iCOGS on genotyypittävä siru, joka on suunniteltu testaamaan kolmea hormoniperäistä syöpää: rinta,-munasarja,- ja eturauhassyöpiä. Sirulla on genotyypitetty yli 250 000 yksilöä ja snippiä yli 50 eri alueelta, joissa tiedetään lymyilevän joidenkin näiden tautien epäilyttäviä variantteja.

Kone oppii etsimään geneettisiä variaatioita

Kuopiossa kehitetty koneoppimisen lähestymistapa perustuu gradienttipuun tehostamismenetelmälle, jossa on iteratiivinen hakualgoritmi. Tehostaminen on ensimmäinen moduuli ja haku toinen.

Tehostaminen (boosting) on algoritmi ja metodi, jolla heikot oppijat muutetaan vahvoiksi. Heikolla luokittelijalla tarkoitetaan sellaista luokittelijaa, joka on vähintään puolessa tapauksista oikeassa. Algoritmi käynnistyy opettamalla päätöspuuta. Heikot luokittelijat lisätään peräkkäisesti korjaamaan olemassaolevien luokittelijoiden virheet, jotta rakennetaan vahvaa luokittelija.

”Ensimmäinen moduuli arvioi tunnusmerkkien tarkkuutta, tässä tapauksessa snippejä, rintasyövän ennustettavuudessa. Ensimmäinen moduuli antaa alustavan kandidaattilistan snipeistä, jotka voivat ennustaa rintasyöpäriskistä.”

Toinen moduuli sitten käyttää kandidaattisnippejä adaptiivisessä ja iteratiivisessa haussa, jotta se voisi kaapata nuo vuorovaikuttavat piirteet. Parhaimmat tunnistetut vuorovaikuttavat snipit käytetään ennustamaan tuntemattoman yksilön rintasyövän riskiä testivaiheessa käyttäen koneluokittelijaa. Luokittelija opetettiin erottamaan rintasyöpätapaukset (positiiviset näytteet) terveistä kontrolleista (negatiiviset näytteet).

Koska syöpä on monitekijäinen tauti, jonka aiheuttavat elintavat sekä geneettiset ja ympäristötekijät, geneettisiin variantteihin perustuva ykslöllinen analyysi ei ehkä ole riittävä, jotta saataisiin kokonaisvaltainen kuva tautiriskistä. Behravanin mukaan myös muita datalähteitä tarvitaan.

“Kehitämme integroivia koneoppimisen lähestymistapoja, jossa yhdistetään eri datalähteitä, kuten väestötieteellistä dataa.”

Ari Turunen

18.5.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Hamid Behravan, & Tommi Nyrönen. (2020). Searching markers for breast cancer by machine learning. https://doi.org/10.5281/zenodo.8131311

Lisätietoja:

Lääketieteen laitos, Itä-Suomen yliopisto

https://www.uef.fi/fi/web/laake

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Metabolomiikka mittaa ja analysoi sairauden, ruokavalion tai lääkityksen aiheuttamia muutoksia aineenvaihdunnassa

Aineenvaihdunnan eli metabolian aikana syntyy ja hajoaa molekyylejä, joilla osalla on vaikutus myös terveyteen. Niiden pitoisuuksia mitataan verestä, virtsasta ja kudosnäytteistä. Metabolomiikan avulla saadaan selville biomarkkereita, jotka voivat kertoa elintavoista, ruokavaliosta, sairauksista sekä lääkityksen ja muiden vierasaineiden vaikutuksista.

Yhdellä mittauksella saadaan tietoa sadoista, jopa tuhansista aineenvaihduntatuotteista eli metaboliiteista. Lisäksi samassa mittauksessa näkyvät myös elimistön ulkopuolelta tulleet yhdisteet kuten lääkkeet, ympäristömyrkyt ja nautintoaineet.

”Metabolomiikka mahdollistaa aineenvaihdunnallisten ilmiöiden laaja-alaisen tarkastelun. Näin saadaan erittäin laaja kuva esimerkiksi elimistön biokemiallisesta tilasta,” sanoo professori Seppo Auriola Itä-Suomen yliopiston farmasian laitokselta. Auriola on myös Kuopion LC-MS Metabolomiikkakeskuksen johtaja. Keskus on osa Suomen Biokeskuksen infrastruktuuriverkostoa.

Yksi metabolomiikassa käytetty analyyttinen työkalu on nestekromatografia yhdistettynä korkean erotuskyvyn massaspektrometriaan. Nestekromatografia-massaspektrometriaa (LC-MS) käytetään näytteistä löytyvien yhdisteiden seulomiseen ja tunnistamiseen. Nestekromatografi erottelee yhdisteet niiden rasvaliukoisuuden mukaan ja massaspektrometrilla mitataan eroteltujen yhdisteiden tarkat molekyylipainot. Metabolomiikassa käytetään termiä ”molekyyliluonne”, joka tarkoittaa ionisaatiossa ja mittauksessa yhdisteestä syntyvää signaalia.

”Metabolomiikassa pyrimme löytämään tilastollisesti eroavat molekyyliluonteet eri tutkimusryhmien välillä. Näitä voivat olla esimerkiksi sairaat versus terveet. Metabolomiikka pyrkii myös tunnistamaan nämä molekyyliluonteet molekyyleiksi erilaisten spektroskopiaan perustuvien tekniikoiden avulla. Meidän laboratoriomme hyödyntää tähän massaspektrometriaa,” sanoo laboratorionjohtaja Marko Lehtonen.

Metabolomiikkamittaukset voidaan jakaa kohdentamattomiin ja kohdennettuihin menetelmiin. Lähtökohta kohdentamattomassa analyysissä on se, että tutkittavasta näytteestä pyritään löytämään mahdollisimman laaja joukko metaboliitteja. Kohdennetussa analyysissä puolestaan seurataan rajattua joukkoa tunnettuja metaboliitteja.

Kohdentamattomat mittaukset voivat toimia hyvänä lähtökohtana hypoteesin luomiseen.

”Ensimmäisellä seulonnalla nähdään niitä aineenvaihduntatuotteita, jotka ovat muuttuneet esimerkiksi tietyn altistuksen jälkeen. Sitten mietitään teoriaa eli miksi näin on käynyt”, sanoo Auriola, joka on keskittynyt työssään analyyttiseen kemiaan ja tutkittavien näytteiden mittaustekniikkaan.

Ruokavalio ja elintavat näkyvät aineenvaihduntatuotteissa

Metabolomiikan avulla voidaan tutkia ravintoaineiden vaikutuksia. Miksi jotkut ravintoaineet ovat välttämättömiä, mihin aineenvaihduntareaktioihin ne osallistuvat tai mitä reittejä ne rajoittavat.

Koska metabolomiikan mittausmenetelmät tehostuvat, saadaan parempaa mittausdataa esimerkiksi ihmisten elintapojen ja ympäristön vaikutuksesta terveyteen. Ruokavalio on yksi merkittävimmistä ulkoisista tekijöistä, jotka vaikuttavat aineenvaihduntaan.

”Metabolomiikka soveltuu erinomaisesti juuri ravitsemustutkimuksiin.

Analyyseissa löytyy selviä markkereita, mitä joku on syönyt ja miten ne vaikuttavat ihmisten endogeenisiin yhdisteisiin,” Auriola sanoo.

Endogeeniset aineita ovat kaikki kehon tuottamat yhdisteet, kuten hormonit ja välittäjäaineet. Niitä ovat esimerkiksi endokannabinoidit, steroidit sekä endorfiinit.

”Voimme tutkia, vaikuttaako elintapojen muuttaminen terveellisemmäksi myös metaboliittien tasoihin. Tämä olisi osoitus siitä, että elimistö voi paremmin. Metabolomiikan avulla voidaan myös etsiä sairauksien biomarkkereita varhaisessa vaiheessa ennen sairauksien puhkeamista. ”

Vierasaineiden vaikutukset ihmiseen

Sairauden, ruokavalion tai lääkityksen aiheuttamia muutoksia aineenvaihdunnassa voidaan seurata ja ymmärtää Mittauksista saadaan biologisen näytteen metaboliittipitoisuudet Pitoisuuksia ja niiden muutoksia analysoimalla saadaan selville esimerkiksi vierasaineen vaikutus elimistössä.

Toinen merkittävä metabolomiikan analyysikohde ovat eksogeeniset eli elimistön ulkopuoliset yhdisteet, kuten lääkkeet ja ympäristömyrkyt. Tällöin etsitään biomarkkereita esimerkiksi siitä, miten lääke vaikuttaa elimistössä.

Tärkeä kysymys on Auriolan mielestä myös se, miksi joku aine vaikuttaa meihin negatiivisesti. Silloin voidaan etsiä aineenvaihduntatuotteista sellaisia biomarkkereita, jotka osoittavat ihmisen altistumista vierasaineelle tai vierasaineen vaikutusta ihmiseen. Sellaisia on esimerkiksi torjunta-aineiden vaikutus ihmisten terveyteen.

”Torjunta-aineiden kaikkia vaikutusmekanismeja ei tiedetä.

Kun menetelmät kehittyvät, nähdään paremmin minkälaisia vaikutuksia on elimistössä tiettyjen altistusten yhteydessä. Voidaan mitata ihmispopulaatioista, mikä on ympäristömyrkkyjen taso ja vastaavasti endogeenisten metaboliittien taso. ”

Itä-Suomen yliopiston ja Karolinska Instituten tutkimuksessa selvitettiin polykloorattujen bifenyylien eli PCB-yhdisteiden vaikutusta hiirten jälkeläisiin. Pitkään on tiedetty, että suurin näiden aineiden vaikutus kohdistuu kehittyvään elimistöön. Eläinkokeissa on todettu eri elinten kehityshäiriöitä. Kun jälkeläisten metabolomiikkaprofiileja tutkittiin, huomattiin, että tiettyjä muutoksia havaittiin koirailla. Nämä muutokset kuitenkin puuttuivat naarailla. PCB -yhdisteiden aiheuttamat metaboliittien muutokset koirailla vaikuttivat maksan ja hermoston toimintaan.

”Voidaan seurata minkälaisia muutoksia seuraavassa sukupolvessa on, tietämättä etukäteen, mitä sieltä pitäisi etsiä, sanoo Auriola.

”LC-MS -laitteistojen ja kohdentamattoman metabolomiikka -menetelmän avulla löydetään tuhansien mitattavien molekyylien joukosta ne molekyylit, jotka ovat muuttuneet.”

Molekyyliluonteita etsitään algoritmien avulla. Helsingin ja Itä-Suomen yliopiston tutkimuksessa analysoitiin vastasyntyneiden napanuorista löytyneitä yhdisteitä. Raskausmyrkytys (pre-eklampsia) on yksi yleisimmistä äitiyskuoleman ja ennenaikaisen synnytyksen syistä. Sen kehittymisen syitä ei tunneta tarkasti. Sen tiedetään lisäävän äidin ja lapsen riskiä sairastua myöhemmin sydän- ja verisuonitauteihin. Ei kuitenkaan tiedetä miten myrkytyksen saaneiden äitien muuttunut aineenvaihdunta vaikuttaa vastasyntyneiden aineenvaihduntaan. Vastasyntyneiden napanuoran kudoksen metaboliitit analysoitiin LC-MS -laitteistolla Kuopiossa raskausmyrkytyksen saaneiden ja terveiden välillä. Tutkimuksessa käytettiin myös suomalaisia FINNPEC (Finnish Genetics of Pre-eclampsia Consortium) -aineistoja. FINNPEC -kohortin keräämiseen ovat osallistuneet kaikki Suomen yliopistosairaalat.

”Useat eri tutkimusprojektit käyttävät laboratoriomme palveluja”, sanoo Marko Lehtonen. Laboratoriossa on mitattu esimerkiksi diabeteksen ja Alzheimerin tautiin liittyvien tutkimuksen näytteitä. Lehtosen mukaan metabolomiikka tuo paljon lisätietoa myös harvinaisten ja perinnöllisten sairauksien tutkimukseen.

”Vastasyntyneiden seulontaa tehdään kohdennetuilla mittauksilla. Se on myös erinomainen esimerkki, jossa metabolomiikalla voi olla suuri merkitys. Siinä yhteiskunta säästää rahaa. Tietyillä elimistössä esiintyvillä biomarkkereilla voidaan löytää vastasyntyneillä perinnöllisiä sairauksia,” sanoo Lehtonen.

Kaikkia molekyylejä ei havaita vielä

Nykyisillä laitteilla ei kaikkia metaboliitteja voi vielä mitata.

”Yhdisteet ovat näytteessä niin pieninä pitoisuuksina, että nykyisin tarvitaan myös kohdennettuja menetelmiä. Laitetekniikoiden kehittyessä voidaan tulevaisuudessa toivoa, että yhä useamman aiemmin näkemättä jääneet yhdisteet näkyvät myös kohdentamattomilla menetelmillä. Tällöin emme hävitä muuta tietoa näytteestä. Kohdennetut menetelmät nimittäin seuraavat vain ennalta rajattua joukkoa yhdisteitä ja ovat sokeita kaikelle muulle tiedolle”, sanoo Lehtonen ja korostaa, että kohdentamattoman menetelmän data sisältää paljon tietoa, josta voidaan aina etsiä uusi asioita.

Kun laitteiden herkkyydet parantuvat, päästään havainnoimaan todella pieniä molekyylejä. Silloin puhutaan pikogrammoista ja nanogrammoista litraa kohden. Yksi pikogramma on gramman triljoonasosa ja yksi nanogramma on gramman miljardisosa.

”Nyt näemme tuhansia molekyylejä, mutta monia tärkeitä molekyylejä on vielä havaintorajan alapuolella, sanoo Seppo Auriola.

”Esimerkiksi steroideja löydetään näytteistä entistä enemmän mittaustekniikan kehittyessä. Näin voidaan tutkia endogeenisia steroideja ja niiden muutoksia.”

Näitä ovat esimerkiksi sukupuolihormonit, kuten testosteroni ja progesteroni sekä kortikosteroidit (mm. kortisoni ja kortisoli).

”Olemme mukana muun muassa projektissa, jossa tutkitaan lasten ja nuorten liikunnan ja elintapojen vaikutusta steroideihin ja muuhun metaboliaan. Toisissa tutkimuksissa etsitään steroidimetaboliaan valikoivasti vaikuttavia yhdisteitä, joita voitaisiin käyttää lääkkeenä.”

Laskentatehoa tarvitaan suuren datamäärän käsittelyyn

Massaspektrometriassa tutkittavat aineenvaihduntatuotteet ensin ionisoidaan. Ionisoituneet molekyylit erotellaan toisistaan niiden massan ja varauksen suhdeluvun avulla. Molekyyliluonteiden tunnistaminen on Lehtosen mukaan metabolomiikan viimeinen vaihe, jossa pyritään aukottomasti tunnistamaan tilastollisesti merkittävästi eroava metaboliitti kahden tai useamman tutkittavan ryhmän välillä.

Lehtonen haluaisi mallin, jossa laboratorion ja tutkimusten data olisi koneoppimisen pohjana.

”Vaikka näitä spektrejä voidaan vertailla massakirjastoissa oleviin pilkkoutumisspektreihin (tuoteionipyyhkäisyihin), niin ongelma tunnistamisessa on, että se on hyvin pitkälle manuaalista työtä. Jos siihen saisi oppivan algoritmin, joka etsii automaattisesti pilkkoutumisspektrejä ja vertaa niitä kirjaston muistissa olevaan eli malli voisi aukottomasti tunnistaa laboratorion aiempien mittausten tunnistamat yhdisteet. Se auttaisi tutkimustyössä paljonkin,” sanoo Marko Lehtonen.

Endogeeninen kannabinoidijärjestelmä liittyy moniin fysiologisiin ja patologisiin tiloihin. Jotta voisi paremmin ymmärtää etanolin ja ravinnonpuutteen vaikutusta sukkulamatoihin (C. elegans), tutkimuksessa seurattiin miten metaboliittiprofiili ja tietyt endokannabinoiditasot muuttuivat erilaisissa altistuksissa. Ravinnonpuute merkittävästi lisäsi mm. anandamidin, joka on yksi pääendokannabinoideista, määrää. Kuvassa on esimerkkinä käänteisfaasikromatografialla ja korkean erotuskyvyn massaspektrometrialla saadut tulokset. Hajontakuvio (volcano plot) näyttää tilastollisen merkittävyyden (p- value) verrattuna muutoksen suuruuteen (fold change). Toisessa akselissa ovat p-arvot t-testistä ja toisessa signaalitasojen muutokset tutkittavien ryhmien välillä. Yhdellä tällaisella kuvalla voidaan nähdä kahden eri tutkittavan ryhmän väliset tulokset.

Työkalujen ja datan yhdenmukaistaminen

Seppo Auriolan mielestä mittausdataa pitäisi pystyä hyödyntämään entistä enemmän. Ongelmana on datan saatavuus ja yhdenmukaisuus.

”ELIXIRissä on menossa useita toimintoja joissa pyritään yhdenmukaistamaan eri työkalujen käyttöä metabolomiikassa, jotta ne toimisivat hyvin yhteen keskenään. Myös mittausdata pyritään saamaan arkistoihin.”

Auriolan mielestä tieteellisen julkaisun lisäksi suuri osa alkuperäisestä mittausdatasta pitäisi olla muiden tutkijoiden käytössä jatkoanalyyseihin.

”Sen toinen vaihe on, mitä metadataa lisätään, minkälaista tietoa näytteistä pitää olla, kuinka ne on mitattu, kuinka valmistettu, minkälaiset tutkimusryhmät ovat olleet kyseessä. Kuinka tämä tieto kulkee mittausdatan mukana? Olennaista olisi, että kerralla suurella työllä mitattu data olisi vielä käytössä myöhempiin analyyseihin ja vertailuihin.”

Toinen haaste on käytössä olevat työkalut: kuinka poimitaan yhdisteitä ja kuinka niitä tunnistetaan, mitä ohjelmistoja tarvitaan kun lasketaan tuloksia, etsitään molekyylejä ja vertaillaan niiden määriä eri näytteissä. Kuinka asiat esitetään? Kuinka muutokset eri metaboliittien tasossa saadaan, kuinka ne löydetään metaboliittikartalta, missä metaboliareiteillä yhdisteet ovat ja mitenkä niiden pitoisuudet keskenään vaihtuvat? Miten tämä kuvataan selkeästi ja miten se tulos esitetään? Kaiken tämän yhdenmukaistamiseen tarvitaan työtä. Nyt tämä kaikki data ja työkalut on pieninä palasina eri ihmisten ohjelmistoissa.” sanoo Auriola.

Ari Turunen

8.4.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Seppo Auriola, Marko Lehtonen, & Tommi Nyrönen. (2020). Metabolomics measures and analyses metabolic changes caused by illness, diet or medication. https://doi.org/10.5281/zenodo.8131264

Lisätietoja

LC-MS Metabolomiikkakeskus

LC-MS Metabolomics Center

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Syväoppimisalgoritmit auttavat rintasyövän seulonnassa

Tutkija Raju Gudhe on keskittynyt yhdistämään tietojenkäsittelytieteen älykkäisiin järjestelmiin. Hän kehittää syväoppimisalgoritmeja rintasyövän riskien analysoimiseen käyttämällä radiologista ja kliinistä dataa. Näitä algoritmeja on opetettu hyödyntämään massiivisia datajoukkoja, joita on saatu Kuopion yliopistollisesta sairaalasta, jotta ne ennustaisivat rintojen tiheyden mammografiakuvista.

”Yritämme paikallistaa kiinnostavia alueita mammografiakuvista ja luokitella kasvaintyypin saatujen tunnusmerkkien perusteella käyttämällä syväoppismisalgoritmeja, sanoo Gudhe, joka työskentelee data-analyytikkona Itä-Suomen yliopiston kliinisen lääketieteen yksikössä Kuopiossa.

Mammografia eli rintojen röntgenkuvantamistekniikka, on yksi yleisimmin käytettyjä menetelmiä varhaisen asteen rintasyövän havaitsemiseksi. Varhainen rintasyövän havaitseminen alentaa merkittäväsi kuolleisuuslukuja. Vuonna 1987 Suomi aloitti ensimmäisenä maana maailmassa maanlaajuisen syöpäseulontaohjelman. Silti mammografia ei ole täydellinen. Mammografiakuvat eivät ole erityisen tarkkoja eivätkä aina havaitse syöpätapauksia ja kuvat voivat näyttäytyä normaaleina, vaikka syöpä olisikin kyseessä.

Täysin automaattinen malli arvioimaan rinnan tiheyttä

Rinnoissa on vaihtelevia määriä rasvakudosta ja tiivistä kudosta. Tiiviimpi kudos näyttää mammogrammeissa vaaleana röntgensäteiden vaimentumisen takia. Suurin osa rintasyövistä esiintyy tiiviissä kudoksessa, jonka vaaleus peittää alleen noin 25% mammogrammeista havaituista syöpätapauksista.

“Vaaleus voi naamioida syöpien läsnäolon: se on kuin löytäisi lumimiehen sakeassa lumipilvessä”, sanoo Gudhe.

Tiiviin kudoksen kuvioiden ja jakautumisen perusteella radiologit luokittelevat rinnat joko “tiheisiin” tai “rasvaisiin”. Naisilla, joilla on erittäin tiheää rintakudosta, on suurempi riski saada rintasyöpä.

Rintasyöpä sijaitsee yleensä tiheässä kudoksessa. Koska kudos näkyy vaaleana mammografiakuvissa, noin 25% syövistä ei näy mammografiassa. Kuvien vaaleus voi peittää syöpätapaukset.

Tutkijat Itä-Suomen yliopistossa ja Kuopion yliopistollisessa sairaalassa ovat kiinnostuneita kehittämään täysin automaattisen mallin arvioimaan rinnan tiheyttä. Rinnan tiiviys, yksi vahvimpia riskitekijöitä rintasyövässä, on mittaustulos tiiviin kudoksen suhteellisesta osuudesta. Tarkka tiiviin kudoksen segmentointi mammografiakuvassa voi vähentää väärien diagnoosien todennäköisyyttä.

Itä-Suomen yliopistossa kehitetyt algoritmit voivat auttaa radiologisteja arvioimaan rinnantiheyden tarkasti. Merkittävin haaste syväoppimisen malleja käytettäessä on massiivinen datan määrä, jota ne tarvitsevat. Lisäksi lääketieteessä hankittuihin kuviin liittyvät tarkat kuvailutiedot, annotaatiot, lisäävät datan kompleksisuutta.

“Käytämme tuhansia mammografiakuvia, jotka kokeneet radiologit ovat manuaalisesti annotoineet, jotta saataisiin luotua tarkat opetusjoukon luokittelut (ns. ground truth label) syväoppimisen malleihimme. Olemme kehittäneet uudenlaisen arkkitehtuurin, joka perustuu U-Net -malliin, huippuluokan ratkaisuun lääketieteellisten tiiviin kudoksen kuvien segmentoimiseen,” sanoo Gudhe.

Algoritmit voivat tunnistaa kasvaimen mammogrammeista. Rinnan tiheys on yksi yleisemmistä riskitekijöistä. Mitä tiheämpi rinta, sitä suurempi riski. Syväoppimisalgoritmit voivat auttaa radiologeja ennustamaan tarkasti rinnan tiheyden prosenttimäärän.

Koska mammografiakuvat ovat korkearesoluutioisia, suurta laskentatehoa tarvitaan niihin yhdistettyjen syväoppimisen mallien opettamiseen. Suomen ELIXIR -keskuksen CSC:n palveluja käytetään sensitiivisen datan tehokkaaseen käsittelyyn ja mallien opettamiseen CSC:n grafiikkaprosessoreja.

Raju Gudhe korostaa, että kestävän mallin tekemiseksi kliinisille toimenpiteille tutkijoiden täytyy integroida erilaisia kuvantamismuotoja ja muita kliinisiä yksityiskohtia algoritmeihinsa. Näitä ovat – mammografiakuvien lisäksi – ultraääni ja magneettiresonanssikuvantaminen. Seuraava askel on integroida kuvantamisdata ja genomidata syöpäriskin analysoimiseen.

“Mammografiakuvia käyttämällä voimme tunnistaa rinnan tiheyden ja tiheysarvojen perusteella voimme saada aikaan seuraavan kuvantamistavan. Emme voi nojata yhteen kuvien kuvantamistapaan, mikä on syynä, että tietoa ei voi käyttää suoraan kliinisessä työssä. Jotta saisimme päästä-päähän mallin, joka pystyy tekemään hyvän luokittelun ja ennusteen, tarvitsemme myös genomidataa.”

Ari Turunen

1.3.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Tommi Nyrönen, & Raju Gudhe. (2020). Deep learning algorithms help in breast cancer screening. https://doi.org/10.5281/zenodo.8131233

Lisätietoja:

Lääketieteen laitos, Itä-Suomen yliopisto

https://www.uef.fi/fi/web/laake

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Koira haistaa sairauksia

Metabolomiikka tutkii elimistön aineenvaihduntatuotteita, niiden rakennetta ja toimintaa soluissa, veressä ja eritteissä. Olennaista on selvittää aineenvaihduntatuotteiden eli metaboliittien merkitystä ja vaikutusta ihmisen hyvinvointiin ja terveyteen. Soile Rummukainen tutkii koirien ja ihmisten syöpiä metabolomiikan avulla. Tavoitteena on tunnistaa syövän hajun molekyylit.

Koirien hajuerottelukoulutukseen erikoistuneen Wise Nosen eli Suomen hajuerottelu ry:n toiminnanjohtaja Susanna Paavilainen huomasi, että hänen Kössi-koiransa haisteli toisesta koirasta tiettyä kohtaa sen iholla. Paavilainen huomasi, että jotain on vialla. Lopulta paljastui, että toisella koiralla oli iensyöpä. Paavilainen päätteli, että koulutettu koira voisi hajuaistinsa avulla havaita lajitovereiltaan syövän.

Syövän havaitseminen 100 prosentin tarkkuudella

Monitieteinen tutkimushanke käynnistyi Helsingin yliopiston eläinlääketieteellisen tiedekunnan, Wise Nosen, Aqsens Health Oy:n ja Itä-Suomen yliopiston välillä. Ensin koirat koulutettiin tunnistamaan koirien nisäsyövän merkkiaineita virtsanäytteistä. Testien mukaan hajukoirien tulokset olivat hyviä ja syöpäsairauksien havaitsemisaste oli lähes 100 prosenttia Nyt tätä menetelmää aletaan laajentaa miesten eturauhassyövän ja naisten rintasyövän havaitsemiseen.

Koirien hajuaisti on erinomainen. Keskikokoisella koiralla on jopa 220 miljoonaa hajureseptoria nenässään, kun ihmisellä on vain 5 miljoonaa. Koirat haistavat tuhansia kertoja paremmin kuin ihmiset. Orgaanisten aineiden tunnistamiseen käytettävä massaspektrometri tarvitsee yleensä noin kymmenen miljardia molekyyliä, ennen kuin mitään näkyy mittauksissa. Koira voi haistaa sairauden huomattavasti pienemmästä määrästä. Itä-Suomen yliopiston mittauksissa Kössi-koiralle riitti näyte, jossa oli vain kymmenen molekyyliä.

Koirien löytämät näytteet analysoidaan massaspektrometrilla

Aineenvaihduntatuotteet eli metaboliitit ovat yhdisteitä, joilla on pieni molekyylipaino ja jotka osallistuvat erilaisiin toimintoihin solujen aineenvaihdunnassa. Näitä pieniä molekyylejä ei voi nähdä eikä havaita suoraan, vaan tarvitaan mittalaitteita, kuten massaspektrometrejä, joiden tuottamia signaaleja analysoidaan.

Itä-Suomen yliopiston farmasian laitoksen nuorempi tutkija Soile Rummukainen tutkii Kuopiossa koirien haistamia ja löytämiä syöpänäytteitä massaspektrometrilla.

“Tarkastelemme näitä syöpänäytteitä ja kontrolliryhmän näytteitä käyttämällä ensin kohdentamattoman metabolomiikan menetelmää. Massaspektrometrin avulla näemme virtsanäytteiden aineenvaihduntatuotteista kymmeniä tuhansia molekyylipiirteitä. Tilastotieteen avulla vertailemme ryhmien välisiä eroja ja pyrimme tunnistamaan mielenkiintoisimmat metaboliitit eli ne, jotka eroavat ryhmien välillä.”

Massaspektrometrin ja nestekromatografian avulla näytteestä voidaan erottaa siinä olevat yhdisteet ja muodostaa niille kullekin massaspektri. Massaspektrin piikkien sijainnista (x-akseli) käy ilmi molekyyleistä muodostuneiden ionien massa ja piikkien korkeudesta (y-akseli) niiden suhteellinen runsaus. Molekyylin pilkkoutumistuotteista voidaan puolestaan päätellä molekyylin rakenne. Nestekromatografia (LC) yhdistettynä massaspektrometriaan (MS) on tehokas analyysitekniikka metaboliittien määritykseen. LC-MS -menetelmiä käytetään paljon lääketutkimuksessa sekä kliinisessä diagnostiikassa.

Metaboliittien tunnistaminen haastavaa

Rummukaisen mukaan metabolomiikassa molekyylien tunnistaminen on haastava osa-alue. On pystyttävä tunnistamaan pilkkoutumisspektriä vastaava molekyylirakenne. Pilkeioneja verrataan maailmanlaajuisiin tietokantoihin ja niiden spektrikirjastojen kokoelmiin sekä omiin standardeihin.

”Oma standardi-kirjastomme on täällä yliopiston laitteilla analysoitujen standardien kokoelma. Niiden avulla saamme tarkimman tunnistuksen metaboliiteille, koska ne on analysoitu samalla menetelmällä ja antavat myös tunnistukselle tärkeän retentioaikatiedon. Oma kirjastomme on kuitenkin kooltaan rajallinen, joten työssä on käytettävä myös muita tietokantoja.”

Retentioaika tarkoittaa aikaa, joka yhdisteeltä kuluu kulkiessa kromatografialaitteiston läpi detektorille.

”Biologisessa näytteessä voi olla on tuhansia aineenvaihduntatuotteita. Kun näyte analysoidaan massaspektrometrilla, saadaan dataa, joka antaa kymmeniä tuhansia molekyylipiirteitä. Nämä piirteet täytyy sitten yhdistää molekyyleiksi. Tarkan massan, pilkkoutumisspektrien ja retentioajan avulla näytteestä saadaan tunnistettua keskimäärin sadasta kahteensataan metaboliittia, mikä on aika pieni määrä.”

Massaspektrometrin mittausdataa. Yläkuvassa näkyvät kaikki ionisoituneet eli ioneiksi muodostuneet yhdisteet per ajanhetki (total ion chromatogram). Itse kuvasta ei voi erottaa tutkimukselle merkittyvä ja informaatioita sisältäviä ioneita muista ioneista ennen datan käsittelyä. Raakadata muutetaan ohjelmistojen avulla datamatriisiksi. Tutkijat puhuvat piikin poiminnasta. Vasta piikkien poiminnan, data-analyysin ja tilastollisten käsittelyjen jälkeen saadaan on tieto, mitkä yhdisteet ovat tärkeitä eli tässä tapauksessa ne, jotka eroavat syöpänäytteissä ja vertailunäytteissä. Alempi kuva on yhdestä ajanhetkestä (retentioaika 4.03min,), jossa näkyy, minkä massaisia ioneita täsmälleen tuossa ajassa spektrometri on havainnut. Datamatriisi sisältää yhdistetyn retentioaika- ja ionin massatiedon sekä tämän molekyylipiirteen ionin määrän (abundance tai area). Kun mielenkiintoisimmat yhdisteet on datasta löydetty, ne löytyvät myös näistä kuvaajista ohjelmiston avulla. Lisäksi tarvitaan yhdisteiden pilkkoutumisspektrit, joita käytetään yhdisteiden tunnistamiseen.

Koirat tulevat nyt taas avuksi. Seuraavaksi tehdään fraktiointeja eli näytteistä otetaan osanäytteitä. Sitten käydään uudestaan testaamassa koirilla, onko haju vieläkin osanäytteissä.

Suurin työ on Rummukaisen mukaan fraktioiden tekemisessä ja analysoinnissa.

”Jatkossa tutkimme näitä osanäytteitä ja analysoimme tarkemmin niiden sisältämiä yhdisteitä käyttäen massaspektrometrisiä menetelmiä ja ydinmagneettista resonanssispektroskopiaa (NMR). Tavoitteenamme on hajukoirien ja koirien nisäsyöpänäytteiden avulla kehittää menetelmä, jota hyödynnetään myös ihmisten syöpään liittyvien metaboliittien määrittämiseen.”

Koiria koulutetaan tällä hetkellä haistamaan eturauhassyöpää ja rintasyöpää. Myös datan käsittely on tärkeää. Massaspektrometrin raakadatan käsittely tarvitsee paljon laskentakapasiteettia ja levytilaa.

”Yksittäinen metaboliitti voi liittyä kymmeniin solunsisäisiin signaalireitteihin. Tässä tarvittaisiin avuksi tietokonesimulointia, jotta löydettyjen muutosten biologinen merkitys avautuisi paremmin. Myös genomiikan ja proteomiikan antaman tiedon yhdistäminen metabolomiikkaan olisi mielenkiintoista, kunhan tarvittavat ohjelmistot ja työkalut tulevaisuudessa kehittyvät. ”

Ari Turunen

6.2.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Soile Rummukainen, & Tommi Nyrönen. (2020). A dog can smell diseases. https://doi.org/10.5281/zenodo.8131208

Lisätietoja:

LC-MS Metabolomiikkakeskus, Itä-Suomen yliopisto

http://www.uef.fi/fi/web/metabolomics-center

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Käyntiä tiskillä ei tarvita: SisuID tehostaa sähköistä tunnistamista

Jotta tutkija pääsisi eri tutkimusinfrastuktuurien digitaalisiin palveluihin, hänen henkilöllisyytensä ja suhteensa tutkimusorganisaatioonsa tulee todentaa. Tähän asti todentaminen on edellyttänyt henkilökohtaista käyntiä rekisteröintipisteessä, jossa hänen henkilöllisyystodistuksensa tarkistetaan. Suomessa on testattu uutta ratkaisua vahvalle sähköiselle tunnistamiselle, joka ei edellytä pistäytymistä rekisteröintipisteessä.

Todentamisella ja ensitunnistuksella varmistetaan, että henkilö on se, joka väittää olevansa. Tällä hetkellä tutkijat voivat käyttää kotiorganisaationsa käyttäjätunnuksia kirjautuessaan infrastruktuurien palveluihin. Kirjautuminen esimerkiksi sensitiivistä dataa sisältäviin palveluihin edellyttää kuitenkin luotettavampaa ensitunnistamista, jollaista ei ole käytössä kaikissa kotiorganisaatioissa.

”Perinteisesti ensitunnistamista pidetään luotettavana, jos henkilö joutuu käymään kasvotusten rekisteröintipisteessä, jossa koulutettu henkilökunta tarkistaa hänen passinsa tai muun viranomaisen myöntämän tunnistamisasiakirjan.”, sanoo vanhempi sovellusasiantuntija Mikael Linden CSC:stä.

ELIXIRin Suomen keskus CSC, yhdessä Masaryk Universityn kanssa, on jo pitkään kehittänyt infrastruktuurille autentikointipalveluja. ELIXIRin AAI-palvelu (Authentication and Authorisation Infrastructure) mahdollistaa sen, että käyttäjien tunnistaminen ja käyttöoikeuksien antaminen on sähköistä. Pääsystä esimerkiksi geenidataan päättää aina datan omistaja, mutta AAI:n avulla pääsy dataan nopeutuu.

AAI-palvelu on tehokas, mutta edellyttää tutkijan luotettavaa tunnistamista. Yleensä yksinkertainen ja hallinnollisesti ketterä ratkaisu on federoitu käyttäjäidentiteetin hallinta. Tällöin yhdellä tunnistautumisella ja oman kotiorganisaation käyttäjätunnuksella tutkijat saavat pääsyn organisaationsa ulkopuolella oleviin palveluihin, myös tarkoin suojeltuihin datakokoelmiin. Entä jos kotiorganisaatio ei pysty varmistamaan riittävän luotettavaa tunnistamista?

CSC on tehnyt yhteistyötä suomalaisen Sandbox of Trust -hankkeen kanssa, jossa on mukana muun muassa tietoturvayhtiö Nixu. Hankkeessa on kehitetty SisuID -tunnistusratkaisu, jonka tarkoituksena on tuoda käyttäjäystävällisempi vaihtoehto salasanoille sekä vahvaan kaksivaiheiseen tunnistamiseen. Tunnistusvälineenä käytetään ensi vaiheessa mobiilitunnistussovellusta, jonka myöntövaiheessa henkilölle luodaan myös yksilöivä sähköinen identiteetti. Näiden yhdistelmä mahdollistaa myös henkilötiedon luotettavan siirtämisen palveluiden välillä, henkilön omalla suostumuksella.

”ELIXIR:n tyyppisessä tutkimusinfrastruktuurissa ensitunnistamisen rekisteröintipisteiden verkostosta tulisi kallis ja loppukäyttäjälle kömpelö. SisuID -konseptissa ensitunnistus nojaakin siihen, että käyttäjä itse skannaa passinsa ja ottaa itsestään valokuvan SisuID -matkapuhelinsovelluksella, joka tarkistaa, että ne täsmäävät,” sanoo Mikael Linden.

Kasvontunnistaminen algoritmisesti

SisuID on avoimen lähdekoodin tunnistustapa, jota on kokeiltu viidessä eri pilottihankkeessa. Nixun digitaalisen liiketoiminnan johtaja Joonatan Henrikssonin mukaan nyt on kokeiltu eri tapoja todentaa ja tunnistaa luotettavasti suomalainen sekä ulkomainen henkilö.

”Suomessa vahva sähköinen tunnistaminen on mahdollista toteuttaa tällä hetkellä esimerkiksi pankkitunnuksilla, mutta ulkomaalaisten tutkijoiden osalta niitä ei voida hyödyntää eikä kaikissa maissa ole kansallista vahvaa tunnistautumistapaa,” sanoo Nixun digitaalisen liiiketoiminnan johtaja Joonatan Henriksson.

Henrikssonin mukaan testatussa rajat ylittävässä ratkaisussa ensin tunnistettava henkilö ottaa mobiililaitteellaan passistaan tai henkilökortistaan kuvan sekä itsestään kasvokuvan. Näitä vertaillaan algoritmisesti keskenään.

”Lisäksi vertailussa voidaan käyttää henkilöllisyystodistuksen myöntäjämaan rekistereitä sekä mm. Interpolin väärennettyjen henkilöllisyystodistusten kantoja.”

Mutta tiukempiakin kriteerejä tunnistamiseen on.

”Jos palveluntarjoajan mielestä luottamus etätunnistamisen osalta ei ole riittävä, meillä on mahdollista korottaa identiteetin luottamustasoa käyttämällä henkilö kerran fyysisessä asiointipisteessä ensitunnistettavana, jonka jälkeen luotettavampi identiteetti on kaikkien SisuID:tä käyttävien palveluntarjoajien käytettävissä.”

Henrikssonin mukaan tunnistamisen kriteerit noudattavat EU:n eIDAS -asetusta. eIDAS -asetus tarjoaa tunnistuspalveluiden tarjoajille raamit, joihin esimerkiksi Suomen laki vahvasta sähköisestä tunnistamisesta perustuu. eIDAS -asetuksen avulla tunnistus- ja luottamuspalveluiden tarjoajat voivat halutessaan hakea palvelulleen viranomaishyväksyntää, jolloin tunnistusväline käy esimerkiksi rajat ylittävään valtionhallinnon asiointiin.

”Jatkossa voimme myös lukea NFC -sirulta passin myöntäjän allekirjoittaman kasvokuvan, sekä ottaa liveness -videon kasvoista, joka parantaa entisestään rekisteröidyn identiteetin sähköistä luottamustasoa.”

SisuID -ratkaisun tuottamista varten ollaan perustamassa voittoa tavoittelematonta tunnistusosuuskuntaa, joka jakaa kaikkia sektoreita palvelevan tunnistuspalvelun hyödyt, kustannukset ja riskit sitä käyttävien organisaatioiden välillä.

Kun henkilön todentaminen ja tunnistaminen pystytään hoitamaan tehokkaasti ja luotettavasti, Henrikssonin mielestä jäljelle jäävä ongelma on, että henkilöön liitetty data elää siiloissa. Tällä hetkellä pääsy esimerkiksi ELIXIRin tuottamiin palveluihin voitaisiin antaa yhdistämällä kaksi tietoa: luotettavalla tavalla rekisteröity digitaalinen identiteetti ja henkilöön liittyvät todistukset. Tutkija voi muuttaa yliopistolta saadun tutkintotodistuksen tai EU:lta saadun apurahapäätöksen sähköiseen muotoon, joka virallistaa tutkijan väitteen tutkijastatuksestaan.

”Tämä tunnistetun henkilön digitaaliseen identiteettiin liitettävä sähköinen tieto voitaisiin jatkossa välittää toimijoiden välillä esimerkiksi hajautettua luottamusta tuottavien rajat ylittävien lohkoketjuverkostojen avulla.”

Lohkoketjussa lohkoihin tallennetaan dataa. Lohkot liitetään edelliseen algoritmilla, joka luo datasta merkkijonon. Yhteen lohkoon kirjattuja tietoja ei voi muuttaa jälkikäteen, koska lohkoketju on hajautettu usealle tietokoneelle. Tämä menetelmä mahdollistaa digitaalisen luottamuksen hajauttamisen, ilman että esimerkiksi kansallisten rekisterien rajapintoja tarvitsee avata koko maailmalle. Lohkoketjun muuttumattomuus takaa luotettavan datan siirron käyttäjän itsensä toimesta, jolloin suoria integraatioita rajapintojen välillä ei tarvita. Esimerkkinä tästä on tehty EU tasolla kokeiluja European Blockchain Services Infrastructure (EBSI) -hankkeessa, muun muassa sähköisten koulutustodistusten siirrossa.

Ari Turunen

30.10.2019

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Mikael Linden, Joonatan Henriksson, & Tommi Nyrönen. (2019). No need to turn up personally: SisuID improves electronic authentication. https://doi.org/10.5281/zenodo.8131086

Lisätietoja:

https://sisuid.com/fi/

https://www.nixu.com

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

VEIL.AI: potilastietoja hunnutettuina

Potilasdata on tärkeää tutkimukselle. Henkilön tietosuojasta huolehditaan piilottamalla tai muokkaamalla tunnistetietoja, mutta samalle tutkijalle jää tutkimukselle merkittävä tilastollinen data. Uusi tekoälyä käyttävä palvelu mahdollistaa tämän.

VEIL.AI anonymisoi potilasdatan perinteisiä menetelmiä tehokkaammin, nopeammin ja informaatiota paremmin säilyttäen. Tarvittaessa sovelluksen avulla voidaan tuottaa myös synteettistä, täysin anonyymia eli siis yksittäisestä henkilöstä erillään olevaa tilastollista dataa.

Suomen molekyylilääketieteen instituutissa (FIMM) kehitetty sovellus on nyt tarjolla ELIXIR -infrastruktuuriin, jonka kanssa kehitetään yhteistä palvelua. Dataa hallinnoiva organisaatio voi suojata datansa syöttämällä metadatatiedot skaalautuvaan pilvipalveluun. Palvelu verhoaa yksilökohtaiset tunnisteet, jolloin tutkijat saavat käyttöönsä anonymisoitua ja tarvittaessa synteettistä dataa.

Tekoäly apuna

VEIL.AI –sovellus hyödyntää tekoälyyn perustuvaa mallintamista. Sovelluksessa luodaan huntu, joka suojelee potilaan tunnistetietoja mutta se osaa tunnistaa relevantin datan, jolloin se ei hävitä sitä.

“Toisinaan, esimerkiksi koneoppivia malleja kehitettäessä, tarvitaan dataa laajemmin ja nopeammin kuin mitä tutkimuseettiset lautakunnat mielellään antavat. He edellyttävät jokaisen muuttujan tarkkaa perustelua, mikä taas on koneoppivissa malleissa vaikeaa siinä vaiheessa, kun parasta mallia vasta haetaan,“ sanoo kaupallistamisasiantuntija Tuomo Pentikäinen.

Siksi varsinkin mallintamisen alkuvaiheessa onkin Pentikäisen mukaan järkevää käyttää synteettistä dataa, jota VEIL.AI -menetelmällä voidaan luoda.

“Tällä tarkoitetaan taustalla olevista ihmisistä kokonaan irrallaan olevaa dataa, joka kuitenkin käyttäytyy haluttujen muuttujien suhteen samoin kuin alkuperäinen data.”

VEIL.AI löytää henkilön tunnistamiselle herkät muuttujat ja pystyy nämä muuttujat anonymisoimaan automaattisesti.

”Sovelluksessa voidaan tehdä suunnitelmallisemmin ja järkevämmin laskennallisesti raskaita ja operatiivisesti työläitä datan osittamiseen ja anonymisointimetriikoiden laskemiseen liittyviä toimenpiteitä.”

Arkaluontoista potilasdataa pitää pystyä suojelemaan, mutta monet perinteiset anonymisointimallit hävittävät samalla tärkeääkin dataa. Perinteisesti potilastietoja on suojattu osittamalla ja karkeistamalla datassa olevia tunnistetietoja. Anonymisoinnissa tutkitaan sitä, miten muuttujat jakavat/osittavat tiedon erilaisiin ryhmiin. Sitten kutakin ryhmää tarkastellaan erikseen ja jos sieltä löytyy liian tunnistettavia muuttujia, niitä karkeistetaan. Karkeistuksessa esimerkiksi ikää voidaan pyöristää muutamalla vuodella ja ammattinimike vaihtaa sairaanhoitajasta ”terveydenalan ammattilaiseksi”.

”Liian tunnistettavat muuttujat karkeistetaan siis riittävän yleiselle tasolle tai jopa poistetaan. Terveysdatassa poistamisia joudutaan aika usein tekemään, kun jokin muuttuja on liian ainutlaatuinen ja tunnistettava”, sanoo Pentikäinen.

Karkeistaminen voi siis hukata tärkeää potilasdataa.

Biopankkinäytteet Meilahdessa Helsingissä säilytetään -180 asteen lämpötilassa nestemäisen typen kaasufaasissa.Terveyden ja hyvinvoinnin laitos (THL) testasi ensimmäisenä ELIXIR AAI:n federoidun tunnistautumiseen ja käyttöluvan hallintaan perustuvaa prosessia biopankin näytteistä kerätyille sensitiivisille aineistoille. Kuva: FIMM

”Tyypillisesti tätä tapahtuu silloin, kun kiinnostava ilmiö (vaikkapa sairaus) on kohtalaisen harvinainen ja jakaantuu melko tasaisesti koko tietomassaan. Kun tietomassa sitten jaetaan ositteisiin anonymisointia varten, on tavallista että kiinnostuksen kohteena oleva ilmiö jakautuu entistäkin harvinaisempana kuhunkin uuteen ositteeseen. Tällöin on tavallista, että perinteiset menetelmät tulkitsevat kyseessä olevan kiinnostavan datan ”outlieriksi” kussakin uudessa ositteessa ja se siivotaan pois. Tämä on typerää, koska fiksummin valitulla strategialla kiinnostava ilmiö olisi saatu kerätyksi ositteisiin siten, että tärkeä informaatio voidaan säilyttää paremmin. ”

Suomen molekyylilääketieteen instituutin IT-päällikkö Timo Miettinen ottaa esimerkiksi potilaan, jolla on harvinainen versio rintasyövästä. Liian raju karkeistus voi kokonaan hävittää tiedot harvinaisesta versiosta, koska tällaisia potilaita on datajoukossa vähän.

”Rintasyöpäpotilaalla on yksi diagnoosi, mutta hänen geneettinen profiiliinsa kertoo, että hänellä on rintasyövästä harvinainen versio. Näitä potilastapauksia voi olla yhdessä sairaalassa muutamia, jolloin se voidaan luokitella outlieriksi ja deletoidaan. Mutta koko populaatiota ajatellen näin ei ole ole. Jos kokonaisuutta pystyttäisiin tarkastelemaan paremmin, tämä outlier, poikkeava havainto, ei olisi deletoitu.”

Timo Miettinen on pitkään ollut mukana suunnittelemassa tietojärjestelmiä, joissa hyödynnetään ja suojataan kliinistä dataa. Miettinen ryhmineen on kehittänyt VEIL.AI-sovelluksen, jota ollaan kaupallistamassa. Tällainen mikropalvelu on luotu EU:n tietosuoja-asetuksen GDPR:n takia.

Suomessa on jokaisella biopankilla käytössään oma koodirekisteri. Koodirekisterissä on henkilötunnus sekä synonyymitaulukko, jolloin luodaan tutkittavalle tunniste, joka on pseudonyymi eli peitetunniste.

”Joitakin asioita on vaikea muuttaa, kuten pituus, silmien väri ja syntymäpaikka. Ne ovat tilastollisilla menetelmillä tunnistettavissa. Samoin terveyteen liittyvä tapahtumasarja eli hoitohistoria”, sanoo Miettinen.

”Meillä on kaksi lupausta. Ensinnäkin lupaamme skaalautuvuutta ja enemmän suorityskykyä. Pystymme hyödyntämään jatkuvasti päivittyvää dataa monesta lähteestä. Ne voimme anonymisoida tehokkaasti ja tietoturvallisesti. Toinen lupauksemme on, että yritämme minimoida tietohävikkiä. Sovelluksella huomioidaan datan sisältö ja täytetään samalla anonymisointikriteerit”, sanoo Miettinen.

Skaalautuva pilvipalvelu

VEIL.AI on tekoälysovellus, jolla data voidaan anonymisoida. Se voi anonymisoida esimerkiksi telemetristä, sensoridataa ja jatkuvasi päivittyvää dataa. Se tuottaa myös haluttaessa synteettisen datan halutusta datajoukosta.

VEIL.AI -sovelluksessa käytetään neuroverkkoa, jopa on jopa tuhansia kertoja nopeampi kuin perinteiset menetelmät.

”Menetelmämme mahdollistaa aikaisempaa turvallisemman tiedon jakamisen, sillä neuroverkon opettamisen jälkeen kukin luottamuksellisen tiedon haltija voi suorittaa anonymisoinnin ennen kuin luovuttaa luottamuksellista tietoa partnereilleen. Usein menetelmämme tuottaa myös parempaa dataa, sillä voimme kokeilla valtavan määrän erilaisia datan osittamisstrategioita ja valita niistä sen, joka tuottaa pienimmän informaatiohävikin ja silti saavuttaa tavoitellun anonymiteettitason, ” sanoo Pentikäinen.

Tietoturvalle tärkeää on myös VEIL.AI -sovelluksen käytössä se, että potilasdata ei siirry minnekään.

”Me emme halua hallinnoida dataa. Meidän palvelumme läpi striimataaan dataa, joka anonymisoidaan ja palautetaan sitten välittömästi asiakkaan hallintaan,” sanoo Tuomo Pentikäinen.

”Tarjolla on skaalautuva pilvipalvelu. Käyttöliittymän kautta voidaan syöttää tarvittavat metadatatiedot (data dictionary) ja opettaa algoritmi tekemään datan anonymisointimallin jollakin esimerkkiaineistiolla. Algoritmi oppii käsittelemään dataa ja jos tulee lisädataa, se striimataan pilvipalvelun kautta ja anonymisoidaan,” Timo Miettinen korostaa.

Organisaatioiden ei siis tarvitse jakaa sensitiivistä dataa enää kenellekään. Data tulee anonymisoituna pilvipalvelun kautta tutkimuksen käyttöön.

Eri pseudotunnisteiden analysoimiseen tarvitaan paljon laskentaa, jota on saatu ELIXIR -infrastruktuurista.

Ari Turunen

3.6.2019

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Tuomo Pentikäinen, Timo Miettinen, & Tommi Nyrönen. (2019). VEIL.AI: patient data in a veil. https://doi.org/10.5281/zenodo.8119016

VEIL.AI

http://www.veil.ai

FIMM

Suomen molekyylilääketieteen instituutti (FIMM) on kansainvälinen tutkimuslaitos, jonka toiminta keskittyy sairauksien molekyylitason mekanismien selvittämiseen genetiikan ja lääketieteellisen systeemibiologian menetelmin. Tavoitteena on tutkimustiedon siirtäminen terveydenhuollon käyttöön mm. henkilökohtaista lääketiedettä edistämällä.

www.fimm.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Geenidata haltuun ja haluttuun muotoon

Bioalan tutkimus tuottaa hurjan määrän dataa ja määrä kaksinkertaistuu muutaman kuukauden välein. Siksi datan hallinnointi edellyttää kehittyneitä työkaluja. Nämä on mahdollista toteuttaa julkisten biologisen tiedon infrastruktuurien ja yritysten, kuten ELIXIRin ja BC Platformsin yhteistyössä.

BC Platforms tarjoaa tietojärjestelmiä genomidatan hallintaan. Sen kehittämät kaksi järeää tietokantaa ovat käytössä myös ELIXIR-infrastruktuurissa Suomen ELIXIR-keskuksen CSC:n kautta. BC Platforms on nyt luomassa ekosysteemiä, jossa eri maiden biopankkien data-aineistoihin voidaan tehdä hakuja yhteisen käyttöliittymän avulla.

BC Platformsilla on yli 20-vuotinen historia suurten datamassojen käsittelystä. Yrityksen tiedonhallintajärjestelmät voidaan laittaa paikalliseen laskentaympäristöön tai pilveen. Taustalla toimii virtuaalinen tiedostojärjestelmä. Käyttäjät kirjautuvat tietokantaan ja hakevat aineiston palvelimelta. Käyttäjien tekemät muutokset tallennetaan sitten takaisin tietokantaan eli tiedostoja viedään ja tuodaan valtavia määriä käyttäen suojattua tietoverkkoa. Tämä ns. objektipohjainen tallennus sopii erityisesti silloin, kun dataa on säilytettävä pitkään ja samalla otettava huomioon tietoturva.

BC Platformsin asiakkaiden analysointien kohteet vaihtelevat yksittäisen ihmisen tai eläimen datasta jopa miljoonien yksilöiden kohortteihin. Asiakkaina on myös tutkimusorganisaatioita, jotka tuottavat jopa 10 000 genomia päivässä.

BC Platforms haluaa luoda avoimen ekosysteemin tutkijoiden, lääkeyhtiöiden ja biopankkien välille. BC RQUEST-palvelu välittää tietoja eri biopankkien sisältämästä datasta. Palvelun käyttöliittymän kautta tutkijat ja lääkeaineiden kehittäjät pääsevät näkemään keskitetysti yhteistyöverkostoon kuuluvien biopankkien aineiston.

Jokaiseen ekosysteemiin liittyneessä biopankissa on BC Platformsin kehittämä moduuli, joka välittää biopankkien dataa palveluun. BC Platformsin pääarkkitehti Timo Kannisen mukaan yhteinen biopankkien käyttöliittymä hyödyttää kaikkia.

”Autamme lääkeyhtiöitä löytämään oikeat biopankit, joihin on tallennettu niille merkittävää dataa. Esimerkiksi hakusanalla ”astma” pääsee näkemään kuinka monen astmapotilaan aineistoja on tallennettu eri maiden biopankkeihin. Aiemmin on täytynyt lähettää yksittäisen biopankin ylläpitäjälle sähköpostia ja kysellä kuinka monta astmapotilasta siellä on ja odottaa vastausta.”

Ohjelmisto tuottaa automaattisesti aggregaattidataa eli dataa, joka kerätään useasta lähteestä. Koska se ei sisällä henkilökohtaista tietoa, dataa voidaan siirtää maiden rajojen ulkopuolelle. Tunnistetut biopankkien datat voidaan yhdistää järjestelmässä, kun siihen on saatu lupa.

”Hakuja voi tehdä olemassa olevaan dataan älykkäästi. Palvelu ja ekosysteemi saattavat yhteen datanhaltijat, tarjoajat ja käyttäjät. Koska käyttäjät ovat lääkkeitä kehittäviä yhtiöitä, ne haluavat usein määritellä tarvitsemansa datan. Analyysityökalumme soveltuvat hyvin tähän käyttötarkoitukseen.”

Timo Kannisen mukaan tavoite on saada viiden miljoonan potilaan kliininen ja genominen data yhteisen käyttöliittymän hakutoimintojen alle vuoteen 2020 mennessä.

”Nyt pystytään laajasti näkemään minkälaista dataa on saatavilla. Rekrytoimme koko ajan ekosysteemiin lisää biopankkeja, joilla on kliinisen tiedon lisäksi genomidataa. Lääkeainesuunnittelijat hyötyvät tästä, sillä löydökset voidaan todentaa toisessa populaatiossa.”

BC Platformsin sovellus tuottaa metadataa automaattisesti, mikä parantaa mahdollisuuksia tehdä hakuja biopankkien aineistoihin. BC Platforms luokittelee metadataa olemassa olevien standardien pohjalta. Metadatan harmonisointi on kuitenkin edelleen haaste tehokkaalle tietojenkäsittelylle. Kirjaamiskäytännöt vaihtelevat maasta ja sairaalasta riippuen.

”Yleensä ikä, sukupuoli ja diagnoosi tiedetään, mutta leikkaukset, operaatiot ja laboratorioarvot on usein kirjattu epäyhteneväisellä tavalla. Haasteita lisäävät vielä eri tietojärjestelmät”, sanoo Kanninen.

Bioalan yritykset eivät jää odottamaan standardoinnin tuloksia, jos siihen menee vuosia. On pakko miettiä omia ratkaisuja. Metadatan harmonisointi ja standardointi sekä julkisten tietokantojen tarjoaminen standardimuodossa olisi kuitenkin erittäin iso helpotus ja resurssi. Tähän pyrkii ELIXIR.

Geenitesteistä lääkeaineisiin

Geenidataa käytetään entistä enemmän potilaiden hoidossa ja teollisuudessa. BC Platformsin asiakkaana on yksi maailman suurimpia geenitestejä tuottavia yrityksiä, jolle BC Platforms tuottaa geenidatan. Suomalaiset tutkimusryhmät hyödyntävät BC Platformsin järjestelmiä kasvien, eläinten ja ihmisten genomien analysoimisessa. Helsingin yliopistossa tehdään mm. eläinjalostukseen liittyvää tutkimusta ja tutkijat tarvitsevat työkaluja genomidatan hallintaan. BC Platformsin järjestelmällä analysoidun datan avulla haetaan myös uusia lääkkeiden vaikutuskohteita ja tutkitaan lääkeaineiden tehoa ja turvallisuutta.

”Digitoimme geenidatan sellaiseen muotoon, mitä tutkijat tarvitsevat analyyseissaan. Sen voi sitten yhdistää muuhun dataan, esimerkiksi kliiniseen dataan tai potilasdataan”, sanoo BC Platformsin kehitysjohtaja Anita Eliasson.

Syöpätutkimuksessa voidaan hyödyntää genomidataa, kun selvitetään potilaan syöpätyyppiä. Genomidatan perusteella voidaan tietää, minkälainen on lääkevaste ja minkälaista hoitomuotoa kannattaa suositella.

”Käytämme julkisia tietokantoja, joissa on tietoa minkä tyyppisellä genomilöydöksellä on tyypillisesti tiettyjä hoitovasteita tai mistä syöpätyypistä on kyse kun henkilöllä on tietty perimä. Tämä yhdistetään muuhun tietoon. Potilasta osataan hoitaa alusta lähtien oikein, mikä säästää aikaa ja rahaa. Pelastetaan henkiä, kun osataan valita oikea lääke.”

Vaikka päätietokantajärjestelmä on BC Platformsin kehittämä, Eliasson painottaa, että BC Platforms on ekosysteemiyritys, jolle tärkeää on kumppaniverkosto.

”Olemme kehittäneet pitkään tietojärjestelmiämme yhdessä tutkijoiden kanssa. Nyt on edessä uusi vaihe geenitutkimuksessa, sillä tietoa tarvitaan myös muuhun kuin tutkimuskäyttöön. Emme pyri tarjoamaan analyysipalvelua jokaiseen tarkoitukseen. Tietojärjestelmässämme on siksi avoimet rajapinnat. Siihen voi sitten kytkeä helposti muita analyysimenetelmiä, kuten tekoälymenetelmiä.”

Palvelut käytössä osana ELIXIR-infrastruktuuria

BC Platformsin kaksi tietojärjestelmää BC I Genome ja BC I Insight, ovat käytössä ELIXIR-infrastuktuurissa Suomen ELIXIR-keskuksen CSC:n kautta. Tutkijaryhmillä on oma virtuaalipalvelin, jossa ovat BC Platformsin tietokannat ja työkalut. Virtuaalipalvelimet toimivat CSC:n laskenta-alustalla ja tarvittaessa korotetun tietoturvan ePouta-pilvipalvelussa.

”Tutkijat pystyvät tallentamaan näihin genomisen datan ja muun tutkimusdatan. Samalla he pystyvät tekemään hyvin laajan skaalan erilaisia genomianalyyseja samassa ympäristössä datoja eri tavoin yhdistellen.”

Tutkimusympäristöä käyttävät tällä hetkellä Helsingin yliopiston ryhmät, jotka tutkivat eläinten geenejä.

”Tähän ympäristöön voi kytkeä lisää sovelluksia, koska BC I Genomessa ja BC I Insightissa ovat avoimet rajapinnat. Ihmisdatan analysoimisessa data voitaisiin tarvittaessa tallentaa kovennetun tietoturvan ympäristöön, kuten CSC:hen.”

Helsingin yliopiston tutkijoiden käyttämät BC Platformsin tietokannat ovat itse asiassa virtuaalipalvelimilla CSC:n ympäristössä.

Koska datan käsittely ja yhdistely on automatisoitu, tutkijaryhmän ei tarvitse tehdä datakonversioita tai huolehtia dataformaateista.

”Ylläpito on tehokasta, koska ympäristö on yhteneväinen. Vain harvoilla tutkimusorganisaatioilla on varaa hankkia yksittäiselle tutkimusryhmälle näin järeää ratkaisua ja sen ylläpitoa. ELIXIR-infrastruktuurin kautta tämä on nyt mahdollista biotieteilijöille.”

Anita Eliassonin mukaan BC Platformsin tapaislla yrityksillä on suuri tarve hyödyntää replikoituja julkisia tietokantoja, jolloin automaattisesti otettaisiin tietokannasta paikallisia kopioita. Bitit eivät liiku riittävän nopeasti EMBL:n tietokannoista. Fyysinen etäisyys vaikuttaa, kun on kyse todella suurten datamassojen siirtämisestä.

”Kaiken datan siirtäminen ei ole mielekästä. Siksi Suomen ELIXIR-keskuksen solmupisteisiin pitäisi replikoida tietokantoja. Yritykset, jotka haluavat analysoida isoja datamassoja tekoälyllä hakeutuvat fyysisesti lähelle tietokantoja tiedonsiirtokustannusten takia.”

Ari Turunen

11.9.2018

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Timo Kanninen, Anita Eliasson, & Tommi Nyrönen. (2018). Genetic data under control and in the desired format. https://doi.org/10.5281/zenodo.8113213

Lisätietoja:

BC Platforms

www.bcplatforms.com

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Hyvää lääkeainemolekyyliä etsimässä

Hyvää lääkeainemolekyyliä ei synny, ellei tiedetä, mihin proteiineihin se elimistössämme vaikuttaa. Siksi lääkeainesuunnittelussa on tärkeää hyödyntää massiivisia tietokantoja, joihin on tallennettu löydettyjä proteiinirakenteita ja proteiiniperheitä sekä tietoja, miten ne toimivat soluissa.

Suurin osa käytössä olevista lääkkeistä on suunniteltu niin, että niiden kohdemolekyyleinä ovat elimistön biomolekyylit eli proteiinit. Useimmat lääkeaineet vaikuttavat elimistössä sitoutumalla viestimolekyylien, kuten hermoston välittäjäaineiden ja hormonien, reseptoreihin. Reseptorit ovat solun erikoistuneita proteiineja, jotka käynnistävät siihen kytkeytyvät solun signaalinvälitysmekanismit.

Lääkeaineiden suunnittelun lähtökohtana on rakentaa pieniä synteettisiä molekyylejä, jotka vaikuttavat valikoivasti juuri haluttuihin proteiineihin. Suurin osa lääkkeiden kohdeproteiineista kuuluu vain kymmeneen proteiiniperheeseen, jopa puolet vain kolmeen perheeseen. Pienet molekyylit pystyvät imeytymään hyvin verenkiertoon, jolloin lääke alkaa vaikuttaa. Proteiinin sijainnista riippuen lääkeainemolekyylin täytyy tunkeutua soluihin tai välittää solun ulkopuolelta signaali, joka vaikuttaa solun sisällä tapahtuviin prosesseihin. Molekyylit pyritään suunnittelemaan esimerkiksi siten, että ne hidastavat tai kiihdyttävät jonkin tietyn proteiinin toimintaa.

Aiemmin ei tiedetty paljonkaan siitä, missä kohdassa solua lääkeaine vaikuttaa. Vuonna 1980 näitä vaikutuskohteita tunnettiin 150. Määrä on eri eliöiden genomien selvittämisen myötä kuitenkin kasvanut huimasti, sillä nyt on tiedossa jo yli 5 000 mahdollista vaikutuskohdetta. Lääketieteen käytettävissä on noin 2500 lääkeainemolekyyliä. Ihmisen genomin toimintaa selvitetään yhä tarkemmin, ja mahdollisia lääkeaineiden vaikutuskohteita tunnetaan lähivuosina ehkä jo 10 000.

Viimeisten arvioiden mukaan elimistössämme on 2000 – 3000 proteiinia, jotka ovat mahdollisia kohdeproteiineja lääkeaineelle. Nykyisten lääkkeiden on osoitettu toimivan vasta noin 450 lääkeaineen kohteen kautta rajalliseen määrään tauteja. Siten lääkeaineiden suunnittelijoilla on kaksi merkittävää tavoitetta – rakentaa uusia turvallisia molekyylejä, joilla tunnettuihin kohteisiin voidaan turvallisesti vaikuttaa ja toisaalta tutkia tunnettujen turvallisten lääkeaineiden käyttöä uusiin sairauksiin, joihin ei tällä hetkellä ole viranomaisten hyväksymää lääkettä. Tutkijoiden tavoitteena on muun muassa ymmärtää, mitkä lääkeaineen rakenteelliset ja kemialliset ominaisuudet ovat avainasemassa, kun ne muokkaavat proteiinien toimintaa solutasolla.

Toimiva lääke voidaan kehittää, kun löydetään sellainen kohdeproteiinin kolmiulotteinen rakenne, joka mahdollistaa vuorovaikutuksen lääkeainemolekyylin kanssa. Lääkemolekyyliin rakennetaan kemialliset vastakappaleet, jotka tunnistavat proteiinin sitoutumiskohdassa olevat aminohapot. Kun tällainen molekyyli törmää elimistössä kohdeproteiiniin, se hakeutuu automaattisesti proteiinin sitoutumiskohtaan, koska siihen kiinnittyminen on sille energeettisesti edullista.

Hyvin suunnitellun lääkeainemolekyylin sitoutumista kohdeproteiiniin voisi verrata villakäsineen pukemiseen. Se istuu napakasti nimenomaan viisisormiseen käteen: kuusi- tai seitsemänsormiselle se olisi erittäin epämukava. Vasemman käden käsine myös istuu huonosti oikeaan käteen.

Proteiinien muoto kertoo molekyylin toiminnasta enemmän kuin aminohappojärjestys. Muodoltaan samanlaiset proteiinit voivat biokemiallisesti toimia samankaltaisesti, vaikka niiden aminohappojärjestykset poikkeaisivat toisistaan yli 80 prosenttia.

Kun proteiiniperheen yhden jäsenen rakenne on selvitetty, voidaan muiden samaan perheeseen kuuluvien proteiinien rakenne ennustaa mallintamalla. Tietokoneen avulla tehtävä mallintaminen nopeuttaa tutkimusta, sillä proteiinien aminohappojärjestyksiä tunnetaan satoja kertoja enemmän kuin sellaisia proteiinirakenteita, jotka on jo ehditty määrittää kokein. Karkeasti voidaan sanoa, että genomiikan tehtävänä on selvittää nukleotidien järjestys. Tämä järjestys muuttuu solussa aminohappopolymeeriksi, mutta vasta kun proteiini laskostuu kolmiulotteiseen muotoonsa, se alkaa toimia. Tätä toimintaa selvittää proteomiikka. Siten genomiikan, proteomiikan ja lääkemolekyylimallituksen asiantuntijoiden yhteistyö tukee toisiaan.

Monissa kipulääkkeissä käytettävä ibuprofeiini estää syklo-oksigenaasi-entsyymin toimintaa, mikä puolestaan vähentää kipureseptoreiden viestinnässä tarvittavien kemikaalien ja prostaglandiineiksi kutsuttujen hormoonien tuotantoa. Näin kipuaistimus heikkenee.

Tietokannoissa proteiinien rakenteet ja paikat

Vaikka tietoa on paljon, uusien lääkkeiden kehitys on varsin haasteellista. Vain viisi prosenttia lääkeaine-ehdokkaista etenee laboratoriotestauksen kautta edes eläimillä tehtäviin hoitokokeisiin asti. Niistäkin vain pari prosenttia sopii lopulta lääkkeiksi. On arvioitu, että jopa 75 prosenttia lääkkeiden hinnasta johtuu epäonnistuneiden lääkekehityshankkeiden kustannuksista.

Yksi suuri haaste on sivuvaikutusten minimointi. Genomiikan kehityksen myötä lääkeaineiden on todettu vaikuttavan yksilöllisesti. Historiallisesti lääkeaineet on kehitetty olettaen, että ihmiset ovat samanlaisia biokemialtaan, mutta todellisuudessa olemme solutasolla yksilöllisiä samalla tavalla kuin ihmiset ovat fyysisesti hieman erilaisia. Kun pienillä lääkeainemolekkyleillä pyritään vaikuttamaan sairastuneen elimistön tilanteeseen parantavasti, nämä yksilölliset molekyylitason erot voivat vaikuttaa lääkeaineen toimivuuteen.

Keräämällä ja tallentamalla ihmisen biologista tietoa, voidaan tulevaisuudessa kohdistaa hoitotarkoituksiin lääkemolekyylejä, jotka tekevät juuri sen mitä niiden pitääkin ja juuri siinä tilanteessa ja räätälöitynä sille ihmiselle, joka lääkehoitoa tarvitsee. Tätä kutsutaan yksilöllistetyksi lääketieteeksi.

Tietty geeni tuottaa tiettyä proteiinia, joihin lääkeaineet vaikutavat. Kun tunnetaan ihmisen perimän DNA:n emäsjärjestys, voidaan päätellä myös vastaavan proteiinin perusrakenne tällä ihmisellä. Kuten DNA, proteiinikin on rihma, joka koostuu peräkkäisistä rakennuspalikoista. Geenin tiettyä palikkaa vastaa aina proteiinin tietty palikka.

Yhdellä ihmisellä voi olla perittynä tai ympäristön aiheuttaman muutoksena yhden DNA:n nukleotidin muutos, joka tämän ketjun kautta heijastuu proteiiniin. Tuo muutos voi olla juuri siinä kohdassa proteiinia, jolla sen pitäisi ottaa vastaan signaaleita muualta elimistöstä tai vuorovaikuttaa lääkeaineen kanssa. Proteiinin rakenteet tallentamalla ja jakamalla ne tutkijoiden käyttöön voidaan tämä ilmiö hallita ja ymmärtää. Lääkemolekyylin ja proteiinimolekyylin muodot osataan sovitella toisiinsa niin, että lääkettä muokataan sopeuttaen se tilanteeseen, jolloin lääke tarttuu ja vaikuttaa mahdollisimman tehokkaasti. Monet syöpähoidot perustuvat tähän. Kasvaimen perimä muuttuu ajan kuluessa. Eri vaiheessa oleviin kasvaimiin voi vaikuttaa lääkeaineilla, mutta lääkeaineiden muodon on otettava huomioon kasvua kiihdyttävien proteiinin muodon muutokset.

Lääkeainesuunnittelussa tutkitaan siksi erityisesti proteiineja, joiden kolmiulotteinen rakenne voidaan selvittää kokein tai ennustaa mallintamalla. Lääkemolekyylin tarttumista voi tutkia tietokoneen moderneilla mallinnusohjelmilla, joissa kolmiulotteista proteiinin ja lääkkeen mallia sovitellaan toisiinsa. Näin voidaan myös räätälöidä ihanteellinen lääkkeen muoto.

Tavallisesti lääke vaikuttaa tarttumalla elimistön vialliseen proteiiniin ja muuttamalla sen toimintaa. Ihanteellinen lääke tekee vain tämän; se ei häiritse terveitä proteiineja eikä aiheuta muita sivuvaikutuksia. Tähän asti on oltu onnellisia, jos on löydetty yksi sairauteen vaikuttava proteiini ja jokin siihen kohtuullisesti tehoava lääkeaine.

Nyt proteiinien ja lääkemolekyylien koko arsenaalia pystytään seulomaan ja valitsemaan parhaat ehdokkaat. Tämä johtuu molekyylibiologian, tietokoneiden laskentatehon ja tietokantojen edistymisestä. Nyt voidaan seuloa elimistön koko proteiinivalikoimaa.

Protein Data Bankissa eli PDB-proteiinitietokannassa on yli 100 000 proteiinirakennetta, jotka jakautuvat proteiiniperheisiin. Proteiiniperheen jäsenet ovat yleensä kolmiulotteiselta rakenteeltaan samankaltaisia, ja siksi ne myös toimivat samantapaisesti.

PDB-tietokantaa ylläpitää kansainvälinen konsortio Worldwide Protein Data Bank (wwPDB). Sen tehtävänä on ylläpitää yksittäistä makromolekyylien rakennedataa, joka on tutkijoille vapaasti käytettävissä.

Human Protein Atlas on vuonna 2003 Ruotsista alkanut ohjelma, jonka tarkoituksena on kartoittaa kaikki ihmisen proteiinit soluissa, kudoksissa ja elimissä. Kartoituksessa käytetään erilaisia omiikka-tekniikoita eli tekniikoita, joissa kaikkia geenejä tai niiden tuottamia proteiineja tutkitaan samanaikaisesti. Näitä ovat vasta-aineiden kuvantaminen, massaspektromiikkaan perustuva proteomiikka, transkriptiomiikka ja systeemibiologia. Kaikki kerätty data on avoinna tutkijoille.

Tammikuussa vuonna 2015 Human Protein Atlas julkaisi kartan, joka näytti 17 000 eri proteiinin paikat ihmisen kehossa antaen näin arvokasta tietoa lääkeainesuunnitteluun. Kartassa olivat proteiinien sijainnit, jotka olivat hyväksyttyjen lääkkeiden kohdeproteiineja. Tutkijat voivat katsoa proteiineja 32 erilaisessa kudoksessa edustaen kaikki merkittävimpiä kehon kudoksia ja elimiä.

Joulukuussa 2017 Human Protein Atlas julkaisi version 18. Tietokannassa oli tuolloin 26 000 vasta-ainetta, jotka kohdistuivat proteiineihin, joita lähes 17 000 geeniä koodaa. Se vastasi 87% ihmisen proteiineja koodaavista geeneiistä.

Tommi Nyrönen

Ari Turunen

12.6.2018

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, & Tommi Nyrönen. (2018). Looking for a good drug. https://doi.org/10.5281/zenodo.8113165

Lisätietoja:

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Algoritmi määrittää sopivan lääkkeen

Professori Mikko Niemen tavoitteena on laatia tulkinta-algoritmi, joka auttaa lääkäreitä määrittämään potilaalle sopivan lääkkeen ja oikean annostuksen. Hoidot tehostuvat ja haittavaikutukset vähenevät, jolloin myös kustannukset pienenevät.

Ihmiset reagoivat lääkkeisiin eri tavoin, osalla lääkehoidon teho jää puutteelliseksi ja osalle se aiheuttaa haittavaikutuksia. Syynä poikkeavaan vasteeseen voivat olla fyysiset ominaisuutemme, muu lääkitys ja geneettinen perimämme. Lääkkeen annostarpeen tai haittavaikutusten ennakoimiseen saataisiin apua algoritmilta, kun käytössä on potilaasta saatujen fysiologisten tietojen lisäksi tietoa potilaan perimästä. Geenitesti voidaan tehdä yksinkertaisen verinäytteen perusteella.

Ihmisten geeniperimästä saadaan koko ajan uutta tietoa. Samalla geenitutkimusten ja bioinformatiikan kustannukset ovat laskeneet tuntuvasti. Dataa kertyy ja sen hyödyntämiselle on paljon uusia mahdollisuuksia. Farmakogenetiikka tutkii perintötekijöiden vaikutusta lääkeaineiden tehoon ja turvallisuuteen. Jos potilaiden perimästä saatu tieto olisi lääkäreiden saatavilla, lääkekulut ja merkittävät haittavaikutukset usein vähentyisivät. Myös sairaalahoitopäivien määrä vähenisi.

”Jos potilaiden perimä testattaisiin systemaattisesti, lääkehoidot voitaisiin paremmin räätälöidä ja annostella yksilöllisemmin”, sanoo farmakogenetikan professori, ylilääkäri Mikko Niemi.

Niemi johtaa Helsingin yliopistossa tutkimusryhmää, joka tutkii miten perintötekijät vaikuttavat lääkeaineiden pitoisuuksiin, turvallisuuteen ja tehoon. Lisäksi hän selvittää, milloin kannattaa lääkeaineen valinnassa harkita geenitestejä.

”Tieto geenitestin tuloksista tulisi olla käytettävissä silloin kun lääkettä määrätään, mutta yleensä tulosta joudutaan odottamaan viikko-pari. Voisi siis olla järkevää tutkia tärkeimmät lääkehoitoihin vaikuttavat geenimuunnokset ennakoivasti. Pyrimme tutkimustemme avulla tunnistamaan ne potilaat, jotka eniten hyötyisivät tällaisesta ennakoivasta testaamisesta.”

Niemen tutkimusryhmä kehittää myös farmakogenetiikkaan liittyviä päätöksenteon tukijärjestelmiä. Tavoitteena on laatia sydän- ja verisuonitautipotilaita hoitaville lääkäreille tulkinta-algoritmi, joka auttaisi löytämään kullekin potilaalle mahdollisimman tehokkaan ja turvallisen kolesterolilääkityksen. Algoritmi hyödyntää tietoja potilaan ominaisuuksista, sairauksista, muista lääkityksistä ja perimästä.

Sydän- ja verisuonitauteihin tarkoitetut statiinilääkkeet vähentävät veren LDL-kolesterolin ja lisäävät hyvän HDL-kolesterolin pitoisuutta. Ne aiheuttavat kuitenkin joillakin potilailla lihaskipua. Alttius lihasoireille on osittain perinnöllinen.

Sytokromi P450 (CYP) -entsyymit ovat tärkeimpiä lääkeaineita hajottavia entsyymejä. Kuvassa CYP2C8-entsyymin kolmiulotteinen rakenne.

Lääkeaineen aineenvaihdunta yksilöllistä

Yksittäisten lääkeaineiden annostarve saattaa vaihdella eri yksilöillä jopa yli 10-kertaisesti. Se voi johtua siitä, miten nopeasti tai hitaasti lääkeaine poistuu elimistöstä. Sytokromi-entsyymit (CYP) ovat keskeisiä monien elimistölle vieraiden aineiden, kuten lääkkeiden, pilkkomisessa ja poistamisessa elimistöstä. CYP-entsyymejä on erityisesti maksassa.

Kun Mikko Niemi teki väitöskirjaansa diabeteslääkkeiden yhteisvaikutuksista, hän epäili, että lääkeaineiden aineenvaihdunnan vaihtelu eri yksilöillä oli perinnöllistä. Erityisen kiinnostavia ovat kolme CYP-entsyymiä (CYP2D6, CYP2C9 ja CYP2C19), sillä ne vaikuttavat jopa kolmannekseen kaikista kliinisesti käytetyistä lääkeaineista. CYP-entsyymien aktiivisuuden geneettinen vaihtelu on suurta. Vaihtelu voi johtaa eri lääkeaineen pitoisuuksien ja vasteiden moninkertaisiin eroihin eri yksilöissä.

Lääkehoitoihin vaikuttajat perintötekijät.

Geenitestien avulla ihmiset voidaan lääkeaineesta riippuen luokitella jopa neljään eri ryhmään sillä perusteella, miten nopeasti elimistö poistaa tiettyjä lääkeaineita: erittäin nopea, normaali, hidastunut ja hidas. Tämä ns. metabolianopeus voi vaikuttaa lääkkeen annostarpeeseen, tehoon ja haittavaikutusriskiin.

Erittäin nopeilla metaboloijilla lääkeaine poistuu elimistöstä tavallista nopeammin ja sen teho voi jäädä puutteelliseksi. Hitailla metaboloijilla lääke poistuu tavallista hitaammin ja sen vaikutukset voivat korostua. Sama lääkeannos siis voi olla toisilla liian pieni ja toisilla liian suuri.

Jotkut lääkkeet muuttuvat aktiiviseen muotoon CYP-entsyymien välityksellä. Tällaisiin lääkkeisiin perinnöllisen metabolianopeuden vaikutus on päinvastainen. Esimerkiksi kolmanneksella väestöstä veren hyytymistä estävä klopidogreeli-lääke tehoaa tavallista heikommin, mikä johtuu perinnöllisesti hidastuneesta CYP2C19-metaboliasta. Tällaisille potilaille kannattaa siksi yleensä valita vaihtoehtoinen lääkitys.

CYP2D6-entsyymin vaihtelu vaikuttaa puolestaan hyvin merkittävästi mm. kodeiiniin. Kodeiini on yleinen resepti-kipulääke, josta tavallisesti osa muuttuu maksassa CYP2D6-entsyymin välityksellä morfiiniksi. Hitailla metaboloijilla kodeiinin teho voi jäädä riittämättömäksi. Erittäin nopeilla metaboloijilla morfiinin määrä elimistössä voi nousta liian suureksi.

”Jos lääkäri tietäisi jo hoidon alussa, että potilaan CYP2D6-aineenvaihdunta on hidasta, potilaan ei tarvitsisi kärsiä riittämättömästä kivunhoidosta.”

Myös muilla kuin CYP-entsyymeillä on merkitystä. Esimerkiksi TPMT on entsyymi, joka vaikuttaa tiopuriinilääkkeiden aineenvaihduntaan. Tiopuriineja käytetään mm. autoimmuunitautien, tulehduksellisten suolistosairauksien sekä leukemioiden hoidossa.

”TPMT:n perinnöllinen puutos altistaa tiopuriinilääkkeiden vakaville verisoluihin kohdistuville haittavaikutuksille. Perinnöllisen puutoksen tunnistava eenitesti on ollut kliinisessä käytössä Suomessa jo vuodesta 2005”, sanoo Mikko Niemi.

Suomessa on tällä hetkellä saatavilla kymmenkunta lääkehoitoihin liittyvää geenitestiä.

Päätöksenteon tukialgoritmi lääkäreille

Lääkeaineen sopivuus kullekin yksilölle riippuu hyvin monista tekijöistä. Siihen eivät vaikuta pelkästään lääkkeitä hajottavat entsyymit. Solukalvon kuljetusproteiinit vaikuttavat lääkeaineiden kulkeutumiseen vaikutuspaikkaansa. Kohdekudoksessa lääkeaine vuorovaikuttaa vaikutuskohteensa kanssa.

”Tästä seuraa tapahtumaketju, joka aikaansaa toivotun lääkevaikutuksen. Kaikissa näissä tekijöissä on yksilöiden välisiä, osin perinnöllisiä eroja.

Olisi tärkeää, että kaikki nämä yksilötekijät, perimä mukaan lukien, otettaisiin huomioon lääkehoitoa valittaessa.”

Mikko Niemi sai vuonna 2017 mittavan rahoituksen Euroopan tutkimusneuvostolta hankkeeseen, jossa kehitetään kolesterolilääkityksen valintaa helpottava algoritmi. Tätä varten Niemen tutkimusryhmä rakentaa niin kutsutun systeemifarmakologisen mallin.

”Se on tavallaan virtuaalinen potilas, jonka avulla voidaan yksilöllisesti ennakoida kunkin vaihtoehtoisen kolesterolilääkityksen vaikutukset.”

Vastaavanlaista algoritmia ei ole toistaiseksi yritetty kehittää.

”Mikäli algoritmi toimii kolesterolilääkityksen valinnassa, voisi samanlaista ajattelutapaa laajentaa myös muihin lääkehoitoihin.”

Alogoritmia ei luonnollisesti voida rakentaa, jos käytettävissä ei ole riittävästi luotettavaa tutkimustietoa. Tätä Niemen tutkimusryhmä on kerännyt jo vuosien ajan tutkimushankkeissaan. Suomeen perustetut biopankit ja tuleva genomikeskus nopeuttavat myös tällaisessa tutkimuksessa tarvittavan tiedon keräämistä.

Geenitiedon parempaa hyödyntämistä haluaa myös Suomen valtio. Suomen poikkeuksellisen asutushistorian vuoksi väestön geneettinen rakenne antaa erityisiä mahdollisuuksia yhdistää genomi- ja terveystietoja. Farmakogenetiikka on yksi kansallisen genomistrategian neljästä kärkihankkeesta. Strategian tavoitteena on, että geenitieto on tehokkaassa, terveyttä edistävässä käytössä jo vuonna 2020.

Pilottiprojekti: genomitiedon hyödyntäminen terveydenhuollossa

Tällä hetkellä merkittävästi lääkehoidon tehoon ja turvallisuuteen vaikuttavia geenejä on suhteellisen pieni joukko: alle 20 ihmisen kaikkiaan noin 20 000 geenistä. Koska kyseessä on näin pieni määrä geenejä, laajojenkin potilasmäärien testaus olisi Mikko Niemen mukaan teknisesti mahdollista.

”Seuraava askel on, että ennakoivasti testattaisiin kaikki lääkehoitoihin vaikuttavat geenimuunnokset.”

Terveyden ja hyvinvoinnin laitos (THL), HUSLABin Kliinisen farmakologian yksikkö ja CSC:n ovat aloittaneet pilottiprojektin, joka toteutetaan THL Biopankin geenitietoja ja HUS:n potilasasiakirjatietoja yhdistämällä. Aineistoista kartoitetaan lääkehoitoihin vaikuttavien geenimuunnosten yleisyyksiä suomalaisilla. Lisäksi tutkitaan, kuinka moni potilasotoksesta sai hoitojakson aikana tai sen jälkeen lääkehoitoa, jonka valintaan tai annosteluun geenitiedolla olisi voinut olla vaikutusta.

Tutkimusta varten HUS ja THL saavat omat yksityiset ja tietoturvalliset verkkoyhteytensä CSC:n datakeskukseen. Näin HUS ja THL voivat prosessoida dataa nopeasti ja tehokkaasti.

Projektissa varaudutaan riittävään pitkäaikaistallennustilaan, tiedonsiirtoon vähintään 10 Gbit/s nopeudella HUS:n ja THL:n järjestelmiin, sekä tarjotaan farmakogenetiikan ohjelmistoympäristölle tiedon prosessointiin tarvittava määrä virtuaalipalvelimia.

Ari Turunen

4.4.2018

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Mikko Niemi, & Tommi Nyrönen. (2018). Algorithm determines the appropriate drug. https://doi.org/10.5281/zenodo.8082229

Lisätietoja:

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Miljoonan potilasnäytteen pankki

Suomen ensimmäiseen sairaalabiopankkiin Auriaan on tallennettu yli miljoona kudosnäytettä sekä kymmeniä tuhansia verinäytteitä. Biopankki pystyy yhdistämään kokoelmiin myös luovuttajaan liittyviä tietoja, mikä auttaa merkittävästi tutkimusta. Tietoja voidaan pyytää näytteen luovuttajalta itseltään, potilasasiakirjoista tai valtakunnallisista rekistereistä.

Suomessa on ollut pitkään käytössä henkilötunnuksen kautta käytettävä sähköinen potilaskertomus. Henkilötunnusta edellyttävät rekisterit luovat hyvät edellytykset ihmisistä saatujen näytekokoelmien ja niihin liitetyn tiedon tehokkaalle hyödyntämiselle tulevaisuudessa. Tämä on suuri etu moniin maihin verrattuna.

Turun yliopistollisen keskussairaalan ja Turun yliopiston yhteydessä toimivan Auria Biopankin näytekokoelmat sijaitsevat fyysisesti lounaisen ja läntisen Suomen sairaaloissa. Näytteitä kerätään ja niihin liitetään tarpeellinen metadata, josta ilmenee kliininen tieto näytteen antajasta, määrästä, ajankohdasta ja miten näytettä on käsitelty. Auria Biopankin näytteet ovat muun muassa kudosta, verta ja soluista eristettyä DNA:ta.

Yksi suostumus riittää

Suomen biopankkeihin liittyvä lainsäädäntö on edistyksellinen. Näytteiden luovuttajan yksi suostumus riittää siihen, että tallennettuja näytteitä voidaan hyödyntää eri tutkimuksissa myös tulevaisuudessa. Laki sallii biopankille yhteydenoton luvan antaneisiin näytteiden luovuttajiin esim. tiedustellakseen näytteenantajan halukkuutta osallistua tutkimukseen, jota suostumus ei kata tai lisänäytteiden luovuttamiseen.

”Useimmiten yhteydenotto liittyy lääketutkimukseen. Mikäli potilas on kiinnostunut, hän ottaa suoraan yhteyttä tutkimuksen tekijään ja tekee tutkimusorganisaation kanssa erillisen sopimuksen, jonka jälkeen asia ei liity enää biopankkiin”, kertoo Auria Biopankin varajohtaja Perttu Terho.

Tietojen siirrossa noudatetaan henkilötieto- ja biopankkilakia, jotka turvaavat potilastietojen yksityisyyden ja luottamuksellisuuden. Suostumuksen näytteiden antamiseen voi antaa sairaaloissa tai verkossa sähköisen kaavakkeen kautta.

Näytekokoelma kasvaa ja sitä digitoidaan

Epiteelinsisäisen kasvaimen kasvu eturauhaskudoksessa. Auria kerää kudosnäytteiden lisäksi tuorekudoksia, joita jää yli diagnostiikan tarpeen. Tällä hetkellä biopankkiin kerätään mm. eturauhas-, suoli-, munasarja-, haima- ja maksakudosta. Auria Biopankin ovat perustaneet Turun yliopisto sekä Varsinais-Suomen, Satakunnan ja Vaasan sairaanhoitopiirit.

Uusia näytteitä kerätään normaalin diagnostiikan ja hoidon yhteydessä potilailta, jotka ovat antaneet suostumuksen. Sairaaloihin arkistoituja kudosnäytteitä skannataan, digitoidaan ja siirretään tietokantoihin. Ennen biopankkiin siirtoa näytteistä poistetaan henkilötiedot ja ne korvataan koodilla. Näin henkilösuoja on tehokkaasti turvattu.

Auria kerää leikkausten yhteydessä otettuja diagnostiikan yli jääviä kudosnäytteitä kuten syöpäkudosta, sekä laboratoriokäyntien yhteydessä otettavia biopankkiverinäytteitä.

”Kudosnäyte menee leikkauksen jälkeen patologille tutkittavaksi. Tyypillisesti näyte valetaan parafiiniin, ja siitä leikataan muutaman mikrometrin paksuisia siivuja, jotka värjätään diagnostiikan kannalta tarpeellisilla väreillä. Patologi tutkii värjätyistä kudosleikkeistä, onko näytteessä esimerkiksi kasvainta. Mikäli näytettä jää jäljelle, voidaan sitä hyödyntää biopankkitutkimuksissa. Näyte ei saa loppua eli sitä pitää olla riittävästi sairaalan käyttöön. Kun tämä on varmistettu, kudosnäytettä voidaan käyttää muihin tutkimuksiin”, kertoo Terho.

Auria Biopankki digitoi sellaiset näytteet, joita tarvitaan tutkimusprojekteissa.

”Digitoinnin idea on se, että pystymme esim. pyytämään patologia arvioimaan näytteet ja merkitsemään paikat, mistä löytyy syöpäkudosta ja mistä tervettä kudosta. Tämän patologi voi tehdä omalta tietokoneeltaan mistä tahansa, eikä itse näytteitä ole tarvetta siirtää mihinkään. Digitoituja kuvia voidaan myös analysoida automatisoidusti hahmontunnistus-algoritmeilla ja tekoälyyn perustuvilla menetelmillä.”

Auria on aikaisemmin eristänyt DNA:ta verinäytteistä ja kudoksista ainoastaan niistä näytteistä, joita on tarvittu projekteissa. Nyt DNA-eristys on tarkoitus tehdä jokaisesta talletetusta verinäytteestä.

“DNA:n eristäminen jokaisesta näytteestä tehostaa tutkimuksen tekemistä. Näytteet vastaanotetaan ja tallennetaan, mutta vielä ei tutkita sinänsä mitään. Näytteet jäävät odottamaan tulevaisuuden tutkimusta, koska ei vielä tiedetä mihin näytteitä voidaan tarvita.”

Tänä vuonna eristetään DNA 16 000 verinäytteestä. Jatkossa näytteitä otetaan vuosittain yli 20 000. Verinäyte otetaan normaalin diagnostisen tai kliinisen verinäytteen oton yhteydessä.

”Kyseessä on yksi ylimääräinen 10 ml verinäyte biopankkia varten. Näytteestä veriplasma ja valkosolut laitetaan eriputkiin ennen pakastamista.”

Perttu Terho korostaa, että annettu näyte on arvokas, kun se voidaan yhdistää potilastietoihin.

”Tutkijat voivat tarvita dataa potilaista, joille on tehty tietty diagnoosi ja joilla on tietty lääkitys ja veriarvo. Tällöin biopankista voidaan nopeasti katsoa, onko näillä kriteereillä näytteitä ja niihin liittyvää tietoa olemassa.”

Biopankin aineiston avulla voidaan saada selville tautien ja lääkeaineiden erityispiirteitä. Voidaan esimerkiksi saada lisätietoa, miksi joillekin potilaille tulee lääkehoidoista sivuvaikutuksia ja toisille ei.

”Tärkeää on, että kerätään järkevä määrä relevanttia potilasdataa mahdollisimman suuresta massasta. Näin biopankkiin saadaan näytteitä tutkimuksellisesti kiinnostavista potilaista.”

Tutkijoilta tulee näytteisiin liittyviä pyyntöjä joka viikko.

”Kyselyn perusteella teemme kartoituksen siitä, millaisia määriä biopankista löytyy kiinnostuksen kohteena olevia näytteitä ja tietoja. Mikäli tutkija on tyytyväinen esiselvityksen tulokseen, hän tekee luovutuspyynnön, jossa kuvataan tutkimus ja määritellään tarvittavat näytteet ja tiedot.”

Luovutuspyynnöt käsitellään biopankin tieteellisessä ohjausryhmässä, joka kokoontuu kerran kuukaudessa. Ohjausryhmä arvioi pyynnöt. Mikäli ohjausryhmä puoltaa tutkimusta, voidaan hakijan kanssa edetä luovutussopimuksen valmisteluun.

Saatavuuspalvelu suunnitteilla

Suomen sairaaloiden yhteydessä toimivien biopankkien toiminta on periaatteessa samanlainen. Ne keräävät näytteitä omista sairaanhoitopiireistä ja tallentavat niihin liittyvää tietoa. Olisi luonnollisesti houkuttelevaa päästä tekemään hakuja kaikista saatavilla olevista näytekokoelmista yhdellä kertaa. Haasteena on, että eri sairaalat ovat vuosien saatossa tallentaneet ja luokitelleet näytteet eri tavoin. Eri järjestelmissä ovat erilaisen kirjaamistiedot, jolloin potilasnäytteistä annetuissa tiedoissa on vaihtelua. Tietojen pitäisi kulkea eri biopankkien välillä sujuvasti.

“Sairaaladataa on hankala analysoida. Tarvitaan kliinikon asiantuntemusta tulkitsemaan mitä on kirjattu. Saatavilla oleva data ei ole suoraan yhteismitallista. Tärkeää olisi saada aikaan saatavuuspalvelu, joka voisi yhdistää eri biopankkien tietoja, jolloin ainakin perustiedot olisivat saatavissa.”

Vuonna 2017 perustettiin Suomen biopankkiosuuskunta, jonka jäseninä ovat sairaanhoitopiirit ja yliopistot, joissa on lääketieteellinen tiedekunta. Biopankkiosuuskunnan tarkoituksena on tarjota Suomen biopankkien näyte- ja tietokokoelmien aineisto tutkijoiden käyttöön yhden luukun periaatteella. Se välittäisi asiakkaille yhtenäisen näkymän ja keskitetyn kanavan suomalaisten biopankkien aineistoihin. Biopankkiosuuskunta vastaa mm. tietojärjestelmien kehittämisestä.

Terhon mukaan näytteisiin voidaan yhdistää niihin liittyvä tutkimukselle merkittävä kliininen tieto. Biopankit hyödyntävät CSC – Tieteen tietotekniikan keskus Oy:n sensitiiviselle datalle rakentamia alustoja, kun ne suunnittelevat omiaa tietopalvelujaan.

Noin 4 000 vuotta sitten Suomen alueelle muutti pieni määrä uudisasukkaita. Tämän uuden populaation yksilöt edustivat pientä ja kapeaa geeniainesta, mikä sai aikaan joidenkin tautigeenien alueellisen rikastumisen. Tätä kutsutaan pullonkaulailmiöksi. Ilmiöstä on hyötyä geenitutkimuksessa. Geenimuunnosten yliedustus havaitaan vain niissä väestöissä, jotka ovat kohdanneet pullonkaulailmiön.

Auria Biopankki on mukana tulevan genomikeskuksen perustamisessa. Auria Biopankin vt. johtajan Lila Kallion mukaan on vasta mietinnän asteella miten tutkimus- ja diagnostiikkasekvenssien kulku ja säilytys järjestetään.

”Genomilainsäädäntö on valmisteilla ja biopankkilakia uudistetaan. Näiden lisäksi mm. uusi EU:n tietosuoja-asetus selkeyttää myös biopankkien toimintaa..”

Alustavien suunnitelmien mukaan Suomen Genomikeskus aloittaa toimintansa vuonna 2019.

Ari Turunen

19.3.2018

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Tommi Nyrönen, Perttu Terho, & Lila Kallio. (2018). Bank of million patient samples. https://doi.org/10.5281/zenodo.8081169

Lisätietoja:

www.auriabiopankki.fi

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Parempaa satoa luvassa? Myös data kerätään jatkossa talteen

Kasvien kasvua ja fysiologiaa analysoidaan kuvantamismenetelmillä, mikä tuottaa valtavasti dataa kasvien genomi- ja ympäristövasteista. Tällä pyritään kasvien satoisuuden parantamiseen, jolloin voidaan tuottaa ekologisesti kestävällä tavalla ruokaa ja raaka-aineita kasvavalle ihmiskunnalle.

Helsingin ja Itä-Suomen yliopistojen yhteisessä NaPPI- infrastuktuurissa kasvit mitataan ja analysoidaan automaattisesti. Infrastruktuurin toiminta ja sen tuottama data voidaan järjestää alusta lähtien niin, että se on yhteensopivaa myös muiden eurooppalaisten tutkimusorganisaatioiden käyttöön. Tavoite on hyvä, sillä näihin päiviin asti jokainen laboratorio ympäri maailmaa on kerännyt kasvien perimästä, ilmiasuista eli fenotyypeistä ja ympäristötekijöistä saatua dataa omalla tavallaan.

Helsingin yliopiston Viikki Plant Science Center (ViPS) on tutkimuskeskittymä, jossa 36 ryhmää tutkii kasveja. Tutkimusaiheet vaihtelevat tiettyyn elinympäristöön ja ilmastonmuutokseen sopeutumisesta, kasvien stressinsietoon ja kasvinjalostukseen.

NaPPI-infrastruktuurin (National Plant Phenotyping Infrastructure) toiminta keskittyy kasvitutkimukseen, ja -jalostukseen. Tavoitteena on kattavan fenotyyppitiedon tuottaminen suuresta määrästä kasveja. NaPPI antaa tekniset mahdollisuudet yhdistää kasvien perimästä saatu tieto fenotyyppidataan.

Kasvin fenotyyppi on geenien ja ympäristön yhteisesti tuottama ilmiasu. Fenotyyppi voi muokkautua hyvinkin erilaiseksi ympäristön vaikutuksesta. Kasveilla onkin paljon laajempi kyky periytymättömään muunteluun kuin eläimillä. Esimerkiksi kasvin kasvuun voidaan vaikuttaa tehokkaasti eri tavoin, kuten ravinteilla ja valolla.

Ihmiset ovat jalostaneet kasveja tuhansia vuosia, koska on haluttu parempaa ruokaa. Tätä on tehty paikallisesti eikä kasveista kerättyä tietoa ole systemaattisesti tallennettu. Hyvänä esimerkkinä on viinirypäleen lukuisat lajikkeet, joita pelkästään Euroopassa on yli tuhat. Kaikkien lajikkeiden alkuperää ei enää tiedetä ja siksi alkuperää selvitetään geenitekniiikan avulla.

”Kasvien fenotyypeistä saatua dataa ei ole vielä standardisoitu. Eri tutkimusryhmät ovat tuottaneet ja luokitelleet sitä omissa laboratorioissaan”, sanoo NaPPI-infrastruktuurin tutkimuskoordinattori Kristiina Himanen Helsingin yliopistosta.

Kristiina Himasen edessä olevat kasvit menossa fytoskooppiin. Fytoskooppi on kuvantamislaite, joka analysoi kasvien kasvua ja fysiologiaa. Kasvit mitataan ja kuvataan automaattisesti, jonka jälkeen tietokone laskee kuvien perusteella kasvien korkeuden, leveyden ja esimerkiksi lehtiruusukkeen pinta-alan ja muodon.

Kasvin arkkitehtuurin tutkiminen tärkeää

NaPPi-infrastruktuurin tavoitteena on tehostaa ja tarkentaa kasveista saadun tiedon keruuta ja analysointia uusien kuvantamistekniikoiden avulla. Infrastruktuurilla on käytössä kuvantamislaitteita, jotka analysoivat kasvien kasvua ja fysiologiaa. Kasvit mitataan ja kuvataan automaattisesti, jonka jälkeen tietokone laskee kuvien perusteella kasvien korkeuden, leveyden ja esimerkiksi lehtiruusukkeen pinta-alan ja muodon.

”Kasvin koko, kasvu, ja muoto eli kasvin arkkitehtuuri ovat tärkeitä maataloustuotannossa”, Himanen korostaa.

”Kasvin arkkitehtuuri voi vaikuttaa sadon määrään tai viljelyominaisuuksiin. Kun riisistä on tehty kääpiölajikkeita ne eivät lakoonnu enää helposti, ja tämä vaikuttaa satoon. Geenit voivat vaikuttaa kasvin arkkitehtuuriin ja sitä kautta sadon määrään ja laatuun.”

Viikissä tutkitaan, mitä tapahtuu kun rypsin perimään eli genomiin syötetään kääpiögeeni. MMT Tarja Niemelä ja yhteistyökumppanit selvittävät, voiko kääpiögeeni lisätä rypsin satoisuutta vähentämällä varren biomassaa suhteessa kasvin tuottamaan siemensatoon.

”Genomidataa on hurjasti saatavilla, mutta se pitää pystyä yhdistämään muuhun dataan. Haluamme liittää kuvantamislaitteilla tuottamaamme fenotyyppidatan genomidataan. Lopulta, meitä tietenkin kiinnostaa, miten genomeista ja fenotyypeistä saatu tieto saadaan siirrettyä kasvinjalostukseen.”

Himasen mukaan uusien kuvantamismenetelmien ansiosta kasvintutkimuksen volyymi kasvaa.

Spektri- ja fluoresenssikuvantaminen tuottaa paljon dataa

Rypsiviljelmiä Viikissä. Tutkijat selvittävät, voiko kääpiögeeni lisätä rypsin satoisuutta vähentämällä varren biomassaa suhteessa kasvin tuottamaan siemensatoon.

NaPPI-infrastruktuurin laitteilla analysoidaan kasvin muotojen lisäksi kasvien fysiologista tilaa. Itä-Suomen yliopiston Joensuun kampuksella oleva spektromiikkalaboratorio on Suomen ensimmäinen kasvien ja muiden biologisten näytteiden spektrikuvantamiseen keskittynyt tutkimusympäristö. Spektrikuvantaminen koostuu useista valon eri aallonpituuksilla otetuista kuvista, joilla on oma värikanavansa. Spektromiikkalaboratoriossa kehitetään optisia menetelmiä erityisesti kasvien stressivasteiden tutkimukseen.

Ihmissilmä tai tavanomainen kamera näkee värit kolmen aallonpituuskaistan (punainen, vihreä ja sininen) yhdistelminä. Spektrikameralla voidaan kuitenkin havaita jopa satoja eri aallonpituuskaistoja. Se ei ole myöskään rajoittunut vain näkyvään valoon, vaan kykenee kuvaamaan ultravioletti- ja infrapunasäteilyn alueilla. Kustakin kaistasta voidaan muodostaa erillinen kuva ja kukin pikseli sisältää täydellisen spektrin.

”Spektrikuvaus mahdollistaa värien erittäin tarkan erottelun, mutta samalla moninkertaistaa tuotetun datan määrän”, toteaa professori Markku Keinänen Itä-Suomen yliopistosta.

”Tämä taas edellyttää monimutkaisia laskennallisia lähestymistapoja kuva-analyysissä. Spektrikuvaus onkin suurelta osalta laskentaa ja tuloksia havainnollistavat kuvat tuotetaan vasta analyysin loppuvaiheissa.”.

Kun kasveja lisäksi analysoidaan lämpö- ja fluoresenssikameroilla, päästään näkemään asioita, joita ei tavallisessa valossa näe. Fluoresenssi on näkyvää, tietyn väristä valoa, joka syntyy kasvin atomien virittyessä esimerkiksi näkymättömän ultraviolettisäteilyn johdosta. Lämpö- ja fluoresenssikameroilla voidaan laskea pikseli kerrallaan kasvissa olevan erivärisen alueen koko ja tutkia esimerkiksi infektioita kasvissa.

Datan standardointi vähentää päällekkäistä työtä

Suomen ELIXIR-keskus tarjoaa datan käsittelyyn ja tallentamiseen tehokasta kapasiteettia. Koska fenotyyppien datankeruu on automatisoitu ja digitalisoitu, nyt on Kristiina Himasen mukaan mahdollista aloittaa myös datan standardointi.

”Datalla pitää olla sama formaatti. Excelerate-hanke kehittää standardit fenotyyppidatalle ja metadatalle. Mukana on 22 maata. Vaikka kaikilla on omat infrastruktuurit, niin nyt niiden toimintaa yhdenmukaistetaan.”

Käytännössä tutkijoilla on käytössään tieto kasvin perimästä sekä fenotyyppidataa kasvuolosuhteista ja muista ympäristötekijöistä. Kun molemmat datalähteet on yhdistetty saadaan luotua kattavia tietokantoja ja laboratoriot eri puolilla Eurooppaa voivat välttää päällekkäisen työn tekemistä ja jakaa datankeruuta järkevästi.

”Yksittäisen geenin käyttöönotto kasvijalostuksessa helpottuu, koska yksittäisen kasvin analyysiin liittyvän työn määrä kohtuullistuu.”

Jatkossa Viikin tutkimusryhmät siis tuottavat kuvapohjaista dataa, johon liitetään genomidata. Suomen Elixir-keskuksessa puolestaan mietitetään, miten data analyoidaan ja standardisoidaan ja miten metadatat luovutetaan ELIXIRrille pilvitietokantaa varten. NaPPI-infrastruktuurin ja Suomen ELIXIR-keskuksen CSC:n työnjako on hyvä esimerkki siitä, miten kasvien geno- ja fenotyyppidataa kannattaa tuottaa tutkimukseen.

Ari Turunen

11.8.2017

Artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Kristiina Himanen, Markku Keinänen, & Tommi Nyrönen. (2017). Better harvests on the horizon? Data will also be harvested. https://doi.org/10.5281/zenodo.8070177

Lisätietoja:

NaPPI

NaPPI on osa yhteistyöverkostoa Itä-Suomen yliopiston Spektromiikan yksikön (www.spectromics.org) sekä useiden muiden suomalaisten kasvitutkimuslaitosten kanssa. Mukana on yhteistyökumppaneita lisäksi Turun ja Oulun yliopistoista sekä Luonnonvarakeskuksesta.

Viikki Plant Science Center

https://www.helsinki.fi/en/researchgroups/viikki-plant-science-centre/about-vips

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

Web-mikroskooppi tallentaa kudosnäytteet pilveen

Suomalaisten lääkärien Johan ja Mikael Lundinin keksintö tarjoaa tehokkaan ratkaisun kudosleikekuvien analysoimiseen ja tallentamiseen.

Tutkimusdata lisääntyy valtavasti vuosi vuodelta, mikä edellyttää ohjelmistonkehittäjiltä jatkuvaa aktiivisuutta. Isoja datamääriä on pystyttävä analysoimaan ohjelmistoilla, jotka eivät pistä työasemaa jumiin. Suomen molekyylilääketieteen instituutin (FIMM) tutkimusjohtaja Johan Lundin tutkii ja kehittää kuvaperustaista diagnostiikkaa konenäköratkaisujen avulla. Tulevaisuudessa eri datalähteitä, geneettistä dataa, kudosdataa ja kliinistä potilasdataa, yhdistämällä voidaan laatia persoonakohtaisia tautiennusteita ja hoitomuotoja. Tätä on sovellettu erityisesti rinta- ja eturauhassyövän sekä paksunsuolen syövän hoitamisessa.

Helsingin yliopistollisessa keskussairaalassa 2000-luvun alussa työskennellessään Lundin turhautui siihen, miten hankalaa isojen kudosleikekuvien käsittely oli työasemilla. Kudosleikekuvat ovat 1-2 gigatavun kokoisia, joten niiden tallentaminen omalle kovalevylle ei ole järkevää. Kuvien pyörittely on myös hidasta. Johan Lundin alkoi miettiä veljensä Mikaelin kanssa toimivaa ohjelmistoratkaisua ongelmaan.

Veljekset kehittivät täysin web-pohjaisen ohjelmiston, jonka olennaisia osia ovat tehokas kuvapalvelin sekä web-käyttöliittymä joka toimii kaikilla selaimilla. Heidän käyttämänsä kompressioalgoritmin avulla kuvat vievät vähemmän tilaa ja latautuvat nopeasti. Kahden gigatavun näytekuva voidaan kompressoida puolen gigan kokoiseksi. Kudosnäyte tallennetaan pilveen ja isoa datamäärää
voidaan käsitellä omalta työasemalta helposti ja nopeasti.

Verkossa toimivaa mikroskooppipalvelua voi käyttää kaikilla selaimilla ja tableteilla, myös älypuhelimilla. Web-Microscope® on myös yhteensopiva eri mikroskooppivalmistajien kuvaformaattien kanssa. Web-mikroskoopilla on mahdollista tutkia erittäin laajoja aineistoja ja
se sopii hyvin myös yhteistyöprojektien yhteiseksi digitoitujen kuvien hallinta- ja analysointipaikaksi.

”Palveluun on ollut todella kasvavaa kiinnostusta. Lääkärit, tutkijat ja opettajat ovat siirtymässä digitaaliseen mikroskopiaan. Verkossa toimiva pilvipohjainen palvelu on edistyksellinen ratkaisu digitaalisen mikroskopian käyttäjille kaikkialla maailmassa,” toteaa palvelua tarjoavan Fimmicin toimitusjohtaja Kaisa Helminen. Helminen on koulutukseltaan biokemisti ja työskennellyt aiemmin useissa bioalan firmoissa.

Fimmic perustettiin vuonna 2013 ja seuraavana vuonna palvelua alettiin kaupallistaa. Fimmicin asiakkaita ovat mm. yliopistot, tutkimuslaitokset, lääkeyritykset sekä ulkoista laadunvalvontaa tekevät yritykset. Ulkoinen laadunvalvonta tehostuu kun näytteitä voidaan lähettää virtuaalisesti analysoitavaksi sen sijaan, että lasilevyillä olevia näytteitä postitettaisiin laboratorioihin.

Näiden palvelujen tuottamisen kumppanina Fimmic käyttää Tieteen tietotekniikan keskuksen CSC:n cPouta-pilvipalvelua. Se tarjoaa web-mikroskoopin käyttäjille oman palvelimen, nopean kaistanleveyden ja valtavasti tallennustilaa. Näin taataan, että palvelu toimii mahdollisimman tehokkaasti. Web-mikroskooppi soveltuu myös biopankeille kudosnäytteiden hallinnoimiseen. Palvelu voidaan räätälöidä yksittäiselle biopankille sopivaksi.

Näytteen tallennus suoraan asiakkaan tilille

Mikroskooppiskannerit ovat kalliita laitteita – hinta vaihtelee tyypillisesti 150 000 – 300 000 euron välillä. Skannereiden määrä kuitenkin lisääntyy ja kun kuvia skannataan, monelle käyttäjälle kätevin ja edullisin ratkaisu on tallentaa ne suoraan pilveen.

”Mikäli asiakkaalla ei ole mahdollisuutta käyttää skanneria, hän voi lähettää näytteet meille skannattavaksi. Me tallennamme digitoidut näytteet suoraan asiakkaan Web-Microscope-tilille,” Helminen kertoo.

WebMicroscope-portaalin kautta käyttäjä voi jakaa omia mikroskooppikuviaan eri tutkimusryhmille ja yhteistyökumppaneille ympäri maailmaa. Tämä on tärkeä ominaisuus, koska esimerkiksi lääkeainesuunnittelussa testitulosten jakaminen nopeasti tutkimusryhmien ja lääkeyhtiöiden kesken
on edellytys läpimurroille. Lääkekehitykseen liittyvä tutkimus on yksi Fimmicin
painotuksista.

Perinteisellä mikroskoopilla voidaan tarkastella vain pientä osaa näytteestä kerrallaan. Mikroskooppiskanneri kuvaa näytteen suurella objektiivilla, jolloin koko näyte on yksityiskohtineen digitoitu. Syntynyttä kuvaa voidaan web-mikroskoopin avulla katsella helposti ja nopeasti, paikasta
riippumatta.

”Tarkasteltavaksi voidaan ottaa osa kudosnäytteestä Google Mapsin tavoin ja katsoa siitä vain osa ja siirtyä nopeasti toiseen kohtaan. Kuvaa ei tallenneta työasemille, vaan se latautuu verkon yli suoraan kuvapalvelimesta.”

Kaikissa Suomen lääketiedettä opettavissa yliopistoissa käytetään web-mikroskooppia opetustarkoituksiin anatomian ja patologian kursseilla. Webmikroskoopin avulla digitoituja näytteitä
voidaan helposti jakaa opiskelijoille ja liittää oheen muita dokumentteja ja videoita.
Omat sivut voidaan suojata salasanalla ja ohjelmiston avulla voidaan suorittaa myös tenttejä. Virtuaalisia näytteitä voidaan katsoa etäopetuksessa vaikkapa tableteilta tai älypuhelimilta ja luokkahuoneessa isolta näytöltä. Sovellus sopii erinomaisesti monipistetunnistusta hyödyntäviin Multitouch–näyttöihin. Massiivisia kudosleikekuvia voidaan tällöin tarkastella helposti ja nopeasti
suurella kosketusnäytöllä isommankin ryhmän kesken.

Konenäköä kehitetään

Mikroskooppiskanneri tuottaa paljon dataa. Tarkasteltavana voi olla miljoonia havaintopisteitä, joiden käsittelyyn tarvitaan laskentatehoa ja hyviä algoritmeja. Fimmicin suunnitelmissa on kehittää ohjelmistoa eteenpäin ja tuoda siihen kvantitatiivisen kuva-analyysin työkaluja, algoritmeja.
Kaisa Helmisen mukaan mahdollisia tutkimuskohteita, joihin algoritmeja voidaan käyttää, on valtavasti.

”Konenäköalgoritmit perustuvat signaalin käsittelyyn. Konetta opetetaan kymmenillä ellei sadoilla kuvilla tunnistamaan tietty signaali taustasta, esim. värjätyt solut muusta kudoksesta. Seulonta on tapauskohtaista ja vaihtelee, miten eri näytteitä on käsitelty. Algoritmi on juuri niin hyvä kuin se
on opetettu.”

Tähän kaikkeen tarvitaan laskentatehoa, jota saadaan mm. CSC – Tieteen tietotekniikan
keskuksen supertietokoneista.

”Laskentatehoa vaaditaan paljon, koska tutkittavat kuvat ovat ns. suurkuvia (whole slide images). Toki näistä saatetaan rajata pienempiä alueita analyysiä varten, mutta silti laskentatehoa vaaditaan paljon, jotta analyysi ei veisi liikaa aikaa,” Kaisa Helminen huomauttaa.

Ari Turunen

1.8.2015

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Kaisa Helminen, & Tommi Nyrönen. (2015). Webmicroscope stores tissue samples in the cloud. https://doi.org/10.5281/zenodo.8068745

Lisätietoja:

Fimmic Oy

Fimmic kehittää teknologiaa ja palveluja liittyen digitaaliseen mikroskooppikuvantamisen, kuva-analyysin ja informatiikan teknologiaa ja palveluja.
http://www.fimmic.com

CSC – Tieteen tietotekniikan keskus Oy

CSC on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon
osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

Biotiedettä eurooppalaisessa pilvessä

Tiede maksaa, ja laskun kuittaa yhteiskunta. Mutta mitä tapahtuu tutkimuksessa syntyvälle tietoaineistolle? Data on biotieteen pääomaa, joka kannattaa sijoittaa oikein.

Biotieteiden tutkimuksen data on noussut 2000-luvulla Euroopan tiedepolitiikan keskiöön. Kansainvälinen tutkimus käyttää ja tuottaa valtavasti dataa. Jatkuvasti laajenevan ja monimutkaistuvan biotieteellisen datan luottamuksellinen säilytys ja jatkokäyttö herättävät kysymyksiä. Miten ja mihin data kannattaa tallentaa? Miten dataa, esimerkiksi geenitietokantoja säilytetään turvallisesti? Miten dataa jaellaan? Näitä kysymyksiä ratkoo kansainvälinen hanke ELIXIR.

ELIXIR tarjoaa ratkaisuja siihen, miten tutkimuksen tietoaineistoa avataan tiedettä edistävällä tavalla ja ketkä aineistoihin pääsevät käsiksi. Suomi oli ELIXIR-hankkeen ydinjoukossa alusta lähtien vuodesta 2007. Datan säilytykseen ja jakeluun liittyvät yhteistyö on edellytys biotieteen kilpailukyvylle
pienissä eurooppalaisissa valtioissa. Pienten maiden kannattaa jakaa kerran tehtyjä aineistojaan, pikemminkin kuin tuottaa niitä eri tutkimusyliopistoissa yhä uudelleen. Biotieteellinen tutkimus tarvitsee vertailuaineistoja, ja ELIXIR on kanava jakaa niitä.

Jos esimerkiksi suomalainen tutkimusryhmä tutkii Parkinsonin taudin periytyvyyttä, sen on elintärkeää päästä käsiksi geeniaineistoihin, joita muun Euroopan tutkimuslaboratoriot tuottavat. Mekanismien löytäminen on vaativaa, ja tutkijat tarvitsevat vähintään vertailukohdan miten terveen
ihmisen genomi toimii. Kun voidaan käyttää eurooppalaisten tuottamia aineistoja, suomalaisten ei tarvitse rakentaa tutkimuksen näyteaineiston lisäksi vertailuaineistoa. Se olisikin äärettömän kallista, ja se lykkäisi tutkimustulosten syntymistä vuosikymmenen päähän.

Kansainvälisten geeniaineistojen käyttö suomalaisessa yliopistossa ei kuitenkaan käy aivan käden käänteessä. Samalla tavalla kuin ihmisten liikutteluun maiden välillä, tarvitaan datan liikutteluun infrastruktuureja ja maiden välisiä sopimuksia. Ulkomaisten tutkimusyliopistojen täytyy olla varma tietoaineistoja käyttävän identiteetistä. Biotieteelliseen dataan liittyy usein tietoturvaa, joka on säädetty laissa. Lisäksi maiden välillä täytyy olla tehokkaat tietoliikenneyhteydet, jonka kautta valtavat aineistomassat voivat siirtyä. Internetin avoin laajakaista ei riitä. Vastaanottajalla täytyy lisäksi olla käytössään tallennustilaa ja ohjelmistoja, jonka avulla se voi käsitellä aineistoa.

Datan säilytys ja jakelu tieteen perusedellytys

Tietoaineiston hallinnointi, säilytys ja jakelu eivät aina herätä samaa hehkua ja innostusta, kuin tieteen läpimurrot. Byrokraattinen kieli kuitenkin hämää. Hitaasti rakentuva verkosto mahdollistaa tieteelliset läpimurrot, mutta on myös itsessään tieteelliseen innovaation verrattavissa oleva hanke.

Kansainvälisen yhteistyön ja tietoaineiston jakamisen vastakohta on valtava voimavarojen tuhlaus, kun keskenään kilpailevat eurooppalaiset yliopistot tekevät samaa perustutkimusta. Lopputulos hyödyttäisi
merkittävästi heikommin yhteiskuntaa; jos kaikki keksisivät genomia uudelleen, tutkimus maksaisi enemmän ja se tuottaisi vähemmän. Eurooppalaiset tippuisivat ulos biotieteen ja –teollisuuden kansainvälisestä kilpailusta.

Suomea ELIXIRissä edustaa CSC – Tieteen tietotekniikan keskus yhteistyössä Helsingin yliopiston molekyylilääketieteen instituutin (FIMM) sekä Terveyden ja hyvinvoinnin laitoksen kanssa.

”ELIXIR on jo iso juttu Suomen biotieteille, ja tulevaisuudessa siitä tulee vielä isompi” kertoo Suomen ELIXIR-hankkeen johtaja Tommi Nyrönen CSC:sta.

”ELIXIRin kautta suomalaisella biolääketieteellä on pääsy valtaviin aineistoihin. Saamme tulevaisuudessa tarkempaa tietoa esimerkiksi suomalaiseen geeniperimän harvinaisista poikkeamista kun voimme verrata sitä kansainväliseen vertailuaineistoon. Näin voimme myös tehdä tarkempia hoitosuunnitelmia.”

ELIXIRin johtotähti on, että tutkimuksen tietoaineistot ovat tieteen pääomaa. Aineistojen luotettava säilytys ja jakelu ovat edellytys tieteen tuottavuudelle. Infrastruktuurin rakentaminen ja ylläpito maksavat vain murto-osan verrattuna itse tutkimuksen kustannuksiin. Ja sen tuomat tieteelliset tuotot – niistä hyötyy Nyrösen mukaan sama taho joka tiedettä rahoittaa; yhteiskunta.

Tietoa sairauden ja terveyden mekanismeista

”Kun eurooppalaiset geenitutkijat saavat käyttää ristiin toistensa aineistoja, syntyy tarkempaa tietoa sairauden ja terveyden mekanismeista. Tieteelliset tulokset kiertävät yhteistyössä myös nopeammin hoitoihin,” kertoo Tommi Nyrönen.

Suomalaisen rauduskoivun perimän avaaminen voi hyödyttää esimerkiksi englantilaisen koivuruttoepidemian taltuttamisessa. Vertailun avulla voidaan tunnistaa vaikkapa miksi englantilaisten koivujen puolustusmekanismit toimivat heikommin kuin rauduskoivun vastaavat. Tamperelaisen lapsen vakava sairaus saa tarkemman luonteen geenikartoituksen ja vertailevan aineiston yhdistelmästä. Kun virhegeeni on tiedossa, voi hoitosuunnittelu alkaa. Eurooppalaiset viininviejämaat voivat tutkia yhteistyössä viinirypäleen tautien genetiikkaa ja saada jalostuksen kautta kilpailuetuja suhteessa muun maailman viinituottajiin.

ELIXIR hyödyttää myös yrityksiä. Hanke on jakanut esimerkiksi koiran perimän, minkä pohjalta Helsingin yliopiston tutkijat ovat kehittäneet kaupallisen sovelluksen. Sen avulla koirankasvattajat voivat seuloa siitoskoiristaan kaikkein terveimmät ja jalostaa vain niitä, jotka eivät kanna esimerkiksi
nivelsairauksien tautigeenejä.

Vaikka ELIXIR liputtaa yhteistyön, jakamisen ja avoimuuden puolesta, on tietoaineistojen avoimuus kuitenkin rajattua. Osa aineistosta on julkista, osa ei. Joka tapauksessa mistään www:n avoimuudesta ei ole kyse. ELIXIR tasapainottelee korkean tietoturvan ja avoimuuden välillä. Verkoston arkaluonteisimmat tietoaineistot ovat auki niille, joilla on oikeus tutkimuskäyttöön. Tutkijoiden tunnistamiseen ja ’’kulkulupien’’ myöntämiseen on luotu omat käytännöt ELIXIR-maiden välille.

Suomalaiset tutkijat pääsevät ELIXIRin aineistoihin CSC:n kautta

Suomalaiset tutkijat käyttävät ELIXIRin resursseja CSC:n pilvipalvelun kautta. Palvelu on rakennettu niin, että tutkijan on helppo käyttää sitä. ELIXIRin käyttö on ’’epäteknistä’’. Toimivan ja aineettoman palvelun takana on kuitenkin valtavasti rautaa ja valokaapelia. Laitetasolla tarkasteltuna Suomen ELIXIR tarkoittaa CSC:n Kajaanin ja Keilarannan tietokonekeskuksia. Ne ovat yhteydessä suuritehoisen ja yksityisen laajakaistan – tai valopolun – kautta suoraan Cambridgeen, ELIXIRin päämajaan. Valopolun voi mieltää ELIXIR- palvelukeskuksien fyysiseksi napanuoraksi: se mahdollistaa massiivisten aineistojen jakamisen ELIXIR-maiden välillä.

Biotieteellisten aineistojen koosta viitteitä antaa se, että yksityisen ja äärettömän tehokkaan valopolun sisällä aineistojen siirtäminen maasta toiseen voi kestää kuukausia. Mutta pelkällä raudalla ja valokaapelilla ei ELIXIRiä ole rakennettu.

’’Se on vaatinut myös teetä ja keksejä’’ huomauttaa Tommi Nyrönen viitaten lukemattomiin neuvotteluihin ja kokouksiin, joita 16 maata on järjestänyt yhteisten sopimusten ja käytäntöjen eteen. Teen ja keksin määrä lasketaan sadoissa kiloissa ja litroissa!

Rakennustyö jatkuu

Onko ELIXIR valmis? Vastaus on sama kuin kysyttäessä milloin tiede on valmis. Eri maat osallistuvat Nyrösen mukaan ELIXIRin rakennukseen eri panoksin

”ELIXIR on startannut myös eri puolilla Eurooppaa eri aikoihin. Joissain maissa on valmiimpaa kuin toisissa. Suomi on ollut ensimmäisten joukossa,” kertoo Nyrönen.

Suomi on muiden Pohjoismaiden tavoin ELIXIRin pioneerimaita. Mailla on hyvä maine ja asema kansainvälisessä ELIXIRissä. Maat ovat toimineet ELIXIRin ensimmäisten vaiheiden testilaboratoriona, ja niiden käyttökokemukset antavat askelmerkkejä miten palvelua Euroopassa kannattaa rakentaa.

Euroopassa ELIXIRin rakennustyö jatkuu. Suomessa seuraava askel on jatkaa Kajaania, Keilaniemeä ja Cambridgea yhdistävä valopolku Helsingin yliopiston Viikin kampukselle sekä Turun ja Oulun biokeskuksiin. Suomalaiset tutkijat ovat ottaneet ELIXIRin vastaan innostuneena. Toteutuneiden hankkeiden asiakastyytyväisyys on ollut huippuluokkaa.

”Suomalaiset tekevät hyvää työtä sekä biotieteellisen tutkimuksen että infrastruktuurin puolella. Mikä tärkeintä, keskusteluyhteys näiden välillä toimii. Tarvitsemme lisää valokaapelia ja keksejä. Tästä on hyvä jatkaa,” summaa Nyrönen.

Elina Kuorelahti

5.6.2015

Lue artikkeli PDF-muodossa

Sitaatti

Elina Kuorelahti, & Tommi Nyrönen. (2015). Life science in European cloud. https://doi.org/10.5281/zenodo.8176710