ComPatAI-konsortio hyödyntää suuria datamääriä oppivan tekoälymallin luomiseksi patologiaan

Turun yliopiston biolääketieteen laitoksen apulaisprofessori Pekka Ruusuvuori johtaa ComPatAI-konsortiota, jossa kehitetään histopatologisten kudosnäytteiden mallinnusta uutta sisältöä luovien ja ennustavien tekoälymenetelmien avulla. Histologisen eli kudosopillisen näytteen perusteella arvioidaan, tarvitseeko potilas hoitoa. Tavoitteena on kehittää erittäin suuriin data-aineistoihin perustuvia tekoälymalleja, joiden avulla saadaan entistä tarkempaa patologian diagnostiikkaa.

CompPatAI-konsortiossa on lisäksi kehitteillä generatiiviseen tekoälyyn perustuvia kudoksen virtuaalivärjäysmalleja. Konsortion muut osapuolet ovat tutkimusjohtaja, dosentti Leena Latonen Itä-Suomen yliopistosta sekä patologian osaston ylilääkäri, dosentti Teemu Tolonen Fimlab-laboratorioista.

ComPatAI-konsortioissa analysoidaan ensisijaisesti rintasyöpään ja eturauhassyöpään liittyviä kudosleikekuvia. Digitoitu kuva antaa mahdollisuuden mittauksiin ja erilaisten solutyyppien automaattiseen laskentaan.

”Olemme toimineet eturauhassyövän ja rintasyövän parissa. Näistä on ollut dataa tarjolla, koska ne ovat kaikkein yleisimmät syöpätyypit naisilla ja miehillä. Tavoitteena on kuitenkin, että meillä olisi hyvin yleiskäyttöinen malli, jonka päälle voitaisiin rakentaa ratkaisuja erilaisiin ja uusiin käyttökohteisiin.”

Ruusuvuoren mukaan digitalisaatio on tapahtumassa patologiassa nyt ja Suomi on tietyssä mielessä edelläkävijä.

”Tampereella ja Turussa on siirrytty kokonaan digitaaliseen patologiaan diagnostiikassa. Joka kerta kun näyte otetaan, se skannataan korkearesoluutioiseksi digitaalikuvaksi. Rutiinidiagnostiikkaa tehdään paljon. Koska väestö ikääntyy, syöpätapaukset ovat nousussa. Dataa saadaan koko ajan kovalla tahdilla.”

600 000 kokoleikekuvaa

Skannatut kokolasikuvat saadaan tutkimukseen Fimlabista, joka on Suomen suurin terveydenhuollon laboratorioyhtiö. Sen asiakkaita ovat sairaalat, terveyskeskukset, työterveyshuolto ja yksityiset lääkäriasemat. Lääkealan turvallisuus- ja kehittämiskeskus Fimean lupa käsittää tällä hetkellä 160 050 tapausta eli noin 600 000 kokoleikekuvaa. Koko on yhteensä noin 0,8 petatavua, jolloin yhden tiedoston koko on noin 1,3 GB. Massiivista datamäärää siirretään parhaillaan anonymisoinnin jälkeen Suomen ELIXIR-keskuksen CSC:n LUMI- supertietokoneelle. Se on suurimpia koneelle tehtyjä datan siirtoja.

”Se, että saamme hyödyntää näitä aineistoja tutkimuskäytössä, on valtavan hieno juttu. Tarkoitus on käyttää tätä isoa datamassaa siihen, että pystyttäisiin tekemään mahdollisimman hyvin toimivia tekoälyratkaisuja patologien käyttöön”, sanoo Ruusuvuori.

Tavoitteena on, että projektin lopussa tutkijoiden käytössä olisi jopa 2,5 miljoonaa digitoitua kokoleikekuvaa, jolloin dataa olisi kolme petatavua.

”Meillä on lupateknisesti mahdollisuus käyttää kaikkea sitä dataa mitä rutiinisti Fimlabilla tuotetaan digipatologiassa.”’

Rintasyöpä: Kasvain muodostaa juosteisia rakenteita ja pieniä saarekkeita, jotka kasvavat epäsäännöllisesti stroomaan (kasvaimen sidekudosverkko) ja rasvaan. Terve kudos: Sidekudoksen joukossa nähdään säännöllisiä maitotiehyitä ja lobuluksia (rauhasliuskoja). Kuva: Fimlab.

Neuroverkko oppii kuvasta sellaista, mitä ihmissilmä ei havaitse

Pekka Ruusuvuoren tausta on signaalinkäsittelyssä ja hänen erityisosaamisalueensa on kuva-analyysi. Hän on kiinnostunut siitä, miten tekoälymenetelmissä hyödynnetyistä syvistä neuroverkoista voitaisiin kehittää kohti paremmin erilaisiin käyttötarkoituksiin yleistyviä.

Ruusuvuoren mukaan lähtökohtaisesti kone voidaan opettaa tunnistamaan samoja asioita kuin ihminen. Se voidaan opettaa tunnistamaan erilaisia kudostyyppejä ja erottamaan syöpäkudos terveestä kudoksesta. Se voi mitata solusta tai kuvista erilaisia asioita, kuten kuinka aggressiivinen syöpä on ja kuinka pitkälle se on edistynyt. Tekoäly voi tehdä erottelua ja löytää kudosnäytteestä syöpäalueet ennen kuin patologi alkaa tutkia näytettä. Se voi myös ehdottaa luokitusta. Esimerkiksi eturauhasen syöpäkasvaimesta annetaan ns. Gleason-luokitus, joka kertoo miten aggressiivinen tai edennyt tauti on.

”Tekoälylle on opetettavissa melko tarkasti siis sellaiset tehtävät mitä patologit tekevät”, Ruusuvuori toteaa.

”Perinteisesti koneoppimismenetelmät on rakennettu niin, että meillä on joku kohdemuuttuja ja opetusaineisto, jossa näytetään, että tässä kohtaa tätä kuvaa on tämä objekti ja se kuvaa tätä luokkaa. Sehän on hirveän työlästä, jos meidän pitäisi merkitä kaikkiin satoihin tuhansiin kuviin tätä tietoa.”

Nämä ns. annotaatiotiedot ovat olleet olennaisia, jotta on voitu opettaa tekoälyä automaattisesti tunnistamaan näytteistä esimerkiksi syöpäsolut. Ruusuvuoren mukaan algoritmit ovat kuitenkin kehittyneet siihen suuntaan, että ne pystyvät hyödyntämään raakadataa ilman annotointeja.

”Mielestäni kaikkein kiinnostavinta onkin se, mitä kaikkea muuta kuvista on irrotettavissa eli ominaisuuksia, mitkä eivät välttämättä ole itsestään selvästi ihmisen havaittavissa. Ainoa data mitä on nähtävillä, on leikekuvassa. Jos siinä on joku tilastollinen yhteys osoitettavissa, koneoppimisalgoritmi sen löytää – mutta ne yhteydet saattavat olla hyvin kompleksisia. Nykyaikaiset neuroverkot ovat erittäin tarkkoja havaitsemaan kompleksisia yhteyksiä spatiaalisen datan ja ennustettavan muuttujan välillä. Ne voivat olla hyvin vaikeita hahmottaa meille ihmisille.”

Ruusuvuori on tutkimusryhmänsä kanssa pystynyt koneoppimismallien avulla ennustamaan geeniekspressiota ja mutaatioita suoraan histologisista kuvista. Geenin eskpressio eli ilmentyminen tarkoittaa, että solu tuottaa DNA:n koodaamaa molekyyliä. Geenien ekspressio on erilainen eri kudoksissa. Tekoäly voi havaita kuvasta ihmissilmälle näkymättömiä pieniä muutoksia.

”Kuvissa koneelle on siis näkyvissä jotain, mitä geeniekspressio aiheuttaa soluissa ja kudoksissa. Kone pystyy havaitsemaan erittäin pienenkin eron muuttuneessa ilmiasussa. Kone havaitsee sen, mitä ihmissilmä ei ole harjaantunut näkemään. Korostan, että tämä on hyvin suuntaa antavaa ja ei toki toimi kaikille kudoksille tai geeneille. Kaikkien geenien ekspressoituminen ei johda muutoksiin kudostasolla sillä tavoin, että se on ennustettavissa kudosleikekuvasta. ”

ComPatAI-konsortio kehittää suurten datamassojen hyödyntämiseen ns. foundation-mallia. Foundation-malli luo yleiskäyttöisen perustan erilaisille tekoälyratkaisuille oppien histologiaa suuresta näytemäärästä ilman kohdemuuttujia tai annotointeja.

Foundation-mallin yleisesitys. Foundation-mallien toiminta perustuu syviin neuroverkkoihin ja niiden kykyyn oppia monimutkaisia kuvioita ja rakenteita datasta. Foundation-malleja hyödynnetään yhä enemmän kuvadatan analysoinnissa. Mallit oppivat yhdistämään visuaalisia piirteitä (kuten värit, muodot ja tekstuurit) ja semanttista tietoa (kuvien merkitystä tai tarkoitusta). Mallit hajottavat kuvan pikselitason tietoihin ja oppivat monimutkaisia piirteitä. Ne käyttävät matemaattista tekniikkaa nimeltä itsehuomio (self-attention) ymmärtääkseen, mitkä kuvan osat ovat tärkeitä ja millä tavalla kuvan elementit liittyvät toisiinsa.

”Kun tälle mallille aletaan opettaa vaikkapa rintasyövän tai eturauhassyövän tunnistusta, malli alkaa oppimaan pyydettyä tehtävää. Näin pääsemme paljon nopeammin tarkempiin ratkaisuihin. Pystymme hyödyntämään mittavaa data-aineistoa, vaikka meillä ei olisi annotointeja. Se on hieno esitysaskel.”

ComPatAI-konsortio luo omaa foundation-tekoälymallia suomalaiseen dataan perustuen.

”Tämä on perustutkimusta, joka mahdollistaa sen, että olemme ensimmäisten joukossa kehittämässä tähän maahan näitä malleja. Toivon, että emme olisi pelkästään isojen ulkomaisten firmojen ja tutkimusryhmien varassa vaan että meillä rakennettaisiin suomalaiseen dataan perustuvaa mallia. Meillä on tässä maassa laadukasta populaatiotason kohorttidataa, jota pitää päästä hyödyntämään. Toivon, että se johtaa siihen, että saadaan Suomeen yrityksiä, joiden kehittämät ratkaisut viedään potilaan hyödyksi rutiinidiagnostiikkaan.”

Tärkeä kysymys on, kuinka nopeasti dataa pystytään siirtämään ja hyödyntämään. Laskentaa ja datan tallennuskapasiteettia tarvitaan koko ajan. Tähän tulevat apuun Suomen ELIXIR-keskuksen CSC:n tarjoamat palvelut.

”Olemme erittäin tyytyväisiä CSC:ltä saamaamme tukeen, kun puhutaan näin poikkeuksellisen isosta hankkeesta ja datamäärästä. Olemme etuoikeutetussa asemassa, koska meillä on apuna CSC:n tapainen toimija, jolta voimme saada resursseja tällaiseen tutkimukseen. Se on selvästi kilpailuetu ja sellainen asia, mistä voi olla valtavan kiitollinen.”

Pekka Ruusuvuoren tutkimus (Towards AI-enabled computational pathology) on Suomen Akatemian rahoittama ja kuuluu LUMI Extreme scale access-projekteihin, jossa pilotoidaan suurteholaskentaa julkisilla datoilla. Ruusuvuorella ja Leena Latosella on lisäksi Suomen Akatemian rahoittama suurteholaskentaan keskittyvä hanke kudosten virtuaalivärjäykseen liittyen. Suomen Akatemian rahoituksella vahvistetaan eurooppalaisen EuroHPC (European High-Performance Computing) -suurteholaskennan resurssien ja LUMI-supertietokoneen hyödyntämistä lippulaivojen aihealueiden tieteelliseen tutkimukseen. Kuva: CSC

Digipatologian ja muiden potentiaalistesti sensitiivisten terveysdatan datatyyppien kuten rekisteri- ja omiikkatietovarantojen saatavuus tietoturvallisessa CSC:n käyttöympäristössä kasvaa tulevaisuudessa.

”Kehitys on vasta alussa”, sanoo Tommi Nyrönen, joka on Suomen ELIXIR-toimintojen johtaja.

”Suomen ELIXIR on edistänyt CompPatAI-tutkimuksen edellyttämien biolääketieteellisten resurssien muuttamista CSC:n alustapalveluksi. Työn tuloksena syntynyt CSC Sensitive Data-alusta tukee muitakin vastaavia hankkeita. Tällainen on esimerkiksi EU:n digipatologian arkiston rakennushanke bigpicture.eu, joka suunnitelman mukaan alkaa vuonna 2026 tarjota kestävää ratkaisua hallita ja tuoda digipatologian data-aineistoja suurteholaskentapalveluihin Euroopan laajuisesti.”

Ari Turunen

26.12.2024

Lue artikkeli PDF-muodossa.

Sitaatti

Turunen, A., & Nyrönen, T. (2024). The ComPatAI consortium uses large datasets to create an AI learning model for pathology. https://doi.org/10.5281/zenodo.14823370

Lisätietoja:

FIRI

Suomen Akatemia on tukenut artikkelin tuotantoa apurahalla numerolla 345591, joka on myönnetty FIRI 2021-hankkeelle ”ELIXIR European Life-Sciences Infrastructure for Biological Information”.

Ruusuvuorilab

https://ruusuvuorilab.utu.fi

Fimlab

www.fimlab.fi

Turun yliopisto

https://www.utu.fi/fi

CSC – Tieteen tietotekniikan keskus Oy

on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.

https://www.elixir-finland.org

http://www.elixir-europe.org

Terveysdataa ymmärtävä tekoälymalli varoittaa tulevista sairauksista

Yhdistämällä perimästä saatavaa tietoa eli genomitietoa kansallisissa terveydenhuollon rekistereissä olevaan dataan, voidaan kehittää tekoälymalli, jolle voidaan esittää kysymyksiä mahdollisista tulevaisuuden sairaalahoidoista. Tällaiset tilastolliset ja koneoppimisen mallit kykenevät ennustamaan sairauksien esiintymistä.

Apulaisprofessori Andrea Ganna Helsingin yliopiston Suomen molekyylilääketieteen instituutista (FIMM) on kiinnostunut geneettisen ja tilastollisen datan yhdistämisestä.

”Terveydenhuollossa voidaan hyödyntää koneoppimista, koska se oppii koko ajan valtavasta datamäärästä. Tekoälylle voidaan esittää kysymyksiä tulevaisuuden mahdollisiin sairaalahoitoihin liittyen. Tekoäly voi kertoa, mikä on elinajanennuste tai kuinka paljon reseptilääkkeet maksavat tietynlaisella elämäntyylillä ensi vuonna. ”

Ganna on hyödyntänyt suuria aineistoja tunnistaakseen demografisia ja geneettisiä tunnusmerkkejä, jotka ovat yleisten ja monitekijäisten tautien taustalla. Tekoäly voi tehdä jokaiselle henkilökohtaisen riskilaskelman, joka tehdään mallintamalla sairauksien ja lääkitysten pitkittäisseurannasta saatua dataa yhdessä geeni-, perhe- ja väestödatan kanssa.

Yksi maailman laajimpia datan toisiokäytön tutkimuksia

Ganna käyttää tutkimuksissaan erityisesti FinRekisterit-aineistoa. FinRekisterit on Terveyden ja hyvinvoinnin laitoksen (THL) ja Suomen molekyylilääketieteen instituutin yhteinen tutkimusprojekti, jonka vastuututkijana toimii tutkimusprofessori Markus Perola. Se on yksi maailman laajimpia rekisteridatan toisiokäyttöön perustuvia tutkimuksia.

”Datakokoelmassa on 7,2 miljoonaa yksilöä eli kaikki Suomen kansalaiset sekä osa jo kuolleita sukulaisia. Siinä on paljon erilaista ja monipuolista tietoa. Saatavilla on terveystietoa, tietoja perhesuhteista, sosio-ekonomista tietoa, laboratoriotuloksia ja lääkereseptejä. Tämä on todella laaja datakokoelma.”

Aineistossa on 19 eri maanlaajuista rekisteriä, kuten Syöpärekisteri, Lääkeostorekisteri ja Kanta. Kanta on rekisteri, johon kerätään terveydenhuollossa ja apteekeista saatuja asiakas- ja potilastietoja. Kokoelmassa yksinomaan lääkeostoja on rekisteröity kokoelmaan yli miljardi. Ne ovat datapisteitä eli jokainen yksittäinen fakta on datapiste. Niitä datakokoelmassa on yhteensä yli 6,5 miljardia.

”Pidän hanketta ainutlaatuisena. Data on rikasta ja monipuolista”, sanoo Ganna.

”Terveystiedon yhdistäminen sosiaaliseen ja ekonomiseen informaatioon on minulle erittäin olennaista. Monesti näitä pidetään erillisinä, mutta tietojen yhdistäminen on erittäin tärkeää terveydelle. Meidän täytyy tarkastella sosio-ekonomista tietoa ymmärtääksemme kuinka ”reiluja” tekoälymallit ovat. Emme halua tekoälymallia, joka tekisi työnsä huonoimmin väestömme kaikkein haavoittuvimmissa osissa.”

Riskiryhmään kuuluvien tunnistaminen voi edistää sairauksien ennaltaehkäisyä

Kun data on kerätty eri rekistereistä, yksilölliset tiedot salataan ja tallennetaan Suomen ELIXIR-keskuksen CSC:n sensitiivisen datan palveluihin. Ganna tutkimusryhmineen analysoi dataa tässä tietoturvallisessa ympäristössä.

”Olemme yhteistyössä CSC:n kanssa kehittäneet palveluja hyödyllisemmiksi tutkijoille. Olemme aloittaneet yksinkertaisista analyyseista kulkien kohti monimutkaisempia malleja.”

Andrea Gannan tutkimuksissa sensitiivistä dataa on valtava määrä.

”Luomme datamatriisin tekoälyä ja koneoppimisen malleja varten. Olemme myös hyvin tietoisia datan sensitiivisestä luonteesta. Emme pysty tunnistamaan yksilöitä ja käytämme erittäin kehittyneitä turvatoimia estääksemme luvattoman pääsyn dataan.”

Näitä tietoja voidaan käyttää eri tarkoituksiin.

”Saamme paremman ymmärryksen eri tautiryppäistä ja parempia ennusteita. Voimme laatia jopa digitaalista ikääntymistä kuvaavan kellon. Siinä käytetään koko väestön dataa, jotta voisimme antaa jokaiselle Suomen kansalaiselle eräänlaisen digitaalisen iän, joka perustuu terveystiedoista saadulle suuntaa-antavalle kehityskululle.”

Suunnitteilla on, että Ganna tutkimusryhmineen integroi rekisteridataa biopankeissa olevaan genomidataan. Kunnianhimoisena tavoitteena on tunnistaa yksilöissä kehittyviä sairauksia, joiden puhkeaminen voitaisiin estää. Tulevaisuudessa datan perusteella voitaisiin löytää riskiryhmään kuuluvia yksilöitä, jotka voisivat hyötyä ennaltaehkäisevistä lääkehoidoista. Andrea Gannan mukaan dataa on jo tarpeeksi, jotta tämä olisi mahdollista. Yhtenä hyvänä esimerkkinä tutkimusaineistosta Ganna mainitsee FinnGen-tutkimushankkeen, joka on tuottanut genomitietoa puolesta miljoonasta suomalaisesta. Hankkeessa on selvitetty suomalaisen väestön eri sairauksien geneettistä taustaa. Seuraavaksi on alettu selvittää, miten geenit vaikuttavat sairauksien etenemiseen.

”Biopankeissa oleviin, riskiryhmään kuuluviin ihmisiin voitaisiin olla yhteydessä. Tämä tietysti edellyttää että biopankeissa olevat ihmiset ovat antaneet kontaktointiin suostumuksensa.”

Gannan mielestä CSC:n sensitiivisen dataan liittyviä palveluita pitäisi pystyä kehittämään siihen suuntaan, että ne tukisivat erityisesti koneoppimisen malleja. Toistaiseksi tekoälymalleja on kokeiltu vain tutkimuksessa koska nykyisen lainsäädännön puitteissa ei voida automaattisesti käyttää rekisteridataa, jotta voitaisiin ottaa uudelleen yhteyttä riskiryhmään kuuluviin ihmisiin.

”Voimme laatia näitä kauniita malleja, mutta emme voi varoittaa riskiryhmäläisiä,” Ganna toteaa, mutta huomauttaa, että jos malleja yksinkertaistetaan tarpeeksi, niitä voidaan käyttää myös kliinisessä hoidossa.

Yhtenä esimerkkinä hän mainitsee RS-viruksen, jonka riskitekijöitä THL:n Markus Perola yhdessä FIMM:n Pekka Vartiaisen kanssa tutki FinRekisterit-hankkeessa. RS-virus (respiratory syncytial virus) on maailmanlaajuisesti yleisin pienten lasten hengitystieinfektioita aiheuttava virus. Tutkijat loivat yksinkertaistetun mallin, jota voitaisiin hyödyntää RSV:n kliinisessä hoidossa. Nyt Suomessa lääkärit voivat rekisteridatan perusteella tunnistaa, ketkä ovat vaarassa saada viruksen ja kenelle voisi antaa ajoissa hoitoa.

Andrea Ganna uskoo, että tulevaisuudessa terveydenhuolto hyötyy tekoälymalleista, joka ymmärtää terveysdataa.

”Tekoäly tukee päätöksentekoa auttamalla lääkäreitä paremmin tekemään yhteenvetoja heidän potilaidensa terveyden kehityskuluista. Tulevaisuus on valoisa.”

Ari Turunen

30.5.2024

Lue artikkeli PDF-muodossa

Sitaatti

Turunen, A., & Nyrönen, T. (2024). An AI model that understands health data warns of future diseases. https://doi.org/10.5281/zenodo.13691998

Lisätietoja:

Suomen molekyylilääketieteen instituutti (FIMM)

FIMM on osa Helsingin yliopiston HiLIFE Helsinki Institute of Life Science -tutkimuskeskusta.

https://www.helsinki.fi/en/hilife-helsinki-institute-life-science/units/fimm

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-europe.org

BIGPICTURE mahdollistaa patologian muuttumisen digitaaliseksi

Helmikuussa 2021 alkanut kuusivuotinen BIGPICTURE -projekti kerää kolme miljoonaa skannattua ja digitalisoitua patologian kuvaleikettä Euroopan eri sairaaloista, tutkimusorganisaatioista ja lääkealan yrityksistä. Yksi hankkeeseen osallistuva tutkija on Helsingin Biopankin (HUS) patologi Yossra HS Zidi-Mouaffak, joka on toinen koordinaattori BIGPICTURE -projektin Suomen solmupisteessä. Hän keskittyy siihen, miten tekoälyä voidaan käyttää patologiassa.

Hankkeeseen osallistuu 45 organisaatiota 15 maasta. Suomesta mukana on Helsingin yliopistollinen sairaala HUS ja erityisesti Helsingin Biopankki sekä CSC – Tieteen tietotekniikan keskus. BIGPICTURE -alustaa rakennetaan patologien, tutkijoiden, tekoälyn kehittäjien, potilaiden ja teollisuuden edustajien yhteistyönä. Tiedostot tallennetaan arkistoon tietokannaksi, joka mahdollistaa uudet ja tehokkaat tekoälysovellukset. Tämä edesauttaa patologian diagnostiikan digitalisaatiota ja tuo uusia menetelmiä kudosten analysoimiseen. Näytteitä voidaan analysoida tekoälyn avulla.

Yossra HS Zidi-Mouaffak on Helsingin Biopankin (HUS) patologi ja väitöskirjatutkija professori Olli Carpénin tutkimusryhmässä Helsingin yliopistossa. Yksi Zidi-Mouaffakin projekteista liittyy digitaaliseen patologiaan ja paksunsuolen syöpään.

”Paksunsuolen syöpä on toiseksi tappavin ja kolmanneksi yleisin diagnosoitu syöpä maailmassa. Se on myös toiseksi yleisin syöpätyyppi Suomessa. Syöpäpotilaita hoidetaan pääsääntöisesti kirurgisilla ja onkologisilla toimenpiteillä riippuen taudin asteesta,” sanoo Zidi-Mouaffak.

Onkologiset toimenpiteet voivat sisältää kemoterapiaa ja sädehoitoa.

”Projektissamme keskitymme erityisesti niihin potilaisiin, joilla on II asteen paksunsuolensyöpä ja joilla tehostetun kemoterapian riski-hyöty –suhde on usein marginaalinen. Tätä voidaan parantaa luokittelemalla potilaat korkeamman ja alhaisemman riskin ryhmiin.”

Kaksi algoritmin tuottamaa lämpökarttaa (kuumat alueet punaisella ja kylmät sinisellä). Punaiset alueet sisältävät algoritmin tunnistamia piirteitä, jotka indikoivat korkeaa todennäköisyyttä (riskiä) syövän uusiutumisesta, siniset alueet puolestaan matalaa riskiä. Mitä suuremmat punaiset alueet, sitä korkeampi riski potilaalla on syövän uusiutumiseen.

Työkalu syövän hoitotuloksen ennustamiseen edellyttää dataa ja kuvia

II asteen paksunsuolen syöpää pidetään sairauden varhaisena vaiheena, jolloin kasvaimen tunkeutuminen pysyy ”paikallisena” ilman, että etäpesäkkeet olisivat levinneet muualle kehoon. Kasvain voi myös ulottua rasvakudokseen tai viereiseen elimeen, mutta se ei ole levinnyt imusolmukkeisiin. Noin 75 prosentilla II asteen potilaista syöpä ei uusiudu, kun leikkauksesta on kulunut viisi vuotta.

”Valitettavasti 25 prosentilla potilaista syöpä uusiutuu, mutta nämä potilaat voisivat hyötyä operaation jälkeisestä kemoterapiasta. Kysymys onkin: kuinka arvioida, keillä potilaista on korkea riski saada syöpä uudestaan? Projektimme perimmäinen tavoite on tarjota paksunsuolen syövän ennustava työkalu. Luotettavien tulosten saamiseksi tarvitaan merkittävä määrä dataa ja kuvia. BIGPICTURE auttaa tarjoamalla tutkijoiden käyttöön suuret määrät dataa ja tekoälyyn liittyviä työkaluja. Tämä edistää luonnollisesti nopeammin tämän alan tutkimusta.”

Zidi-Mouaffak valitsee, annotoi ja analysoi skannattuja mikroskooppikuvia, jotka on saatu syöpäpotilaiden kirurgisista kudosnäytteistä. Kudosnäytteet on värjätty hematoksyliini-eosiini -tekniikalla, jolloin kudosten osat värjäytyvät pH:n mukaisesti.

Kaksi suomalaista biopankkia, Auria ja Helsingin Biopankki, toimittavat data-aineistoja, jotka sisältävät kokoleikekuvia varustettuna kuratoidulla metadatalla. Tällaisia tietoaineistoja käytetään koneoppimisen malleiksi konvoluuvio-neuroverkkojen avulla.

Auria Biopankista ja Helsingin Biopankista toimitetut kokoleikekuvat ovat dataa, jolla luodaan koneoppimisen. Tekoälymallit analysoivat kuvia, jotka on aiemmin valittu ja annotoitu.

“Patologina uskon, että koneoppimisella on potentiaalia patologien työn parantamisessa. Koneoppimisen algoritmeja voidaan käyttää diagnostiikan työkaluina rutiinitöissä, joissa ne olisivat ilmeisen nopeampia ja tarkempia kuin ihmissilmä.”

BIGPICTURE on eurooppalainen yhteenliittymä, jonka tarkoituksena on luoda tietoturvallinen ja eurooppalaista tietosuojaa noudattava tallennuspaikka ja alusta. Alustalle voi tallentaa kokonaisia mikroskooppileikekuvia sekä koneoppimisen algoritmeja, joiden ansiosta kuvien analysoiminen tekoälyn avulla onnistuu. Suomen ELIXIR keskus CSC rakentaa yhdessä Linköpingin ja Uppsalan yliopistojen kanssa patologisen datan tietokannan sisältäen turvallisen luvittamismekanismin patologisten kuvien ja niitä kuvailevien tietojen vastaanottamiseksi ja tallentamiseksi. Datan kuvailulla on keskeinen osa myös sen luvituksessa. BIGPICTURE nojaa ELIXIR AAI:n teknologioihin kuvantamisdatan luvittamisessa. Hankkeeseen osallistuvat organisaatiot ovat lupautuneet tuottamaan ja jakamaan kuvadataa.

Zidi-Mouaffak antaa muutamia esimerkkejä tekoälyn mahdollistamasta diagnostiikasta: solunjakautumisen tunnistaminen ja laskeminen (mitoosi), tiettyjen immuunisolujen laskeminen tietyillä alueilla tai solujen leviämisindeksien tarkka arvioiminen.

“Kuvadataan perustuvia tekoälytyökaluja, joita voidaan käyttää päätöksenteossa ennustettaessa sairauden lopputulemaa, on kuitenkin erittäin haasteellisia kehittää. Ne edelleenkin vaativat pitkiä testausjaksoja ja validointia ennen kuin niitä voidaan varsinaisesti käyttää kliinisessä työssä.”

Esimerkki annotoidusta hematoksyliini-eosiini-tekniikalla värjätystä digitaalisesta leikekuvasta.

Valtava määrä kuvia mahdollistaa tehokkaan tekoälyn kehittämisen

BIGPICTURE-projektissa luodaan ensimmäiseksi tallentamiseen tarkoitettu infrastruktuuri, joka mahdollistaa miljoonien erittäin isojen kuvatiedostojen käsittelyn, tallentamisen ja jakamisen. Patologiset kuvat voivat olla jopa gigatavujen suuruisia. Leikekuvat on varustettu metadatalla. Tämän materiaalin avulla voidaan kehittää tekoälytyökaluja, kuten algoritmeja. Syväoppimisen algoritmit opetetaan luokittelemaan morfologisesti samankaltaiset kohortit eli ne analysoivat näytteiden muotoja ja rakenteita. Tekoäly pystyy löytämään syöpään viittaavia piirteitä eli biomarkkereita ja ne voidaan todentaa.

“Viimeaikaisten tutkimusten perusteella uskomme, että tekoälyn soveltaminen etukäteen valittuihin digitaalisiin leikekuviin, jotka on saatu hyvin kuratoiduista kohorteista, voisi tarjota mielenkiintoisen vaihtoehdon käytössä oleville molekulaarisille ja morfologisille ennustaville markkereille.”

Tutkimusryhmän, jossa Zidi-Mouaffak on mukana, tavoitteena on kehittää ja todentaa uusi erilainen ja ennustava markkeri, joka voisi helpottaa II asteen paksunsuolen syöpää sairastavien potilaiden luokittelua.

Zidi-Mouaffakin mukaan syväoppimisen algoritmit voivat antaa yllättävän ja riittävän tarkkoja ennusteita tietyille syöpätyypeille, mutta monissa tapauksissa ei tiedetä, mihin algoritmi perustaa päätöksensä.

“Se on jonkinlainen musta laatikko. Tälle on selvästi lisätutkimuksen tarve ja säilytyspaikat, kuten BIGPICTURE-projektissa kehitetään, tulevat äärimmäisen relevanteiksi. Tämän tapainen tutkimus tarvitsee valtavia korkealaatuisia digitaalisia leikekuvia ja metadataa sisältäviä tietokantoja, mikä onkin BIGPICTURE-hankkeen tarkoitus.”

Ari Turunen

10.2.2022

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Yossra HS Zidi-Mouaffak, & Tommi Nyrönen. (2022). BIGPICTURE helps pathology go digital. https://doi.org/10.5281/zenodo.8154477

Lisätietoja:

BIGPICTURE

https://bigpicture.eu

HUS Helsingin yliopistollinen sairaala

https://www.hus.fi

Helsingin Biopankki

https://www.helsinginbiopankki.fi/

Auria Biopankki

https://www.auria.fi/biopankki/

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org http://www.elixir-europe.org

Tulevaisuudessa algoritmi voi tunnistaa glaukooman silmänpohjakuvista

Glaukooma eli vanhalta nimeltään silmänpainetauti on näköhermon etenevä sairaus, joka aiheuttaa vaurioita näköhermonpäähän ja hermosäiekerrokseen. Riski sairastua glaukoomaan suurenee iän myötä. Glaukoomaa esiintyy yli 50-vuotiailla noin 2%:lla ja yli 75-vuotiailla yli 5 %:lla. Maailmassa on arviolta yli 60 miljoonaa glaukoomaa sairastavaa potilasta, heistä noin 6 miljoonan arvioidaan olevan näkövammaisia.

Haasteena taudissa on, että glaukooma on usein alkuvaiheessa täysin oireeton tai vähäoireinen. Koska vaurioita ei voida korjata, tauti tulisi löytää mahdollisimman varhain. Hoidon tavoitteena on ehkäistä glaukoomasta johtuvaa näkövammaisuutta. Suurimmalla osalla potilaista tautimuutokset etenevät hitaasti vuosien aikana. Pienellä osalla potilaista tauti voi johtaa vaurioihin jo lyhyessä ajassa.

Glaukooman havaitsemisen ja etenemisnopeuden tunnistamiselle olisi tärkeää, että terveydenhuollon järjestelmien avulla löydettäisiin mahdollisimman varhain suuren riskin tapaukset. Glaukooman varhaisen havaitsemisen avuksi on nyt kehitteillä tekoälymalleja.

Tutkija ja projektipäällikkö Ara Taalas on erikoistunut datatieteeseen, tekoälyyn ja koneoppimisen algoritmeihin lääketieteessä. Yksi hänen tutkimuskohteistaan on kehittää tehokkaita oppivia algoritmeja glaukooman havaitsemiseen Suomen molekyylilääketieteen instituutin (FIMM) ja Terveystalon yhteisessä projektissa. Aiemmin Taalas on mallintanut kantasolujen erilaistumisprosesseja ja tehnyt lääkeainesuunnittelua.

Terveystalon erikoisalajohtajan ja ylilääärin Matti Seppäsen mukaan glaukooman diagnoosi ja luokittelu perustuvat näköhermon pään, hermosäiekerroksen ja kammiokulman tutkimiseen, silmänpaineen mittaamiseen sekä näkökenttätutkimukseen.

”Glaukooman tarkkaa syntymekanismia ei tunneta, mutta todennäköisesti glaukoomavaurioiden taustalla ovat vauriot hermosolujen rakenteissa.”

Todennäköisesti noin 30-50 prosentilla potilaista silmänpaine on niin sanotulla normaalialueella (10-21 mmHg). Potilailla on yksilöllinen alttius glaukoomavaurioiden kehittymiseen eri painetasoilla. Osalla potilaista syntyy glaukoomavaurioita alhaisemmalla painetasolla, osalla potilaista muutokset voivat olla vähäisiä vaikka painetaso olisi suurempi.

”Nykyisin glaukoomadiagnoosiin tarvitaan silmälääkärin tutkimus ja useita lisätutkimuksia. Näköhermon päätä voidaan tutkia mm. biomikroskopian ja stereopapillakuvauksen avulla. Hermosäiekerrosta voidaan arvioida esim. värisuodatetun silmänpohjakuvauksen tai hermosäiekerroksen valokerroskuvauksen (ns. OCT-tutkimus) avulla. ”

Tutkimuksissa glaukoomaepäily voi herätä esimerkiksi näköhermonpään muodon perusteella. Näköhermonpään rakennetta voidaan arvioida ns. cup/disc –suhteen mittauksella, jossa näköhermon keskuskuopan suuruutta verrataan näköhermonpään ulkoreunan suuruuteen.

”Hermosäiekerroksen vauriot voivat tulla esiin hermosäiekerroksen valokerroskuvauksessa ohentuneena hermosäiekerroksena. Silmänpohjan värisuodatetussa valokuvauksessa voidaan myös saada esiin hermosäiekerroksen puutoksia. Glaukoomadiagnoosi perustuu usein useaan eri tutkimukseen ja tällä hetkellä ei ole saatavilla yksittäistä tutkimusmenetelmää, jonka avulla glaukooman seulontaa väestötasolla olisi päästy toteuttamaan. Tekoälysovellukset voivat tulevaisuudessa tuoda seulontaan ja diagnostiikkaan merkittävää apua.”

Esa Pitkänen Molekyylibiologian instituutista FIMM:stä (Helsingin yliopisto) kertoo glaukooman tutkimisesta algoritmien avulla.

Algoritmi tunnistaa kuvioita hermokerroksista

Ara Taalaksen mielenkiinnon kohteena tekoälymallia kehitettäessä on mm. silmänpohjan hermokerrosten kuvautuminen kuvantamistutkimuksissa. Algoritmin avulla pyritään havaitsemaan silmänpohjakuvista niitä muutoksia, jotka voivat viitata hermosäiekerroksen vaurioon. Mallin avulla pyritään selvittämään, voivatko silmänpohjan hienosyiset verkottuneet muutokset muuttuessaan tummemmiksi ja monotonisiksi olla yhteydessä hermosäiekerroksen vaurioon.

”Tämä on yksi tekijöistä, joihin malli on kohdennettu. Jatkossa mallille opetetaan lisää silmänpohjan hermosäikeiden kuvioita. Tällaisten algoritmien tavoitteena on pyrkiä löytämään keinoja, jotka auttavat kehittämään päätöksentukijärjestelmiä lääkärin työhön. Pitkälle kehittynyt keinoäly voi löytää muutoksia, joita kokenutkaan kliinikon silmä ei välttämättä havaitse.”

Ara Taalaksen laatima tekoälymalli toimii niin, että silmänpohjankuva puretaan kolmeksi isoksi lukumatriisiksi, jotka vastaavat punaista, vihreää ja sinistä kanavaa. Punaisella kanavalla silmänpohjan kudoksen rakenne erottuu vahvemmin kuin muilla kanavilla. Malli kiinnittäää kaikilla värikanavilla huomion näköhermonystyyn eli papillaan. Tämän lisäksi punainen kanava kiinnittää huomiota papillaa ympäröivään kudokseen osaksi siksi, että punaisella kanavalla papillaa on vaikeampaa erottaa ympäröivästä kudoksesta. Verisuonet eivät siis kiinnitä mallin huomiota. Malli ilmoittaa punaisella, jos silmänpohjakuvassa on jotakin huomionarvoista. Kuvassa vasemmalla punainen, keskellä sininen ja oikealle vihreä värikanava.

Silmän rakennetta ja toimintaa mittaavissa tutkimuksissa esiintyy vaihtelua, joka johtuu käytössä olevasta tutkimusmenetelmästä, arvioijan kokemuksesta, tutkittavasta sekä taudin vaikeusasteesta. Näköhermon pään arvioimisella ei saavuteta aina riittävää tarkkuutta nykyisillä menetelmillä. Näkökenttätutkimus voi olla normaali, vaikka näköhermossa ja hermosäiekerroksessa esiintyisi vaurioita. Tämä johtuu siitä, että rakennevauriot tulevat yleensä ennen kuin näkökenttäpuutokset esiintyvät. Mikäli jatkossa pystytään kehittämään sovelluksia, jotka arvioivat aiempaa tarkemmin ja tehokkaammin rakenteellisia muutoksia, voidaan sillä varhaistaa glaukooman diagnostiikka.

Taalaksen mukaan eräänä sovelluskohteena mallille olisi, että tekoälymalli olisi käytettävissä aina kun tehdään näöntarkastus.

”Väestötutkimuksissa on todettu, että jopa puolet glaukoomaa sairastavista on tällä hetkellä diagnosoimatta. Nykyisillä seulontamenetelmillä ei ole päästy riittävän kustannusvaikuttavaan tulokseen ja yleisen väestöseulonnan esteenä on riittävän hyvien menetelmien puuttuminen.Jos keinoälysovellusten avulla pystytään riittävällä tarkkuudella tunnistamaan ne potilaat, joilla on keskimääräistä suurempi alttius sairastua glaukoomaan, voitaisiin oireettomasta väestöstä löytää sairaus helpommin jo niin varhaisessa vaiheessa että sen hoito olisi mahdollisimman tehokasta.”

Yhtenä tulevaisuuden visiona on, että esimerkiksi optikkokäynnin tai terveydenhoitajan tutkimuksen yhteydessä voitaisiin ottaa silmänpohjakuvaus ja samassa yhteydessä keinoäly analysoisi potilaan silmänpohjakuvan. Jos keinoäly ilmaisisi potilaalla olevan tavallista suuremman riskin glaukoomaan sairastumiseen, voitaisiin potilas ohjata jo varhaisessa vaiheessa jatkotutkimuksiin.

Tekoälysovellusten avulla työnjako tullee merkittävästi muuttumaan optisella alalla ja silmäsairauksien diagnostiikassa. Tämä tarjoaa myös avaimia merkittävästi lisääntyvän potilasmäärän hoitoon. Väestön ikärakenteen muuttumisen myötä glaukoomaa sairastavien potilaiden määrä Suomessa kaksinkertaistuu nykytasosta vuoteen 2030 mennessä.

Taalas on Suomen ELIXIR-keskuksen CSC:n laskentapalvelujen käyttäjä. Hän kehittää malleja yhteistyössä FIMM:in Machine Learning in Biomedicine-ryhmän tutkijoiden kanssa, ja samaa lähdekoodia pystytään käyttämään ristiin CSC:n ja Terveystalon laskentapalvelimilla.

”Suomessa ollaan datanhallinnassa nyt korkealla tasolla, mutta potilaista ei ole yksittäisillä terveydenalan toimijoilla tyypillisesti kaikenkattavaa kuvaa – potilasdataa on usein hajautuneena useille eri toimijoille. Kun asiakas vaihtaa organisaatiota, data ei aina liiku perässä, mikä voi vaikeuttaa hoidonohjausta. Tutkijan kannalta olisi ihanteellista, mikäli meillä olisi valtakunnallisesti keskitetty paikka, josta kansalaisen potilashistoria löytyisi kokonaisuudessaan.”

Myös datan kuvaaminen pitäisi saada standardoiduksi.

”Potilastietojärjestelmien rakenne vaikuttaa vahvasti syntyvän datan käytettävyyteen. Vapaatekstikentät ovat usein järjestelmän käyttäjälle miellyttäviä, mutta tuottavat tiedon hyödynnyksessä runsaasti päänvaivaa data-analyytikolle. Analyytikko joutuu usein tekemään runsaasti työtä tiedon standardoimiseksi, ja virheellisten kirjausten tunnistamiseksi. Modernit potilastietojärjestelmät ovat tässä mielessä menneet eteenpäin aiemmasta maailmasta, ja rakenteisuus korostuu niiden tietorakenteissa.”

Ari Turunen

23.11.2021

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Lila Kallio, Arho Virkki, & Tommi Nyrönen. (2021). Patient data creating better artificial intelligence models. https://doi.org/10.5281/zenodo.8135413

Lisätietoja:

Suomen molekyylilääketieteen instituutti (FIMM), Helsingin yliopisto

www.fimm.fi/fi

Terveystalo

www.terveystalo.com

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org

http://www.elixir-europe.org

Potilasdatan ansiosta saadaan entistä parempia tekoälymalleja

Ilman dataa ja sen uusiokäyttöä lääketieteellinen tutkimus ei edisty. Kerätyn datan ansiosta voidaan luoda hoitopäätösten tueksi tekoälymalleja, jotka nopeuttavat diagnooseja. Uusia datan analyysitekniikoita tulee koko ajan lisää, mutta miten data saataisiin kaikkien tutkijoiden käyttöön?

Suomeen perustettavan Genomikeskuksen yksi vahvuuksista on biopankkien tietokannat. Keskus vastaisi kansallisen genomitietorekisterin kehittämisestä eli keskitetystä geneettisen tiedon tallennuksesta ja hallinnoinnista. Tarkoituksena olisi saada aikaan laadukas suomalaisten geneettistä variaatiota kuvaava tietokanta. Auria Biopankin johtaja Lila Kallio uskoo, että biopankkien ja Genomikeskuksen hyvä yhteistyö voi johtaa merkittäviin tuloksiin geenivarianttien seulonnassa.

”Kun Genomikeskus on perustettu ja se aloittaa toimintansa, voitaneen tutkimuksessa tuotettu genomitieto tallentaa myös genomikeskukseen. Genomikeskus voisi sitten analysoida uudelleen sinne talletettua genomidataa vasten kaiken aikaa karttuvaa referenssigenomitietoa. Näin esimerkiksi uusien tunnistettujen kliinisesti merkittävien varianttien seulonta olisi mahdollista jo aiemmin tuotetusta ja tallennetusta datasta,” sanoo Lila Kallio.

Vuonna 2013 Suomessa säädettiin laki biopankeista. Laki mahdollisti biopankkien perustamisen. Suomessa on tällä hetkellä 11 biopankkia. Vuonna 2020 biopankkien verkostoon liittyi Arctic Biopankki, joka säilyttää Oulun yliopiston Pohjois-Suomen alueelta keräämiä laajoja väestöaineistoja. Tutkijat voivat Suomessa hyödyntää kaikkien biopankkien aineistoja Fingenious-verkkopalvelun kautta. Fingenious on digitaalinen työkalu, jonka kautta tutkija voi jättää aineiston luovutuspyynnön. Palvelusta vastaa Suomen biopankkien osuuskunta FINBB.

”Biopankit säilyttävät näytteisiin liittyvää dataa tietoturvallisesti. Biopankkien näytteisiin liittyvä tieto on kaikkien tutkijoiden käytettävissä. Tutkijalla tulee olla tutkimussuunnitelma, jonka biopankkien ohjausryhmät tai eettinen toimikunta hyväksyy. Näytteiden ja niihin liittyvän datan saamiseksi tutkimuskäyttöön biopankeilla on valmis prosessi olemassa.”

Suomessa on poikkeuksellisen kattavat ja laadukkaat terveysalan tietovarannot. Vuonna 2019 Suomessa tuli voimaan laki terveystietojen toissijaisesta käytöstä. Datan toisiokäyttö tarkoittaa sitä, että sosiaali- ja terveydenhuollon asiakas- ja rekisteritietoja käytetään muussa kuin siinä ensisijaisessa tarkoituksessa, jonka vuoksi ne on alun perin tallennettu. Laki toisiokäytöstä on luonut paineita myös vuonna 2013 säädetyn biopankkilain uudistamiselle. Datan merkitys biolääketieteen tutkimuksessa kasvaa ja lainsäädännön olisi luotava edellytykset sekä tutkimukselle että tarkoituksenmukaiselle tietoturvalle.

Toisiokäyttö luonnollisesti edellyttää, että ihmisistä kerättyjen tietojen hallinnointi on tietoturvallista. Biopankkeihin saatu ja ihmisistä kerättyjen näytteiden tunnistedata suojataan tarkasti.

”Biopankissa näytteistä poistetaan henkilötunnisteet, jotka korvataan pseudonyymikoodilla. Kun näytteitä luovutetaan edelleen tutkimuksiin, korvataan pseudonyymi vielä uudella, tutkimuskohtaisella koodilla. Koodiavain säilytetään biopankissa. Jos alkuperäiseen näytteeseen pitää palata esimerkiksi siitä löytyneen kliinisesti merkittävän tiedon vuoksi, voidaan se tehdä koodiavaimen avulla,” Kallio sanoo.

Koodiavain mahdollistaa datan uusiokäytön ja tutkimuksen tulevaisuudessa.

”Mikäli näyte anonymisoitaisiin eli tehtäisiin täysin tunnisteettomaksi, siihen palaaminen mahdollisten biopankkitutkimuksessa tehtyjen löydösten vuoksi ei olisi mahdollista, eikä siihen jälkeenpäin myöskään voisi liittää enää lisää näytekohtaista tietoa.”

Lila Kallion mukaan näytteen todellinen arvo muodostuu siitä tuotetusta datasta.

”Dataa syntyy diagnostiikan ja hoidon yhteydessä. Myös tutkimuksissa syntyy näytteestä analysoitua tietoa, mikä tulee palauttaa näytteen omistavalle biopankille liitettäväksi näytteeseen. Biopankki hallinnoi tunnistedatan lisäksi näytteeseen liittyvää kliinistä sekä tutkimuksessa tuotettua dataa.”

Toiveena erilaisia suojaustasoja datan käytölle

Datan toisiokäyttöä koskeva laki keskitti lupaprosessin hallinnoinnin uudelle viranomaiselle Findatalle. Ongelmaksi on tullut lupahakemusten ruuhkautuminen. Hakijat ovat kaikki samalla viivalla riippumatta siitä, koskeeko pyyntö pieniä tai äärimmäisen suuria aineistoja.

Aurian tietopalvelujohtaja ja lääketieteellisen matematiikan dosentti Arho Virkki tähdentää, että aineistolle on moninaista käyttöä ja siksi käyttötarkoituksen pitäisi myös määrittää datan suojaamisen tason. Datan toisiokäytön tietoturvaharppaus Suomessa oli Virkin mielestä liian iso askel yhdellä kertaa.

”Äärimmäinen suojaaminen huonontaa datan saatavuutta, jolloin tietoturva ei ole optimaalisella tasolle. Minulle optimaalinen tietoturva tarkoittaa, että aineisto on saatavilla ja sitä voidaan hyödyntää lääketieteen kehitykseen, uusien hoitojen suunnitteluun ja hoidollisten prosessien ohjaamiseen. Optimaalista on, että tieto on käytettävissä mutta samalla riittävästi suojattu. Suojaamisen tason pitäisi tulla riskiperusteisuudesta.”

Koska datanhallinta on kiinteä osa lääkärien ja hoitajien ammattia, datan hyödyntämiseen pitäisi Virkin mielestä löytää tasapaino aineiston saatavuuden ja suojaamisen välillä. Nyt se on heilahtanut toiseen ääripäähän.

”Aineiston käsittely on esimerkiksi osa lääketieteen opiskelijoiden opintoja. Yksi osahan kouluttautumista on, että opiskelijat käyvät läpi operatiiviset järjestelmät ja poimivat itse tietoja oppiakseen.”

Virkin mielestä ongelma on pitkän aikaan ollut tietoarkkitehtuuri. Lääketieteen ja terveydenhuollon defensiivisyyden ja sääntely takia tietoarkkitehtuuri on perinteistä verrattuna esimerkiksi logistiikkaan tai finanssialaan. Sen takia erilaisten tietojärjestelmien integraatio ei ole hyvä.

Virkki toki myöntää, että sairaalat ovat monimutkaisempia paikkoja kuin esimerkiksi logistiikkakeskukset. Logistiikassa paketti menee linjalle ja se kirjataan järjestelmiin, mutta kun potilas tulee sairaalaan, erilaisia kirjauksia ja järjestelmiä on valtava määrä.

Laki datan toisiokäytöstä määrittelee Virkin mukaan kuitenkin liian tarkasti sen, että yksi järjestelmä sopisi kaikille. Virkin mielestä luvan antaja voisi määrittää erilaisia käyttöympäristöjä tutkijoiden tarpeista riippuen.

”Luvanantaja voisi antaa perustasoisen ympäristön, mikä kelpaa yksinkertainen taulukkolaskenta-tyyppiseen data-analyysiin ja jossa olisi käytettävissä tavallisia tilastotieteen ohjelmointikieliä.”

Jos tutkijat taas tarvitsevat oman ympäristön, tutkijoille pitäisi antaa tarkat ohjeet tietoturvasta jaedellyttäätutkijoiden vakuutukset ohjeiden noudattamisesta.

”Tällöin viranomaiset vastaisit tietoturvan varmistamisesta ja tutkijat vastaisivat toiminnastaan tutkimusrekisterin pitäjälle, eli tutkimusta johtavalle kokeneelle tutkijalle, kuten tähänkin asti. Loppupeleissä on tutkijoiden vastuulla varmistaa, että tutkimustulokset ovat oikein, rehellisiä, tieteellisiä ja anonyymejä.”

Suomessa lääketieteen alan ihmisillä on Virkin mukaan korkea ammattiylpeys ja lääketieteellisen aineiston käsittely on ollut tähänkin asti alan tutkijoilla asianmukaisesti hoidettu. Virkin mielestä tietoturvasta voidaan huolehtia luvanvaraisuuden lisäksi koulutuksella. Tietoturva pitäisikin ottaa osaksi lääketieteen opetusta. Virkki käy säännöllisesti puhumassa Turun yliopistossa kliiniset tutkimuksen perusteet -kurssilla tietoalustoista ja tietoturvasta.

Datan toisiokäyttö luo edellytykset tekoälyn hyödyntämiselle lääketieteesssä

Virkin mukaan lakia datan toisiokäytöstä on alettu korjata. Jos säädökset datan toisiokäytöstä saadaan joustavimmiksi ja lupaprosessit nopeutuvat, tarjoaa se monia mahdollisuuksia tekoälytutkimukseen.

”Nyt kun Suomessa sosiaali- ja terveydenhuollon uudistus meni läpi, on hyvät edellytykset yhdistää perusterveydenhoidon ja erikoissairaanhoidon potilastiedot eli potilasdataa voidaan tarkastella kokonaisuutena. Se puolestaan antaa mahdollisuuksia kehittää uusia tekoälysovelluksia kliiniselle puolelle. ”

Tekoälymallien algoritmit voivat tehdä tekstipohjaisia analyyseja potilaskertomuksia tai oppia tunnistamaan kuvista piirteitä, joita voidaan hyödyntää diagnooseissa.

”Tekoälyhän on itse asiassa modernia tilastotiedettä, tilastomatematiikan hienostunut sovellus. Tekoälymalleissa hyödynnetään monimutkaisia tilastollisia menetelmiä. Kun puhutaan koneoppimisesta tarkoitetaan tilastollista oppimista. Nykyään voidaan laskea niin tarkkoja tilastomalleja, että se suorastaan tuntuu taikuudelta.”

Tekoälymallit ovat kiinnostaneet Virkkiä pitkään. Omassa väitöskirjatutkimuksessaan hän laati tekoälymallin ihmisen nukkumisen aikaiseen aineenvaihduntaan. Viime aikoina hän on ollut kehittämässä keuhkoveritulpan ennustemallia tutkijoiden kanssa. Mallia käytetään päätöksenteon työkaluna. Keuhkoveritulppa syntyy, kun muualta elimistössä liikkeelle lähtenyt verihyytymä tukkii keuhkoihin johtavan valtimon. Yleisin oire on äkillinen hengenahdistus. Isoissa keuhkoveritulpissa käytetään verihyytymien liuotushoitoa, jolloin laskimoon annetaan pistokselle veren hyytymistä estävää ainetta.

”Jos on epäilys, että päivystykseen tullut potilas on saanut keuhkoveritulpan, on toimittava nopeasti. Kone pystyy nopeasti vilkaisemaan kuvapakan läpi ja neuvomaan radiologia, mitä kohtaa kuvasta kannattaisi katsoa tarkemmin. Sitten päätetään, pitääkö aloittaa liuotus. Jos ei, niin hoitolinja on toinen. Kaikki pitäisi pystyä tekemään alle 10 minuutissa: keuhkojen kuvaus, diagnoosi ja hoidon aloittaminen.”

Virkin mukaan malli keuhkoveritulpasta oli ensimmäinen tieteellinen testi, jossa yritettiin ratkaista vaikeaa ongelmaa hyvin pienellä määrällä dataa. Laajempi ja tarkempi tekoälymalli on kuitenkin kehitteillä. Tulossa on tieteellisten julkaisujen lisäksi väitöskirjoja.

”Toteutuessaan malli nopeuttaa päätöksentekoa hoitotilanteessa, mutta se auttaa myös laaduntarkkailussa. Voimme esimerkiksi seuloa jälkikäteen tuliko havaittua kaikki pienetkin keuhkoveritulpat.”

Tekoälymallien kehittäminen edellyttää paljon dataa, joilla algoritmeja opetetaan sekä laskentatehoa.

Varsinais-Suomen sairaanhoitopiiri käyttää Suomen ELIXIR-keskuksen CSC:n ePouta -pilvipalvelua ja sairaanhoitopiiriin on saatu CSC:n laskentaympäristöön dedikoitu 10 gigabitin yhteys. Virkki toivoo tutkijoille parempaa pääsyä ELIXIR-verkostoon.

”Olisi hienoa, jos tutkijoilla olisi mahdollisuus saada kapasiteettia suoraan ELIXIR-infrastruktuurilta käyttöönsä. Tietoaineisto tulisi suoraan ELIXIRin ympäristöön ja ELIXIR pitäisi huolen riittävästä laskentakapasiteetista.”

ELIXIR-infrastuktuurin Suomen toiminnasta vastaa CSC – Tieteen tietotekniikan keskus. CSC hallinnoi resursseja ja palveluja, jotka ovat osa ELIXIRiä, kuten tunnistautumis- ja auktorisointipalvelut (ELIXIR AAI). ELIXIRissä tavoitteena on muodostaa yksi yhteinen, eurooppalainen tutkimusinfrastruktuuri, jonka ansiosta bio- ja terveystieteiden tutkijat voivat aiempaa helpommin löytää, analysoida ja jakaa aineistojaan. Tutkija voi käyttää ELIXIRin tunnistautumis- ja auktorisointipalveluja luodakseen turvallisen analyysiympäristön ja päästäkseen käsiksi pilveen tallennettuihin tutkimusaineistoihin.

Tekstipohjainen tekoälymalli

Lääkärin kirjoittamaa tai sanelemaa tekstiä voidaan hyödyntää tekoälymalleissa, jotka ovat hoitosuositusten ja diagnoosien apuvälineinä. Lausunnoista ja lauseista voidaan rakenteistaa dataa ja opettaa alogoritmi tekemään päätelmiä. Auria biopankin ja Turun yliopistollisen keskussairaalan ja Turun yliopiston hankkeessa tekoäly opetettiin lukemaan lähes 30 000 potilaskertomuksista tupakointia käsitteleviä teitoja. Tutkija Antti Karlssonin vetämässä hankkeessa hyödynnettiin kielimallia nimeltä ULMFiT. Malli koulutettiin VSSHP:n analyysikoneilla suomenkielisen Wikipedian tekstimassaa hyödyntäen. Tämän jälkeen mallista koulutettiin luokittelija käyttäen noin 5000 tupakointiin liittyvän, käsin annotoidun lauseen aineistoa. Nykyään saatavilla on myös kehittyneempiä, valmiiksi esikoulutettuja suomenkielisiä kielimalleja, joista kuuluisin lienee Googlen BERT-malliin perustuva FinBERT. Sen on tuottanut Filip Ginterin vetämä Turun yliopiston tutkimusryhmä käyttäen Suomen ELIXIR-keskus CSC:n laskentatehoa.

Tekoälymallin keräämää dataa hyödyntämällä tutkimus osoitti, että tupakoinnin lopettaminen vaikka vasta syövän diagnoosihetkeen saattaa pidentää elinikää huomattavasti.

”Olen varma, että tulevaisuuden potilastietojärjestelmät eivät ole kaavakemaisia alasvetolaatikoineen, vaan nimenomaan proosallista potilaskertomusta tukevia ja siitä tiedot automaattisesti rakenteistavia versioita,” Karlsson sanoo.

”Tämä on työn tehokkuuttakin ajatellen tärkeää. En halua edes ajatella, millaista monimutkaisien asioiden kirjaaminen mahtaa olla kiireisessä lääkärin arjessa.”

Kun louhitaan isoa massaa dataa, säästetään tavattomasti aikaa ja rahaa. Antti Karlssonin kouluttama tekoälymalli analysoi potilastietoa tupakointiin liittyen. Em. tutkimuksessa malli analysoi 30 000 potilaan sairaskertomuksista saatua tekstidataa. Karlssonin mukaan tällaisia malleja käyttämällä saadaan yli 90% tarkkoja analyyseja jopa tunneissa tai minuuteissa. Se on eri asia kuin että manuaalisesti luettaisiin 30 000 potilaan tekstit ja kerättäisiin muuttujat taulukkoon.

”Parhaassa tapauksessa nämä mallit voisivat olla valmiina saatavilla tietoaltaassa ja voisivat rakenteistaa esimerkiksi tätä tupakkatietoa automaattisesti juuri tutkimuskäyttöä varten,” sanoo Karlsson.

Malli ei anna yksittäiselle potilaalle hoito-ohjetta, mutta luo hyvän kokonaiskuvan.

”Uskon, että ainakin aluksi tulevaisuuden automaattiset järjestelmät keräävät pikemminkin raportointiin ja tutkimukseen tärkeää dataa, kun taas todella tärkeät asiat, kuten esimeriksi lääkeannokset tai allergiat täytyy vielä asiantuntijoiden tarkistaa ja syöttää tiedot manuaalisesti.”

Ari Turunen

26.10.2021

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Pasi Kankaanpää, Sirpa Soini, & Tommi Nyrönen. (2021). Sensitive data infrastructure. https://doi.org/10.5281/zenodo.8135532

Lisätietoja:

Karlsson et al. (2021): Impact of deep learning-determined smoking status on mortality of cancer patients: never too late to quit. Esmo Open Cancer Horizons. Vol 3. Issue 3.

https://www.esmoopen.com/article/S2059-7029(21)00135-6/fulltext

Auria Biopankki

www.auria.fi

CSC – Tieteen tietotekniikan keskus Oy

http://www.csc.fi

https://research.csc.fi/cloud-computing

ELIXIR

https://www.elixir-finland.org http://www.elixir-europe.org

Algoritmi opetetaan tunnistamaan syöpä sekvenssidatasta

Syväoppiminen on mullistanut syöpäsairauksien tutkimisen. Syvillä neuroverkoilla voidaan automaattisesti löytää potilaan näytedatasta piirteitä, joiden perusteella voidaan tunnistaa syöpiä. Oppivat algoritmit voivat tunnistaa jatkossa verinäytteestä mahdollisia syövän esiasteita. Esa Pitkänen ja hänen tutkimusryhmänsä Suomen molekyylilääketieteen instituutista kehittävät uuden sukupolven syväoppimisen algoritmeja.

Algoritmeja on hyödynnetty kudosnäytteiden leikekuvien solujen tunnistamisessa. Esimerkiksi jos kudoksen solut näyttävät epätyypillisiltä, algoritmi tunnistaa sen ja päättelee onko kyseessä syöpä. Nyt kuvantamisdatan rinnalla käytetään syöpien tunnistamisessa kasvaimista saatua DNA-sekvenssidataa.

”Aikaisemmin on ollut vaikea sanoa DNA-sekvenssin perusteella, minkälaisesta kasvaimesta sekvenssi on tullut. Nyt on luotu uusia tekniikoita ja syväoppimisen algoritmeja”, sanoo tutkija Esa Pitkänen.

Pitkänen ryhmineen kehittää algoritmeja, jotka tunnistavat DNA-sekvensseistä lyhyitä, toisteisia pätkiä. Algoritmien avulla voidaan löytää pätkiä, jotka mutatoituvat tietyssä syöpätyypissä usein tai joihin tietyt geenien säätelyyn osallistuvat proteiinit sitoutuvat. Näitä pätkiä analysoimalla voidaan saada tietoa esimerkiksi syöpäsairauksien syiden kartoittamiseen ja lääkkeiden kehittämiseen.

”DNA:n kopioituminen solun jakautumisen yhteydessä ei ole täydellistä. Kun solu jakautuu niin on mahdollista, että mutaatioita syntyy. Kun solu jakautuu, kopioitavaa DNA:ta on kuuden miljardin merkin verran eli virheitä tapahtuu. Pienikin todennäköisyys riittää että mutaatioita tulee”, sanoo Pitkänen.

”Jos riittävästi mutaatioita tapahtuu esimerkiksi kasvaimen syntyä ehkäisevissä geeneissä, syöpä voi alkaa kehittyä.”

Esimerkiksi pistemutaatiossa yksi emäs vaihtuu toiseksi DNA-ketjussa. Virhe voi syntyä, kun solun jakautuessa DNA kopioidaan ja kopioinnista vastaavat entsyymit korjaavat esimerkiksi auringonvalon ultraviolettisäteilystä vaurioituneen kohdan väärin. Ihosyöpää aiheuttavan ultraviolettisäteilyn aikaansaama tyypillinen mutaatio on se, että ihmisen DNA:n emäspareissa kaksi peräkkäistä sytosiinia (C) muuttuvat kahdeksi tymiiniksi (T). Kun tällaisia, ihosyövälle tyypillisiä mutaatioita havaitaan riittävästi, oppivat algoritmit yhdistämään mutaatiot tiettyyn syöpätyyppiin.

”Yritämme ennustaa mutaatioiden perusteella mikä syöpätyyppi ja kasvain on kyseessä. Samalla saadaan tietoa, joka voi vaikuttaa hoitoon.”

Algoritmi tunnistaa verinäytteestä saadusta DNA:sta syövän

Pitkänen ryhmineen analysoi sekvenssijaksoja ja algoritmeja opetetaan tunnistamaan sekvenssijaksojen poikkeavuuksia. Näistä poikkeavuuksista algoritmi pystyy tunnistamaan, että kyseessä on kasvain ja luokittelemaan kasvaimet eri syöpätyyppeihin.

“Ennen siirtymistäni Suomen molekyylilääketieteen instituuttiin olin Euroopan molekyylibiologian laboratoriossa EMBL Heidelbergissä, jossa osallistuin PCAWG-syöpägenomiprojektiin. Projektissa analysoitiin yli 2600 syövän kokogenomia. PCAWG-data toimii aineistona useassa ryhmäni syöpägenomiikkaa käsittelevissä projekteissa.”

Esa Pitkäsen ryhmän kehittämälle algoritmille on opetettu näiden 2600 syöpäpotilaan kasvainnäytteistä löydetyt löytyneet mutaatiot, joita on yhteensä 47 miljoonaa.

“Algoritmi on koulutettu siten, että se yrittää näistä sekvenssien muutoksista päätellä syöpätyypin. Kun algoritmille on annettu eri kasvainten kaikki mutaatiot sekvensseineen, se pystyy jatkossa päättelemään minkälainen kasvain on kyseessä. Päättely perustuu siihen, että algoritmi oppii nämä yhteydet.”

Algoritmi oppii kasvaimissa olevan sekvenssidatan poikkeamien kautta tunnistamaan, että kyseessä on tietylle syövälle olennainen mutaatio. Algoritmi pystyy ryhmittelemään kasvaimet pelkän sekvenssidatan perusteella.

”Ryhmässäni tutkija Prima Sanjaya on kehittänyt neuroverkkomalleja sekvenssidatan analysoimiseen. Silloin tällöin törmätään metastaattisiin eli levinneisiin syöpiin, josta ei tiedetä mistä se on levinnyt. Tulevaisuudessa voidaan hyödyntää myös ns. nestebiopsiaa. Tällöin pystytään toivottavasti verinäytteestä sanomaan, onko potilaalla syöpä ja jos on niin minkälainen.”

Esa Pitkänen ja hänen tutkimusryhmänsä hyödynsivät yhtä suurimmista syöpänäytteiden (PCAWG) datakokoelmaa, joka koostuu 47 miljoonasta mutaatiosta. Data on peräisin 2600 potilaan kasvainnäytteistä, jotka on sekvensoitu. Kokoelmassa oli 37 eri kasvaintyyppiä eri syövistä, kuten paksusuolensyövästä, keuhkosyövästä ja melanoomista. Prima Sanjaya teki koneoppimismallin syvillä neuroverkoilla, joka ottaa huomioon kunkin potilaan sekvenssidatan ja ikään kuin heijastaa tämän datan kaksiulotteiseen karttamuotoon. Tässä kuvassa jokainen piste on yksi erillinen potilaalta saatu kasvain . Värit ovat eri kasvaintyyppejä. Mielenkiintoisesti malli ryhmittelee paksusuolensyövät yhteen mutta myös näkee eron kolmen alatyypin välillä (merkitty kuvaan nuolilla).

Nestebiopsia perustuu siihen, että elimistön solut vapauttavat verenkiertoon ja ruumiinnesteisiin DNA:ta, jota kutsutaan solunulkoiseksi tai soluvapaaksi DNA:ksi (cell free DNA, cfDNA). Myös syöpäsoluista vapautuu DNA:ta, joka mahdollistaa syöpämutaatioiden etsimisen veren plasmasta.

“Jos nestebiopsiassa näkyy jälkiä syövästä, emme tiedä suoraan mikä syöpä on kyseessä, koska se voi tulla verenkiertoon mistä vain kehosta. Jos meillä on keinoja katsoa tarkemmin, kuten syväoppimisen algoritmit, saamme arvokasta tietoa, mihin kohtaan potilaan kehossa tutkimus pitää suunnata. Algoritmi voi kehottaa katsomaan esimerkiksi paksusuoleen. Uskon, että tulevaisuudessa tällaisilla algoritmeilla on suuri merkitys. Nestebiopsian ja algoritmien ansiosta voidaan tehdä tutkimusta ilman potilasleikkauksia”

Algoritmi suolistosyövien tunnistamisessa

Syövän syntyyn vaikuttavat perintötekijöiden lisäksi elintavat. Helsingin yliopistossa on tutkittu paljon esimerkiksi suolistosyöpiä.

”Se tiedetään, että punaisen lihan syömisellä on yhteys paksunsuolen syövän syntyyn. Syntymekanismit vaativat vielä lisätutkimuksia mutta esimerkiksi punaisen lihan aiheuttamien DNA:n alkylaatioreaktioiden merkitystä on selvitetty viime vuosina paljon.”

Paksunsuolen syöpä (CRC) on yksi vaarallisimpia syöpiä länsimaissa ja johtaa 30% tapauksissa esimerkiksi Suomessa kuolemaan. Noin 15% paksunsuolen syövistä kuuluvat joukkoon, jossa esintyy ns. mikrosatelliiti-instabiliteettia (MSI). Mikrosatelliitit ovat DNA:n toistojaksoja, joiden pituus vaihtelee yksilöstä toiseen ja ovat siten yksilöllisiä “sormenjälkiä”. Mikrosatelliiti-instabiliteetissa solun DNA:n replikaation jälkeinen korjausmekanismi ei toimi, jolloin mutaatioita alkaa kertyä erityisesti mikrosatelliitteihin.

”MSI-kasvaimessa mikrosatelliitteihin tulee helposti yhden emäksen lisäyksiä tai poistoja. Esimerkiksi kahdeksan peräkkäisen adeniinin mikrosatelliitista häviää yksi adeniini. Osuessaan geeniin tällainen muutos aiheuttaa geenin koodaaman proteiinin aminohappoketjun sisällön muuttumisen täysin. Jos riittävästi muutoksia tapahtuu hallitsematonta solujakautumista estävissä geeneissä, saattaa syövän kehittyminen alkaa.”

MSI liittyy usein paksunsuolensyövän lisäksi muihin syöpiin, kuten vatsasyöpiin, kohdunrungon ja munasarjan syöpään tai aivosyöpään. Syövän ennusteen arvioinnissa voidaan käyttää apuna MSI-analyysiä. Analyysin perusteella on joskus mahdollista määrittää sopiva hoito.

”Mielenkiintoista on, että syvä neuroverkko oppii myös luokittelemaan eri syöpien alalajeja. Se tunnisti esimerkiksi suolisyöpien MSI-alatyypin”, Pitkänen sanoo.

Suomen ELIXIR-keskus CSC on yksi pääpartnereita PerMedCoE-hankkeessa. Kolmevuotisen HPC/Exascale Centre of Excellence in Personalised Medicine -hankkeen (PerMedCoE) avulla esimerkiksi syöpään liittyvä data saadaan tehokkaasti terveydenhoidon käyttöön ja diagnoosit nopeutuvat.

”Tulevaisuuden yksilöidyt hoidot kuten syöpähoidot rakentuvat täsmälliseen käsitykseen potilaasta ja hänen sairaudestaan. Tämä käsitys muodostetaan keräämällä suuri määrä erilaista tietoa, kuten syöpää hoidettaessa kasvaimen genomi- ja kuvantamistietoa. Monet tiedonkeruumenetelmät tuottavat valtavan määrän tietoa, joiden analysoimiseksi kehitetyt uudet laskennalliset menetelmät puolestaan vaativat suuria laskentaresursseja”, Pitkänen toteaa.

”Uuden laskennallisen menetelmän kehittäminen ideasta toimivaksi, terveydenhoidossa käytettäväksi työkaluksi on tällaisessa toimintaympäristössä valtava haaste. Erityisesti syöpähoidoissa on tärkeää, että potilaan hoitoon vaikuttava tieto saadaan lääkärin käyttöön mahdollisimman nopeasti. Uskon, että PerMedCoE:n tuloksilla luodaan pohjaa sille, että valtavasta terveystietomäärästä voidaan lääkärin avuksi jalostaa merkityksellistä tietoa ja näin parantaa hoitotulosta merkittävästi.”

Ari Turunen

16.9.2021

Lue artikkeli PDF-muodossa

Citation

Ari Turunen, Esa Pitkänen, & Tommi Nyrönen. (2023). Teaching an algorithm to identify cancer from sequence data. https://doi.org/10.5281/zenodo.8135303

Mutaatioiden lähteet

Mutaatioiden lähteinä ovat 1.ulkoiset tekijät: esimerkiksi auringon UV-säteily. 2.sisäiset tekijät: spontaani deaminaatioreaktio eli emäksen amiiniryhmän muutos, jolloin alkuperäinen emäs muuttuu joksikin toiseksi, esimerkiksi adeniini urasiiliksi 3. DNA:n kopioinnissa aiheutuneet virheet.

Mutaatio tarkoittaa muutosta DNA:n tai RNA:n nukleotidijärjestyksessä. Nukleotidiin kuuluu emäs, sokeri ja fosfaatti. DNA:n sokeri on D-deoksiriboosi ja RNA:n D-riboosi. DNA:n emäksiä ovat guaniini (G), adeniini (A), sytosiini (C) ja tymiini (T). RNA:n emäsosassa tymiinin tilalla on urasiili (U). Mutaatio voi olla vain yhden nukleotidin muutos eli pistemutaatio, tai se voi käsittää useita nukleotideja. Pistemutaatiossa yksi emäs vaihtuu toiseksi RNA- tai DNA-ketjussa. Iso mutaatioita, jotka voivat käsittää tuhansia nukleotideja, kutsutaan rakennemuutoksiksi.

Rakennemuutos voi vaikuttaa yhtä aikaa useaan geeniin. Syövät ovat yleensä useiden somaattisten mutaatioiden aiheuttamia; somaattiset mutaatiot eivät periydy, ja niitä voi syntyä milloin tahansa alkionkehityksen aikana ja sen jälkeen. Mutaatioiden seurauksena normaalin solun toiminta voi muuttua siten, että solu alkaa jakautua hallitsemattomasti. rilaisia mutaatiotyyppejä mutaatioiden jakautuminen kromosomeihin epigeneettinen tieto. Epigeneettiseen periytymiseen vaikuttavat monet ulkoiset tekijät, kuten esimerkiksi ravinto. Esimerkiksi identtiset kaksoset, voivat kehittyä ulkoisilta olemuksiltaan erilaisiksi. Mutaatioiden mallintaminen lineaariset mallit syvät neuroverkot transformer-mallit. Transformerit ovat syväoppimismalliperhe, jotka toimivat erityisen hyvin esim. tekstimuotoiseen dataan, sovelluksena vaikkapa konekääntäminen. Syöpätutkimuksessa transformer-mallit voivat kiinnittää huomiota mutaatiotyyppeihin, jotka ovat tärkeitä tietyn syöpätyypin tunnistamiseksi. Esimerkiksi ihosyövissä, joissa on paljon auringonvalon aiheuttamia mutaatioita (C>T, CC>TT), huomio kohdistuu juuri näihin mutaatioihin.

Kuvassa keskellä erilaisia mutaatiotyyppejä ja miten mutaatiot jakautuvat kromosomeihin. Mutaatioihin liittyy epigeneettinen tieto. Epigeneettiseen periytymiseen vaikuttavat monet ulkoiset tekijät, kuten esimerkiksi ravinto. Esimerkiksi identtiset kaksoset, voivat kehittyä ulkoisilta olemuksiltaan erilaisiksi.

Mutaatioiden mallintaminen:

lineaariset mallit

syvät neuroverkot

transformer-mallit. Transformerit ovat syväoppimismalliperhe, jotka toimivat erityisen hyvin esim. tekstimuotoiseen dataan, sovelluksena vaikkapa konekääntäminen. Syöpätutkimuksessa transformer-mallit voivat kiinnittää huomiota mutaatiotyyppeihin, jotka ovat tärkeitä tietyn syöpätyypin tunnistamiseksi. Esimerkiksi ihosyövissä, joissa on paljon auringonvalon aiheuttamia mutaatioita (C>T, CC>TT), huomio kohdistuu juuri näihin mutaatioihin.

Lisätietoja:

HPC/Exascale Centre of Excellence in Personalised Medicine (PerMedCoE)

https://permedcoe.eu

Suomen molekyylilääketieteen instituutti FIMM

https://www.fimm.fi/

CSC – Tieteen tietotekniikan keskus Oy

CSC – Tieteen tietotekniikan keskus Oy on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
http://www.csc.fi
https://research.csc.fi/cloud-computing

ELIXIR

ELIXIR rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.
https://www.elixir-finland.org
http://www.elixir-europe.org

Kudosnäytteet digitaalisiksi kuviksi ja tekoäly tulkitsemaan

Turun yliopistollisen keskussairaalan ja Auria biopankin tavoitteena on saada kaikki kudosleikenäytteet digitaaliseen muotoon. Näytteet skannattaisiin lasilevyiltä ja jokapäiväisessä patologian työssä diagnostiikka siirtyisi tietokoneelle. Samalla kehitetään tekoälymalleja eli luokittelijoita, jotka tunnistavat digitoiduista näytteistä esimerkiksi syövän.

Pelkästään Turun yliopistollisessa keskussairaalassa (TYKS) otetaan potilailta 200 000 kudosnäytettä vuosittain. Kudosnäyte käsitellään formaliinissa ja valetaan parafiiniblokkiin, jonka jälkeen siitä voidaan höylätä leikkeitä mikroskoopilla tarkasteltavaksi. Lopulta parafiiniblokit varastoidaan. Näytteiden hallinnoiminen on työlästä ja vie paljon aikaa. Näytteiden järjestelmällinen digitoiminen tuo tähän apua.

”Koska näytteitä on paljon, metadatatiedon avulla löydetään halutut ja oikeat näytteet nopeasti”, sanoo Auria biopankin data-analyytikko Antti Karlsson.

Tietokantaan voi siis tehdä esimerkiksi haun, joka etsii kaikki ne näytteet, joissa on rintasyöpäkasvainta. Hakua voi metatiedon avulla tarkentaa, jolloin voidaan etsiä esimerkiksi 60-vuotiaiden rintasyöpäpotilaiden näytteet, joissa on tietty reseptoristatus.

Digitaalisen patologian hankkeessa mikroskooppilaseilla olevat näytteet skannataan. Sitten patologi voi katsoa tietokoneella näytteet ja kuvailla ja luokitella ne. Nämä ns. annotaatiotiedot ovat olennaisia, jotta voidaan opettaa tekoälyä automaattisesti tunnistamaan näytteistä esimerkiksi syöpäsolut. Tämä nopeuttaisi huomattavasti patologin työtä jatkossa. Auria biopankissa on panostettu data-analytiikkaan, algoritmien kehitykseen ja koneoppimismalleihin.

Kielimalli avuksi metadatan kuvailuun

Turun yliopistollisessa keskussairaalassa (Tyks) on valtavasti mikroskooppilaseille säilöttyjä kudosleikkeitä. Ongelma on, että lasiin ei saa tallennettua metadataa, joka saataisiin siirrettyä tietokantoihin automaattisesti. Nyt tarkoituksena on, että uusiin näytteisiin patologit merkitsevät metadatan kuvankäsittelyohjelman avulla.

Karlssonin mukaan työ on ensin mekaanista. Patologi käyttää kuvankäsittelyohjelmaa, jonka avulla piirtää skannattuihin näytteisiin ne kohdat, joissa on esimerkiksi syöpää.

Tämän lisäksi tarvitaan kuvailutietoja. Tässä apuna olisivat neuroverkko-kielimallit. Patologi voisi kuvailla suoraan tietokoneelle näytteen tietoja. Aihetta on tutkittu Turun yliopiston tulevaisuuden teknologioiden laitoksen Filip Ginterin tutkimusryhmän kanssa,. Tutkimusryhmä on keskittynyt siihen, miten tietokoneohjelmia voidaan käyttää luonnollisen tekstin ja puheen analysointiin. Kielimalli oppii isosta määrästä luokittelematonta tekstiä, miten jokin puhuttu kieli näyttää tilastollisesti toimivan. Auria biopankki ja Tyks ovat kiinnostuneita siitä, miten lääkärinlausuntojen teksteistä saataisiin muodostettua luokiteltua ja rakenteistettua tietoa kielimallien avulla

”Digipatologiassa yksi sovellus voisi olla se, että jälkikäteen louhitaan lausuntoteksteistä erilaisia tietoja, kuten vaikka missä näytteen osassa on mitäkin kiinnostavaa kudosta, jolloin näytteiden valinta tutkimusten tarpeisiin helpottuu. Lisäksi voitaisiin kehittää vapaata lausuntotekstiä automaattisesti rakenteistavaa mallia. Patologi voisi lausua ’proosaa’, jonka tekoäly sitten keräisi ja koostaisi rakenteiseksi taulukoksi. ”

Karlssonin mukaan tällaisia taulukoita käytetään jo nyt aika paljon esimerkiksi silloin, kun patologit ovat sopineet, mitkä kaikki asiat kustakin kasvaimesta pitää raportoida.

”Tällä hetkellä kokeilemme jo näitä malleja esimerkiksi tupakointitiedon löytämiseen ja luokitteluun satojentuhansien lausuntotekstien sisältä, sekä syövän metastasointitietojen, sairaalainfektioihin liittyvien oireiden ja erilaisten diagnoosien löytämiseen.”

Haasteena on vielä monimuotoinen data. Esimerkiksi eri laitevalmistajien skannerit tuottavat erilaista dataa, joka pitäisi luotettavasti yhteensovittaa.

Yleisin värjäys kudosten perusrakenteiden selvittämisessä on HE- eli hematoksyliini-eosiini -värjäys, jolla voidaan värjätä erilaisia rakenteita kudoksista pH:n mukaisesti. Emäksinen hematoksyliini värjää solun happamat tumat violeteiksi ja hapan eosiini värjää solun emäksiset tukirakenteet, kuten side- ja lihaskudoksen punaisiksi. Kuvassa on HE -värjättyä kudosta, johon on merkitty mahdollisesti kiinnostava rakenne. Patologi piirtää kuvaan alueen, jonka nimeää haluamallaan tavalla. Tällaisia esimerkkejä tarpeeksi kartuttamalla voidaan kouluttaa tekoälymalleja, jotka tekevät vastaavia kuvailuja ja luokitteluita automaattisesti.

Tekoälymalli tunnistaa syövän automaattisesti näytteestä

Metadatan ja digitoidun näytemateriaalin avulla kehitetään esimerkiksi tekoälysovelluksia, jotka opetetaan luokittelemaan automaattisesti, missä kohtaa kuvassa on syöpäsoluja. Tekoälyn opettamiseen tarvitaan patologien luokittelemaa materiaalia. Antti Karlssonin mukaan kuvia ei tarvita itse asiassa kovinkaan paljon, jotta algoritmi oppisi.

”Kymmenillä kuvilla päästään jo alkuun. Yksi iso leikekuva voi tuottaa tuhat pientä kuvaa, joilla voi kouluttaa malleja.”

Tällöin 20 potilaasta saadaan jopa 10 000 pientä kuvaa.

”Isoa kuvaa ei sellaisenaan pysty vielä lykkäämään algoritmeille, koska minkään tietokoneen grafiikkaprosessorin muisti ei riitä siihen.”

Karlsson haluaa tähdentää sitä, että kuvia katsovat tekoälymallit ovat eri asia kuin tekstiä katsovat mallit.

”Ne ovat toki kaikki tekoälyä ja vieläpä neuroverkkoja, mutta rakenteeltaan ja toimintaperiaatteeltaan erilaisia. Tekoäly on ennemminkin kokoelma työkaluja, joista jokainen on sitten käyttökelpoinen omaan tiettyyn sovellukseensa.”

Patologiselle datalle suunnitellaan digitaalista tallennuspaikkaa Eurooppaan.

Auria biopankin johtaja Lila Kallio toteaa, että genomidatan tutkimuskäytön lisäksi digipatologiaa hyödyntävä data-analytiikka on yksi keskeisiä Aurian painopisteitä.

”Entistä enemmän ollaan kiinnostuneita siitä, miten digitoidusta syöpäkudosleikkeestä voidaan tunnistaa eri asioita. Olemme mukana tutkimuksissa, joissa pyritään algoritmin avulla ennustamaan primäärisyöpäkasvaimen näytteen kuvasta esimerkiksi taudin hoitovastetta tai sitä, tuleeko primäärisyöpäkasvain levittämään etäispesäkkeitä. On viitteitä siitä, että algoritmi pystyisi ennustamaan histologisesta kuvasta sellaista, mikä ei silmämääräisesti ole nähtävissä.”

Yhden luukun palvelu

Suomessa on Lila Kallion mielestä oltu datan hallinnoimisessa ja jakamisessa hyvin edistyksellisiä. Suomen biopankkilaki on mahdollistanut tutkimuksen ja tiedon yhdistelemisen eri rekistereistä. Erityisen tärkeää on, että kliininen tieto voidaan yhdistää näytteisiin.

”Palvelua tutkijoille on voitu toteuttaa yhden luukun periaatteella. Biopankki hoitaa luvat, kerää näytteet ja yhdistää niihin tutkimukselle oleellisen kliinisen tiedon. Tämä kaikki voidaan sitten yhdistää muuhun dataan, esimerkiksi geenitietoihin. ”

Biopankin kautta tutkija saa tarvitsemansa näytteet.

”Biopankit tekevät Suomessa yhteistyötä. Tutkija voi pyytää näytteitä kaikista Suomen biopankeista Suomen biopankkien osuuskunnan kautta yhdellä pyynnöllä.”

Haasteena nyt ja tulevaisuudessa on Lila Kallion mielestä datan tallentaminen ja hallinnoiminen.

”Dataa tallennetaan sairaanhoitopiirin palomuurien sisälle. Jos patologian diagnostisia näytteitä ruvetaan rutiininomaisesti digitoimaan, tulee myös tallennuskapasiteetti ratkaista. Lisäksi kuvien koko on niin valtava, etteivät ne helposti siirry tavallisten tietoverkkojen kautta.

Laskentateho ja tietoturvalliset tallennus- ja käyttöympäristöt Suomen ELIXIR-keskuksen CSC:n kanssa tulevat tässä tärkeään rooliin.

Ari Turunen

28.8.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Antti Karlsson, Lila Kallio, & Tommi Nyrönen. (2020). Tissue samples into digital images, interpreted by artificial intelligence. https://doi.org/10.5281/zenodo.8134949

Lisätietoja:

Auria Biopankki

https://www.auria.fi/biopankki/

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Digitaalinen patologia nopeuttaa diagnosointia

Digitalisaatio on mullistamassa patologiaa. Mikroskooppinäyte voidaan muuttaa digitaaliseen muotoon skannereiden avulla. Skanneri kuvaa näytteen näkymä kerrallaan ja tietokone yhdistää näkymät virtuaalimikroskopiakuvaksi.

Turun yliopistollisessa keskussairaalassa patologian näytteet digitoidaan ja näytteiden tutkiminen siirtyy tietokoneen ruudulle. Tämä antaa mahdollisuuksia erilaisiin mittauksiin ja tekoälysovelluksiin. Yhteistyössä Auria Biopankin kanssa kehitetyillä tekoälysovelluksilla vähennetään patologin rutiinityötä ja nopeutetaan näytteiden analyysia.

Turun yliopistollisen keskussairaalan patologian vastuualuejohtaja Markku Kallajoki on tehnyt syöpään liittyvää perustutkimusta ja tutkinut solumalleja ja soluviljelmiä. Hän on toiminut patologian erikoislääkärinä sekä solu – ja molekyylipatologian professorina. Yksi Kallajoen kiinnostuksen kohteista on eturauhassyöpä.

Perinteisesti patologit arvioivat eturauhassyövän ärhäkkyyttä kudosnäytteestä mikroskoopilla. Syöpäkasvaimesta annetaan ns. Gleasonin luokitus asteikolla 6-10. Tauti on sitä ärhäkämpi, mitä korkeammat pisteet ovat. Gleasonin luokituksen arvoa 7 pidetään rajana hyvän ja huonon ennusteen välillä. Korkeat Gleason -pisteet (8–10) tarkoittavat ärhäkästi käyttäytyvää kasvainta ja matalat (alle 7 pistettä) rauhallista tautia.

”Mitä suurempi pistesumma, sen aggressiivisempi syöpä. Tekoäly voi tehdä erottelua ja löytää kudosnäytteestä syöpäalueet ennen kuin patologi alkaa tutkia näytettä. Se voi myös ehdottaa Gleason-luokitusta. Patologi voi kohdentaa huomionsa tekoälyn näytteestä löytämiin kohtiin ja olla sen kanssa samaa tai eri mieltä. Joka tapauksessa tekoäly helpottaa ja nopeuttaa patologin työtä, ” sanoo Kallajoki.

Eturauhasen syöpäkasvaimesta annetaan ns. Gleasonin luokitus asteikolla 6-10. Tauti on sitä ärhäkkäämpi, mitä korkeammat pisteet ovat. Pisteytys (1-5) annetaan kahden näytteissä yleisimmin esiintyvän solukuvan perusteella. 5 on aggressiivisin. Ykkösessä rauhaset ovat hyvin muodostuneita ja pieniä. Viitosessa niiden muoto ja koko vaihtelevat. Kun kahden näytepaloissa yleisimmän ja aggressiivisimman alueen solukuvan pisteet lasketaan yhteen, saadaan Gleason-luokitus.

Tampereen yliopiston ja Tukholman Karoliinisen instituutin tutkijat ovat kehittäneet tekoälyyn perustuvaa menetelmää eturauhassyövän mikroskooppidiagnostiikkaan ja luokitteluun. 6600 eturauhasen koepalaa käytettiin materiaalina, jolla opetettiin tekoälyä erottamaan hyvänlaatuiset ja pahanlaatuiset koepalat. Näytteistä pystyttiin luomaan malli, joka osaa katsoa kudosnäytteistä onko siinä syöpää, kuinka paljon ja kuinka pahanlaatuinen se on.

Nopeuttaa analyyseja 15%

Tutkimusten mukaan patologien työajasta menee 15 % muuhun kuin itse diagnostiseen työhön. Aikaa kuluu näytteiden ja lähetteiden etsimiseen, käsittelyyn ja vastaanottamiseen sekä niiden kuittaamiseen. Näytteiden analysointi vaatii usein myös keskusteluja muiden patologien kanssa. Digitalisaation myötä näihin konsultaatioihin kuluva aika vähenee, koska näytelasien lähettämisen sijaan patologit voivat siirtää verkossa kuvia ja keskustella katsomalla vaikka eri sairaaloissa samaa näytettä tietokoneiltaan.

”Digipatologia helpottaa meidän työtämme ja tekee siitä laadultaan parempaa. Se nopeuttaa työtä ja säästää rahaa”, sanoo Kallajoki.

Patologi pystyy analysoimaan pelkästään digitoinnin myötä n. 15% enemmän näytteitä nykyiseen verrattuna. Kun mukaan tulee tekoälymalli, työ voisi nopeutua jopa 30%.

Näytteestä digikuvaksi

Eturauhassyöpä on miesten yleisin pahanlaatuinen syöpä, joka syntyy eturauhasen solujen muuttuessa pahanlaatuisiksi. Eturauhasesta otettujen kudospalojen perusteella patologi pystyy arvioimaan, kuinka pahanlaatuinen syöpä on kasvaimen erilaistumisen perusteella. Mitä huonommin kasvain on erilaistunut, sitä aggressiivisemmin se käyttäytyy.

”Mikroskooppinäyte otetaan, jos kliinisten esitietojen ja löydösten, laboratoriotutkimusten ja radiologisten kuvantamistutkimusten perusteella herää vahva epäily syövästä”, Kallajoki sanoo.

”Syöpähän ei ole syöpä, ennen kuin patologi on vahvistanut sen solu- tai kudosnäytteestä. Eturauhassyöpää epäiltäessä näyte otetaan neulalla peräsuolen kautta eturauhasesta. Senttimetrin – kahden pituisia ja n. millimetrin paksuisia kudospaloja otetaan yleensä kuusi kappaletta eturauhasen molemmilta puolilta. Kudoslieriöt lähetetään patologian laboratorioon, jossa niistä valmistetaan histologiset näyteet.”

Histologisen eli kudosopillisen näytteen perusteella arvioidaan tarvitseeko potilas hoitoa. Näytteet fiksoidaan eli kiinnitetään formaliinissa, jolloin kudos kiinteytetään ja säilötään solujen omien entsyymien hajottavaa vaikutusta vastaan. Sitten parafiinilla imeytetyt näytteet valetaan parafiiniblokkeihin, josta leikataan ohuita kolmen – neljän mikrometrin siivuja. Näytteet värjätään histologisin väreillä ja laitetaan kahden lasilevyn väliin. Nyt näytteitä voidaan tarkastella mikroskoopilla ja tarvittaessa skannata ja digitoida.

Suuriresoluutioisista digitoiduista kudosnäytteistä on löydettävissä samat yksityiskohdat kuin mikroskooppinäkymää tarkasteltaessa. Digitoitu kuva antaa mahdollisuuden mittauksiin ja erilaisten solutyyppien automaattiseen laskentaan. Näytteisiin on myös helppo palata, koska kuvat voidaan kuva-arkistosta helposti hakea uudelleen tarkasteltaviksi esimerkiksi kokouksissa, joissa päätetään potilaiden hoidosta.

Patologi saa huomattavan määrän apua myös muusta datasta. Kallajoen mukaan Aurian tapaisen biopankkien merkitys on suuri. Dataa saadaan nyt monesta lähteestä, mikä helpottaa patologien käytännön työtä. Sairaskertomuksista saadaan potilastiedot, mitä on tutkittu sekä laboratoriotestien tulokset. Lisäksi käytössä on radiologian tuottama kuvantamisdata.

Datan hyödyntämisen ja uusien menetelmien myötä kehitetään Kallajoen mukaan uusia hoitomuotoja.

”Elämme poikkeuksellisia aikoja, sillä syöpähoidot ovat kovan kehityksen alla ja tulossa on lisää molekyylimuutoksiin perustuvia täsmähoitoja.”

Datan tallennus on kuitenkin edelleen haasteellista.

”Digikuvat ovat valtavan suuria. Kuvan koko on 2-3 gigaa. Kun yhdestä potilaasta otetaan 12 kuvaa yhdellä tutkimuskerralla, saadaan aikamoinen datamäärä. Turun yliopistollisessa keskussairaalassa tehdään vuodessa 200 000 näytelasia. Koska kyseessä on lääketieteellinen informaatio, siitä pitää ottaa kahdet tai kolmet varmuuskopiot. Kun 200 000 mikrosooppinäytteen tallennusmäärä kerrotaan kolmella, saadaan tallennukselle kovat vaatimukset.”

Markku Kallajoen mukaan suuri haaste on se, että eri paikoissa suunnitellaan digipatologiaan tarvittavien laitteistojen, ohjelmistojen ja tallennussysteemien hankintaa, mutta järjestelmien pitäisi olla keskenään yhteensopivia.

”Optimaalinen olisi Suomen laajuinen, yhteensopiva järjestelmä. Digipatologiassa suurin yksittäinen kustannuserä on tallennuskapasiteetti.”

Ari Turunen

9.6.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Markus Kallajoki, & Tommi Nyrönen. (2020). Digital pathology speeds up diagnosis. https://doi.org/10.5281/zenodo.8131372

Lisätietoja:

Auria Biopankki

https://www.auria.fi/biopankki/

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Koneoppimisella etsitään merkkejä rintasyövästä

Geenivarianttien lisäksi on genomisia variantteja yksittäisissä DNA:n emäsparijaksoissa. Nämä variaatiot aiheuttavat yksilöiden väliset erot, mutta ne voivat myös auttaa paikallistamaan tautia aiheuttavia geenejä. Nämä yhden emäsparin vaihtelut eli snipit (single nucleotide popymorphism, SNP) voivat toimia markkereina, jotka viittaavat sairauteen. Itä-Suomen yliopistossa kehitetty tekoälymalli etsii rintasyöpään viittaavia snippejä.

Genomidatan valtava määrä on mahdollistanut sen, että tutkijat voivat laskea, mitä geenimuunnoksia on niissä ryhmissä, jotka ovat sairastuneet syöpään. Yhteen tautiin voi vaikuttaa satoja tai tuhansia geenimuunnoksia.

Tilastollisten menetelmien ansiosta tutkijat voivat arvioida, miten yhden ihmisen geenimuunnokset lisäävät riskiä sairastua tautiin eli näin saadaan monitekijäisten geenien riskiarvo. Mutta variaatioita on myös DNA:n emäspareissa eli nukleotideissä. Ne tunnetaan genomisina variantteina eli snippeinä. DNA:n sekvenssivariaatiot tapahtuvat, kun yhdessä emäsparissa genomisekvenssi (adeniini-tymiini, sytosiini-guaniini) muuttuu. Jokainen SNP edustaa muutosta yhdessä emäsparissa. Esimerkiksi yksi SNP voi vaihtaa jossakin DNA-ketjun emäsparissa sytosiinin tymiiniksi. Se tarkoittaa, että sytosiini-guaniini -emäspari voi muuttua DNA-ketjusssa esimerkiksi tymiini-adeniini -pariksi. Toisin kuin geenimuunnokset, snipit eivät välttämättä sijaitse geeneissä. Snippejä sijaitsee myös ei-koodaavissa geeneissä tai geenien välissä. Ihmisen genomissa on paljon snippejä. Niitä on keskimäärin melkein joka tuhannen emäsparin jälkeen, mikä tarkoittaa, että ihmisen genomissa on arviolta 4-5 miljoonaa snippiä.

Snipit voivat olla hyödyllisiä, kun etsitään syövän geneettisiä riskitekijöitä. Biolääketieteellisessä tutkimuksessa snippejä käytetään tutkimusaineistossa vertailemalla genomialueita sairastuneiden ja terveiden välillä.

“Kun snipit ilmaantuvat geenissä tai regulatiivisella alueella lähellä geeniä, niillä voi olla suora rooli taudin syntymiseen, koska ne vaikuttavat geenin toimintaan. Meillä on uudenlainen koneoppimisen lähestymistapa, jolla voidaan tunnistaa joukko vuorovaikuttavia snippejä, jotka ovat eniten osallisina rintasyövän riskitekijöissä”, sanoo tutkija Hamid Behravan Itä-Suomen yliopistosta. Hän työskentelee Kuopiossa Kliinisen lääketieteen yksikössä.

”Olemme julkaisseet useita tuloksia siitä, miten geneettinen osatekijä rintasyövän riskissä tunnistetaan, jolloin erotettaisiin luotettavasti sairastapaukset terveiden vertailuryhmästä. Rintasyöpään liittyvien snippien tunnistaminen on erityisen hyödyllistä, koska rintasyövän ennustettavuutta voidaan parantaa ja kehittää yksilöllisiä hoitosuunnitelmia”, sanoo Behravan.

Standardeilla hypoteesien testausmenetelmillä on mitattu ainoastaan yhden snipin yhteyttä tautiin. Kuitenkin Itä-Suomen yliopiston tutkimukset ovat osoittaneet, että rintasyövän riskitekijät voidaan ennustaa paremmin kun snippejä tarkastellaan ryhminä, jotka itse asiassa vuorovaikuttavat toistensa kanssa.

Genominlaajuisten assosiaatiotutkimusten (GWAS) idea on tunnistaa snipit DNA:ssa. Se auttaa selvittämään geneettiset osatekijät tutkittavassa fenotyypissä joukossa genotyypitettyjä ihmisiä. Genotyypityksessä luetaan vain ne tiedossa olevat kohdat kromosomeissa, joissa esiintyy tutkittavaan tautiin liittyviä geenivariantteja.

”Genominlaajuiset assosiaatiotutkimukset mittaavat yksittäisen snipin yhteyttä sairauteen, mutta jättävät huomioimatta mahdollisen korrelaation snippien välillä”, sanoo Behravan.

”Tähän päivään asti koko populaation kattavat GWAS-tutkimukset ovat usein käyttäneet ns. PRS- pisteytystä (polygenic risk scoring, PRS), joka kerää yhteen riskialleelien (geenien vaihtoehtoiset muodot) vaikutukset tautiin. Kuitenkin PRS olettaa, että tauteihin liittyvät snipit ovat riippumattomia toisistaan ja että riskivaikutukset ovat lineaarisia ja yhteenlaskettavissa. Olemme osoittaneet, että sen sijaan, että arvioisimme yksittäisiä osatekijöitä (snipit) yksi kerrallaan, olisi erityisen hyödyllistä parantaa rintasyöpäriskin ennustettavuutta tutkimalla vuorovaikuttavien snippien ryhmää käyttäen koneoppimista.”

Tutkijat ovat löytäneet yli miljoona snippiä (single nucleotide polymorphisms) populaatioissa kaikkialla maailmassa. Kaikkein yleisimmin nämä variaatiot löytyvät DNA:sta geenien välistä. Nämä variaatiot voivat olla ainutlaatuisia tai esiintyä monella yksilöllä. Kuva perustuu David Ecclesin SNP-malliin.

Snipit, joilla on todellista biologista merkitystä, löydettiin koneoppimisen avulla

Itä-Suomen yliopistossa kehitetty koneoppimisen menetelmä on osoittautunut tehokkaaksi.

“Löysimme ryhmän vuorovaikuttavia snippejä, joilla on todellista biologista merkitystä. Tunnistettujen snippien biologinen analyysi paljasti geenejä, jotka liittyivät tärkeisiin rintasyöpään viittaaviin mekanismeihin, kuten estrogeeniaineenvaihduntaan ja ohjelmoituun solukuolemaan, apoptosikseen.”

Kohonneet estrogeenitasot liittyvät vaihdevuosien jälkeen kasvaneeseen rintasyövän riskiin. On myös vahva näyttö, että kasvaimen kasvu ei johdu pelkästään rajoittamattomasta leviämisestä vaan myös pienentyneestä solukuolemasta.

”Löysimme siis menetelmämme avulla geenit noiden tunnistettujen snippien taustalta. Laadimme näistä geeneistä interaktiivisia karttoja. Sitten tarkkailimme useita erilaisia rintasyöpään liittyviä geenien vuorovaikutusverkostoja, kuten estrogeeniaineenvaihduntaa ja ohjelmoidun solukuoleman verkostoja. Meidän systeemimme ei ainoastaan löytänyt mahdollisimman hyvin vuorovaikuttavia rintasyövän riskejä ennustavia snippejä, vaan se myös tunnisti ne snipit, jotka muodostivat merkittävän määrän tärkeitä biologisia rintasyövän osa-alueita. Näin ollen, vuorovaikuttavat snipit ilmaisevat myös ne snipit, jotka ovat mukana syöpään liittyvissä biologisissa verkostoissa.”

125 000 snipin genotyypitys tehtiin iCOGS-sirulla yteistyössä BCAC:n (Breast Cancer Association Consortium) kanssa. iCOGS on genotyypittävä siru, joka on suunniteltu testaamaan kolmea hormoniperäistä syöpää: rinta,-munasarja,- ja eturauhassyöpiä. Sirulla on genotyypitetty yli 250 000 yksilöä ja snippiä yli 50 eri alueelta, joissa tiedetään lymyilevän joidenkin näiden tautien epäilyttäviä variantteja.

Kone oppii etsimään geneettisiä variaatioita

Kuopiossa kehitetty koneoppimisen lähestymistapa perustuu gradienttipuun tehostamismenetelmälle, jossa on iteratiivinen hakualgoritmi. Tehostaminen on ensimmäinen moduuli ja haku toinen.

Tehostaminen (boosting) on algoritmi ja metodi, jolla heikot oppijat muutetaan vahvoiksi. Heikolla luokittelijalla tarkoitetaan sellaista luokittelijaa, joka on vähintään puolessa tapauksista oikeassa. Algoritmi käynnistyy opettamalla päätöspuuta. Heikot luokittelijat lisätään peräkkäisesti korjaamaan olemassaolevien luokittelijoiden virheet, jotta rakennetaan vahvaa luokittelija.

”Ensimmäinen moduuli arvioi tunnusmerkkien tarkkuutta, tässä tapauksessa snippejä, rintasyövän ennustettavuudessa. Ensimmäinen moduuli antaa alustavan kandidaattilistan snipeistä, jotka voivat ennustaa rintasyöpäriskistä.”

Toinen moduuli sitten käyttää kandidaattisnippejä adaptiivisessä ja iteratiivisessa haussa, jotta se voisi kaapata nuo vuorovaikuttavat piirteet. Parhaimmat tunnistetut vuorovaikuttavat snipit käytetään ennustamaan tuntemattoman yksilön rintasyövän riskiä testivaiheessa käyttäen koneluokittelijaa. Luokittelija opetettiin erottamaan rintasyöpätapaukset (positiiviset näytteet) terveistä kontrolleista (negatiiviset näytteet).

Koska syöpä on monitekijäinen tauti, jonka aiheuttavat elintavat sekä geneettiset ja ympäristötekijät, geneettisiin variantteihin perustuva ykslöllinen analyysi ei ehkä ole riittävä, jotta saataisiin kokonaisvaltainen kuva tautiriskistä. Behravanin mukaan myös muita datalähteitä tarvitaan.

“Kehitämme integroivia koneoppimisen lähestymistapoja, jossa yhdistetään eri datalähteitä, kuten väestötieteellistä dataa.”

Ari Turunen

18.5.2020

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Hamid Behravan, & Tommi Nyrönen. (2020). Searching markers for breast cancer by machine learning. https://doi.org/10.5281/zenodo.8131311

Lisätietoja:

Lääketieteen laitos, Itä-Suomen yliopisto

https://www.uef.fi/fi/web/laake

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

Sydän- ja verisuonitautien riskiarviointi kaikille kansalaisille

Sydän- ja verisuonitaudit ovat yleisin kuolinsyy maailmassa. Suomessa yli kolmannes kuolemista johtuu sydän- ja verisuonitaudeista. Nyt tavoitteena on saada terveysdatan perusteella arvio jokaisen sairastumisriskistä Suomessa ennen lääkärillä käyntiä.

Andrea Ganna, Suomen molekyylilääketieteen instituutin (FIMM) ryhmän vetäjän ja Harvardin lääketieteellisen koulun opettaja, haluaa perustaa maanlaajuisen yksilöllisen riskiarvioinnin, joka olisi perustana, joilla voisi suunnitella julkisen terveydenhallinnon toimenpiteitä. Arviointi perustuu kansalaisten terveys, väestö- ja geenitietoon. Arviointi, joka hyödyntää teköälyä, parantaa ehkäisevien hoitojen kohdentamista nykyistä halvemmalla kustannustasolla.

“Pohjoismailla ja erityisesti Suomella on tähän ainutlaatuinen mahdollisuus ja miljöö, sillä nämä maat ovat keränneet terveys- ja väestödataa vuosia. Mutta tapa, jolla dataa on aiemmin kerätty, on jossain määrin vanhentunut. Datasta on katsottu vain tiettyjä riippuvuussuhteita ja yhteyksiä. Kuitenkin uudet menetelmät, kuten tekoäly, ovat tulossa ja antavat mahdollisuuden suurempaan ja kunnianhimoisempaan visioon.”

Andrea Ganna ja hänen tutkimusryhmänsä kehittävät tekoälyyn (AI) perustuvia lähestymistapoja yksittäisen ihmisen terveyshistorian mallintamiseksi.

“Jokaisella henkilöllä on tietynlainen terveys- ja lääkintähistoria. Haluamme tietää, onko muilla samantyyppisiä seurantatietoja. Heitä voi olla tuhansia. Me hyödynnämme näiden ihmisten terveystietoja ja selvitämme, mitä heille tapahtui. Näin autamme alentamaan sairastumisriskiä. Voimme käyttää kaikkea tätä dataa aiempaa paljon kokonaisvaltaisemmalla tavalla auttaaksemme julkista terveyshallintoa ja antaaksemme potilaille ja lääkäreille enemmän tietoa päätöksenteon tueksi.”

Riskiarvointi ennen lääkärikäyntiä

Andrea Ganna on kiinnostunut epidemiologiasta, genetiikasta ja tilastotieteestä. Hän on keskittynyt hyödyntämään suuria epidemiologisia aineistoja tunnistaakseen yhteiskunnallis-väestötieteellisiä, metabolisia ja geneettisiä tunnusmerkkejä, jotka ovat yleisten ja monimutkaisten tautien taustalla. Bostonissa ollessaan hän työskenteli laajojen eksomi- ja genomisekvenssidata-aineistojen parissa.

Gannan mukaan sydän- ja verisuonitaudit sopivat täydellisesti tekoälyn tekemiin analyyseihin, koska näiden tautien hoito on ennaltaehkäisevää.

“Tarkka korkean riskin yksilöiden tunnistaminen on yksi kulmakiviä kardiometabolisten sairauksien ennaltaehkäisyssä”, hän sanoo.

”Kuitenkin tällä hetkellä kardiometabolisten sairauksien riskitekijöiden arviointi edellyttää potilailta käyntiä lääkärillä lipidimittauksessa.”

Lipidi on yleisnimitys kaikille veressä kiertäville rasvoille ja rasvan kaltaisille aineille. Keho varastoi ravinnosta saatua rasvaa tulevaan käyttöön. Runsasrasvainen ruokavalio saa rasvan kiinnittymään valtimoiden seinämiin, mistä aiheutuu sydän- ja verisuonitauteja sekä valtimotauteja. Lipidimittauksessa saadaan selville, millaisia rasvoja testattavalla on elimistössään. Lipidimittaus on tehokas, mutta ongelma on, että osa väestöstä ei tiedä kuuluvansa riskiryhmään.

Ganna haluaa mullistaa sairausten ennaltaehkäisyn tarjoamalla riskiarvioinnin potilaalle ennen kuin hän menee lääkärin vastaanotolle.

“Jotkut eivät yksinkertaisesti mene lääkärille ja paljon ihmisiä puuttuu. Mutta koska kaikki lääkitykseen ja diagnooseihin liittyvä data on jo kerätty, voimme tunnistaa korkean riskin potilaat ennen kuin he menevät lääkärille. Voimme tehdä sydän- ja verisuonitautien riskikartan koko maasta mukaanlukien kaikki yksittäiset henkilöt.”

Riskilaskelma tehdään mallintamalla sairauksien ja lääkitysten pitkittäisseurannasta saatua dataa yhdessä geeni-, perhe- ja väestödatan kanssa.

“Yritämme ymmärtää, kuinka genetiikka vuorovaikuttaa sellaisen datan kanssa, joka saadaan lääkityksistä, diagnooseista, väestöstä ja perheestä. Tämä voi antaa ennennäkemättömän kokonaisvaltaisen näkökulman yksilön terveydentilaan.”

Ganna antaa esimerkin.

“Kun katkaiset jalkasi, menet lääkärille. Kuitenkin tänä päivänä lääkäri katsoo vain jalkaasi, vaikka samalla käynnillä voisit saada hyötyä myös muusta tiedosta. Me voimme informoida lääkäriä muista riskeistä, joita potilaalla on perustuen kerättyyn dataan. Voimme laskea ennalta potilaan muut riskit, kuten esimerkiksi, jos hänellä on korkea riski sydän- ja verisuonisairauksiin. Siten, samalla käynnillä, lääkäri voi myös antaa neuvoja tai ohjata potilaan asiantuntijalle.”

Genetiikka on hyödyllistä

Suomalaisia koululaisia. Ehkä kaikkein tärkein väestöryhmä on nuoret, jotka eivät käy usein lääkärillä. Genetiikka on erityisen arvokasta, koska genetiikan avulla voidaan tavoittaa riskit varhaisemmalla iällä kuin muilla riskifaktoreilla. FinnGen-tutkimus hyödyntää näytteitä, joita on kerätty biopankkeihin koko maasta. Tutkimus perustuu yhdistämällä genomitietoa digitaaliseen terveysdataan, joka saadaan kansallisista terveydenhuollon rekistereistä.

Ganna päätti tulla Suomeen laajan geeniprojektin, FinnGenin takia.

Elokuussa 2017 alkaneessa projektissa taltioidaan puolen miljoonan suomalaisen genomit. Hankkeessa hyödynnetään kaikkien suomalaisten biopankkien keräämiä näytteitä. Perimästä saatava data yhdistetään kansallisissa terveydenhuollon rekistereissä olevaan tietoon. FinnGen on yksi ensimmäisiä näin laajassa mittakaavassa tehtyjä erittäin yksilöllistettyjä lääketieteen projekteja. Julkisten ja yksityisten organisaatioiden yhteistyö on poikkeuksellista.

“Suomessa on sopiva lainsäädäntö, joka antaa pääsyn maanlaajuiseen populaatiodataan. Minulle tämä on ainutlaatuinen kattaus.”

Ganna ja hänen tutkimusryhmänsä integroivat rekistereissä olevan tiedon ja biopankkeihin tallennetun laajan tutkimustiedon auttaakseen tunnistamaan yksilöryhmiä, jotka voisivat eniten hyötyä olemassaolevista farmakologisista toimenpiteistä.

“Ehkä tärkein ryhmä on nuoret yksilöt jotka eivät käy lääkärissä kovinkaan usein. Nykyiset riskitekijät eivät toimi hyvin tässä ryhmässä. Genetiikka on erityisesti arvokasta, koska sen avulla voidaan löytää sairastumisen riskitekijät aikaisemmalla iällä verrattuna muihin riskitekijöihin. Ensimmäinen askel on ymmärtää, miten ihmiset hahmottavat tämän tiedon. Meidän täytyy varmistaa että lääkärit käyttävät dataa oikealla tavoin ja mitä sillä voidaan tehdä.”

Syvä- ja koneoppiminen

Terveydentilan seurantatiedot mahdollistavat niiden yksilöiden tunnistamisen, joilla on korkea riski sairastua sydän-ja verisuonisairauksiin, mutta vain jos käytettävissä oleva tieto on maanlaajuista.

Gannan tavoitteena on integroida kansalliset ja alueelliset rekisterit syvä- ja koneoppimiseen.

“Perinteisillä menetelmillä on etunsa, sillä ne ovat suhteellisen yksinkertaisia ja helppoja tulkita, mutta ne eivät skaalaudu. Viimeisten 20 vuoden aikana yli 500 miljoonaa lääketieteellistä diagnoosia on tehty suomalaisista. Puhumme valtavista datajoukoista. Joka vuosi tehdään miljoonia uusia lääkemääräyksiä ja diagnooseja. Tämän skaalaamiseksi ja hyödyntämiseksi tarvitaan syväoppimisen menetelmiä.

Keinotekoiset neuroverkot ovat tehokkaita koneoppimisen algoritmeja, joita voidaan hyödyntää hahmontunnistamisessa. Takaisinkytkeytävät neuroverkot (recurrent neural network) voivat hyödyntää niiden sisäistä muistia syötejonojen käsittelyssä. Tämä tekee niiistä soveltuvia sellaisiin tehtäviin, kuten segmentoitumattomaan tunnistamiseen. Ganna haluaa laajentaa nämä neuroverkot käyttämäänsä dataan.

”Voidaan ajatella, että terveydentilaa kuvaavien tapahtumien muutosjono, jota yritämme mallintaa, on ”tekstiä”, jossa jokainen sana on erilainen koko elämän aikana ollut tauti, lääkitys, väestötieteellinen tapahtuma jne. Nämä ovat luonnollisesti sovitettu mallintamaan muutosta kuvaavaa tapahtumaketjua, esimerkiksi niitä käytetään ennustamaan seuraavaa todennäköisintä sanaa tekstiviestissä.”

Syväoppimisen menetelmät edellyttävät suurta supertietokoneinfrastruktuuria.

”CSC on luonut turvallisen ympäristön laskentaan. Ilman turvallista superlaskennan ympäristöä, emme voisi toteuttaa tätä projektia. Onnistuaksemme me tarvitsemme yhtäältä tutkimusta ja kehitystyötä ja toisaalta tehokasta laskentaympäristöä.”

Henkilökohtainen data on suojeltu

Potilasdata on tärkeää tutkimukselle, mutta henkilökohtainen data on myös suojeltua. Esimerkiksi Suomen molekyylilääketieteen instituutissa kehitetty VEIL.AI anonymisoi potilasdatan perinteisiä menetelmiä tehokkaammin, nopeammin ja informaatiota paremmin säilyttäen. Tarvittaessa sovelluksen avulla voidaan tuottaa myös synteettistä, täysin anonyymia eli siis yksittäisestä henkilöstä erillään olevaa tilastollista dataa.

“Meillä on tarve taata yksilöiden yksityisyys, mutta samalla meidän täytyy integroida paljon henkilökohtaista dataa, jotta voisimme todella hyötyä tekoälystä ja syväoppimisen lähestymistavoista ja jotta voisimme kohdentaa tulokset parempiin julkisen terveydenhuollon toimenpiteisiin. Luomalla synteettisiä terveystiedon historioita autetaan kunnioittamaan yksityisyyttä, mutta samaan aikaan pystytään yhdistämään paljon persoonakohtaista tietoa ei pelkästään Suomessa vaan Pohjoismaiden välillä.”

“Toivon, että rutiininomaisesta terveydenhuollossa kerätty persoonakohtainen data voi auttaa ja hyödyntää kaikkia. Toivon, että tämä tieto voi auttaa lääkäreitä tekemään parempia päätöksiä ja myös motivoimaan potilaita elämäntapamuutoksiin. Siten kaikki auttavat kaikkia.”

Ari Turunen

30.9.2019

Lue artikkeli PDF-muodossa

Sitaatti

Ari Turunen, Andrea Ganna, & Tommi Nyrönen. (2019). Risk assessment of cardiovascular diseases for all citizens. https://doi.org/10.5281/zenodo.8131074

Lisätietoja:

FIMM

Suomen molekyylilääketieteen instituutti (FIMM) on kansainvälinen tutkimuslaitos, jonka toiminta keskittyy sairauksien molekyylitason mekanismien selvittämiseen genetiikan ja lääketieteellisen systeemibiologian menetelmin. Tavoitteena on tutkimustiedon siirtäminen terveydenhuollon käyttöön mm. henkilökohtaista lääketiedettä edistämällä.

www.fimm.fi

CSC – Tieteen tietotekniikan keskus Oy

ELIXIR

ComPatAI-konsortio hyödyntää suuria datamääriä oppivan tekoälymallin luomiseksi patologiaan

600 000 kokoleikekuvaa

Neuroverkko oppii kuvasta sellaista, mitä ihmissilmä ei havaitse

Terveysdataa ymmärtävä tekoälymalli varoittaa tulevista sairauksista

Yksi maailman laajimpia datan toisiokäytön tutkimuksia

Riskiryhmään kuuluvien tunnistaminen voi edistää sairauksien ennaltaehkäisyä

BIGPICTURE mahdollistaa patologian muuttumisen digitaaliseksi

Työkalu syövän hoitotuloksen ennustamiseen edellyttää dataa ja kuvia

Valtava määrä kuvia mahdollistaa tehokkaan tekoälyn kehittämisen

Tulevaisuudessa algoritmi voi tunnistaa glaukooman silmänpohjakuvista

Algoritmi tunnistaa kuvioita hermokerroksista

Potilasdatan ansiosta saadaan entistä parempia tekoälymalleja

Toiveena erilaisia suojaustasoja datan käytölle

Datan toisiokäyttö luo edellytykset tekoälyn hyödyntämiselle lääketieteesssä

Tekstipohjainen tekoälymalli

Algoritmi opetetaan tunnistamaan syöpä sekvenssidatasta

Algoritmi tunnistaa verinäytteestä saadusta DNA:sta syövän

Algoritmi suolistosyövien tunnistamisessa

Mutaatioiden lähteet

Kudosnäytteet digitaalisiksi kuviksi ja tekoäly tulkitsemaan

Kielimalli avuksi metadatan kuvailuun

Tekoälymalli tunnistaa syövän automaattisesti näytteestä

Yhden luukun palvelu

Digitaalinen patologia nopeuttaa diagnosointia

Nopeuttaa analyyseja 15%

Näytteestä digikuvaksi

Koneoppimisella etsitään merkkejä rintasyövästä

Snipit, joilla on todellista biologista merkitystä, löydettiin koneoppimisen avulla

Kone oppii etsimään geneettisiä variaatioita

Sydän- ja verisuonitautien riskiarviointi kaikille kansalaisille

Riskiarvointi ennen lääkärikäyntiä

Genetiikka on hyödyllistä

Syvä- ja koneoppiminen

Henkilökohtainen data on suojeltu

ELIXIR SUOMI

ELIXIR PÄÄMAJA

MUUT MAAT