Arabica-kahvin genomi julkaistiin huhtikuussa 2024. Se oli yksi viimeisistä merkittävistä viljelykasveista, jonka perimän sekvensointia ei ollut vielä julkaistu. Tutkimusta johtaneen Jarkko Salojärven mukaan nyt voidaan löytää geenejä, jotka parantavat kahvin satoisuutta ja kestävyyttä tauteja vastaan.
Kansainvälinen tutkimuskonsortio, jossa oli mukana muun muassa Helsingin yliopiston ja Singaporen Nanyangin teknillisen yliopiston tutkijoita, on koostanut kolmen kahvilajin perimän kahvipensaan lehtisolujen DNA:n sekvenssipätkistä. Arabican (Coffea arabica) genomi koostettiin Singaporessa ja Helsingissä, ja robustan (C.canephora) sekä C. eugenioides-lajikkeen perimä Cornellin yliopistossa Yhdysvalloissa.
”Tarkoituksena on löytää satoisuutta ja laatua parantavia ominaisuuksia. Viljelty arabica on geneettisesti vähemmän moninainen ja altistuu siksi taudeille helposti”, sanoo apulaisprofessori Jarkko Salojärvi.
Kahvin taloudellinen merkitys on valtava. Sitä viljellään 70:ssä eri maassa ja yli 100 miljoonaa ihmistä saa siitä elantonsa. Kahvi onkin yksi maailman tärkeimmistä kaupallisista tuotteista. Kahvin jalostuksessa on kuitenkin riskinsä.
”Yleensäkin viljelykasvien geneettinen moninaisuus on jalostuksen myötä vähentynyt. Tautien vastustuskyvystä vastaavat geenit eivät siis ole viljellyissä kahvilajikkeissa kovin monimuotoisia. Siksi arabica on patogeeneille altis.”
Kaiken kaikkiaan 60% maailman kahvista on arabicaa (Coffea arabica). Arabican lisäksi kaupallisesti viljelty lajike on robusta (Coffea canephora), joka sisältää arabicaa enemmän kofeiinia ja on kitkerämpää. Sitä käytetään etenkin pikakahveissa. Vietnam on maailman suurin robustan tuottaja. Harvinainen Coffea eugenioides on makeaa, koska sen kofeiinipitoisuus on pieni. Sen satoisuus on heikompaa kuin arabican ja robustan.
Salojärvi on erikoistunut kasvien genomien selvittämiseen. Hän on ollut mukana tutkimassa avokadon, koivun, litsin ja Darrowin mustikan perimää. Salojärvi työskentelee Nanyangin teknillisessä yliopistossa Singaporessa sekä Helsingin yliopistossa. Hyvin laaja-alainen ja kansainvälinen tutkimusryhmä käyttää paljon laskennallisia resursseja ja tietokantoja molemmissa maissa.
Koko genomin sekvensointi mahdollistaa sekä yleisten että harvinaisten mutaatioiden paljastamisen koko genomissa. Arabican genomi sekvensointiin vasta vuonna 2024 johtuen sen perimän monimutkaista rakenteesta.
Arabica on Coffea eugenioidesin ja robustan risteymä. Koska kumpikin lajikkeista on diploidi, niin arabicassa kromosomeja on nelinkertainen määrä eli se on tetraploidi. Tällaiset kasvit kasvavat usein nopeammin ja suuremmiksi kuin diploidit. Niiden genomin rakenne on usein erittäin monimutkainen ja luo haasteita sen kokoamiselle. Arabican genomin kokoamista vaikeutti se, että kaksi alagenomia (C.canephora) ja C. eugenioides) ovat hyvin samankaltaisia johtuen niiden läheisestä evoluutiohistoriasta, niiden lajiutuminen tapahtui vain noin 4.5-7.2 miljoonaa vuotta sitten.
Näihin verrattuna arabica-risteymän villi, Etiopiasta kotoisin oleva versio on verrattain nuori, noin 350 000 vuotta vanha. Arabica on käynyt läpi monia ns. geneettisiä pullonkauloja, jolloin huomattava osuus populaatiosta estyy lisääntymästä ja populaatio supistuu oleellisesti. Siksi arabican geneettinen moninaisuus ei ole kovin suuri. Sen viljellyssä versiossa on villeihin versioihin verrattuna vielä vähemmän geneettistä variaatiota. Tämä johtuu ihmisen aikaansaamasta pullonkaulasta: suurin osa maailmassa viljellystä arabicasta periytyy oikeastaan vain kahdesta, noin 300 vuotta sitten eläneestä kasvista.
1600-luvun alussa arabican siemeniä salakuljetettiin Jemenin ulkopuolelle ja arabicaa ryhdyttiin viljelemään Kaakkois-Aasiassa ja myöhemmin Karibialla. Tätä arabican muunnosta kutsutaan nimellä typica ja sen viljelyä hallinnoivat alankomaalaiset. 1700-luvulla ranskalaiset aloittivat arabican viljelyn Intian valtameren Reunionin saarella. Tätä muunnosta kutsutaan Reunionin vanhan nimen mukaan nimellä bourbon. Nykyiset viljellyt arabica-pensaat periytyvät siis joko typicasta tai bourbonista.
Ilmastonmuutos vaikuttaa jo nyt kahvin satoisuuteen. Kuivuus on pienentänyt satoja esimerkiksi Brasiliassa ja Kolumbiassa. Arabicaa viljellään yli 1500 metrin korkeudessa tropiikissa. Kun ilmasto lämpenee, sitä on viljeltävä entistä korkeammalla, jolloin viljelyala pienenee.
Ilmaston lämpeneminen lisää myös sairauksia. Kahviruoste (Hemileia vastatrix) saa kahvipensaan pudottamaan lehtensä. Tauti ei selviä alle 10 asteen lämpötiloissa, joten vuoriston öiden lämpeneminen edistää taudin leviämistä.
Jarkko Salojärven mukaan kahvin kestävyyttä voidaan kuitenkin parantaa genomiin perustuvan jalostuksen avulla.
”Voidaan tehdä ennustettavia malleja sekvensoimalla jonkun populaation vanhemmat ja katsomalla, kuinka hyvin voidaan vanhempien genomien perusteella ennustaa ilmiasua jälkeläisille. Sen perusteella pystytään löytämään markkereita, joiden perusteella voidaan valita seuraavan sukupolven yksilöitä, jotka todennäköisesti tuottavat parempaa satoa tai ovat resistenttejä patogeeneille. Tällaistahan tarvitaan erityisesti kahville, jonka viljelypinta-ala voi puolittua ilmastonmuutoksen takia jo noin 30 vuoden sisällä. ”
Sekvensoinnin avulla voidaan etsiä kahvilajien genomeista geenialueita, jotka ovat lämmönkestäviä ja vastustuskykyisiä taudeille. Tiedetään, että robusta kestää kuumaa säätä paremmin kuin arabica. Se on myös vastustuskykyinen tauteja, kuten kahviruostetta, vastaan. Erityisen kestävä on Timorin saarelta 1930-luvulla löydetty robustan ja typica-arabican hybridi (Hibrido de Timor).
Salojärven mukaan sen genomista löydetyt alueet voivat mahdollistaa genomiin perustuvan arabican jalostuksen.
”Timorilaisesta hybridistä saadut geenit ovat tosin vasta kandidaattigeenejä. Seuraavaksi pitää tutkia onko yhteys oikeasti kausaalinen. Sen testaamiseen menee varmaan n. 5-10 vuotta, jolloin tuota tietoa voidaan käyttää jalostuksessa.”
Tutkimus kohdistuu näiden kandidaattigeenien toimintaan taudin iskiessä.
”Esimerkiksi voi olla, että nuo geenit kyllä aktivoituvat kahviruosteen hyökätessä, mutta ne voivat olla sen verran myöhäistä vastetta, että niistä ei ole sen estämiselle enää mitään hyötyä,” Salojärvi huomauttaa.
”Seuraavaksi pitäisi hiljentää nuo geenit ja selvittää, poistuuko resistenssi. Tai sitten siirtää ne kahviruosteelle alttiiseen lajikkeeseen ja katsoa, saadaanko sillä resistenssiä aikaiseksi. Kumpaakaan versiota ei voi käyttää kahvintuotantoon, koska ne olisivat siirtogeenisiä yksilöitä, mutta niillä saadaan varmistettua, että kyseessä ovat oikeat geenit. Jalostamisessa voidaan sitten keskittyä jälkeläisiin, joilla tuo resistenssialue on olemassa.”
Kahvin perimän kromosomi -tason määrittäminen vaati myös kromosomien kolmiulotteisen rakenteen selvittämistä. Suomen ELIXIR-keskuksen CSC:n laskentaresursseja käytettiin tähän tehtävään. Prosessissa kahvin yhtenäiset perimäjaksot yhdisteltiin rakennetta hyväksi käyttämällä kromosomin pituisiksi tikastuksiksi (scaffolding).
”Se tarkoittaa, että kromosomi koostetaan täysin sekvensoiduista paloista sekä tyhjistä palikoista niiden välillä. Rakenteen selvitys paljastaa muun muassa yhteyden geenien ja niitä säätelevien perimän alueiden kanssa.”
Kahvin genomin selvittämisen jälkeen Jarkko Salojärvi tutkii seuraavaksi sademetsän kasvien genomeja. Singaporen Bukit Timahin 163 hehtaarin luonnonsuojelualueella kasvaa yli 800 erilaista koppisiemenistä kasvilajia. Nanyangin teknillisen yliopiston hankkeessa hänen ryhmässään tutkitaan sademetsän biodiversiteettiä sekvensoimalla kaikki alueen kasvilajit. Painopiste on sademetsän geenien koostumuksessa. Samalla katsotaan ennen näkemättömiä biosynteesireittejä, joissa kasvit valmistavat yksinkertaisista yhdisteistä entsyymien avulla monimutkaisia yhdisteitä.
”Erityisen kiinnostavaa on tutkia, millaisia erilaisia muunnoksia eri kasvilajeilla on pääasiallisiin biosynteesireitteihin.”
Kasvien aineenvaihduntatuotteet, metaboliitit, ovat tärkeitä tutkimuskohteita esimerkiksi uusien lääkeaineiden löytämiselle. Salojärven mukaan koneoppiminen mullistaa lääkeaineiden ja metaboliittien tutkimisen.
”Esimerkiksi Googlen tekoälyohjelma Alphafold 3 pystyy ennustamaan kasvin genomista proteiinirakenteet ja erilaisia modifikaatioita metaboliiteille. Kun genomi on selvitetty, niin tämä tutkimus lähtee vauhdilla tekoälyn ansiosta eteenpäin.”
Kaikki kolme kahvin genomia on jaettu EBI/NCBI-tietokantoihin. Näiden lisäksi annotaatiotietoihin pääsee ORCAE-tietokannan kautta. ORCAE tarjoaa työkaluja geenien rakenteiden tutkimiseen ja sisältää annotaatioita eri aitotumaisten genomeista. Sitä operoi Belgian ELIXIR-keskus.
Belgian ELIXIR tukee kasvien ja biodiversiteetin tutkimusta. Se tarjoaa resursseja genomiikkaan ja fenotyyppidatan hallinnointiin. VIB-UGent -yliopiston bioinformatiikan ryhmät, jotka myös osallistuivat kahvitutkimukseen, ovat kehittäneet työkaluja genomien annotaatioiden kuratoimiseksi (ORCAE) sekä vertailevaan genomiikkaan (PLAZA). ORCAE on verkossa toimiva portaali aitotumaisten genomien kuvailutietojen selailuun, kun taas PLAZA on liityntäpiste vertailevan genomiikan ja genomisen datan keskittämiselle.
“Kaikki julkisesti rahoitettu projektidata pitää julkaista generoituna raakadatana tiedeyhteisöille. Kukin tallennusjärjestelmä tarjoaa käyttöliittymät ja toimintaohjeet auttamaan raakadatan ja siihen liittyvät metadatan tallentamisessa”, sanoo johtava tutkija Stephane Rombauts (VIB-UGent Center for Plant Systems Biology).
”Olemme kehittämässä parempia ja uudempia käyttöliittymiä jotta saisimme koko toimitusprosessin helpommaksi.”
Belgian ELIXIR-keskus on ollut kehittämässä työkaluja myös helpottamaan toimittamista Euroopan nukleotidiarkistoon (European Nucleotide Archive, ENA). ENA on täysin avoin arkisto raa’an sekvenssi, koonti- ja annotaatiodatan tallentamiseen.
ENA Data Submission Toolbox-työkalu yksinkertaistaa sekvenssidatan toimittamisen tarjoamalla yksivaiheisen toimitusprosessin, graafisen käyttöliittymän, taulukkomuotoillun metadatan ja asiakaspuolen todentamisen.
”Käyttöliittymät tarjoavat vain väylän datan lataamiselle, mutta jos ne toimisivat myös varmuuskopiona, se olisi kannuste ladata dataa nopeammin,” Rombauts sanoo.
“Asiantuntijoiden pitää validioida kertaalleen ladattu data, ennen kuin se liitetään järjestelmään ja vasta sitten lopuksi se saa ainutkertaisen käyttönumeronsa. Prosessi voi olla toisinaan hidas koska sekvensointi tulee halvemmaksi ja helpommaksi ja samaan aikaan asiantuntijoiden silti pitää validoida alati kasvavia latauksia.”
”Lisäksi genomista dataa saadaan kasvavassa määrin long-read-muodossa, tai raakana, rikkaampana, aiempaa suurempina määrinä tehden nämä käyttöliittymät toisinaan sopimattomiksi viimeisille datatyypeille tai uusimmille sovelluksille.”
Ari Turunen
22.7.2024
Lue artikkeli PDF-muodossa
Sitaatti
Turunen, A., & Nyrönen, T. (2024). Mapping the coffee genome to improve disease resistance. https://doi.org/10.5281/zenodo.13691962
The genome and population genomics of allopolyploid Coffea arabica reveal the diversification history of modern coffee cultivars.
Nature Genetics, 56, 721-731 (2024).
https://doi.org/10.1038/s41588-024-01695-w
CSC – Tieteen tietotekniikan keskus Oy
on valtion omistama, opetus- ja kulttuuriministeriön hallinnoima, voittoa tavoittelematon osakeyhtiö. CSC ylläpitää ja kehittää valtion omistamaa keskitettyä tietotekniikkainfrastruktuuria.
ELIXIR
rakentaa infrastruktuurin bioalan tutkimuksen tueksi. Se yhdistää 21 Euroopan maan ja Euroopan molekyylibiologian laboratorion EMBL:n johtavat organisaatiot yhteiseksi biologisen informaation infrastruktuuriksi. Sen Suomen keskus on CSC – Tieteen tietotekniikan keskus Oy.