FAIR and interactive data graphics from a scientific knowledge graph

Bioinformaatika on rakendusmatemaatika haru, mis tegeleb molekulaarbioloogia arvutuslike probleemidega. See on interdistsiplinaarne teadusharu, mis tegeleb bioloogilisete andmete analüüsi ja haldamisega[1] ning hõlmab geneetikat, genoomikat, informaatikat, keemiat, biokeemiat, statistikat ja matemaatikat[2]. Eri taustaga inimesed defineerivad bioinformaatikat erinevalt[1].

Kuigi bioinformaatikat määratleti selle termini loomisel kui infoteooria rakendamist biosüsteemide uurimisel, kujunesid sellenimelise valdkonna peamiseks tegevusalaks genoomika probleemid. Vaatamata definitsioonide rohkusele on leitud ühismeel teadusharu uurimisobjektide suhtes. Kokkuleppeks on tõsiasi, et bioinformaatika kui teadusharu tegeleb bioloogilisi makromolekule (DNA, RNA, valgud) kirjeldavate andmetega ja on selle kaudu lähedalt seotud molekulaarbioloogiaga. Makromolekulide uurimiseks kasutab bioinformaatika arvutiteaduse, informaatika ja statistika meetodeid.

Kuna teadusharus on rõhuasetus mahukatel andmestikel, uuritakse molekulide neid omadusi, mille kohta on olemas suuremahulised andmestikud. Enamasti on DNA, RNA ja valkude uurimisel põhirõhk nende molekulide järjestuste analüüsil, kuid tegeletakse ka näiteks bioloogiliste molekulide struktuuri uurimisega. 2000. aastatel on bioinformaatika uurimisvaldkonnad märkimisväärselt laienenud tänu uutele eksperimentaalsetele meetoditele, mis võimaldavad uurida ka teisi biomolekulide omadusi peale järjestuse ja struktuuri. Näiteks geenide ekspressioonitaset, DNA metülatsiooni ja molekulide omavahelisi interaktsioone.[1]

Ajalugu

Bioinformaatika sai alguse 1960. aastate alguses. Enne seda oli tehtud palju avastusi bioloogias, mis andsid sisendi andmetöötlusse. Näiteks 1951. aastal määras Fred Sanger esimese valgu järjestuse (insuliin)[1] ning 1953. aastal avastasid James Watson ja Francis Crick DNA kaksikheeliksi kujulise struktuuri[3]. 1960. aastate esimesel poolel hakkasid arenema arvutid, mis tegid võimalikuks informaatilise poole teadusest.

1960. aastad

1960. aastate alguses toimus palju sündmusi, mis panid aluse bioinformaatikale. Andmete hulga suurenemine ja tehnoloogia areng viisid loomulikul teel vajaduseni välja arendada bioinformaatika. Aminohapete järjestuste lahti murdmine andis teadusele rohkem andmeid, mida töödelda ning samuti inimkätele võimatult mahukaid matemaatilisi arvutusi. Tekkis vajadus masinate järgi, mis suudaksid nii suurte arvudega opereerida. Teadmine, et makromolekulid kannavad endas informatsiooni, muutus mikrobioloogias põhiliseks uurimisobjektiks. Teise maailmasõja ajal välja töötatud kiireid digitaalarvuteid oli nüüd võimalik kasutada ka akadeemikutel.[4]

1965. aastal kogusid Margaret Oakley Dayhoff koos Richad V. Echiga valgu järjestusi universaalseks andmebaaside koguks (Atlas of Protein Sequence and Structure).[5] See oli esimene arvuti abil tehtud järjestuste andmebaas, mis võimaldas esimest korda ajaloos järjestuste kasutamist andmete automaatseks analüüsimiseks.

1970. aastad

Hakkasid levima miniarvutid, mille külge oli võimalik ühendada terminal, mis koosnes klaviatuurist ja kuvarist. See tegi arvutitega suhtlemise märksa lihtsamaks kui varasem perfokaartide või perfolindi variant. Sel perioodil tulid ka andmevahetamise lihtsustamiseks kasutusele arvutidisketid. Kuigi disketiga oli hea andmeid edastada, tuldi 1970. aastate lõpus välja tulla arvutivõrguga ARPANET, mis evolutsioneerus Internetiks ja selle kaudu oli võimalik elektrooniline suhtlemine ning info edastamine võrgu kaudu.[6] Jätkus valgu järjestuste uurimine ning arvutiteadlased töötasid välja üha uusi algoritme.

Olulisim sündmus sellel kümnendil oli 1975. aastal leiutatud ensümaatilise DNA sekveneerimine (Sangeri sekveneerimismeetod või esimese põlvkonna sekveneerimismeetod). Sekveneerimise leiutamisega tekkis vajadus DNA järjestuste suuremahuliseks analüüsimiseks. Arvutid muutusid asendamatuks õigete järjestuste ühendamistel, kindlate motiivide otsimisel, homoloogsete järjestuste joondamisel, DNA järjestuste automaatsel transleerimisel valgu järjestuseks jne.[7]

1980. aastad

1980. aastatel loodi ülemaailmselt kasutatavad järjestuste andmebaasid. Varem mainitud Dayhoffi atlas tehti elektrooniliselt kättesaadavaks.

1982. aastal loodi siiani suurim kasutusel olev DNA järjestuste andmebaas GenBank. Samal ajal hakati looma Euroopas sarnast andmebaasi EMBL. Kolmandaks suurimaks järjestuste andmebaasiks kujunes Jaapani valitsuse toel välja töötatud DDBJ. Need kolm suurt võrgustikku toimivad siiamaani.

1980. aastad oli aeg, kui turule tulid esimesed personaalarvutid, mis tähendas, et andmetöötlus tehnoloogilisel kujul sai hakata laiemalt levima. Tänu sellele hakati välja töötama programme personaalarvutitele. Tarkvarapaketid muutusid Interneti levikuga veebipõhiseks ja tasuta kättesaadavaks.[1]

Peale tarkvarapakettide ja andmebaaside toimus ka kiire areng järjestuste joondamise algoritmides. Kõikide katsetuste ja väljapakutud lahenduste seast on siiani kasutusele jäänud William Pearsoni ja David Lipmani 1985. aastal välja tulnud FASTP algoritm, mis arenes suuremaks FASTA programmipaketiks.[8]

1990. aastad

1990. aastatel leiutati uus algoritm, mille nimeks sai BLAST. See 1997. aastal avaldatud algoritm võimaldab otsida DNA ja valgu andmebaasidest uuritavale järjestusele homoloogseid järjestusi. BLAST on siiamaani väga populaarne kõigi järjestustega seotud probleemide lahendamisel.[9]

Peale BLAST-i loodi 1990. aastatel esimesed varjatud Markovi mudelitel põhinevad järjestuste analüüsi meetodid ning sekveneeriti esimesed täispikad genoomid bakteritest ja eukarüootidest. Sellel aastakümnel pandi ka algus mikrokiipide analüüsi haru tekkele, mis arenes jõudsalt edasi järgmisel aastakümnel.[10]

Informaatikamaailmas võeti sellel ajal kasutusele HTML-vormingus veebilehed, mis lihtsustasid oluliselt programmide kasutusvõimalusi.

2000. aastad

Selle aastakümne kõige olulisem aasta oli 2001[11], kui järjestati inimgenoom. Inimgenoomi avaldamise tulemusena vallandus bioinformaatikas tohutu areng ja uurimisteemade laienemine teistesse valdkondadesse. Inimgenoomi suuruse tõttu vajas selle kokkupanek ja uurimine uudseid lähenemisi.

Sel aastakümnel toimus DNA-mikrokiipide tehnoloogia areng. Kiipe kasutati peamiselt kas geeniekspressiooni taseme analüüsil või DNA genotüüpide analüüsil. Nendest tekkis praeguseks väga laialt levinud bioinformaatika kaks haru: geeni ekspressiooni andmete analüüs ja ülegenoomsed assotsiatsiooniuuringud(GWAS).[1]

2010. aastad

Sellel aastakümnel toimus areng teise põlvkonna sekveneerimismeetoditega. Teise põlvkonna sekveneermistehnoloogia võimaldab järjestusi sekveneerida ligikaudu 10 000 korda odavamalt kui esimese põlvkonna tehnoloogia. Sellega kaasnes suurenenud andmemaht ning erinevused andmete kuvamises. Selle tõttu oli vaja aja nõuetele vastavat tarkvara, mis suudaks uut tüüpi andmeid analüüsida ja infot sorteerida.

Informaatika poolelt oli oluline uuendus pilvetehnoloogiate (ingl cloud computing ja cloud storage) kasutuselevõtt. See tegi arvutiressursid väiksematele töörühmadele lihtsamalt kättesaadavaks ning andmete hoiustamine lihtsamaks.[1]

Bioinformaatika harud

Sekveneerimine ehk järjestusanalüüs on monomeeride järjestuse kindlaksmääramine informatsiooniliste biopolümeeride molekulides. Nagu juba mainitud, töötas selle meetodi välja Sanger 1977. aastal. Selle järgi kaardistati 2001. aastal ka inimese genoom. Tol ajal keeruline ja aeganõudev protsess on aga tänapäeval automatiseeritud. DNA-järjestus tuletatakse arvutiprogrammi abil fluoromärgiste emissioonist ja fragmentide pikkusest. Viimastel aastatel on turule jõudnud ja korraga kasutusel erineva põhimõtte ja maksumusega uue põlvkonna sekveneerimisstrateegiaid (NGS), näiteks Illumina HiSeq ja MiSeq, Roche 454, Life Technologies Ion Proton/Torrent ja SOLiD.[12]

Järjestuste haldamine

Pärast sekveneerimistulemuste kättesaamist on vaja andmeid analüüsida. Selleks kasutatakse erinevaid programme. Kõigepealt on vaja järjestused viia universaalsesse vormi, et hoida neid andmebaasides või käitada programmides. Järjestuste hoidmiseks arvutis kasutatakse enamasti tekstifaile, kuid levinud on ka binaarfailid. Samuti on oluline vorming, kuidas andmed faili salvestatakse. Levinumad on näiteks FASTA ja FASTQ. Edasi liiguvad failid andmebaasidesse.[1]

Bioinformaatika andmebaase on loodud mitmed ning neil kõigil on oma fookus. Näiteks on andmebaasid DNA ja valkude järjestuste jaoks, molekulaarsete struktuuride jaoks, fenotüüpide jaoks, bioloogilisele mitmekesisusele jne. Andmebaasid erinevad üksteisest vormingu ja juurdepääsu (sh selle, kas nad on avalikud või mitte) poolest. Enamik on juurdepääsetav võrgu kaudu.

Paljusid selliseid andmebaase haldab näiteks Riiklik Biotehnoloogia Infokeskus USAs.

Bioinformaatika Eestis

Tartu Ülikoolis on kaks bioinformaatika professuuri. Üks loodi loodusteaduskonna juurde 2003. aastal (professor Maido Remm) ja teine matemaatika-informaatikateaduskonna juurde 2007. aastal (professor Jaak Vilo).

Viited

  1. 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 M. Remm (2015). Bioinformaatika. Tartu: Tartu Ülikooli Kirjastus.
  2. M. Maidla (2008). "Bioinformaatika — Eesti trump?". Vaadatud 12.03.2018.
  3. S. M. Thampi. "Bioinformatics" (PDF). Vaadatud 13.03.2018.
  4. J. B. Hagen (2000). The origins of bioinformatics. Macmillan Magazines Ltd.
  5. M. O. Dayhoff, R. M. Schwartz, B. C. Orcutt (1978). A Model of Evolutionary Change in Proteins. Biomedical Research Foundation. Washington, D.C: Biomedical Research Foundation.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  6. R. Staden (1977). Sequence data handling by computer. Nucleic Acids Research.
  7. S. B. Needleman, C. D. Wunsch (1970). A general method applicable to the search for similarities in the amino acid sequence of two proteins. Journal of Molecular Biology.
  8. D. J. Lipman, W. R. Pearson (1987). Rapid and sensitive protein similarity searches. Science.
  9. S. F. Altschul, W. Gish, W. Miller, E. W. Myers, D. J. Lipman (1990). Basic local alignment search tool. Journal of Molecular Biology.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  10. M. Schena, D. Shalon, R. W. Davis, P. O. Brown. Quantitative monitoring of gene expression patterns with a complementary DNA micoarray. Science.{{raamatuviide}}: CS1 hooldus: mitu nime: autorite loend (link)
  11. E. S. Lander, L. M. Linton, B. Birren, C. Nusbaum, M. C. Zody, J. Balwin, K. Devon, K. Dewar, M. Doyle, W. FitzHugh; et al. (2001). Initial sequencing and analysis of the human genome. Nature. {{raamatuviide}}: et al.-i üleliigne kasutus kohas: |autor= (juhend)CS1 hooldus: mitu nime: autorite loend (link)
  12. "Molekulaargeneetilised meetodid ökoloogias".

Kirjandus

Välislingid