FAIR and interactive data graphics from a scientific knowledge graph

Bioinformatikk er en fagretning innen informatikk som tar for seg bruk av informasjonstekniske hjelpemidler i biologiske studier. Dette er ofte forstått avgrenset til molekylærbiologiske studier, og en slik definisjon ligger til grunn for denne artikkelen. Mer generelle definisjoner er imidlertid også i bruk.^[1] Grunnet teknologiske fremskritt innen molekylærbiologi i de siste tiårene har store mengder biologisk informasjon blitt tilgjengelig for forskere og publikum ellers, og motivert utstrakt bruk av informasjonsteknologi og informatikk for å bedre forstå biologiske prosesser. Bioinformatiske metoder er viktige hjelpemidler for molekylærbiologiske problemer som analyse av gener, proteiner, evolusjon og systembiologi. Bioinformatikk er høyst tverrfaglig, og i tillegg til molekylærbiologi og informatikk, omfatter det også metoder og kunnskap fra statistikk, matematikk, kjemi og fysikk.

Viktige forskningsområder

Lagring og strukturering

Store mengder biologiske data blir gjort tilgjengelig i offentlig tilgjengelige databaser. Slike databaser oppsummerer vanligvis eksperimentelt opparbeidet informasjon og strukturerer slik informasjon for videre analyse med for eksempel statistiske teknikker. Typiske eksempler er databaser over DNA og protein fra både mennesket og en mengde andre organismer. I tillegg til strukturell informasjon som DNAets basepar-sekvens og proteiners aminosyresekvens og tredimensjonale struktur kan slike databaser også inneholde kommentarer eller annotering for å beskrive biologiske eller kjemiske egenskaper, kjente funksjoner og lignende. Slik annotering kan både være automatisk sammensatt eller manuelt vedlikeholdt av eksperter. Det blir også gjort omfattende arbeid for å integrere informasjon fra forskjellige slike databaser. I tillegg til typiske integrasjonsutfordringer knyttet til forskjeller i format og semantikk, kompliseres dette arbeidet også av utfordringene knyttet til å representere biologiske sammenhenger i en rigid struktur som ofte kreves for automatisk prosessering.

Analyser av databaser

Strukturert lagring av biologiske data muliggjør analyser av sammenhenger mellom forskjellige biologiske komponenter. Sentrale problemstillinger er deteksjon av evolusjonært slektskap mellom genetisk materiale (homologi) og mulige reaksjonspartnere for biomolekyler som for eksempel proteiner.

Analyse i biologiske eksperiment

Ved bioinformatisk analyse av databaser som beskrevet over sammenfattes gjerne resultatene av en stor mengde biologiske eksperimenter, og bioinformatikkens bidrag kan betraktes som en prosess i etterkant av det eksperimentelle bidraget. I motsatt fall kan for eksempel bioinformatiske verktøy bistå biologer i utforming av eksperimenter, og det bioinformatiske bidraget kan da sees som å komme i forkant av det eksperimentelle. Bioinformatikk har imidlertid også en mer integrert plass i mange typer biologiske eksperimenter, som et uunnværlig verktøy for å gjøre eksperimentene informative. Typisk kan avansert informatikk, statistikk og matematikk være nødvendig for å analysere resultat produsert av et instrument. Dette er for eksempel tilfelle i analyser av mikromatriser, proteinidentifisering ved hjelp av massespektrometri og DNA-sekvensering. DNA-sekvensering er bestemmelse av en DNA sekvens, altså en rekkefølge av nukleotider i en DNA-molekyl eller i et helt genom. På grunn av tekniske restriksjoner er det ikke mulig å bare lese hele sekvensen, som kan inneholder mer en ti milliarder basepar (bp). Flere små biter (mindre enn 1000 bp) av sekvenser er først sekvensert og må så settes sammen. Her brukes noen av de samme teknikker som i sekvenssammenstilling. I dag er det to metoder som er brukt i de flerste sekvenserprosjekter: Sanger-sekvensering og den nyere pyrosekvenseringen.

Modellering

Det er ikke alltid mulig å observere interessante fenomener i biologien, og mye arbeid har derfor blitt investert i å bygge modeller og rammeverk for å kunne modellere og simulere disse. Modellering kan brukes på mange måter og dette er et felt i stadig utvikling. Etter hvert som kunnskap fra eksperimenter og modelleringsprosjekter øker, blir det aktuelt å modellere innenfor nye felt.

En celle, enten i form av en frittstående organisme eller en del av en større organisme, er meget kompleks. Utallige molekyler og proteiner interagerer for at cellen skal utvikle seg, vedlikeholdes og brytes ned. Disse prosessene kan modelleres på en slik måte at det er mulig å undersøke hvordan de ulike prosessene avhenger og virker inn på hverandre. Med dagens teknologi er det umulig å få et detaljbilde av tilsvarende informasjon ved å bruke eksperimenter. Modellering kan både gi ny viten om hvordan cellene virker, men i tillegg brukes denne informasjonen til å designe eksperimenter som kan vise om teorien fra modelleringen stemmer eller ikke.

På en noe mindre skala er det også interessant å modellere bestemte celleprosesser og reaksjonsveier, som for eksempel sitronsyresyklusen, som beskriver måten sukker brukes til å lage energi i celler. Selv om noen av disse reaksjonsveiene er nøye studert gjennom eksperimenter, er det vanskelig å få en oversikt over hvordan mengdene av alle proteinene og stoffene påvirker syklusen. Dette er en av tingene som kan utforskes gjennom forskningsfeltet systembiologi.

Selv om vi vet at visse proteiner deltar i viktige cellulære prosesser, er det ikke sikkert strukturen til proteinene er kjent. Å bestemme strukturen til et protein er en kompleks prosess, og ikke alle proteiner er like enkle å bestemme strukturelt. Proteinstrukturprediksjon er et forskningsfelt hvor målet er å gjette den tredimensjonale strukturen til et protein utfra sekvensen (primærstrukturen). I noen tilfeller kan dette gjøres enklere ved at det finnes beslektede proteiner i andre arter som har samme funksjon, dette kalles homologimodellering.

Utfordringene er ikke over selv om den tredimensjonale strukturen til et protein er kjent. Alle proteiner er noe fleksible og kan i varierende grad endre form og funksjon. Prinsipper fra fysikk og kjemi om hvordan molekyler beveger seg blir derfor brukt til å modellere proteiner. Målet med dette kan være å finne ut hvor mye et protein kan bevege seg, til hvordan disse bevegelsene kan arte seg. I tillegg modelleres ofte interaksjonen mellom ulike proteiner eller mellom proteiner og molekyler de interagerer med. I medisinsk forskning brukes dette for å finne nye medisiner. Modelleringen brukes da for å finne gode kandidatstoffer som kan brukes i eksperimenter. Dette gjør medisinsk forskning mindre dyr, ettersom det er billigere og raskere å modellere enn å utføre eksperimenter.

Visualisering og grensesnitt

Grafiske representasjoner av modellene nevnt over kan gjøre det vesentlig lettere å gjøre seg kjent med og resonnere omkring biologiske komponenter eller systemer. Tilsvarende er utforming av gode brukergrensesnitt viktig for å gjøre bioinformatiske verktøy tilgjengelig for biologisk ekspertise.

Integrering

En stor del av datalagring, analyse, søk og gjenfinning skjer over Internett. De fleste biologiske databaser er tilgjengelige på nettet for søk. Det gjelder også bioinformatiske verktøy, som gjerne er publisert sammen med databasene de kjører mot, eller som selvstendige redskaper på egne nettsider. Verktøy som er tilgjengelige på nettet letter arbeidet i bioinformatikk, men likevel er integrering av data fra flere kilder ofte besværlig. Problemene dukker opp på grunn av at mange redskaper ikke har en felles datamodell, og at de heller ikke bruker samme format på datafilene.

Integrativ bioinformatikk forsøker å avhjelpe dette problemet. Feltet er nærmere informatikk og datateknologien enn biologien i denne sammenheng. Integrativ bioinformatikk beskjeftiger seg med å:

undersøke og evaluere nye datateknologier for bruk i bioinformatikkfeltet
modifisere eksisterende, og utvikle nye integreringsteknologier
utvikle felles datamodeller og dataformater for å lette integrering
utvikle såkalte ontologier for bioinformatikkrelaterte områder (ontologien er en formell representasjon av et sett av begreper innenfor et domene). Ontologier gjør det mulig for dataprogrammer å 'forstå' data som er annotert med ontologibegrep.

En integreringsmåte under utvikling er vevtjenester (engelsk: «web services»).^[2] Dette er programmer som er designet for å støtte maskin-til-maskin-kommunikasjon over et nettverk. Man kan tenke på dem som programmer som utfører en tjeneste i henhold til en avtale. Så lenge en bestilling levert av kunden er korrekt, blir tjenesten utført og et produkt/resultat sendt tilbake. Vevtjenester er et eksempel på tjenesteorientert arkitektur, hvor applikasjoner og automatiske prosesser får tilgang til ressurser gjennom standard grensesnitt (beskrevet av tjenesteavtalen). Et eksempel kan være en panteautomat. Man setter inn flasker, og alle gyldige panteflasker registreres og får man pant tilbake (tjenesteavtale). Det er ikke viktig for kunden hva som er inne i automaten, om det er en komplisert maskin eller en person som sjekker flasker manuelt (tjenesteimplementasjoner). Det viktige er at man får en kvittering med riktig sum til slutt og at pantemaskinen ligner på en standard pantemaskin (standard grensesnitt).

Enkelte vevtjenester kan bli satt sammen for å utføre mer avanserte tjenester. Da utgjør de en arbeidsflyt. En arbeidsflyt kombinerer flere enkle oppgaver i en prosess. Ved hjelp av standard grensesnitt kan arbeidsflyter lages automatisk. Det finnes mange prosjekter som forsøker å bruke arbeidsflyter i forskning.^[3]

Forskning i Norge

Bioinformatikk oppfattes som viktig for landets industriutvikling, spesielt innenfor farmasøytisk industri og akvakultur. Egne nasjonale forskningsprogram har vært definert siden 1995. Kurs og egne studier i bioinformatikk gis ved alle landets universitet og ved enkelte høgskoler.

Referanser

^ Bioinformatics Organization (Hudson, Massachusetts, USA), Bioinformatics.org [1]
^ Zhang, Z., Cheung, K.H. and Townsend, J.P. Bringing Web 2.0 to bioinformatics, Briefing in Bioinformatics. In press <http://www.ncbi.nlm.nih.gov/pubmed/18842678>
^ Adam Barker, Jano van Hemert, Scientific Workflow: A Survey and Research Directions, http://www.springerlink.com/content/52053063k0708658/^{[død lenke]}

[1] Bioinformatics Organization (Hudson, Massachusetts, USA), Bioinformatics.org [1]

[2] Zhang, Z., Cheung, K.H. and Townsend, J.P. Bringing Web 2.0 to bioinformatics, Briefing in Bioinformatics. In press <http://www.ncbi.nlm.nih.gov/pubmed/18842678>

[3] Adam Barker, Jano van Hemert, Scientific Workflow: A Survey and Research Directions, http://www.springerlink.com/content/52053063k0708658/^{[død lenke]}

[1]

[2]

[3]