Naar inhoud springen

Genomica

Uit Wikipedia, de vrije encyclopedie
Onderzoekers bezig met de analyse, verwerking en annotering van DNA-sequenties
Deel van een serie artikelen over
Genetica
Stuifmeelcellen in meiose
Stuifmeelcellen in meiose
Algemeen

Chromosoom · DNA · Erfelijkheid · Genetische variatie · Genoom · Mutatie · Nucleotide · RNA

Onderzoek

DNA-analyse · Gentechnologie · Genomica · Recombinant DNA · Sequencing

Vakgebieden

Epigenetica · Klinische genetica · Mendel · Moleculaire genetica · Populatiegenetica

Portaal  Portaalicoon   Genetica

Genomica (Engels: genomics) is een onderzoeksgebied in de moleculaire biologie dat zich bezighoudt met de structuur, functie, evolutie en het in kaart brengen van genomen. Een genoom is de volledige genetische samenstelling van een organisme; alle genen die in een cel of levend wezen voorkomen. De genomica heeft zich vanaf het begin van de eenentwintigste eeuw zeer snel ontwikkeld dankzij verbeterde technologieën op het gebied van sequencing.

De genomica onderscheidt zich van de genetica, die vooral gericht is op de studie van individuele genen, fenotypen en de mechanismen van overerving. Genen bestaan op moleculair niveau uit lange stukken DNA: hiertoe behoren zowel coderende sequenties die de aminozuurvolgorde van een eiwit specificeren, als de regulerende sequenties die de expressie van dat gen reguleren. In de genomica probeert men deze architectuur van het genoom bij verschillende celtypen of organismen te ontrafelen.

Een belangrijk praktisch onderdeel van genomisch onderzoek is de verwerking, assemblage en annotatie van sequencinggegevens. De genomica maakt hiervoor gebruik van bio-informatica, waarin analyse en ontcijfering van DNA-sequenties al sinds vele decennia een centrale plaats inneemt. De successen van de genomica, en andere omics-gebieden, hebben een zekere verschuiving in de moleculaire biologie teweeggebracht: van enkele genen of eiwitten naar gigantische aantallen variabelen.

Vanaf de jaren 1980 werd het in kaart brengen van het menselijk genoom – en het genoom van andere organismen – een steeds belangrijker streven in de moleculaire biologie. Daarbij speelden verschillende factoren een rol. In de eerste plaats bleek de gedachte dat veel ziekten te herleiden zijn tot het disfunctioneren van één enkel gen veelal onjuist te zijn. Bijna altijd is er sprake van een complexe interactie van veel verschillende genen. Over die onderlinge samenhang was nog weinig bekend.[1]

In 2003 werd het menselijkgenoomproject zo goed als voltooid. Dankzij verbeterde sequencing-technieken die in de jaren 2000 ontwikkeld werden, werd het genoom van steeds meer organismen bekend. Tienduizenden genen zijn geïdentificeerd, en met technieken als de DNA-microarray's konden deze genen met honderden tegelijk worden bestudeerd.[2] De genomica is bedoeld om manieren te vinden om zinvolle informatie te halen uit de grote hoeveelheid data die hieruit voortkomt.

De genomica is begonnen als een echte systeemwetenschap. Het was de eerste van een serie van zogenaamde -omics, waaronder proteomics (alle eiwitten) en metabolomics (alle metabolieten). Deze onderzoeksgebieden zijn erop gericht om het organisme als geheel bestuderen, gebruikmakend van de enorme hoeveelheid data die door alle omics-technieken beschikbaar zijn gekomen.[1]

Sequencing en genoomanalyse

[bewerken | brontekst bewerken]
Meer informatie: DNA-sequencing

Sanger-sequencing, ook wel didesoxysequencing, werd eind jaren 1990 gebruikt om de DNA-sequentie van vele genomen te bepalen, waaronder die van de bacterie E. coli, de gist S. cerevisiae, de fruitvlieg, een nematode en de mens. Sanger-sequencing wordt nog steeds gebruikt als een relatief snelle en goedkope techniek voor sequencing op kleine schaal. Nieuwe methoden, die ontwikkeld werden vanaf 2005, zijn echter steeds belangrijker geworden voor uitgebreidere genoomanalyses. Deze modernere technologieën worden samen ook wel next-generation-sequencing (NGS) of high-throughput sequencing genoemd.[3]

High-throughput sequencing

[bewerken | brontekst bewerken]
Een benchtop Illumina-sequencer. Illumina-sequencing is een van de meest populaire methoden binnen next-generation sequencing

Met NGS-technieken is het mogelijk geworden om in een tijdspanne van enkele dagen duizenden individuele genomen te sequencen en met elkaar te vergelijken. Door de genomen van verschillende individuen naast elkaar te leggen (comparative genomics), kan men kleine variaties in de nucleotidesequenties van mensen in kaart brengen. Zo krijgt men een idee van de genetische diversiteit van de menselijke populatie uit verschillende delen van de wereld, en kan men mutaties opsporen die de aanleg voor bepaalde ziekten verhogen.[4] Daarnaast is het mogelijk geworden om de genoomsequentie van uitgestorven soorten te bepalen, zoals die van de Neanderthaler. Mede hierdoor is een scherper beeld ontstaan van de evolutionaire geschiedenis van diverse levensvormen. High-throughput sequencing heeft een wetenschappelijke omwenteling betekend op meerdere fronten, waaronder klinische genetica, kankeronderzoek, microbiologie, analyse van biodiversiteit, fylogenie en in landbouwtoepassingen.[3]

Er bestaan verschillende high-throughput sequencing-technieken (zoals Illumina, PacBio en Oxford Nanopore). Het sequencingproces is technisch ingewikkeld, maar het principe is bij alle technieken ongeveer hetzelfde. Het DNA wordt eerst in kleinere fragmenten geknipt en vervolgens parallel vermenigvuldigt. Fluorescent-gelabelde nucleotiden worden één voor één ingebouwd, de sequencer registreert dit door middel van optische detectie. Dit gebeurt parallel (gelijktijdig) voor miljoenen fragmenten, wat resulteert in een enorme hoeveelheid sequentiedata in korte tijd.

Genoomassemblage is een belangrijk concept in de genomica. Het verwijst naar samenvoegen van gesequencete fragmenten (ook wel reads genoemd) door gebruik te maken van overlappende delen, om zo de oorspronkelijke sequentie te reconstrueren. Dit is nodig omdat de huidige sequencingtechnologieën niet in staat zijn om volledige genomen volledig uit te lezen. Een sequencer kan doorgaans slechts kleine stukjes lezen, variërend van 20 tot 1000 basen, afhankelijk van de gebruikte technologie. Sommige derde-generatie-technologieën, zoals PacBio- of Nanopore-sequencing, kunnnen fragmenten genereren van 10–200 kilobasen lang, waarmee de assemblage een stuk makkelijker wordt. Deze technologieën hebben echter een relatief hoge foutmarge van ongeveer 1 procent, wat problematisch kan zijn voor het vaststellen van totaal nieuwe genomen (de novo assembly). Nog steeds gangbaar is sequencing van korte reads; technieken die veelal worden aangeduid als shotgun-sequencing.

De niet-willekeurigheid van genoomsequenties vormen een belangrijke uitdaging bij de genoomassemblage. Ongeveer 50% van het menselijk genoom bestaat uit niet-willekeurige (herhalende) elementen, zoals endogene retrovirussen en transposons (LINEs en SINEs), en eenvoudige tandemherhalingen (STR's), die verkeerde rangschikkingen of hiaten in de assemblage veroorzaken. De herhaalde sequenties veroorzaken bovendien een niet-uniforme leesdiepte, wat betekent dat het aantal kopieën (copy number) van een herhaald segment niet betrouwbaar is in te schatten.[5]

Ondanks dat de meeste sequencers relatief korte reads genereren (doorgaans 50–300 nt voor Illumina, 100–200 nt voor Ion Torrent), is de novo-assemblage van een groot genoom mogelijk door het overlappen van miljarden van deze korte reads. Er zijn verschillende algoritmen en heuristische modellen ontwikkeld om een dergelijk groot aantal korte reads op een efficiënte manier te assembleren.[5] Veelgebruikte vaktermen hierbij zijn contigs (een aaneengeschakeld stukje genoom door honderden reads te overlappen) en scaffolding (het in de juiste volgorde en oriëntatie plaatsen van de contigs). De grens van een contig wordt bepaald door de plek waar het niet meer lukt om sequencing-reads betrouwbaar aan elkaar te koppelen. Dit gebeurt bijvoorbeeld als er herhalende sequenties zijn waardoor niet duidelijk is waar een read thuishoort.

Zie Annotatie (biologie) voor het hoofdartikel over dit onderwerp.

Genoomannotatie is het proces waarbij biologische functie wordt toegekend aan een DNA-sequentie na assemblage. Hierbij worden onder andere genen, coderende gebieden, niet-coderende RNA-sequenties en regulerende elementen geïdentificeerd. De meest gangbare manier om de functie van een sequentie te achterhalen, is door deze te vergelijken met homologe sequenties in databases. Als een sequentie sterk overeenkomt met een sequentie waarvan de functie al ontdekt is, is de kans groot dat deze onbekende sequentie ook een vergelijkbare functie vervult.

De eerste stap is structurele annotatie, waarbij algoritmen eiwitcoderende genen opsporen door herkenning van start- en stopcodons, promotor en splicing-signalen. Aan de hand van deze kenmerken kunnen open leesramen (open reading frames) worden gevonden. Daarna volgt functionele annotatie, waarbij de gevonden genen worden vergeleken met bekende sequenties (bijv. via BLAST) om hun mogelijke functie te bepalen. Er bestaan diverse softwaretools om deze stappen grotendeels automatisch in silico uit te voeren, maar handmatige controle blijft essentieel – zeker bij nieuwe of complexe genomen. RNA-sequencingdata kan helpen om genstructuren te bevestigen of nieuwe genen te ontdekken.

Voor heel veel genen in het menselijk genoom zijn de functies nog maar in beginnende mate beschreven. Hun precieze rol in cellulaire processen kan alleen worden bewezen door experimentele verificatie: genexpressie-analyses, eiwit-interactiestudies, of knock-out-experimenten in een modelorganisme.