Tuesday, September 18, 2012

ENCODE project is een mijlpaal, maar 80% functioneel dna roept vragen op

Op 20 september 1952 werd door Alfred Hershey en Martha Chase aangetoond dat DNA en niet eiwit de drager van de erfelijke informatie is: dat is exact 60 jaar geleden! Nog maar 60 jaar!

2012
Het ENCODE project (Encyclopedia of DNA Elements) is een mijlpaal in het genetisch onderzoek van de mens. Genetica begon met Mendel en met name met de herontdekking van Mendel in 1900. Ongeveer 50 jaar later werd de chemische structuurformule van DNA 'ontdekt' (of beredeneerd? of voorspeld?) door James Watson en Francis Crick (1953), en nog eens 50 jaar later (2001) werd de complete basevolgorde van het menselijke dna vastgesteld (Human Genome Project). In 2012, dat is maar 11 jaar later werd vastgesteld welke delen van het menselijk dna 'actief' zijn (ENCODE). 'Actief' is iets anders dan het aantal genen dat de mens heeft.

Hoeveel genen heeft de mens?
2001
In 1999 dus 2 jaar voor de afronding van het HGP, schatte de bekende evolutie-bioloog John Maynard Smith het aantal genen van de mens op 60.000 tot 80.000 [1]. Als het om eiwit-coderende genen gaat is dit in onze ogen belachelijk hoog, maar het was toen de gangbare opvatting [2]. 'Genen' waren toen vrijwel synoniem met 'eiwit coderend dna'. Er waren zelfs nog hogere schattingen. Eén jaar vóór de afronding van het Human Genome Project werd het aantal genen teruggebracht van 120.000 naar 81.000. Midden jaren 80 stond in verscheidene handboeken het berekend aantal van 100.000 genen [3]. In het boek dat Nature ter gelegenheid van de afronding van het Human Genome Project in 2001 publiceerde wordt er gesproken over 30.000 - 40.000 genen [3]. Enigzins teleurgesteld werd er bij gezegd: only about twice as many as in worm or fly! Let op de grote spreiding! Het waren schattingen (predictions). Dit is toch best opvallend als je bedenkt dat de dna sequence bekend was. Uit die tijd dateert ook het beroemde percentage van 1,5% van het menselijke dna dat codeert voor eiwitten.

'Niet-coderend' dna
In 2001 was er niet veel aandacht voor niet-coderende genen, d.w.z. genen die alleen RNA produceren en geen eiwit. De schatting was dat er 'duizenden' niet-coderende RNAs zouden bestaan, maar met zekerheid slechts enkele honderden [3:p.105).

ENCODE: hoeveel genen heeft de mens?
Volgens ENCODE [4]:

20.687 protein-coderende genen
18.441 RNA-genen
_____________________
39.128 genen totaal

Grappig dat we met dit aantal weer terug zijn op het peil van 2001! En dan heb ik nog niet meegerekend dat eiwit-coderende genen gemiddeld ongeveer 4 verschillende eiwitten produceren (tgv alternative splicing) waardoor er plm. 80.000 eiwitten worden geproduceerd, waardoor we terug zijn bij de schattingen van eind jaren 90. Zou je kunnen zeggen. Wat zeker opvalt is dat het aantal RNA-genen enorm omhooggeschoten is ten opzichte van 10 jaar geleden. Bijna net zoveel als 'gewone' genen. En dan heb ik nog niet genoemd 11.224 pseudogenen: 'dode' genen waarvan een deel soms in sommige celtypen in sommige individuen afgelezen wordt. Die tel ik even niet mee.

Hoeveel dna is functioneel?
De controversiële claim van ENCODE is dat 80% van het menselijk dna 'biochemisch functioneel' is. Maar hun definitie van 'functioneel' is heel ruim:
"Operationally, we define a functional element as a discrete genome segment that encodes a defined product (for example, protein or non-coding RNA) or displays a reproducible biochemical signature (for example, protein binding, or a specific chromatin structure)." [4]
Vrij vertaald: 80% van het menselijk dna 'doet iets'. Dit is een veel ruimere defintie dan gebruikelijk in de (evolutie)biologie. In de evolutie betekent 'functioneel' dat iets survival value heeft (fitness). Maar de taak die ENCODE zichzelf gesteld heeft is alle activiteit van alle dna vast te stellen in dat is inclusief modificaties van histonen die aan dna vastzitten. En ook als het dna maar in één celtype actief is. Zo heeft ENCODE de activiteit in 147 verschillende celtypes getest. Dat is nieuw. Het gaat om de totaliteit. Wil je een compleet overzicht dan moet je alles meenemen. Zo is die 80% ontstaan.

Nog maar een paar jaar geleden stond in een standaardwerk [5] dat van een typisch genome één derde (33%) wordt afgelezen (dat heet: transcriptome omdat het op transcriptie gebaseerd is, dat is de productie van RNA). Volgens ENCODE is dat nu 62%. De rest is betrokken bij histonen, en andere eiwitten die aan dna binden. Van die 62% is de meerderheid intronen, want die worden ook afgelezen, maar daarna er uit geknipt (splicing).

Maximum aantal genen?
Zou het menselijk genoom echt 100.000 'genen' kunnen hebben? [10] Of een miljoen??? Volgens Manfred Eigen [6] kan een organisme niet onbeperkt veel genen hebben omdat die informatie iedere generatie betrouwbaar gecopieerd moet worden en mutaties zullen zich op den duur ophopen zodat de originele informatie verloren zal gegaan. Anders gezegd: het aantal informatie dragende bases heeft een maximum. Dat wordt bepaald door de mutatiefrequentie. De maximale mutatiefrequentie is het omgekeerde (reciprocal) van het aantal informatie dragende bases. Dus heb je een mutatiefrequentie van 1 op de miljoen dan zal het maximum aantal informatieve bases 1 miljoen zijn.

We moeten dus genen omrekenen in bases. Schattingen in de literatuur voor het totaal aantal relevante bases (exons) van de mens is 30 miljoen bases (30 Mb) verdeeld over 180.000 exons [7]. Als je het aantal RNA genen erbij optelt zou je grofweg op 60 miljoen bases komen (schatting!). Verder hebben we nog dna dat betrokken is in gen regulatie. Volgens ENCODE [8] zou dat tenminste zo veel bases in beslag nemen als eiwit-coderende genen, dus tenminste nog eens 30 miljoen. Totaal: tenminste 90 miljoen bases. Uit de literatuur [9] blijkt dat de mutatiefrequentie in de orde van 1 op de 100 miljoen is. De menselijke soort zou dus net zoveel significant dna hebben dat hij kan onderhouden. Te mooi om waar te zijn? Gezien het feit dat het berekeningen op de achterkant van een bierviltje gemaakt zijn, lijkt dat inderdaad te mooi om waar te zijn!

Postscript  
(19 – 23 sept):

Als we die 80% functioneel dna omrekenen naar bases: 80% van 3,2 miljard bases =  2,56 miljard bases, dan is niet in te zien hoe die bases onderhouden kunnen worden als er een mutatiefrequentie is van 1 : 100 miljoen (1 : 10-8) per generatie! Het menselijke genome zou maximaal 100 miljoen bases functioneel dna kunnen bevatten. Dat is 3,1% van het totale dna. ENCODE komt neer op ruim 25x hoger! Daar kom ik zeker nog een keer op terug!

Populatiegeneticus en evolutiebioloog Joe Felsenstein heeft bevestigd dat de error threshold een onafhankelijk argument tegen 80% functioneel dna in het menselijk genome is (hier).

Een onafhankelijke (ruwe) berekening gebaseerd op "very roughly, maybe on the order of about 1000-6000 bases of noncoding regulatory information per 1500 coding bases in a gene" (Sean Eddy):

aantal bases in genen:        20.687 x 1500 = 31.030.500 bases
aantal bases in regulators: 20.687 x 3500 = 72.404.500 bases
totaal:                                                           103.435.000 bases
in het menselijk genome die er toe doen.

Dus 103 miljoen komt heel aardig overeen met mijn berekening gebaseerd op het idee van Manfred Eigen [6] (nl 100 miljoen)!

Postscript 3 Okt 2012
"Mammalian conservation suggests that ~5% of the human genome is conserved due to noncoding and regulatory roles " [11]. Dit is dus méér dan alleen eiwit-coderende genen ("Short noncoding RNAs are as strongly constrained as protein-coding regions") en méér dan de schatting 3,1% hierboven.
Een onafhankelijk manier om het percentage functioneel dna te bepalen is misschien het perc. dna dat in zoogdieren geconserveerd (constrainted, conserved) is?

Noten
  1. John Maynard Smith (1999) The Origins of Life  (p.16).
  2. Mark Ridley (2000) Mendel's Demon meldt 60.000 genen, tabel op p. 82.
  3. Carina Dennis, Richard Gallagher (2001) The Human Genome. Palgrave. p. 19; p.67; p.72; p.110; p.112.
  4. The ENCODE Project Consortium: 'An integrated encyclopedia of DNA elements in the human genome', Nature 57-74 6 sep 2012 (Open Access). "we annotated 8,801 small RNAs and 9,640 long non-coding RNA (lncRNA) loci" dus totaal 18.441 RNA genen.
  5. James Watson et al (2008) Molecular Biology of the Gene (sixth ed.), p.705.
  6. Manfred Eigen (1996) Steps Towards Life, p.20:  "the longer a sequence is, the more accurate its reproduction must be, otherwise errors accumulate in successive generations and the original information is lost".
  7. Targeted Capture and Massively Parallel Sequencing of Twelve Human Exomes.
  8. "raising the possibility that more information in the human genome may be important for gene regulation than for biochemical function." zie: [4].
  9. Joris A. Veltman & Han G. Brunner (2012) De novo mutations in human genetic disease Nature Reviews Genetics 13, 565-575 (August 2012). 
  10. In: Peter Sudbery (1998) Human Molecular Genetics, p. 36 wordt genoemd dat het theoretisch maximum bij de mens 100.000 genen zou zijn gebasserd op o.a. het aantal gemuteerde genen dat tolerabel zou zijn (maar is schatting!).
  11. Lucas D. Ward (2012) Evidence of Abundant Purifying Selection in Humans for Recently Acquired Regulatory Functions, Science 28 September 2012


0 comments:

Post a Comment