DNA beoordeeld vanuit informatietheoretisch perspectief

Om de betrouwbaarheid van DNA als informatiedrager op een onafhankelijke manier te kunnen beoordelen gebruik ik de theorie van 'Error-Correcting Codes' zoals beschreven wordt door John MacCormick (2012) Nine Algorithms That Changed the Future: The Ingenious Ideas That Drive Today's Computers. We hebben het immers over DNA als informatiedrager en het onderzoeksveld informatica beschikt over een goed uitgewerkte mathematische theorie van informatie overdracht. Dus bij de informatica zijn we bij het juiste adres. Dat wil niet zeggen dat we informatietheorie blindelings kunnen toepassen op DNA. Maar we voorkomen in ieder geval dat we, zoals gebruikelijk, DNA opvatten als het beste middel van informatie overdracht dat de natuur ons te bieden heeft. Als DNA het enige informatie opslagmiddel is, hoe zouden we het dan met iets anders kunnen vergelijken?

De eerste en meest simpele methode om fouten in informatie overdracht te detecteren is domweg de informatie te herhalen. (Tussenhaakjes: een favoriet fragment uit een interview op tv van een man die letterlijk zei: "Ik zeg alles maar één keer. Ik zeg alles maar één keer. Ik zeg alles maar één keer.") MacCormick noemt dit 'the repetition trick' (p.62). Als je de hele boodschap tweemaal herhaalt is de kans klein dat ze allebei dezelfde fout bevatten. Maar je weet niet welke van de twee de foutloze is. Daarom moet je de boodschap drie maal of nog vaker herhalen en kijken welke het vaakst voorkomt. Dat zal de juiste zijn. Dit is natuurlijke een nogal kostbare en inefficiënte methode. Het verbazingwekkende is dat de natuur deze methode heeft toegepast: DNA is dubbelstrengs. De boodschap is in tweevoud aanwezig. We zouden niet zo gauw op dit idee komen, omdat we zo gewend zijn aan het feit dat DNA een geniale dubbele helix is. We zeggen dan: uiteraard is DNA dubbel omdat enkelstrengs DNA veel te instabiel en dus onbetrouwbaar is als opslagmedium. Maar dat is precies het punt. Het kan wel zijn dat dubbelstrengs DNA stabieler is, maar deze methode is 100% redundant en kost bovendien tweemaal zoveel aan bouwstenen die ook gesynthetiseerd moeten worden. Je kunt dus ook zeggen dat dubbelstrengs DNA een compensatie is voor een zwakheid in plaats van een genialiteit. De volledige informatie zat immers ook al in enkelstrengs DNA. Denk aan mRNA dat enkelstrengs is en de volledige informatie voor het eiwit bevat. Dus we hebben 100% herhaling van de informatie in dubbelstrengs-DNA.

In de informatietheorie is herhaling de simpelste methode. Maar die wordt eigenlijk niet gebruikt omdat die zo ontzettend verspillend is. Vooral als het om megabyte en gigabyte hoeveelheden gaat. Een bekend evolutiehandboek [1] schrijft dat de worm Caenorhabditis elegans een verbazingwekkend lage mutatiefrequentie heeft van één puntmutatie op de 100 miljoen bases. Dat is een hele goede score, maar er wordt niet bij gezegd dat de kosten een 4-voudige genoomredundantie, en verder nog ongeveer 10% overhead aan DNA-repair genen zijn. Want het DNA-repair systeem moet je ook als overhead rekenen. Het zou immers niet nodig zijn als DNA foutloos gerepliceerd zou worden. Voor een eerlijke vergelijking zou je ook de software die checksums berekent er ook bij moeten tellen. Ik weet niet hoe groot die is. Ik denk redelijke kort, want het zijn elementaire berekeningen.
Bedenk verder dat het menselijk chromosoom 1 (het grootste) alleen al 247 miljoen bases telt. Voor het menselijk genoom totaal zou dat neerkomen op ruim 30 mutaties als het 1x gecopieerd zou worden [2].

In de evolutieleerboeken zie je vaak staan dat de cel feitelijk gebruik maakt van die redundatie bij het repareren van DNA (mismatch van bases) [3]. In feite heeft een diploid organisme dus een 4-voudige herhaling van genetische informatie. Ieder chromosoom is in tweevoud aanwezig en ieder chromosoom bestaat weer uit dubbelstrengs DNA. In totaal 4 maal. De cel schijnt ook gebruik te maken van de diploïde informatie. Dit wordt recombinational dna repair genoemd [6]. Dit kun je allemaal slim noemen, maar uit informatietheoretisch oogpunt is dit de methode met de grootste overhead. In de informatica kan het met véél minder overhead, zoals de redundancy methode [4] en de nog efficiëntere checksum en pinpoint methodes (zie MacCormick hoofdstuk 5). Deze methode voegt extra bitjes toe aan het einde van de informatie die het mogelijk maken vast te stellen of er fouten in de boodschap zitten. Het mooie van deze methodes is dat ze niet alleen foutdetectie maar ook foutcorrectie mogelijk maken [5]. Bij informatie overdracht in computers kan de overhead van checksums minder dan 1 duizendste van een procent van de totale informatie zijn, terwijl er vrijwel 100% garantie is op een foutloze informatie overdracht. En er worden nog betere fout correctie methodes ontwikkeld. Die zijn wel weer ietsje groter.

Dit alles kan verder uitgediept worden, maar ik hoop de lezer op een spoor gezet te hebben. Informatietheorie biedt een onafhankelijke theorie waarmee je de prestaties van DNA als opslagmedium kunt beoordelen.

Opmerkingen

Scott Freeman, Jon Herron (2007) Evolutionary Analysis, p. 149.
Nu kun je wel zeggen die fouten zijn juist nuttig voor evolutie, en genetische diversiteit, evolvability, adaptability, maar we hadden het over betrouwbare informatieoverdracht. Het nut en de efficientie van mutaties is een heel ander verhaal. De overgrote meerderheid van muaties zijn geen verbeteringen.
Het is mij nog niet duidelijk hoe de cel bepaalt welke van de twee bases de foute is en alleen de foute corrigeert. Mogelijk gaat de cel er van uit dat bij replicatie de oude streng correct is en alleen de mismatch in de nieuwe streng corrigeert. Dit lijkt me tenminste een mogelijkheid.
De genetische code maakt ook gebruik van redundantie: de meeste aminozuren worden door meerdere base tripletten in DNA gecodeerd. Dit voorkomt een groot aantal fouten in de aminozuurvolgorde van eiwitten. Strikt genomen worden hier geen fouten in DNA gecorrigeerd, maar de gevolgen van fouten geneutraliseerd. Dit lijkt op de Redundancy trick van MacCormick (p. 64)
Doet de natuur aan checksums? Mogelijk is Nonsense-mediated mRNA decay waarbij een door mutatie ontstaan stopcodon midden in een eiwit herkend wordt en vervolgens het mRNA vernietigd wordt. Dit kun je slim noemen. Dit is altijd beter dan het ingekorte foute eiwit produceren, maar beter was het om de fout eerder te herkennen en het stopcodon te corrigeren. Het probleem is: hoe weet je wat het originele codon was? Gokken wat het meest waarschijnlijke codon was? Een andere mogelijke foutdetectie methode is detecteren of een exon door 3 deelbaar is omdat codons uit 3 bases bestaan. Maar hoe moet je zo'n fout herstellen als je hem al gedetecteerd had?
Een ander mechanism dat gebruikt schijnt te maken van de 4-voudige redundantie is meiotic silencing by unpaired DNA (MSUD). Het is begrijpelijk dat het gedurende meiosis gebeurt omdat dan de homologe chromosomen paren. Er wordt geen repair verricht, maar silencing van het DNA. (toegevoegd: 11 april)

Postscript 17 april:
Een goed en gratis overzicht over DNA repair vind je hier:
http://www.web-books.com/MoBio/Free/Ch7G.htm
Het is onderdeel van een website met gratis ebooks, waaronder Molecular Biology Web Book

Chapter 7: DNA Replication, Mutation and Repair

korthof-Bay-Net

DNA beoordeeld vanuit informatietheoretisch perspectief

0 comments:

Post a Comment

Popular Posts

Blogger templates

Blogger news

Blogroll

Labels