Considerations in Evolutionary Biochemistry Peter T.S. van der Gulik Samenvatting: Computationele methoden bieden een krachtige manier om moeilijke problemen in de evolutionaire biochemie te onderzoeken. Een duidelijk voorbeeld hoe computationele methoden nieuwe en degelijke kennis kunnen opleveren in dit vakgebied, is de geschiedenis van het onderzoek naar regelmatigheden in de structuur van de genetische code. Na een eerste blik op de tabel die de translatie regels geeft van nucleinezuur naar eiwit, merkten verschillende onderzoekers op dat op elkaar lijkende aminozuren vaak gecodeerd werden door op elkaar lijkende codons. Een voorbeeld: Carl Woese merkte in het midden van de zestiger jaren op dat codons met C in de middelste positie zonder uitzondering aminozuren codeerden die niet echt groot en niet echt hydrofoob waren, maar zeker niet hydrofiel. Francis Crick plaatste een kritische kanttekening bij dit soort waarnemingen: de twintig aminozuren van de genetische code lijken allemaal veel op elkaar en voor het menselijk brein is het heel moeilijk om ergens géén patroon in te zien, zelfs als het een random presentatie betreft. Computationele methoden boden een uitweg bij dit meningsverschil. Door het produceren van een set van random herverdelingen van de codon toewijzingen, in combinatie met het gebruik van een kwantitatieve schaal van aminozuur karakteriseringen (ontwikkeld door Carl Woese en zijn collega’s) en het gebruik van een functie om de “error robustness” van de genetische code en de door random herverdeling daarop geproduceerde varianten weer te geven, werd het mogelijk te bewijzen dat Carl Woese het bij het rechte eind had toen hij het genoemde patroon onder de aandacht bracht. Reeds in 1969 publiceerde Alff-Steinberger genoemde benadering, maar pas in de negentiger jaren werd het feit algemeen geaccepteerd, na werk van Hurst en zijn collega’s. Één van de gebieden waarop we computationele methoden hebben toegepast bij een probleem in de evolutionaire biochemie, was het raadsel van de oorspronkelijke peptiden. Wat was de functie van de eerste gecodeerde peptiden? Welke sequence fragmenten in eiwit-coderende genen zijn het alleroudst van al de eiwit-coderende informatie? Wij benaderden deze vragen door aan te nemen dat oeroude biologische systemen een kleiner repertoire van aminozuren gebruikten in hun eiwitten. Om precies te zijn: we hebben aangenomen dat, in een bepaald stadium van het leven, eiwitten uit slechts vier soorten aminozuren bestonden: valine, alanine, aspartaat en glycine. Vervolgens hebben we in de PDB (Protein Data Bank) gezocht naar stukken eiwit die uit slechts deze vier aminozuren bestonden, met één positie vrij als een uitzonderingspositie om latere adaptatie van oude motieven niet geheel uit te sluiten. Opmerkelijk genoeg vonden we eiwitsoorten die fundamenteel zijn voor het leven: polymerases, mutases en kinases. Mutases en kinases spelen een rol in de glycolyse, wat een biochemische route van centraal belang is. De sequence “alanine-aspartaat-phenylalanine-aspartaat-glycine-aspartaat” in RNA polymerase is de active site van het enzym dat mRNA maakt in alle levende cellen. Wij trokken de conclusie dat onze procedure inderdaad sequence fossielen in bestaande eiwitten aan het licht bracht. Bovendien concludeerden we ook dat stukken eiwit die glycine en aspartaat bevatten, en tweewaardig positieve magnesiumionen manipuleren, tot de alleroudste coderende eiwit sequences behoord kunnen hebben. Mogelijkerwijs werden peptiden als “aspartaat-glycine-aspartaat” oorspronkelijk door een prebiotische omgeving gegenereerd, en misschien behoorden hun concentraties tot de eerste aspecten van het milieu waar het leven vat op kreeg. Een ander gebied waarop we computationele methoden gebruikt hebben bij problemen in de evolutionaire biochemie, was de puzzel van de structuur van de genetische code. Zoals hierboven beschreven, gebruikte Hurst en zijn collega’s een functie voor de “error robustness” van de genetische code om te laten zien dat op elkaar lijkende aminozuren in het algemeen gecodeerd worden door codons die op elkaar lijken. Carl Woese’s “polar requirement” werd gebruikt om het op elkaar lijken van de verschillende aminozuren te kwantificeren, en aangetoond werd dat de “error robustness”, die een resultaat is van de specifieke verdeling van codon-aminozuur toewijzingen, voornamelijk in de eerste en derde positie van het codon zit. Wij raakten door dit werk gefascineerd, en besloten om bepaalde mathematische aspecten ervan te verfijnen. Ten eerste wilden we het globale optimum van de error functie in de ruimte, die door de randomiserings-procedure gedefinieerd werd, weten. Een waarde (gevonden door Goldman met gebruikmaking van een zoekprocedure gebaseerd op heuristiek) werd in het vakgebied gebruikt alsof het het globale minimum was. Deze waarde was voor zover bekend de laagste waarde die in die ruimte bestond, maar het was niet bekend of het inderdaad het globale minimum was. Vanuit een wiskundig gezichtspunt is dat een uitermate onbevredigende situatie. Wij hebben het optimum gezocht, en bewezen dat de waarde die door Goldman is gemeld het globale minimum is. Terwijl we ons met die materie bezig hielden, merkten we dat wij bij onze berekeningen altijd een geleidelijke verdeling kregen van de waarden in de histogrammen, in tegenstelling tot wat we in de literatuur zagen, waar de histogrammen een serie pieken en dalen vertoonden, waarvan men dacht dat deze een resultaat waren van de combinatie van de in groepjes gedistribueerde verdeling van waarden van aminozuur “polar requirement” en de patronen van de sets van codons wat betreft de eerste en derde positie. Omdat wij deze pieken niet reproduceerden, concludeerden wij dat deze gedachtengang op een misverstand moest berusten. Wij probeerden toen te vinden wat de oorzaak van de pieken moest zijn geweest, en kwamen tot de slotsom dat ze een artefact waren voortvloeiend uit de combinatie van afrondingsfouten in zowel de gegevens als in de begrenzingen van de bins van de histogrammen. Een ander facet van het werk waar we niet helemaal gelukkig mee waren, betrof de procedure waarmee random variante codes werden gegenereerd. Door het simpel herverdelen van aminozuur toewijzingen werd een ruimte gemaakt (waaraan wij de naam “Space 0” besloten te geven) die allerlei bekende genetische code varianten niet bevatte. Deze code varianten bestaan daadwerkelijk in vreemde uithoeken van het leven (en, wat betreft mitochondriën, delen van het leven die, in zekere zin, helemaal geen vreemde uithoeken zijn). Door het opzetten van een nieuwe procedure om random code varianten te genereren, maakten wij achtereenvolgens ruimtes die ook codes met “sense-to-sense reassignments”, “stop-to-sense reassignments” en niet-in-gebruik-zijnde codons bevatten. We noemden deze ruimtes “Space 1”, “Space 2” en “Space 3”, en we definieerden tevens een “Space 4” welke ook hypothetische voorloper codes met minder dan 20 aminozuren bevat, en synthetische codes, gemaakt tijdens wetenschappelijke experimenten, waarbij aminozuren die door onderzoekers werden uitgezocht co-translationeel in eiwitten werden gezet. Met Space 1 en Space 2 konden we berekeningen uitvoeren, waarbij we vonden dat de belangrijkste aspecten van de relatie tussen de genetische code en de gemiddelde code niet wezenlijk veranderden, ondanks de (aanzienlijke) vergroting van de ruimte. Een verdere verfijning die we aan het vakgebied bijdroegen, was een kritische beschouwing van de gevolgtrekkingen die in het vakgebied getrokken werden, gebaseerd op berekeningen zoals hierboven beschreven. In het bijzonder werd tegen het licht gehouden hoe het concept “Frozen Accident” werd gebruikt. Ook de neiging om uit een lage waarde van de genetische code ten opzichte van de gemiddelde code te concluderen dat zeer grote hoeveelheden codes moeten zijn gescreened door natuurlijke selectie om tot de genetische code te komen zoals we die kennen, bleek niet de enige manier te zijn hoe men zo een resultaat kan interpreteren. Scenario’s van code evolutie verschillen niet zozeer in het aantonen dat “error robustness” door codon toewijzingen aanwezig is in de code, maar in de manier waarop die scenario’s voorstellen dat die “error robustness” tot stand is gekomen. De verfijningen die wij op deze manier aan het vakgebied hebben bijgedragen zijn in detail beschreven in het derde hoofdstuk. In het vierde hoofdstuk beschrijven we een resultaat met betrekking tot een ander soort “error robustness” in de genetische code. Het is niet alleen zo dat op elkaar lijkende aminozuren vaak door op elkaar lijkende codons worden gecodeerd; codons die voor hetzelfde aminozuur coderen, lijken bijna altijd op elkaar (het aminozuur dat, gedeeltelijk, een uitzondering vormt op deze regel, is serine). Een voorbeeld van deze “error robustness”: alle arginine codons hebben een G in de middelste positie. Tijdens het overdenken van deze vorm van “error robustness” werd een verbluffend punt plotseling ontdekt. Niet-gemodificeerde anti-codons kunnen slechts op een beperkt aantal manieren paren met verschillende codons. Een anticodon met G op de eerste positie paart met beide codons die op een pyrimidine eindigen, en een anticodon met C op de eerste positie paart alleen met een codon dat op G eindigt. De implicatie van deze meest basale “Wobble Rules” is dat een set tRNA’s zonder anticodon-modificaties in staat is alle twintig aminozuren van de genetische code in eiwitten in te bouwen. Een complex modificatie-apparaat is niet nodig voor het functioneren van een vroege biochemie, wat precies is wat je verwacht als het systeem geëvolueerd is vanuit een relatief simpele toestand. Dit alles suggereert dat oorspronkelijk een aantal codons niet in gebruik was, omdat het eenvoudige systeem niet in staat was deze codons ondubbelzinnig te herkennen. Negatieve selectie heeft deze codons op een bijzonder laag niveau van aanwezigheid gehouden in de vroege eiwit-coderende sequences. Om precies te zijn: de exacte redenering achter de gevolgtrekking dat UUA, UAA, UGA, CAA, AUA, AAA, AGA en GAA codons zijn die niet in gebruik waren in een stadium van de ontwikkeling van de genetische code waarin alle twintig aminozuren wel al onderdeel uitmaakten van het aminozuur repertoire is uitgewerkt in het vierde hoofdstuk. Het werk aan de genetische code is nog verder uitgewerkt in het vijfde hoofdstuk. Terwijl het derde hoofdstuk verfijning aanbracht in een reeds bestaande benadering, en het vierde hoofdstuk een tot nog toe over het hoofd geziene regelmatigheid belichtte, integreert het vijfde hoofdstuk verschillende aspecten, die allen als belangrijk in de evolutie van de genetische code worden gezien, in één mathematische procedure. Het belangrijkste punt in de redenering is dat àls bepaalde codon toewijzingen vastliggen dankzij stereochemische interacties tussen triplet en aminozuur (hetgeen gesuggereerd wordt door experimenteel werk in het vakgebied) die codon toewijzingen óók vast moeten liggen gedurende de randomiserings-procedure waarmee code varianten worden gegenereerd. Naast dit aspect is er een ander aspect wat eveneens in het model moet worden geı̈ntegreerd, namelijk het concept van een geleidelijke groei van het repertoire, startend met valine, alanine, aspartaat en glycine, en gradueel ontwikkelend naar een twintig-aminozuren-code. Dit kan worden verwezenlijkt door het gebruik van een procedure om random codes te genereren die ontwikkeld is door Freeland en Hurst. Door deze verschillende aspecten in één model te verenigen komt volgens ons een realistisch model tot stand, voor de ruimte die beschikbaar was voor het vroege leven om code varianten te onderzoeken. In deze (kleine!) ruimte is de standaard genetische code optimaal. Als onderdeel van dit werk werd de gelijkenis in moleculaire structuur van de aminozuren onderzocht. Gebruik makend van de procedure uit het derde hoofdstuk om de positie-afhankelijkheid van “error robustness” te onderzoeken, vonden we dat met de “Molecular Structure Matrix”, die we ontwikkeld hadden, als input, de eerste en tweede codon positie error robustness bleken te bezitten (terwijl dit in het geval van “polar requirement” als input, de eerste en derde codon positie waren). Gesuggereerd wordt dat deze regelmatigheid het gevolg is van de geleidelijke uitbreiding van het aminozuur-repertoire van eenvoudige naar meer complexe aminozuren, in combinatie met een geleidelijke uitbreiding van het codon repertoire, startend met codons beginnend met purines (eerst G, later A) en uitbreidend naar codons beginnend met pyrimidines (waarbij codons beginnend met U de laatste zijn die aan het repertoire werden toegevoegd). Het laatste hoofdstuk gaat over een ander probleem in evolutionaire biochemie dat onderzocht kan worden met computationele methoden. De expressie van het mitochondriaal erfelijk materiaal van de slaapziekte parasiet Trypanosoma brucei is zeer complex. Informatie die noodzakelijk is om te zorgen dat tal van uridine nucleotiden op de juiste plaatsen in het mRNA aanwezig zullen zijn, is, feitelijk, volstrekt verspreid over het mitochondriaal genoom. In de wetenschappelijke literatuur zijn reeds vele suggesties naar voren gebracht met betrekking tot de evolutionaire achtergrond van deze complexe organisatie; één van deze suggesties is dat deze organisatie een bescherming biedt tegen verlies van informatie als gevolg van intense competitie binnen de soort in combinatie met een complexe levenscyclus. Het zesde hoofdstuk geeft onze inspanningen weer om dit concept een mathematische onderbouwing te geven.