Algorithmus vergleicht Genome und findet schwerwiegende Veränderungen

18.03.2013 - Deutschland

Die Suche nach der Mutation hinter einem neuen Merkmal war jahrzehntelag gleichbedeutend mit der Suche nach einer Stecknadel im Heuhaufen. Korbinian Schneeberger, George Coupland und ihre Kollegen vom Max-Planck-Institut für Pflanzenzüchtungsforschung in Köln haben einen Algorithmus entwickelt mit dem sich nahe verwandte Genome vergleichen lassen, egal von welcher Spezies. Der Algorithmus findet Sequenzen, in denen sich die Genome unterscheiden. Dazu gehört auch die Mutation, die der Pflanze ein neues Erscheinungsbild gibt.

Genkartierung, Koppelungsanalyse, Sequenzvergleiche - diese drei Begriffe stehen für die langwierige und schwierige Suche nach der genetischen Veränderung hinter einem interessanten Phänotyp. Lange Zeit konnten sich die Wissenschaftler einer relevanten Mutation nur im Trippelschritt nähern. Erleichtert wurde die Suche nach ursächlichen Mutationen durch das Sequenzieren kompletter Genome. Für deren Rekonstruktion braucht man allerdings die komplette Sequenz eines repräsentativen Individuums, die sogenannte Referenzsequenz. Weil es nicht für jede Pflanze eine passende Referenzsequenz gibt, ist die Suche nach relevanten Mutationen auch heute noch schwierig.

Korbinian Schneeberger, George Coupland und ihre Kollegen haben nun eine Methode entwickelt, die ohne Referenzsequenzen auskommt. Sie beruht auf der einfachen Überlegung, dass sich die DNA der Ausgangspflanze und der Mutante in der relevanten Veränderung unterscheiden und setzt deshalb auf den direkten Vergleich dieser nahe verwandten Genome. Werden alle identischen Sequenzen durch einen Algorithmus ausgeblendet, sollte am Ende nur das übrig bleiben, was beide Genome unterscheidet.

Analysiert wird mit sogenannten „k-mers“. Dieser Kunstbegriff bezeichnet Fragmente, die etwa dreißig Basenpaare lang sind und darum sehr einfach und effizient gezählt und gruppiert werden können. Dabei werden alle gleichen k-mers, - also alle gleichen DNA-Sequenzen - in einen Stapel gepackt. Weil Fragmente mit der relevanten Mutation eine andere Sequenz haben als die Ausgangssequenz wird für ihre Sequenzinformation ein neuer k-mer Stapel eröffnet. Am Ende schaut man mit dem neuen Algorithmus, welche neuen Stapel bei dem Abgleich entstanden sind und zu welchen Genen sie gehören.

Wie verhindern Schneeberger und seine Kollegen nun, dass sie sich beim Genom-Vergleich nicht nur mit irrelevanten Veränderungen oder Sequenzfehlern beschäftigen? „Für den Ausschluss dieser Störquellen gibt es verschiedene Strategien, die zum Teil schon bei der Konzeption des Vergleichs ansetzen“, sagt Schneeberger. “Wir müssen nichtkausale Veränderungen frühzeitig aussortieren.“ Beim Sequenzieren der Genome wird die genetische Information mehrfach gelesen. Sequenzierfehler treten dabei nur hin und wieder und nicht immer an der gleichen Stelle auf. Sie sind daher selten. Solche seltenen Sequenzveränderungen können aus den k-mer Stapeln heraus gerechnet werden.

Schwieriger ist die Ausgrenzung irrelevanter Mutationen. Für diese Aufgabe ist die Wahl des Ausgangsmaterials wichtig. Entweder werden zwei Mutanten miteinander verglichen, bei denen nachweislich dasselbe Gen mutiert ist oder es wird die Ausgangspflanze mit Mutanten-Pools verglichen. Mutanten-Pools gehen aus der Kreuzung von Ausgangspflanze und Mutante hervor und repräsentieren die F2-Generation. Jede Pflanze in diesen Pools hat exakt die gleiche Mutation für den neuen Phänotyp. Die ursächliche Mutation ist also gegenüber nicht relevanten Mutationen in der Überzahl. Damit sind die nicht relevanten Mutationen selten und können wieder aus den k-mer Stapeln heraus gerechnet werden. „Wir haben der neuen Methode den Namen NIKS gegeben“, sagt Karl Nordström, der den Algorithmus programmiert hat. „NIKS für „needle in the k-stack“. Der Name ist eine Reminiszenz an die Nadel im Heuhaufen“.

Vergleicht man Genome von Ausgangspflanzen mit den Genomen aus Kreuzungspools, findet man die relevante Mutation in einem k-mer Stapel, der bei den Ausgangspflanzen fehlt, im Kreuzungspool aber vorhanden ist. Vergleicht man zwei Pflanzen mit verschiedenen Mutationen in ein- und demselben Gen, schaut man welcher neue k-mer Stapel in beiden Pflanzen zum selben Gen gehört. „Unsere Methode ist so robust, dass wir erstaunlich wenig falsch positive Ergebnisse zu Tage fördern“, kommentiert Schneeberger das Potential von NIKS. „Der Prozentsatz an korrekt identifizierten Mutationen liegt bei über 98 Prozent. Und das ohne Unterstützung durch eine Referenzsequenz.“

Der Bioinformatiker und sein Team haben die neue Methode auf verschiedene Weise getestet. Zuerst wurden schon bekannte Mutationen aus Reis bestätigt. Danach haben Schneeberger und Coupland nach unbekannten Mutationen in der Alpengänsekresse Arabis alpina gesucht. Eine Besonderheit dieser Pflanze ist, dass sie normalerweise nur dann blüht, wenn sie der Kälte des Winters ausgesetzt war. Maria Albani und George Coupland haben eine Mutante isoliert, die nicht mehr auf den Kältereiz angewiesen ist. „Wir haben mit NIKS die kausale Mutation unter mehr als 350 Millionen Basen gefunden. Das zeigt, dass wir neue und relevanten Mutationen ohne Rückgriff auf eine Referenzsequenz finden können“, sagt Schneeberger. „Der größte Wert von NIKS wird darin liegen, in einem unbekannten Genom schneller zur relevanten Mutation vorzustoßen.“ Die Kölner Wissenschaftler sehen darin sogar ein neues Arbeitsgebiet, denn viele interessante Phänotypen, - etwa die Resistenz gegenüber Schädlingen - kommen nur in wenig untersuchten Arten vor für die es keine Referenzensequenzen gibt.

Originalveröffentlichung

Weitere News aus dem Ressort Wissenschaft

Meistgelesene News

Weitere News von unseren anderen Portalen

Unter die Lupe genommen: Die Welt der Mikroskopie