Wie ein Genom Hacker einen Stammbaum mit 13 Millionen Zweigen gemacht
Was passiert, wenn Sie einen Genom Hacker lassen – eine Art Computer Scientist-gedreht-Biologe – lose auf der Welt Online-Genealogie Seiten? Der weltweit größte Stammbaum ist was, welche zeigt, wie sich über 13 Millionen Menschen beziehen.
Die Arbeit der rechnerische Biologe Yaniv Erlich, die er an der American Society of Human Genetics Jahrestagung in Boston vor kurzem vorgestellt, rollt zusammen Massen von Daten direkt aus Online-Genealogie Seiten entfernt.
Forscher haben in der Vergangenheit durch staubigen alten Aufzeichnungen für diese Art von Daten zu sichten; Montage einer Struktur von wenigen tausend Individuen könnte Jahre dauern. Aber Erlich kratzte über 43 Millionen öffentliche Profile – die immer auch Geburt und Tod geht, aber manchmal auch Standorte und Bilder – aus der Genealogie-Webseite geni.com, dann hatte sein Team es in Stammbäume zu montieren.
Einige waren so klein wie tausend Individuen; einer war so groß wie 13 Millionen. Zwerge, die die Bäume zur Verfügung, um Forscher in der Vergangenheit die bestenfalls Hunderttausende große wurden berichtet Natur. Bevor Sie schreien und über Datenrechte schreien, es sind alle wurden anonymisiert zum Schutz der Privatsphäre – aber das macht es weniger nützlich. Die Idee erstreckt sich weit zurück bis ins 15. Jahrhundert, Sonde und zum Wohle der Wissenschaft zu analysieren.
Die Herausforderung ist aber, wie man diese Bäume zu verhören und auswringen die Geheimnisse, die sie verstecken. Gibt es eine Menge Versprechen: ihre bloße Struktur könnten uns einiges über Demographie und Bevölkerung Erweiterungen, und wenn sie verknüpft werden können, um medizinische Informationen oder DNA-Sequenz Daten dann sie könnten riesige Einblick in die Art und Weise verstehen wir Vererbung anbieten.
Wie eh und je, allerdings gibt es Einschränkungen. Das Problem mit den meisten Genealogie-Daten ist, dass es selbst berichtet — und so nicht immer zuverlässig, vor allem die weiter zurück, Sie gehen. Noch, das hat den Vorteil eines größeren Datensatzes: unter der Lärm möglicherweise gibt es noch genügend Signal. Denn jetzt, es ist unklar, wie nützlich die massive Stammbäume werden — aber es ist spannend zu erfahren. In der Zwischenzeit, warum nicht geben es eine Bash selbst? [Natur]
Bild von Ed Phillips/Shutterstock