Atomwaffen Simulationen Supercomputing Grenzen
Supercomputer ermöglichen den USA praktisch Atomwaffen testen, ohne zurück in den kalten Krieg zu stürzen – aber unerkannt EDV Fehler können beschädigt werden oder sogar abstürzen solche Simulationen mit 100.000 vernetzten Maschinen. Das Problem erregt Forscher machen ein automatisiertes System zur Computer-Pannen zu fangen, bevor sie außer Kontrolle geraten.
Die Lösung beteiligt, wodurch einen "zentrales Gehirn"-Server, der nicht mithalten konnte, mit Streaming-Daten von Tausenden von Maschinen – Forscher organisiert Supercomputer Cluster von Maschinen von "Klassen" basierend auf, ob Maschinen ähnliche Prozesse ausgeführt wurde. Diese Cluster Taktik macht es möglich, irgendwelche supercomputing Störungen schnell zu erkennen.
"Sie wollen das System automatisch beim lokalisieren und in welche Maschine fand der Fehler und auch der Teil des Codes, der beteiligt war," sagte Saurabh Bagchi, ein außerordentlicher Professor für elektrische und Computertechnik an der Purdue University. "Dann, ein Entwickler kann kommen, betrachten Sie es und das Problem zu beheben."
Die Purdue-Forscher verwendeten generischen Computercode, anstatt tatsächliche klassifizierte Atomwaffen-Software-Code, aber ihren Durchbruch sollte gut für Supercomputer Simulationen von Atomwaffentests erarbeiten.
Bagchi und seine Kollegen von der National Nuclear Security Administration (NNSA) Lawrence Livermore National Laboratory haben auch damit begonnen, die separate Lösung "Checkpointing." Dieses Problem entsteht, weil die Sicherung speichern System die supercomputing Skala von 10.000 Maschinen verarbeiten kann.
"Das Problem ist, dass beim Skalieren von bis zu 10.000 Maschinen dieser paralleles Dateisystem nach unten Moore", sagte Bagchi. "Es ist ungefähr 10 Mal zu viel Aktivität für das System zu umgehen und diese Diskrepanz wird nur schlimmer geworden, weil wir auch weiterhin schneller und schneller Computer zu erstellen."
Eine mögliche Lösung kann "die Checkpoints ähnliche komprimieren", wie gewöhnliche Computer Bilddaten komprimiert. Beseitigung des Prüfpunkte Engpass Hülfe eröffnen die Möglichkeit, Exascale-Supercomputer 1000 Billiarden Rechenoperationen pro Sekunde ausführen. [Supercomputer "Titans" Gesicht enorme Energiekosten]
"Wir fangen das Checkpointing-Problem zu lösen", sagte Bagchi. "Es ist nicht vollständig gelöst, aber wir sind immer da."
Diese Geschichte wurde von InnovationNewsDaily bereitgestellt , eine Schwester-site zu LiveScience. Folgen Sie InnovationNewsDaily auf Twitter @News_Innovation, oder auf Facebook.