München 2009 – wissenschaftliches Programm

Bereiche | Tage | Auswahl | Suche | Downloads | Hilfe

T: Fachverband Teilchenphysik

T 69: GRID Computing 2

T 69.4: Vortrag

Dienstag, 10. März 2009, 17:30–17:45, M110

Job-Monitoring in Quasi-Echtzeit für ATLAS — •Tim München^1,2, Torsten Harenberg¹, Peter Mättig¹ und Markus Mechtel¹ — ¹Bergische Universität Wuppertal, Gaußstr. 20, 42097 Wuppertal — ²Fachhochschule Münster, Fachbereich Elektrotechnik und Informatik, Stegerwaldstraße 39, 48565 Steinfurt

ATLAS-Rechenjobs, die auf das LCG submittiert werden, nutzen das ATLAS-Softwareframework 'Athena'. Die Analyse-Algorithmen werden unter Zuhilfenahme von Athena-Bibliotheken und dem ROOT-Toolkit in C++ entwickelt. Das Ermitteln der Ursache für den Fehlschlag eines Jobs ist in diesem Zusammenhang eine aufwändige, repetitive und oft unerfolgreiche Aufgabe. Häufig werden Abbrüche lediglich durch das Resubmittieren des Auftrages behandelt.

Im Rahmen der D-Grid Initiative hat die Bergische Universität Wuppertal den Job Execution Monitor (JEM) entwickelt. JEM hilft bei der Ermittlung der Gründe von Jobabbrüchen, indem es Laufzeit-Monitoring-Daten über den ausgeführten Benutzer-Job erfasst sowie parallel vitale Systemstatus-Metriken aufzeichnet. Diese Daten werden gesammelt, indem der Job überwacht Zeile für Zeile ausgeführt wird. Alle Monitoring-Informationen werden dem User in Quasi-Echtzeit zur Verfügung gestellt. JEM wurde nahtlos in das Grid-Userinterface "Ganga" der Experimente ATLAS und LHCb integriert. Auf diese Weise werden neue Rechenjobs, die über Ganga submittiert werden, automatisch überwacht. JEM bietet so neue Möglichkeiten, Probleme in hochverteilten Rechennetzen zu finden und diese in nahezu Echtzeit zu analysieren.