München 2009 – scientific programme
Parts | Days | Selection | Search | Downloads | Help
T: Fachverband Teilchenphysik
T 69: GRID Computing 2
T 69.4: Talk
Tuesday, March 10, 2009, 17:30–17:45, M110
Job-Monitoring in Quasi-Echtzeit für ATLAS — •Tim München1,2, Torsten Harenberg1, Peter Mättig1 und Markus Mechtel1 — 1Bergische Universität Wuppertal, Gaußstr. 20, 42097 Wuppertal — 2Fachhochschule Münster, Fachbereich Elektrotechnik und Informatik, Stegerwaldstraße 39, 48565 Steinfurt
ATLAS-Rechenjobs, die auf das LCG submittiert werden, nutzen das ATLAS-Softwareframework 'Athena'. Die Analyse-Algorithmen werden unter Zuhilfenahme von Athena-Bibliotheken und dem ROOT-Toolkit in C++ entwickelt. Das Ermitteln der Ursache für den Fehlschlag eines Jobs ist in diesem Zusammenhang eine aufwändige, repetitive und oft unerfolgreiche Aufgabe. Häufig werden Abbrüche lediglich durch das Resubmittieren des Auftrages behandelt.
Im Rahmen der D-Grid Initiative hat die Bergische Universität Wuppertal den Job Execution Monitor (JEM) entwickelt. JEM hilft bei der Ermittlung der Gründe von Jobabbrüchen, indem es Laufzeit-Monitoring-Daten über den ausgeführten Benutzer-Job erfasst sowie parallel vitale Systemstatus-Metriken aufzeichnet. Diese Daten werden gesammelt, indem der Job überwacht Zeile für Zeile ausgeführt wird. Alle Monitoring-Informationen werden dem User in Quasi-Echtzeit zur Verfügung gestellt. JEM wurde nahtlos in das Grid-Userinterface "Ganga" der Experimente ATLAS und LHCb integriert. Auf diese Weise werden neue Rechenjobs, die über Ganga submittiert werden, automatisch überwacht. JEM bietet so neue Möglichkeiten, Probleme in hochverteilten Rechennetzen zu finden und diese in nahezu Echtzeit zu analysieren.