Parts | Days | Selection | Search | Updates | Downloads | Help

T: Fachverband Teilchenphysik

T 97: Grid-Computing

T 97.2: Talk

Thursday, March 3, 2016, 17:00–17:15, VMP8 SR 05

Daten-intensive Arbeitsflüsse in der Cloud — Gen Kawamura¹, Oliver Keeble², Arnulf Quadt¹ und •Gerhard Rzehorz^1,2 — ¹II. Physikalisches Institut, Georg-August Universität Göttingen — ²IT Department, CERN

Cloud Computing, insbesondere von kommerziellen Anbietern, wird für die Experimente des LHC fast ausschließlich für wenig Daten-intensive Arbeitsflüsse verwendet. In der Regel sind dies Monte-Carlo Simulationen die einen sehr geringen Dateneingang und einen geringen Datenausgang verzeichnen. Dies kommt daher, dass nur Computingpower, nicht aber permanenter Speicher in der Cloud genutzt wird. Um zu untersuchen, ob es rentabel wäre, datenintensivere Arbeitsflüsse (z.B. Rohdaten Rekonstruktion) in der Cloud auszuführen, müssen mehrere Dinge untersucht werden. Dies beginnt mit der Frage, wie genau man einen datenintensiveren Arbeitsfluss am Besten in der Cloud ausführt. Fügt man permanenten Speicher hinzu (in Analogie zu einem Grid Computingzentrum)? Streamt man die Daten am besten von den existierenden Datenzentren mit globalen Zugriffsmethoden (z.B. Federated Access in ATLAS, SRM)? Wie stark beeinflusst die Nähe zu den Daten die Effizienz (Wallclock Zeit)? Kann eine erhöhte Effizienz durch Latenzzeit-Verschleierungsmethoden (z.B. Overcommittment für die CPU-Ressourcennutzung) erreicht werden? Um diese Fragen zu beantworten, werden Tests zunächst an lokalen virtuellen Maschinen und dann bei unterschiedlichen Cloud Anbietern durchgeführt und verglichen.