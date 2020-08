Optimale IT-Infrastruktur für Deep Learning: Autonomes Fahren im Training

Die Zukunftsvision von Continental ist klar: Durch den Einsatz von autonom fahrenden Fahrzeugen sollte es keine Verkehrstote mehr geben. Ihr Supercomputer-Projekt dient zum Entwickeln und Trainieren von neuronalen Netzwerken, die Verkehrssituationen erkennen und darauf reagieren. Um die Zeit pro Training zu reduzieren, die Anzahl an Trainings pro Zeiteinheit zu erhöhen und somit letztendlich deutlich schneller das autonome Fahren zu verbessern, wurde die optimale IT-Infrastruktur benötigt.

Mit dem Systemintegrator SVA, IBM und NVIDIA wurden kompetente Unternehmen für die Konzeption, die Integration sowie den Aufbau einer Deep Learning GPU Cluster-Implementierung für verteiltes Lernen aus Verkehrsvideodaten gefunden. Die Anforderungen umfassten neben der Integration von teils vorhandenen NVIDIA-Systemen ein performantes Backend-Netzwerk sowie eine leistungsfähige Storage-Lösung für den GPU-Cluster. Dabei sollte der Aufbau des gesamten Clusters (Compute/Netzwerk/Storage) in mehreren Stufen ?seamless?, also nur durch Nachrüstungen ohne nennenswerte Umbauarbeiten möglich sein.

HIGH SPEED NETWORK

?Uns war ein kosteneffizientes, hochskalierbares Netzwerk wichtig, mit hoher Bandbreite bei geringer Latenz für die Inter GPU Node-Kommunikation. Auch die Anbindung an den neuen Storage musste einbezogen werden”, erklärt Viktor Pal, Senior DeepLearning Infrastructure Engineer bei Continental. Auf Basis jüngster Infiniband HDR-Technologie wurde hierfür eine Lösung konzipiert und aufbauoptimiert installiert mit klar strukturierter Architektur, die einfach zu warten und leicht modular erweiterbar ist bei vergleichsweise geringen Kosten.

In einem non-blocking Interconnect Cluster-Aufbau mit mehreren Racks wurden hierfür Infiniband Switches mit mehr als 500 optischen sowie Kupfer-Infiniband-Kabeln in einer Gesamtlänge von mehr als 2,5 km verbaut. Bisher konnte eine hohe Zahl an V100 GPGPUs in NVIDIA DGX-Systemen an der Cluster Fabric angeschlossen werden. Aktuellste Mellanox/NVIDIA Low Latency Switche ermöglichen durch parallele Inter-GPU-Direkt-Speicherzugriffe (GPUDirect RDMA) eine hohe Deep Learning Performance mit großer Bandbreite bei geringer Latenz.

FLEXIBLER UND ERPROBTER STORAGE

Continental war außerdem auf der Suche nach einer skalierbaren, hoch performanten Storage-Plattform, um die NVIDIA DGX Systeme mit Daten für Deep Learning zu versorgen.? Ein Proof-of-Concept Workshop durch IBM-Experten auf Basis von Software Defined Storage (SDS) auf vorhanden Kundenservern konnte die Funktionen und Möglichkeiten der IBM Spectrum Scale Technologie aufzeigen. Sehr erfolgreich getestet wurden dabei u. a. eine anfängliche, nicht abgestimmte Leistung nahe an den physikalischen Grenzen der verfügbaren Hardware nach einer vom Kunden selbst durchgeführten, angeleiteten Installation unter Verfügbarkeit des Superior Infiniband Supports ?out of the box?. Die Möglichkeiten, Kubernetes-basierte Workloads ab Tag 1 zum Laufen zu bringen und das verifizierte Cloud Tiering sowie Export to Cloud mit Conti Amazon S3-Backend wurden ebenfalls bestätigt.

Auf dieser Basis wurde mit IBM ESS3000 Storage mit schnellen NVMe Drives eine Lösung implementiert, die extreme Performance mit geringen Latenzzeiten schon bei kleinen Kapazitäten liefert und sofort funktionsfähig war. Sie ist modular erweiterbar und verfügt initial über hohe Speicherkapazitäten, die nebenläufige Lesezugriffe auf Dateien in einer hohen Bandbreite bedienen kann.

Mit dem Systemhaus SVA System Vertrieb Alexander GmbH wurde hier ein technisch exzellenter Partner ins Boot geholt, dessen Experten die Gesamtintegration der Storage-Lösung im Cluster, Installation, Deployment, Konfiguration, Inbetriebnahme sowie die Schulung für Betrieb und Administration hervorragend umsetzte. ?Wir sind absolut überzeugt von unserer neuen Lösung, die die Trainingszeiten sofort von Wochen auf Tage reduzieren konnte”, bestätigt David Enenkel, Head of IT Operations bei der Continental Geschäftseinheit Fahrerassistenzsysteme. ?Von Ausschreibungsbeginn an haben die SVA- und IBM-Experten im Team durch Kompetenz, Unterstützungs- und Beratungsbereitschaft und Professionalität im Aufbau einen hervorragenden Eindruck hinterlassen.”

Die SVA System Vertrieb Alexander GmbH ist einer der führenden deutschen System-Integratoren. Das Unternehmen mit Hauptsitz in Wiesbaden wurde 1997 gegründet und beschäftigt heute mehr als 1.400 Mitarbeiter an 21 Standorten in Deutschland.

Das unternehmerische Ziel der SVA ist es, hochwertige IT-Produkte der jeweiligen Hersteller mit dem Projekt-Know-how und der Flexibilität von SVA zu verknüpfen, um so optimale Lösungen für die Kunden zu erzielen. Branchenunabhängige Kernthemen des Unternehmens sind Datacenter-Infrastruktur – wie Speicher-, Server- und Netzwerk-Lösungen sowie Virtualisierungs-Technologien – und auch Business Continuity, IT Service Management und SAP. Darüberhinaus bietet SVA Unterstützung im Betrieb der Infrastruktur durch Operational Services mit System Engineers schon ab First Level und Service “Made in Germany”.

SVA-Experten verknüpfen mehr als zwanzig Jahre an IT-Infrastruktur-Erfahrung mit Know-how für moderne Anforderungen wie RZ-Security, Big Data Analytics & IoT, Arbeitsplatz der Zukunft, Cloud und Agile IT & Software Development.

Das zertifizierte Solution Center der SVA in Wiesbaden bietet SVA-Experten und Kunden umfassende Demonstrations-, Entwicklungs- und Schulungsszenarien mit allen aktuellen Hardware- und Software-Lösungen der Hersteller. SVA hat die wichtigsten Zertifizierungsstufen u. a. bei folgenden Herstellern erreicht: IBM, Hitachi Vantara, NetApp, VMware, Citrix, Cisco, Dell EMC, Microsoft, HPE, Fujitsu, Lenovo und Nutanix.