Weshalb Flash Storage für Big Data derzeit wenig hilfreich ist

Starnberg, 4. Juni 2013 - Überlegungen zum sinnvollen Einsatz von Flash Storage bei Real-time Database Analytics Apps...

Zum Hintergrund: Flash (NAND) Storage ist zwar begrifflich bei den RZ-Betreibern im deutschsprachigen Raum angekommen, aber es herrscht z.T. noch erheblicher Nachholbedarf an qualifizierter Information zum wirtschaftlichen Betrieb von Flash im Unternehmen; viele zögern deshalb auch noch beim Einsatz der Technik bzw. befinden sich gerade in der Evaluierungsphase. Andererseits: das Angebot von Flash Storage ist inzwischen umfangreich, qualitativ hochwertig und wird durch den Markteintritt von den großen Storage Playern wie EMC (XtremI/O), NetApp (LSI Engino) oder IBM (TMS-Aquise) natürlich bekannter und somit auch für kommerzielle Rechenzentren interessant (Kompatibilität, Qualität, Preispunkt, Service, Support etc.).

Mit der Vielfalt der Lösungsangebote (All-Flash, PCIe Caching, SAN-Caching, SSD-Disks, Hybrid Arrays...) steigt die „Qual der Wahl“, denn neben etablierten Herstellern haben sich inzwischen eine Vielzahl neuer Anbieter im Markt mit ihren Produkten positioniert (Pure Systems, Violin Memory, Nimbus Data, Tintri, Whiptail, Nimble Storage, QLogic, LSI etc.).

Ein zentrales Kriterium bei der Beschaffung (neben dem Preis und der Technologie – Flash ist nicht gleich Flash...) ist vor allem die Applikations-Unterstützung. Nicht immer liefert Flash „quasi automatisch“ die versprochene Leistung, sprich z.B. I/O-Performanceverbesserungen um den Faktor 10 (siehe SQL) oder sogar 100.

Big Data ist ebenfalls – besonders in der Fachpresse und bei Herstellern – derzeit ein Riesenthema. Real-time Big Data Analytics versprechen die performante Echtzeit-Auswertung unternehmenswichtiger Informationen und was liegt näher, als Flash-Storage als #1 - Performance-Booster damit in Verbindung zu bringen...?!

Wenn wir uns diese Verbindung etwas genauer betrachten, muss man feststellen, dass Big Data & Flash-Storage derzeit kein ideales Paar abgeben. Der Grund liegt im I/O-Profil der Applikationen: zur Zeit sind die meisten NoSQL-/Hadoop Workloads Batch-orientierte Analysen und die Zugriffsmuster sequentieller Batch-Jobs sind nicht optimal für die Flash-Storage Performance (bei sequential reads nur ca. 3 x so schnell wie schnelle HDD); anders verhält sich das natürlich bei (SQL)Random Reads (nicht Random Writes). Auch werden die Daten bei den meisten klassischen Big Data - Apps zuvor bereits im Server komprimiert bzw. dedupliziert; damit fallen aus „Mehrwert-Sicht“ die meisten Flash-Only-Lösungen heraus (Kosten-/Nutzen-Argumentation). Anderseits sind bei wirklich großen Datenmengen auch die klassischen schnellen 15k Drives (SAS, FC) sehr teuer, sodass im Storage-Backend hier nur SATA als Alternative bleibt. Dies stellt besonderes für Anbieter von Flash-only – Arrays aktuell eine Herausforderung dar (Preis-/Leistung).

Fazit: Erst mit dem verstärkten Einsatz von neuen (online-) Realtime Datenbank Analyse-Funktionen in Verbindung mit Hadoop kann Flash seine Vorzüge ausspielen. Bis dahin wird sich das bevorzugte Einsatzgebiet aus Anwendungssicht wohl hauptsächlich im Bereich von traditionellen SQL-Datenbanken, der Server-/Storage-/Applikationsvirtualisierung sowie bei Virtual Desktops (VDI) abspielen. Hier ist der ROI je nach Anwendungsprofil am höchsten und damit aus Beschaffungssicht gut darzustellen. Speziell Hybrid Arrays mit Auto-Tiering - Funktionalitäten stellen hierzu eine wirtschafliche Lösung dar, denn es können bestehende preiswerte HDDs mit Flash-Storage zu einer kosteneffizienten Gesamtlösung kombiniert werden.

Storage Memory Technologien werden sich jedenfalls verstärkt bei relationalen Datenbanken etablieren und das Aufkommen von neuen “In-Memory-Architekturen (siehe SAP Hana, EXASOL etc.) in Verbindung mit DRAM und NAND-Flash (Tier-0) zeigt ja bereits den Weg auf.

Mehr zum Thema „Performance im Rechenzentrum“ erfahren Sie übrigens aus erster Hand auch am 20. Juni im Rahmen unserer nächsten Fachkonferenz in München. Alle Details hierzu inkl. Agenda und Link zur kostenlosen Anmeldung unter:

http://www.storageconsortium.de/content/content/erweiterte-agenda-einladung-zum-12-anwenderforum-des-storage-consortium