Integration von Apache Spark in MapR-Distribution für Hadoop

SAN JOSE, Starnberg, 30. April 2014 – In-Memory-Framework "Spark" nutzt Pipelining-Technik zur Bereitstellung einer kontinuierlich erhöhten Anwendungsleistung…

Zum Hintergrund: MapR Technologies integriert in seine MapR-Distribution den kompletten Apache Spark-Technologiestack. Das In-Memory-Framework beschleunigt Programme im Speicher erheblich schneller, vereinfacht das Schreiben von Anwendungen und ermöglicht Echtzeit-Datenanalysen. Ferner geht MapR mit seiner Hadoop-Distribution eine strategische Partnerschaft mit Databricks ein. Mit Hilfe von Spark können sowohl Leistungsverbesserungen erzielt als auch die Entwicklungsproduktivität erhöht werden. Viele Unternehmen setzen Spark deshalb bereits heute produktiv in ihren MapR-Umgebungen ein. Neben Verlässlichkeit und Leistung ist es für diese Anwender wichtig, auf betriebliche Daten über die standardmäßig integrierte NFS-Schnittstelle direkt und quasi in Echtzeit zuzugreifen.

Nachfolgend einige Vorteile aus Betriebssicht zur Integration von Spark:

  • Die beim In-Memory-Framework Spark genutzte Pipelining-Technik sorgt für eine kontinuierliche erhöhte Anwendungsleistung. Bei vielen Applikationen spiegelt sich dies laut Anbieter in einer fünf- bis hundertfachen verbesserten Performance wider.
  • Spark-Jobs lassen sich mit einem Fünftel der Anzahl von Codezeilen umsetzen. die Programmierungsabstraktion ermöglicht es Anwendungen zu erstellen, die verteilte Kollektionen von Datensätzen (Resilient Distributed Datasets oder RDDs) in späteren Operationen wiederverwenden. Ferner können Entwickler die Anwendungen in mehreren Programmiersprachen einschließlich Java, Scala und Python schreiben und denselben Code mehrfach nutzen, zum Beispiel für die Batch-Verarbeitung, interaktive Datenabfragen oder Stream-Processing.
  • Die parallel zur Integration von Spark in die MapR-Distribution geschlossene strategische Partnerschaft mit Databricks bietet für Kunden einen 24 x 7 Support für alle Spark-Projekte. Ferner arbeiten die Unternehmen nach eigenen Angaben gemeinsam an einer schnellen Weiterentwicklung der Software und weiteren Neuerungen.

Mit der Integration des kompletten Spark-Technologiestacks einschließlich der fünf weiteren Unterprojekte stimmt die MapR-Distribution das Zusammenspiel von über 20 Apache Open-Source-Lösungen aufeinander ab. Damit eignet sie sich für vielfältige Anwendungszwecke, die von Batch-Verarbeitung, interaktiven Datenabfragen und –analysen sowie dem Stream-Processing über die Erstellung von Grafiken zur Analyse und Verwaltung der mit Hadoop verarbeiteten unstrukturierten Daten bis zum maschinellen Lernen reichen.

  • MapR ist mach eigenen Angaben die einzige Distribution, die Apache Open-Source-Projekte im monatlichen Rhythmus veröffentlicht. Dies ermöglicht Kunden in der Distribution enthaltene Komponenten zu aktualisieren, ohne einen kompletten Cluster-Upgrade durchzuführen. Open-Source-Projekte lassen sich schneller und bei geringerem Risiko für Unterbrechungen auf Grund von Cluster-Diensten integrieren.

Zitat Ion Stoica, CEO Databricks: "Als treibende Kraft hinter Spark ist für Databricks die jetzt mit MapR Technologies abgeschlossene strategische Partnerschaft ein weiterer wichtiger Schritt nach vorne. Die Kombination der verlässlichen und leistungsstarken für den geschäftlichen Einsatz entwickelten MapR-Distribution mit Spark, der Big-Data-Engine der nächsten Generation, ermöglicht Unternehmen schneller wertvolle Informationen aus ihren Datenbeständen zu gewinnen.”

http://www.mapr.com/products/apache-spark