Trusted AI: Teradata unterstützt OTFs von Apache Iceberg und Linux Foundation Delta Lake

San Diego (US), Starnberg, 08. Mai 2024 - Cloud-native Analytics Plattform und KI/ML-Engine für moderne Datenstrategien; kostengünstiger Speicher auf Enterprise-Level...

Zur Ankündigung: Teradata kündigt die Unterstützung der offenen Tabellenformate (OTFs) Apache Iceberg und Linux Foundation Delta Lake an. Mit diesem Schritt zu mehr Offenheit und Interoperabilität trägt Teradata nach eigenen Angaben dem Branchentrend zu Open-Source-Technologien Rechnung. Zusätzlich ist geplant, Teradata VantageCloud Lake und Teradata AI Unlimited im zweiten Quartal 2024 als Public Preview auf den AWS- und Azure-Marktplätzen zur Verfügung zu stellen. Bei VantageCloud Lake handelt es sich um eine Cloud-native Analytics- und Datenplattform für KI. Teradata AI Unlimited ist eine On-Demand und Cloud-native KI/ML-Engine. Teradata verfolgt mit seinen Datenmanagement-Lösungen einen offenen und vernetzten Ansatz, der Unternehmen bei einer modernen Datenstrategie für vertrauenswürdige KI (Trusted AI) unterstützt. (1)

 

Anbieterneutrale OTF-Unterstützung

Offene Tabellenformate (Open Table Format / OTF) stellen einen Wechsel von proprietären Datenspeicherlösungen hin zu flexibleren, plattformübergreifenden Speicherlösungen dar. Ziel ist es, die Interoperabilität, Kosteneffizienz und Auswahlmöglichkeiten zu verbessern. Obwohl einige Anbieter angeben, die Offenheit von OTFs zu unterstützen, binden sie ihre Nutzer häufig an bevorzugte Formate. Dies schränkt das Potenzial für Kreativität und Innovation nicht nur bei Early Adopters ein, sondern langfristig bei allen Nutzergruppen. Teradata verfolgt nach eigenen Angaben dazu ein offenes und vernetztes Ökosystem für Trusted AI:

Die anbieterneutrale OTF-Unterstützung und Katalogintegration von Teradata wurde laut Anbieter so ausgelegt, dass die Plattform verschiedene Kataloge zuverlässig lesen kann.

Darüber hinaus sollen Parallel Processing, Workload-Management und Abfrageoptimierung von gemeinsam genutzten Daten zu einer optimaler Performance beitragen können.

Die Teradata-Plattform integriertFirst-Party-Services wie Apache Iceberg und Linux Foundation Delta Lake. (2) Dadurch ermöglicht sie den Cross-Read- und Cross-Write-Zugriff auf Daten, die auf verschiedenen Plattformen gespeichert sind, darunter AWS Glue, Unity und Apache Hive.

Die Interoperabilität erstreckt sich über Multi-Cloud- und Multi-Data-Lake-Umgebungen und soll eine transparente Nutzererfahrung bei der Arbeit mit Daten ohne aufwändige Datenbewegungen oder Änderungen ermöglichen können.

 


Bildquelle: Teradata

Anmerkung zur Abbildung: OTFs bieten eine standardisierte Speicherabstraktionsschicht, die die Struktur und die Regeln für die Interaktion von Analysetools mit den Daten im Objektspeicher definiert. Diese Architektur ermöglicht die Verwaltung eines einzigen Datenspeichers, der von mehreren Analyseprogrammen und -werkzeugen genutzt werden kann, ohne dass mehrere Kopien großer Datensätze gehostet, repliziert und verwaltet werden müssen. Kommentarauszug Hillary Ashton, Chief Product Officer bei Teradata: „Die Zukunft ist technologieoffen… Der Einbezug von OTFs sowie die Erweiterung unseres On-Demand-KI/ML-Angebots zeigen, wie ernst es uns damit ist, Unternehmen das offenste Ökosystem mit nahtlos ineinandergreifenden Tools für Cloud-Analytics und Daten zu bieten“.

 

(2) Bildquelle: Delta Lake - State of the Project - Part 2

Mehr zum Thema "Optimized Writes" > Linux Foundation Delta Lake > https://delta.io/blog/state-of-the-project-pt2/

 

 

Teradata AI Unlimited

Die Einführung von KI hat zu einer schnellen Konsolidierung von Data Warehouses, Analytics und Data Science Workloads in einheitlichen Lakehouses geführt. Teradata erweitert seine Lakehouse-Fähigkeiten durch die Unterstützung von OTFs, die eine flexible, kostengünstige und benutzerfreundliche Speicherabstraktionsebene bieten. Anwender können Teradata AI Unlimited und andere Analyse-Engines nutzen, indem sie ihre eigenen Datensätze in ihren Cloud-Objektspeichern behalten. Dies geschieht ohne den Aufwand oder die Kosten eines Datentransfers. Der sichere, gemeinsame Zugriff auf große Datensätze ermöglicht es Nutzern, Datenpipelines zu erstellen, Modelle zu bewerten und zu trainieren, Analysen und Entscheidungsfindung zu verbessern u.v.m.

 

Die Arbeit mit KI-Datensätzen ist eine der häufigsten Arten, in denen Unternehmen heute OTFs nutzen. Daher ist es wichtig, dass Plattformen zur Beschleunigung von KI-Anwendungsfällen entsprechende Datenformate unterstützen – so wie Teradata AI Unlimited: eine offene und vernetzte On-Demand- und Cloud-native KI/ML-Engine, die nun auch OTFs unterstützt. AI Unlimited, das in Kürze als Public Preview auf AWS- und Azure-Marketplace verfügbar sein wird, ermöglicht es Data Scientists, Data Engineers und Entwicklern, KI-Projekte in großem Umfang zu testen, mit ihnen zu experimentieren und im Betrieb einzusetzen:

Teradata AI Unlimited ermöglicht Hochleistungsberechnungen, Parallel Processing und fortschrittliche In-Engine-Analysen, die für die Ausführung und Operationalisierung von KI-Workloads erforderlich sind.

Amazon SageMaker und Azure Machine Learning können in AI Unlimited-Workloads integriert werden. Azure OpenAI Services bieten darüber hinaus große Sprachmodelle (Large Language Models, LLMs), die für die Entwicklung generativer KI-Anwendungen verwendet werden können.

Die in AI Unlimited erstellten Prototypen können über VantageCloud nahtlos in die Produktion überführt werden, was Unternehmen einen deutlichen Mehrwert bieten kann.

AI Unlimited umfasst die Funktionen von Teradata ClearScape Analytics. Diese bieten Unternehmen die Transparenz, Nachvollziehbarkeit und Reproduzierbarkeit, die für vertrauenswürdige KI (Trusted AI) erforderlich sind.

 

Neue Integrationen

Mit OTFs und AI Unlimited lassen sich die Kosten und die Komplexität von KI-Workloads reduzieren, indem sie die Aufwendungen für die Datenspeicherung und die Notwendigkeit von Datenbewegungen oder Replikationen minimieren. Zusätzliche neue Integrationen von Drittanbieter-Tools – Airbyte Cloud, Apache Airflow™ und dbt™ – können den Aufbau von Datenpipelines beschleunigen und die Produktivität steigern, indem sie Data Engineers von repetitiven Aufgaben befreien.

Airbyte Cloud: Verbesserung der Dateneingabe in VantageCloud mit einem vollständig verwalteten und gehosteten Service, der eine zeitaufwändige Einrichtung und Verwaltung der Infrastruktur überflüssig machen soll.

Apache Airflow: Programmatische Erstellung, Planung und Überwachung von Workflows.

dbt (data build tool bzw. Datenerstellungstool): Verwaltet das T in ELT (Extract Load Transform) und ist ein häufig verwendetes Tool für die Datentransformation in Datenbanken, Data Lakes und Data Warehouses.

Zur Verfügbarkeit: Die OTF-Unterstützung in VantageCloud Lake und AI Unlimited auf AWS und Azure soll laut Anbieter im Juni 2024 verfügbar sein. AI Unlimited soll im 2. Quartal 2024 als Public Preview auf AWS- und Azure-Marketplace verfügbar sein. Die Integrationen von Airbyte Cloud, Apache Airflow und dbt sind nach Teradata ab sofort verfügbar.

(1) Quelle / externer Link > https://www.teradata.com/

 

Querverweis:

Unser Beitrag > Zu den Schlüsselkomponenten eines zielführenden KI-Fahrplans für Unternehmen

Unser Beitrag > Explodierende Cloud-Kosten und Jetzt?

Unser Beitrag > Qdrant Managed Vektordatenbank: Neues Hybrid-Cloud-Angebot für KI-Anwendungen