Warum die Datenklassifizierung wichtig für den Nutzen von Cloud-basierten Storage-Services ist

Submitted by NDeuschle on 9 December, 2010 - 11:36

Starnberg, 09. Dez. 2010 – Welche Daten können gelöscht werden und welche dürfen in die (potentielle) Cloud...

Datenklassifizierung ist ein Stiefkind der Branche. Warum? Weil es bislang leichter war, neuen Speicher zu beschaffen, als sich mit den vorhandenen Daten im Unternehmen gründlich zu beschäftigen. Jetzt kommt Cloud-Computing und alles soll einfacher, preiswerter und besser werden... Mitnichten: Ohne eine vernünftige Strategie zur Anbindung bzw. Integration von internen IT-Services mit Public-Clouds (aka hybride Cloud-Modelle) wird sich eine schnelle Umsetzung und damit der erhoffte ROI nicht einstellen (das war auch schon bei den Anfängen von Outsourcing in diversen Projekten festzustellen).

Die Datenklassifizierung wird in diesem Zusammenhang bei Cloud-Storage-Services in Zukunft eine wichtige Rolle spielen und deshalb haben ich Ihnen hierzu einige Informationen zusammengestellt. Am Ende des Beitrags finden Sie auch eine kurze Anbieterübersicht (Software-Hersteller) und das pdf der aktueller Symantec Storage Studie 2010 mit den (Storage-)Trends aus Sicht des Herstellers.

Zum Hintergrund des vorliegenden Beitrags: Der potentielle Nutzen von Cloud Computing – also schnelle Verfügbarkeit neuer Services, niedrigere IT-Kosten, Skalierbarkeit etc. - wird sich für Unternehmen und deren Nutzer nur dann einstellen, wenn vorher entsprechende Strategien und Business Cases gründlich ausgearbeitet werden (Stichwort: unternehmerische Zielsetzung, rechtliche Aspekte, Datenschutz). Mögliche Implikationen bei Hybrid- und Public Cloud-Angeboten können für Unternehmen auf der IT-Infrastukturseite vielfältig und komplex ausfallen (Stichworte: fehlende Standards, Zugriffsrechte-/Zeiten, Netzwerkperformance etc.).

1. Treibende Faktoren für Storage-Clouds: Die unkontrollierte Vorhaltung von Daten treibt die Speicherkosten der Unternehmen in die Höhe, lässt Restoreprobleme entstehen und erschwert e‐Discovery-Prozesse. Die aktuelle Symantec Storage Studie 2010 (siehe Anlage) zeigt, dass ca. 75 Prozent der als Backup gespeicherten Daten auf unbestimmte Zeit aufgehoben werden. Backups dienen aber eigentlich nicht dazu, für mehr als 60 Tage gespeichert zu werden. Archive dagegen sind für die Langzeitspeicherung konzipiert, d.h. alle anderen Informationen sollten konsequenterweise gelöscht werden. Eingentlich ideale Voraussetzung gerade für viele mittelständische Unternehmen mit begrenzten IT-Ressourcen, auf Cloudangebote zu setzen. Die Schwierigkeit liegt aber in den Details: Welche Daten können in die Cloud migriert werden und welche sollten wirklich sicher gelöscht werden? Fragestellungen, die für viele Unternehmen auf Grund fehlender Werkzeuge bzw. des rasch wachsenden Datenvolumens (un-/semistrukturierte Daten) heute nicht einfach und vor allem schnell zu beantworten sind.

Neben Clouds ist aber auch die schnelle Entwicklung von neuen Medien (Web 2.0) und der damit verbundene Anstieg von Datenmengen zu beachten. Das stellt die IT vor die Herausforderung, geschäftsrelevante Informationen, die auf diesen Kommunikationswegen verbreitet werden, zu sichern und zu schützen. Um Datenverlusten vorzubeugen wird die Archivierung von Social Media Daten damit für die IT relevant.

Aus Storagesicht jedenfalls können Unternehmen die zu verwaltende Datenmenge und damit Kosten erheblich reduzieren, wenn sie Maßnahmen ergreifen, mit denen sie Dateien nicht länger als notwendig aufbewahren (bestimmte Datentypen, wie zum Beispiel Verträge oder Bestellungen, müssen über mehrere Jahre aufbewahrt werden, andere können früher gelöscht werden).

2. Weitere Probleme betreffen den Schutz von sensiblen Daten in der Cloud, oder wie bereits angesprochen: Was kann und darf in die Cloud? Dazu Wolfgang Munz, Geschäftsführer des Informationsmanagement-Spezialisten “dataglobal”: "Der Erfolg der Storage- beziehungsweise Archiv-Clouds hängt davon ab, ob es gelingt, den Endanwendern einfache, intuitive Methoden zur Verfügung zu stellen, um die richtigen Daten zu selektieren und transparent in die Cloud zu verlagern... Letztlich entscheidet diese Klassifizierung, ob das Projekt 'Cloud' für ein Unternehmen zum Erfolg wird..” Zitat Ende.

Die Datenklassifizierung betrifft dabei im wesentlichen den stark wachsenden Bereich der unstrukturierter Dateien im Unternehmen. Diese werden im Idealfall dann automatisch nach Geschäftskontext oder Erstellungsprozess bewertet und anschließend über Archivdaten mit der Information in Kontext gesetzt. Selbstverständlich wird die Datenklassifizierung aber auch bei strukturiertem Content in Datenbanken angewendet. Ziel ist es hier, die richtigen Daten auf dem jeweils geeignesten Storagemedium (Tiering) zu placieren, um z.B. (I/O-)Performanceaspekte zu adressieren.

Datenklassifizierung kann mehr “Storagenah” (siehe ILM, Information-Lifecycle-Management = Datenzentrisch) und-/oder stärker “Anwendungsnah” (siehe Content-/Document-Management, Compliance = Applikations-/Informationszentrisch) gesehen werden, ist aber in jeden Fall eine wichtige Voraussetzung für Enterprise Content Management – Initiativen bzw. Email-Archiving oder E-Discovery.

Aspekte wie Security, Regelkonformität, Zugriffsrechte, Speicherzeit-/löschen etc. sind unternehmenspezifisch zu werten (Anwendungen, Branchen), weshalb Daten- und Informationsklassifizierungs-Projekte in der Praxis neben entprechender Software oft den Einsatz von Professional Services-/Consulting bedingen.

Backup-Recovery, Archiving oder Emails sind jedenfalls (aus Storage-Sicht) ideale Anwendungen für die Klassifizierung, da hier der Anteil an redundanten Daten sehr hoch ist und meist auch der Leidensdruck. Hilfreich ist in diesem Zusammenhang die Anwendung weiterer (Storage-)Technologien wie DeDuplizierung oder Data-Compression.

Unterschiedliche Vorgehensweise zur Klassifizierung von Daten: Man unterscheidet drei Verfahren: a) Manuell b) Regelbasiert c) Kontextbasiert. Die manuelle Auswertung ist auf Grund der Datenvielfalt- und Mengen teuer (Faktor 10 - 20) und daher wenig praktikabel. Den automatisierten Verfahren gehört demnach die Zukunft.

Hier eine Auswahl von Software und Services zur Daten-/Informationsklassifizierungs mit Storage-Fokus für den deutschsprachigen Markt (Achtung: Auswahl erhebt keinen Anspruch auf Vollständigkeit):