Mit Data Warehouse (dt: Daten-Lagerhaus) wird eine zentrale Datenbank bezeichnet, in der Informationen aus unterschiedlichen Quellen in einem einheitlichen Format abgelegt werden. Das Data Warehouse dient dazu, die Daten aus mehreren unterschiedlich strukturierten Datenbanken zentral abrufbar zu machen. Dadurch lassen sich Daten global einsehen und der Aufwand, um die Daten verwerten zu können, wird drastisch reduziert. Dadurch wird zum Beispiel Data Mining ermöglicht.
Mehr Daten – ein Zugang
In den Neunzigerjahren setzte sich das groß angelegte Speichern digitaler Daten langsam aber sicher durch. Damit diese Datenbestände auch Grundlage strategischer Entscheidungen werden konnten, mussten sie einheitlich sortiert und einfach abrufbar sein. So entstand die Idee zum Data Warehouse, in dem alle wichtigen Daten unterschiedlicher Quellen konsistent gesammelt werden. Eine einfache Liste von Daten konnte den Ansprüchen nicht gerecht werden, denn spezifische Anfragen sind dadurch kaum möglich. Die Daten müssen im Data Warehouse so aufbereitet werden, dass der Zugang zu den gewünschten Informationen für den Vertrieb ebenso einfach ist, wie für die Buchhaltung – obwohl beide gänzlich unterschiedliche Anforderungen stellen.
Wie funktioniert’s?
Da im Data Warehouse sowohl Kunden- und Lieferantendaten, als auch Artikel- und Produktdaten und interne Daten abgelegt werden sollen, werden riesige Ansprüche an die Infrastruktur eines solchen Systems gestellt. Insbesondere bei großen Konzernen muss das System mit ständig hohen Zugriffszahlen zurechtkommen. Da das Data Warehouse der Datenbeschaffung und -integration dient, der langfristigen Datenspeicherung und auch der Datenanalyse und -auswertung, sind Data Warehouses in der Regel schichtartig sortiert.
Eine Schicht ist für die Aufnahme der Daten verantwortlich, eine andere sortiert diese, eine weitere Schicht ist für den Abruf und die Ausgabe der Benutzeroberfläche verantwortlich. Die Anzahl der Schichten variiert nach Größe des Data Warehouse. Dank dieser Organisation ist ein Data Warehouse in der Lage, den Anforderungen auf der technischen Seite gerecht zu werden. Entscheidendes Merkmal des Data Warehouse ist, dass die Daten aus unterschiedlichen Quellen kommen und via ETL zusammengetragen werden.
ETL steht für „Extract, Transform, Load“ und beschreibt den Dreischritt, indem die Daten zunächst extrahiert, auf die Zieldatenbank angepasst (transformiert) und schließlich in die Datenbank geladen werden. Innerhalb des Data Warehouses werden die Daten nach Themen sortiert und abgelegt. Die Struktur muss dem Unternehmen bzw. der Organisation angepasst werden, damit die unterschiedlichen Organisationseinheiten (Vertrieb, Produktmanagement, Buchhaltung, etc.) einen möglichst unkomplizierten Zugriff auf die für sie relevanten Daten haben.
Damit die Daten aus unterschiedlichen Quellen vereinheitlicht werden können, reichert man sie mit Meta-Daten an. Diese Meta-Daten vereinfachen das Auffinden der relevanten Informationen für die Nutzer des Data Warehouses. Für die Auswertung der Daten spielt auch die zeitliche Komponente eine Rolle. Deshalb lassen sich Daten in unterschiedlichen Zeiteinheiten abrufen, gleichzeitig spielt der Intervall in dem die Daten aktualisiert werden eine Rolle. Findet eine ständige Aktualisierung statt, spricht man von einem Real-Time-Data-Warehouse.
Im Gegensatz zum richtigen Lagerhaus, wird das Data-Warehouse niemals leerer. Es werden ständig Daten hinzugefügt aber keine gelöscht, denn die Informationen sollen langfristig gespeichert werden. Aus diesem Grund muss ein Data Warehouse so organisiert sein, dass eine stetiges Wachstum möglich ist.
Die Relevanz des Data Warehouse für die Suchmaschinenoptimierung
Data Warehousing spielt für die Suchmaschinenoptimierung insofern eine Rolle, als das man derzeit versucht herauszufinden, inwieweit sich das Konzept des Data Warehouse auch auf die Datenerhebung der Suchmaschinenoptimierer anwenden lässt. Google Universal Analytics ist ein erster Schritt in diese Richtung, denn mit diesem Analysetool lassen sich eigene Messwerte und benutzerdefinierte Kriterien bestimmen.