Metadaten: Die Daten über Daten

Informationen über Sachverhalte und Vorgänge lassen sich anhand ihrer Merkmale durch Daten erfassen und aufbewahren. Diese Daten haben selbst ebenfalls Merkmale und lassen sich mittels dieser beschreiben und sortieren. Dies geschieht in sogenannten Metadaten: Daten die andere Daten beschreiben und ihre Merkmale festhalten, selbst jedoch kein Bestandteil der Dateninhalte sind. Die Idee, Wissens- oder Informationsbestände durch gemeinsame, einfache Merkmale zu überblicken, ist bereits Jahrhunderte alt: Bibliothekare nutzen seit jeher Indizierungssysteme, die bibliothekarischen Ordnungschemata, um sich in den Bücherregalen zurechtzufinden.

Informationen der Metaebene

Metadaten, auch Hinweis-, Verweis-, Beschreibungs- oder Merkmalsdaten genannt, bilden ihrer Funktion nach eine Ergänzung zu Inhaltsdaten. Während inhaltliche Daten Merkmale von Objekten abbilden, beschreiben die Metainformationen bestimmte Merkmale der Daten selbst. Welche Merkmale genau erfasst werden, ist Kontextabhängig. Allgemein entstehen Informationen aus Daten erst durch deren Strukturierung. Diese Struktur hängt vom vorgesehenen Verwendungszweck der Daten und ihrer Verarbeitung ab, Information und Wissen sind also zweckgebunden. Dies trifft auch auf die Metadaten zu, die in den unterschiedlichsten Bereichen auftreten. Bekannt sind sie unter anderem aus dem Bereich der Kommunikation und der digitalen Fotografie. Als telefonische Verbindungsdaten zeichnen sie abseits des Gesprächsinhaltes andere Informationen über stattgefundene Telefongespräche auf, wie etwa Gesprächsdauer oder das Gesprächsdatum. Bei mobilen Geräten kann zusätzlich noch der Ort erfasst werden. Weitere Ordnungsmerkmale können Größe, Typ, Autor oder Herkunft der Dateien sein. Durch diese einfachen Kennzeichnungen können einmal „verlegte“ Dateien auch auf unübersichtlichen und großen Datenspeichern wiedergefunden werden.

Hinweise schaffen Ordnung

Die technische Infrastruktur erzeugt zunehmend riesige Mengen an Daten: Vernetzte Sensoren, soziale Netzwerke, wissenschaftliche Messungen oder Transaktionsströme von Geld und Waren schaffen jährlich exponentiell anwachsendes Digitalmaterial. Diese unter dem Schlagwort Big Data zusammengefassten Daten haben für sich genommen erst einmal keine Aussagekraft und müssen zusammengeführt werden, um Informationen aus ihnen extrahieren zu können. Zur Erschließung dieser Bestände wird auf Kenntnisse aus Stochastik, Informatik und Lerntheorie zurückgegriffen. Die Data Science entwickelt daraus Methoden wie das Data Mining, mit dem unstrukturierte Speicherbestände nach Mustern und inneren Verbindungen durchforscht werden kann. Doch diese Verfahren sind sehr zeit- und ressourcenintensiv und von daher nicht für den Umgang in Echtzeit mit den Daten geeignet. Aufgrund der großen Masse an Daten ist für deren sinnvolle Nutzung eine gewisse Vorsortierung der Datensätze notwendig. Diese Aufgabe leisten die Metadaten. Sie geben wichtige Zusatzinformationen oder erschließen sogar relevantes, in den Inhaltsdaten selbst gar nicht enthaltenes Wissen. Als Hinweisdaten geben sie sozusagen eine erste Stoßrichtung vor, nach der Daten ausgewertet, betrachtet oder verarbeitet werden können oder erzeugen neues Wissen durch die Kontexte, in die sie die Inhaltsdaten setzen.
Hinweisdaten helfen aber auch, vorhandenes Wissen leichter aufzufinden. Wie in einer Bibliothek können durch sie bestimmte Informationen leichter aufgefunden werden. Ohne diese Hinweise sind manche Datenbestände sogar aufgrund ihres Umfangs überhaupt nicht mehr nutzbar. Sie sind also in Bezug auf Big Data so etwas wie Leuchttürme, die bei der Navigation durch die unübersichtlichen Datenmengen helfen, ohne schon die exakte Landschaft zu kennen.

Metadaten: Eigenschaften und Verarbeitung

Metadaten stammen oft aus unterschiedlichen Quellen, können aber zusammengeführt und gemeinsam verarbeitet werden. Man spricht davon, sie interoperabel zu machen. Auch mit Hilfe stochastischer Verfahren kann relevantes Wissen aus Verweisdaten gewonnen werden. Einerseits durch Mining, hier Metadaten Mining genannt, andererseits können in der Metadaten Analyse Beziehungen (zwischen Daten, Usern oder Gruppen) durch den Abgleich verschiedener Metainformationen miteinander herausgearbeitet werden. Ebenfalls werden Datenbestände auf die Beziehungen zwischen Beschreibungsdaten und Inhalten hin untersucht. Dadurch wird es später möglich, nur durch Merkmale der Daten gezielt auf Inhalte schließen zu können, ohne den aufwändigen Weg über deren elektronische Verarbeitung gehen zu müssen. So tauchen in Texten oft gewisse Schlagworte in Verbindung mit bestimmten Textinhalten auf. Nach diesem Prinzip sortieren Spam-Filter unerwünschte E-Mails aus. Aber die beschreibenden Daten erlauben es nicht nur, große Datenmengen zu strukturieren, sondern sie auch in Echtzeit handhabbar zu machen. Anbieter von Online-Straßenkarten können anhand von Standortmeldungen mobiler Geräte in einer bestimmten Region Angaben zu möglichen Staus machen.
Durch Metadaten wird also in Datenbeständen vorhandenes Wissen nicht nur leichter und manchmal ohne großen Rechenaufwand zugänglich, sondern sie enthüllen auch Muster, die allein durch Inhaltsdaten als solche nur schwer oder überhaupt nicht zugänglich wären. Weiterhin ermöglichen es Beschreibungsdaten, mit wenig Datenverarbeitungsaufwand Schlüsse aus vorhandenen Datenmengen zu ziehen. So ist es einfacher die Standortinformationen eines umfangreichen digitalen Fotoarchivs zum Auffinden von Urlaubsfotos zu nutzen, als diese aus den Bildinhalten selbst zu ermitteln. Nicht zuletzt ermöglichen es Merkmalsdaten, unterschiedliche Sorten von Daten auf gemeinsame Eigenschaften hin zu untersuchen und werden damit zum unerlässlichen Werkzeug im Umgang mit großen und kleinen Datensätzen.