Screen Scraping – Daten aus Webseiten auslesen

Screen Scraping bezeichnet allgemein eine Methode, vielfältige, zum Teil disparat angeordnete Informationen unter bestimmten Gesichtspunkten abzufragen und zu extrahieren. Werden dabei Daten von Webseiten ausgelesen, spricht man von Web Scraping.
Bei diesem automatisierten Prozess werden auf Webseiten oder in Datenbanken eingebundene Daten abgegriffen, ausgelesen, geparsed und dann in einer lokalen Datei oder einer eigenen Datenbank gespeichert.
Im Internet verfügbare Daten werden meist mittels eines Webbrowsers aufbereitet, um ansprechend für das menschliche Auge präsentiert zu werden. Die Rohdaten liegen als maschinell lesbarer Quelltext dem Surferleben zugrunde. Diese Rohdaten, meist in HTML oder XML hinterlegt, werden von Webcrawlern, Spider oder Bots genannt, pausenlos durchsucht. Dabei verursachen sie einen großen Teil von Datentraffic und stellen eine immense Belastung der Server dar.
Aus Big Data kann so aber in sehr kurzer Zeit gezielt nach Informationen gesucht und dabei immer noch extrem große Datenmengen geschürft werden. Denn die Programme finden schnell im Quelltext wiederzuerkennende Muster und entnehmen diesem routiniert eine Preisangabe oder einen regelmäßig angeordneten Tabellenbestandteil.
Ändert sich aber beispielsweise nur das Layout einer Seite, fällt es dem Programm schwer, sich zeitnah auf die neue Lesart einstellen. Problematisch sind für die Programme Captchas oder grafisch verschlüsselte Informationen. Screen Scraping Programme sind zwar in der Lage, auch diese zu umgehen, allerdings nur bei erhöhtem Aufwand. Eine für derartige Probleme weniger anfällige Screen Scraping Variante ist daher deren Weiterentwicklung in Form von sogenannten Wrappern. Kleinere Modifikationen werden von Wrappern ohne Datenverlust erkannt und Daten können trotzdem weiter ausgelesen werden.

Data Mining schöpft im Anschluss daran beliebiges Wissen aus diesen Daten und bündelt die Information zu Metadaten. Durch Reduktion von Daten und deren Analyse kann Data Mining
bestehende Gemeinsamkeiten oder Anomalien erkennen. Ausreißer aus einer Sequenz können beispielsweise darauf geprüft werden, ob sie ein Indiz für einen Betrugsversuch sind. Gemeinsamkeiten, die durch Clusteranalysen identifiziert werden, können Rückschlüsse auf bestehende Trends zulassen. Durch die iterative Wiederholung des Prozesses werden also zugleich Datenmustererkennung und Datenmusterbildung betrieben. Immer abstraktere Datenmodelle sind so verfügbar.

Screen Scraping Preisvergleichsportale und Fin Tech-Bereich

 Da sich Webseiten vielfach durch Werbeeinnahmen finanzieren, ist es entscheidend, welche Webseite bei der Suche nach Informationen angeklickt wird. Gelingt es einer Preisvergleichsseite durch die Anzeige von vielen Vergleichsinformationen bei nur einem Seitenaufruf Besucher von anderen Webseiten der verglichenen Anbieter abzuziehen, hat das letztlich negative finanzielle Konsequenzen für die betroffenen Seitenbetreiber. Dieser muss schließlich zusätzliche Kosten für das Betreiben seiner Webpräsenz aufwenden.
Vor Gericht konnten sich die daher beklagten Preisvergleichsseiten schließlich dennoch durchsetzen.
Zwar seien „wesentliche Teile“ einer Datenbank gesetzlich gegen die öffentliche Wiedergabe geschützt, die verglichenen Daten – im Präzedenzfall Ticketpreise einer Airline – stellten aber nicht den wesentlichen Teil der Datenbank des Unternehmens dar.
Ein Seitenbetreiber muss in den AGB oder den Nutzungsbedingungen der Webseite explizit verbieten, dass seine Seiten gescraped werden dürfen und auch aktiv technische Hürden einbauen, damit er überhaupt eine Chance hat, seine Interessen später juristisch durchsetzen zu können.
Das „Cloaking“, die Verschleierung von Daten, wird also vom Webseitenbetreiber implizit verlangt, will er vorhandene Daten trotz Publizierung im Web schützen. Es sollten also Captchas eingebaut sein oder eine Registrierungspflicht bestehen. Die Verwendung von Grafiken oder Flashanimationen kann auch ein Versuch sein, das maschinelle Auslesen abzuwehren. Die Vergabe von Session-IDs, die zeitlich limitiert sind, verhindert zusätzlich, dass sich ein Bot unerkannt in Datensätze einlesen kann, um diese per Screen Scraping abzugreifen.
Kommt es durch Screen Scraping nicht zu einer technischen Beeinträchtigung der ausgelesenen Webseite, stellt also das Auslesen von Preisangaben in Verbindung mit einem Datensatz, der das Produkt definiert, noch keinen Gesetzesverstoß dar. Anders sieht es aus, wenn die Produktbeschreibung eines Webtexters einfach übernommen wird. Dann wäre dessen Urheberrecht verletzt.
Wenn es die ursprüngliche Absicht ist, eine Seite zu betreiben, um Informationen an interessierte Nutzer weiterzugeben, wäre es paradox, Nutzern die Verwendung der dort gefundenen Information zu verweigern – auch, wenn beim Lesen der Information ein Programm zum Screen Scraping zur Hilfe genommen wurde.

Schon lange wird Scraping im Fin Tech-Bereich eingesetzt, um Onlinezahlungsvorgänge zu vereinfachen und zu beschleunigen. Eine europaweite gesetzliche Initiative will zukünftig aber stärker auf von den Banken selber eingerichtete Programmierschnittstellen setzen. Dazu hat sie eine erweiterte Zahlungsdienstrichtlinie entworfen, die nach einer Übergangszeit ein Verbot des Scraping vorsieht, wenn die Bank eine Programmierschnittstelle anbietet. Dritte, die im Auftrag eines Kunden Daten zu Kontovorgängen abfragen, um eine Zahlung auszulösen oder in einem Folgeschritt als Robo-Advisor personalisierte Finanzberatung anzubieten, können sich demnach nicht mehr per „direct access“ einen Zugang verschaffen, ohne vorher identifiziert worden zu sein. Kreditinstitute sollen aus Sicherheitsgründen wissen müssen, wer sich bei ihnen anmeldet, um Daten abzufragen. Banken werden so auch eine Informationshoheit über alle mit Finanzen verbundenen Transaktionen eines Kunden zurückgewinnen können.