THEMA

Text und Data Mining – in Recht, Wissenschaft und Gesellschaft

Die Tagung will das Text und Data Mining aus interdisziplinärer Perspektive angehen. Wissenschaft und Gesellschaft sind an den vom Gesetzgeber vorgesehenen rechtlichen Rahmen gebunden. Jedoch kann eine rechtliche Regulierung nur dann einen angemessenen Interessenausgleich schaffen, wenn sie die spezifischen Interessen und Anforderungen der betroffenen Anwender und Rechteinhaber berücksichtigt.

Konzept

Der Reichtum einer Informationsgesellschaft ist ihr Wissen. Momentan sollen weltweit mehr als 20 ZB (Zettabyte) Informationen gespeichert sein, im Jahr 2025 könnten es schon mehr als 160 ZB sein. Eine der Kernherausforderung einer Informationsgesellschaft ist daher, aus dem immer größeren Datenberg neues bzw. verfügbares Wissen zu generieren. Diese Aufgabe können Menschen nur noch mit Hilfe von Algorithmen bewältigen.

Text und Data Mining (TDM) ist ein Sammelbegriff für automatische Analyseverfahren, mit deren Hilfe große Mengen von Informationen durchsucht, in Beziehung zueinander gesetzt und so Trends und neue Zusammenhänge aufgezeigt werden können. Diese Verfahren werden in Unternehmen (Suchmaschinen, Spracherkennungs- und Übersetzungssoftware), Zeitungsredaktionen (Dataleaks) und in der wissenschaftlichen Forschung auch in den Geistes- und Sozialwissenschaften eingesetzt, die zunehmend auf empirische, datenbasierte Forschungsmethoden setzt.

Bei dem Einsatz der Analyseverfahren sind viele verschiedene Interessen betroffen: Unternehmen möchten innovative Produkte und Services anbieten. Journalisten möchten gesellschaftsrelevante Erkenntnisse publizieren. Und Wissenschaftler wollen möglichst ungehindert forschen und innovative Verfahren entwickeln können. Auch die Allgemeinheit hat ein Interesse an der Vergrößerung ihres Wissensschatzes. Viele Informationen sind jedoch in Texten, Bildern, Audio-, Videoaufnahmen oder Datenbanken und damit in urheberrechtlich geschützten Hüllen gespeichert. Insbesondere Verlage und andere Datenbankinhaber wollen daher an der intensiveren Nutzung ihrer Inhalte beteiligt werden. Wenn Daten personenbezogen sind, muss zudem das Recht auf informationelle Selbstbestimmung der Betroffenen gewahrt bleiben. Es ist Aufgabe von Recht, diese oft entgegengesetzten Interessen auszugleichen und durch klare Vorgaben Rechtssicherheit für alle Beteiligten zu schaffen.

Trotz der immer größeren Bedeutung des Text und Data Minings steckt die (rechts-) wissenschaftliche Diskussion über dessen rechtliche Ausgestaltung in Deutschland noch in den Kinderschuhen. Insbesondere ein interdisziplinärer Ansatz ist bisher nicht zu erkennen. Das muss sich ändern! Denn das Text und Data Mining rückt immer stärker in den Fokus des Gesetzgebers. Der deutsche, französische und englische Gesetzgeber haben bereits entsprechende Urheberrechtsschranken geschaffen. Auf europäischer Ebene wird aktuell darüber gestritten. Deswegen soll ein Dialog zwischen Rechts- und anderen Wissenschaften, zwischen Anwendern, betroffenen Rechteinhabern und anderen Stakeholdern in Gang gebracht werden.

Sessions

Die Keynote adressiert die Notwendigkeit von automatischen Analysemethoden für den investigativen Journalismus, insbesondere bei der Extraktion gesellschaftlich relevanter Informationen aus Datenleaks wie den Panama Papers oder den WikiLeaks.In der ersten Session skizzieren Vertreter aus unterschiedlichen wissenschaftlichen Disziplinen sowie weiterer Stakeholder die Bedeutung von Text und Data Mining-Techniken in ihrem Bereich. Sie diskutieren, welchen Einfluss diese auf ihr wissenschaftliches und methodisches Selbstverständnis haben und auf welche rechtlichen Hürden sie bislang gestoßen sind.

In der zweiten Session soll eine Diskussion angestoßen werden, wem Rechte an den teilweise aufwendig bearbeiteten Datenkorpora zustehen sowie ob und wenn ja, unter welchen Voraussetzungen, Dritte diese Korpora für eine Anschlussforschung nutzen dürfen. Allerdings handelt es sich dabei weitgehend um übertragbare Rechte. Aufgabe von wissenschaftlichen Communities ist daher, durch Regeln guter Wissenschaftlicher Praxis Regeln für die Anschlussnutzung festzulegen sowie Anreize für das Verfügbarmachen wissenschaftlicher Daten zu schaffen. Nach einem rechtlichen Impulsvortrag sollen insbesondere Vertreter unterschiedlicher wissenschaftlicher Disziplinen sowie von Forschungsorganisationen zu Wort kommen und das Selbstverständnis sowie die Zitier- und Berufungspraxis ihrer Disziplinen kritisch beleuchten.

In den Sessions drei wird die rechtliche Regulierung des Text und Data Minings systematisch dargestellt und anschließend aus Sicht der Anwender diskutiert. Dabei soll die neue, ab März 2018 geltende deutsche Urheberrechtsschranke (§ 60d UrhG) vorgestellt und mit den französischen und englischen Urheberrechtsschranken verglichen werden. Anschließend werden die datenschutzrechtlichen Schranken des Text und Data Minings in den Fokus genommen.

In der letzten Session wird beleuchtet, welchen Spielraum das Urheberrechtsgesetz für die Anschlussforschung lässt. Denn die neue Urheberrechtsschranke in § 60d UrhG zwingt Forscher dazu, Kopien des Ursprungsmaterials und die Korpora nach Abschluss der Forschungsarbeiten zu löschen. Sie dürfen die Daten jedoch an Bibliotheken, Archive und Bildungseinrichtungen zur dauerhaften Aufbewahrung übermitteln. Es soll herausgearbeitet werden, inwiefern die genannten Einrichtungen auf die neue Gesetzeslage reagiert und Forschungsposition eingerichtet haben. Außerdem werden technische und rechtliche Anforderungen an die Repositorien formuliert.

In der Summe soll mit der hier beschriebenen Tagungen das Problemfeld Text und Data Mining in Recht, Wissenschaft und Gesellschaft aus vielfältiger, interdisziplinärer Perspektive beleuchtet werden und ein Dialog entstehen, in dem die Beteiligten ihre Anforderungen formulieren können, um so auf eine produktive weitere Ausgestaltung der rechtlichen Rahmenbedingungen des Text und Data Minings hinwirken zu können.