Strategien für die Nutzbarmachung urheberrechtlich geschützter Textbestände für die Forschung durch Dritte

Organisatorisches

Institut für Recht und Digitalisierung (IRDT) und Trier Center for Digital Humanities (TCDH), Universität Trier

Organisation: Prof. Dr. Benjamin Raue und Prof. Dr. Christof Schöch

Termine: 27./28. November 2019 und 16./17. Januar 2020

 

Skizze

Die Workshopreihe schließt an die Tagung zum Thema Text und Data Mining in Recht, Wissenschaft und Gesellschaft an, die von Benjamin Raue und Christof Schöch vom 21.-22. Juni 2018 an der Universität Trier veranstaltet wurde und auf große Resonanz gestoßen war. Im Verlauf der Tagung konnten mehrere Themen identifiziert werden, deren Bearbeitung im Rahmen einer stärker fokussierten Workshopreihe ebenso dringlich wie nützlich erschienen. Dazu gehört auch das Thema der beiden hier beschriebenen beiden Workshops, die sich mit Strategien zur öffentliche Bereitstellung und damit zur Nachnutzbarmachung von Informationen befassen werden, die von urheberrechtlich Datensammlungen, insbesondere von Textsammlungen, abgeleitet worden sind.

 

Hintergrund des Themas ist eine Problematik, die sich aus dem neuen Urheberrecht für die Wissenschaft (UrhWissG) ergibt. Die dort enthaltenen Regelungen erlauben es Forschenden unter bestimmten Bedingungen, im Rahmen eines Forschungsprojektes auch urheberrechtlich geschützte Materialien aufzubereiten, zu einem sogenannten Korpus zusammenzustellen und dieses dann mit Methoden des Text-und-Data-Minings zu analysieren. Das Korpus selbst darf aber weder publiziert, noch an Forschende außerhalb des Projektkontextes weitergegeben, noch über die Projektlaufzeit hinweg gespeichert werden. Vielmehr muss es nach Ablauf des Projektes an eine geeignete Archivinstitution abgegeben und von den eigenen Rechnern gelöscht werden. Unter welchen Bedingungen dann eine weitere Nutzung durch die ursprünglichen Ersteller des Korpus oder durch andere Forschende möglich ist, ist derzeit noch weitgehend unklar (siehe hierzu den Beitrag von Eric Steinhauer bei der erwähnten Tagung). Weil in der Regel erhebliche zeitliche und finanzielle Ressourcen in das Erstellen solcher Sammlungen von Forschungsdaten investiert werden, weil dadurch die urheberrechtlich geschützten Ausgangsdaten in wesentlichem Maße angereichert werden, und weil Wissenschaft davon lebt, auf den Daten und Erkenntnissen vorangegangener wissenschaftlicher Arbeit aufzubauen, ist ein solches Verfahren in keinster Weise wissenschaftsadäquat und bedarf entweder einer sinnvollen Neuregelung oder pragmatischer Ausweichstrategien.

 

Die neue Urheberrechtsschranke in Art. 3 der EU-Urheberrechts-RL 2019/790 scheint bei der dauerhaften Eigenarchivierung der Textkorpora durch die berechtigten Wissenschaftler großzügiger zu sein als die deutsche Text und Data Mining Schranke. Allerdings muss hier der Umsetzungsprozess in das deutsche UrhG abgewartet werden. Es ist daher auch Ziel des Workshops, entsprechende Anforderungen der Wissenschaft klar zu benennen, damit sie bei der Umsetzung der Urheberrechts-RL 2019/790 in das deutsche UrhG berücksichtigt werden können. Klar ist aber jetzt schon, dass auch nach dem reformierten EU-Urheberrecht die Text-Korpora außerhalb des Forschungsteams nicht öffentlich zur Verfügung gestellt werden dürfen. Eine grundlegende rechtliche Neuregelung ist mittelfristig nicht zu erwarten.

 

Die Workshopreihe hat daher zum vorrangigen Ziel, vor diesem rechtlichen Hintergrund praktische Lösungen zu entwickeln und der Wissenschaft und dem Bibliothekssektor vorzustellen, wie für bestimmte Forschungsfragen nützliche Informationen auch unter den derzeitig gültigen urheberrechtlichen Rahmenbedingungen veröffentlicht werden können. Hierbei gibt es Parallelen zur Problematik der Anonymisierung von personenbezogenen Daten in den Sozialwissenschaften. Dort müssen personenbezogene Daten so anonymisiert werden, dass zwar der Personenbezug der Daten zu identifizierbaren Einzelpersonen nachweislich bzw. mit dokumentierbarer Sicherheit entfällt, bestimmte Forschungsfragen aber dennoch auf Grundlage der Daten bearbeitet werden können. Im hier verhandelten Falle geht es darum, urheberrechtlich geschützte Textdaten so zu transformieren, dass sie die urheberrechtlich geschützte Form verlieren, bestimmte Analyseverfahren des Text-und-Data-Mining aber weiterhin durchgeführt werden können.

 

Im Kern wird die Workshopreihe sich daher mit den folgenden, zusammenhängenden Teilfragen befassen:

 

  1. Welche unterschiedlichen Typen der ableitenden bzw. abstrahierenden Transformation von urheberrechtlich geschützten Texten kann man unterscheiden? (Bspw.: Transformation des zusammenhängenden Textes eines Romans in eine Statistik zu segmentweisen Worthäufigkeiten im Text oder Segmentierung des Romantextes in Gruppen von Sätzen mit zufälligem Rearrangement ihrer Reihenfolge.)
  2. Für welche Analysemethoden und Forschungsfragen eignen sich die unterschiedlichen abgeleiteten Datenformate, für welche nicht? (Bspw. können auf der Grundlage der segmentweisen Worthäufigkeiten eine stilometrische Autorschaftsattribution oder ein Topic Model weiterhin erstellt werden, Analysen zum Dialoganteil des Romans oder zur syntaktischen Struktur der Sätze sind hingegen nicht möglich; Analysen der Syntax wären aber auf Grundlage der zufällig angeordneten Sätze weiterhin möglich.)
  3. Wie müssen Texte transformiert bzw. umstrukturiert werden, damit die urheberrechtliche Struktur des Textes aufgelöst wirdund die weitere Bearbeitung und öffentliche Zugänglichmachung nicht mehr in den Anwendungsbereich des UrhG fällt? Wie kann der Transformationsprozess mit urheberrechtlichen Wertungen in Einklang gebracht werden?

 

Die Workshopreihe bringt für die Bearbeitung dieser Fragen eine Gruppe von Forschenden zweimal für zwei Tage zusammen. Die Forschenden werden dabei Erfahrungen und Kompetenzen aus vier besonders relevanten Bereichen zusammenbringen: rechtliche Rahmenbedingungen, informatische Methoden, geisteswissenschaftliche Anwendungsszenarien und Perspektive der Bibliotheken bzw. Infrastrukturen. Ergebnis der Workshops wird eine Handreichung sein, die Antworten auf die oben formulierten Fragen gibt und eine Handlungsanleitung sowohl für Forschende sein kann, die mit urheberrechtlich geschützten Textdaten arbeiten möchten, als auch für Archivinstitutionen, die eigene urheberrechtliche Bestände oder ihnen anvertraute Korpora (im Sinne des UrhWissG) für die Forschung nutzbar machen möchten.

 

Es ist die Absicht der Organisatoren der Workshopreihe, durch die Gespräche während der Veranstaltung selbst, aber insbesondere auch durch die Handreichung, die Umsetzung der beschriebenen Strategien durch Bibliotheken im Sinne von Pilotprojekten mit fachwissenschaftlichen Anwender/innen anzustoßen. In der Folge kann hieraus auch eine begleitende Beratungsaktivität entstehen und können entsprechende Konversionsservices entwickelt und angeboten werden.

 

Finden solche Strategien für die Nutzbarmachung urheberrechttlich geschützter Textbestände stärkere Verbreitung als dies bisher der Fall ist, können davon wichtige Impulse für die Nachnutzbarkeit von Forschungsdaten ausgehen, kann die geisteswissenschaftlich Forschung gerade zu Fragestellungen mit aktuellem Zeitbezug gestärkt und die Effizienz und Leistungsfähigkeit der Forschung wesentlich gefördert werden. Dazu möchte die Workshopreihe einen Beitrag leisten. Darüber hinaus sollen entsprechende Workshops für andere Medienformate (Bilder, Töne, Videos) angestoßen werden, bei denen ein entsprechender Bedarf besteht.

 

Impulsvorträge am 28. November 2019

  • PD Dr. Phil. Ass. Iur Frédéric Döhl (Deutsche Nationalbibliothek Berlin)
  • Dr. Karina Grisse (Universität Köln)
  • Dr. Florian Jotzo (Universität Kiel)
  • Peter Organisciak, Ph.D. (University of Denver)
  • Prof. Dr. Benjamin Raue (Universität Trier)
  • Prof. Dr. Achim Rettinger (Universität Trier)
  • Jörg Röpke (Universität Trier)
  • Prof. Dr. Christof Schöch (Universität Trier)