Text Mining

Der Streit um digitales Gold in der Wissenschaft

Der folgende Beitrag ist vor 2021 erschienen. Unsere Redaktion hat seither ein neues Leitbild und redaktionelle Standards. Weitere Informationen finden Sie hier.

Open-Science-Befürworter mühen sich nicht mehr nur mit dem offenen Zugang zu wissenschaftlichen Artikeln und Büchern oder Forschungsdaten. Man kämpft heutzutage genauso um die Erlaubnis, wissenschaftliche Publikationen mittels Text Mining und Data Mining auswerten zu können und sieht sich dem Widerstand der Verlage als Rechteinhaber ausgesetzt.

Während Open-Access-Publikationen von jedermann offen genutzt werden können, stehen Closed-Access-Publikationen nur den Wissenschaftlern zur Nutzung bereit, deren Einrichtungen diese Werke von den Verlagen käuflich erstanden haben. Um es genauer zu sagen: Sie stehen den Wissenschaftlern nur zur Lektüre, nicht aber zur maschinellen Auswertung mittels Text Mining oder Data Mining bereit.

Prinzipiell ist es technisch verhältnismäßig leicht machbar, für menschliche Analysen unverarbeitbar große Massen an Publikationen und Forschungsdaten durch Text Mining oder Data Mining maschinell auszuwerten. Dementgegen stehen jedoch die Interessen der Verlage als Rechteinhaber, die diese maschinelle Auswertung unterbinden wollen. Sie werden für ihre Blockadehaltung in der Wissenschaft teils harsch kritisiert, sind digitale Verfügbarkeit und die Möglichkeit der maschinellen Auswertung doch das Merkmal schlechthin der data-driven science, die statistische Muster in Daten-Meeren ausmacht, um diese anschließend wissenschaftlich zu erklären. Der sich regende Widerstand manifestiert sich unter anderem in der The Hague Declaration, die die Schaffung eines rechtlichen Anspruchs auf Mining fordert.

Tatsächlich sind wissenschaftliche Publikationen und teils auch dazugehörige Forschungsdaten in Journalen, wenn auch meist nur für Subskribenten, verfügbar, ein Text Mining oder Data Mining ist jedoch in den seltensten Fällen möglich: Meist stehen die Informationen unter Nutzungsbedingungen, die Mining ausdrücklich verbieten. Gegner der Techniken sind vor allem Verlage und andere kommerzielle Verwerter, die sich die Erlaubnis zur Anwendung der Techniken gern gesondert zahlen lassen wollen. Bereits 2012 sprachen sich Informationsanbieter in einer Konsultation des Intellectual Property Office in Großbritannien gegen eine generelle Möglichkeit zum Mining von Inhalten aus, an denen sie die Nutzungs- und Verwertungsrechte halten - obwohl die Forschungsergebnisse mit öffentlichen Geldern produziert wurden und auch wenn die Einrichtung eines Wissenschaftlers für die Nutzung der Inhalte zur Lektüre gezahlt hat.

Dem gegenüber stehen volkswirtschaftliche Erwägungen: Einer McKinsey-Studie zufolge könnte die Anwendung von Text Mining und Data Mining in der Wissenschaft der europäischen Wirtschaft eine Wertschöpfung von 250 Milliarden Euro pro Jahr bescheren. Voraussetzung hierfür wäre aber, dass die Ergebnisse der Mining-Verfahren kommerziell genutzt werden können.

Genau diese kommerzielle Verwertung durch andere ist aber den Verlagen ein Dorn im Auge. Dem Chemiker Peter Murray-Rust wurde nach zweijährigen Verhandlungen von einem Verlag das Recht eingeräumt, Publikationen mittels Text Mining auszuwerten - allerdings nur unter der Bedingung, dass der Verlag die Rechte an den Resultaten erhielte und diese nicht öffentlich zugänglich gemacht würden. Dabei nutzt Text Mining nicht nur der Wirtschaft, sondern vor allem auch der Wissenschaft: Durch Anwendung der Technik konnten kürzlich Informationen gewonnen werden, die eine frühere Diagnose von Alzheimer-Erkrankungen erlauben.

Erkenntnisse und Fortschritte dieser Art werden aktuell noch zu oft durch restriktive Lizenzierungen verhindert, allerdings könnte die anstehende Novellierung der EU-Copyright-Richtlinie die Situation der Wissenschaftler verbessern - unter anderem wird eine Art Blankoerlaubnis zum Text Mining und Data Mining wissenschaftlicher Werke diskutiert.

Die wissenschaftlichen Verleger argumentieren auch gegen diese Novelle, wenn auch nun nicht mehr mit Copyright-Ansprüchen, die die Novelle ja gerade aushebeln könnte. Vielmehr, so der Guardian, befürchte man, dass Inhalte, die zum Zweck des Minings aus den Verlagsangeboten heruntergeladen werden müssen, nicht nur ausgewertet, sondern auch kopiert und außerhalb des Verlagsangebot, gegen Zahlung oder frei, zum Download angeboten werden könnten.

Zwar existiert in einer europäischen Nation, Großbritannien, eine rechtliche Ausnahmeregelung für Text Mining und Data Mining zu nicht-kommerziellen Zwecken - diese aber, so der Guardian, will man von Verlagsseite keinesfalls ausgeweitet wissen; man zitiert Richard Mollet, Repräsentant der Publisher Association, mit den Worten:

It’s unnecessary. The digital single market effectively already exists with the provisions we have in place to allow things like text mining via our services. The barriers to using this technique are technological, not legal barriers. It’s a difficult thing to actually do, that’s why it takes time.

Wissenschaftler würden wohl nur der letzten Aussage zustimmen: Die Nutzung der Verlagsdienste zum Text Mining ist aufwändig, so verweist der Guardian auf eine Auswertung des Wellcome Trust, der zufolge eine Suche nach dem Begriff "Malaria" in der Datenbank UK PubMed Central (heute Europe PubMed Central) mehr als 1.000 Treffer zu Tage förderte, deren Artikel nicht Open Access verfügbar waren. Der Wellcome Trust schätzte, dass ein Wissenschaftler, der die notwendige Rechteabklärung über die Möglichkeit des Minings dieser Artikel anginge, ein gesamtes Jahr über 62% seiner Arbeitszeit mit dieser Aufgabe verbrächte.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine externe Buchempfehlung (Amazon Affiliates) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Amazon Affiliates) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.