TechLab - Demonstratoren zur Arbeit mit bibliographischen Daten

DESIR-Demonstratoren

Bibliographische Daten sind für die Geisteswissenschaften von zentraler Bedeutung. Viele Ressourcen, Tools und Softwareentwicklungen befassen sich mit bibliographischen Daten und decken Teile des Datenlebenszyklus ab, wie beispielsweise das Extrahieren, Archivieren, Verfeinern, Analysieren oder Visualisieren. Im Rahmen des DESIR-Projekts - DESIR steht für DARIAH ERIC Sustainability Refined - befasste sich ein Arbeitspaket mit bibliographischen Daten in den Geisteswissenschaften anhand von drei Demonstratoren. Da die zugrundeliegende Software bereits vorhanden war, konzentrierte sich die Arbeit darauf, die Komponenten in eine zusammenhängende Verarbeitungskette zu bringen und die Funktionalitäten der Software zu erweitern. Das Ergebnis dieser Arbeit wird vom Projekt CLARIAH-DE auf dieser Website archiviert, um die Demonstratoren zu verbreiten und die weitere Nutzung oder Adaption der Software zu fördern. So werden nachstehend die Demonstratoren beschrieben, die als Web-Dienste zugänglich sind. Auch die entsprechende Dokumentation ist im DARIAH ERIC GitHub Repository verfügbar.

DARIAH Code Sprints 2018/2019

Der DARIAH Code Sprint 2019
Der DARIAH Code Sprint 2019
Auch zwei Code Sprints gehörten neben der Projektarbeit zum Engagement des DESIR-Projekts. Ziel war es, öffentliches Feedback zu den Demonstratoren zu sammeln und gemeinsam weitere Funktionalitäten zu entwickeln. Ausgehend von den Bereichen textanalytische Dienste, entitätsbasierte Suche, wissenschaftliches Contentmanagement und Visualisierung wurden seit Sommer 2017 Ideen für die DESIR Code Sprints diskutiert und verfeinert. Für die Entwicklung von Konzepten und Demonstratoren der spezifischen Anforderungen der DARIAH-Community haben die Technologiepartner und die Niedersächsische Staats- und Universitätsbibliothek Göttingen als Arbeitspaketleitung diese Code Sprints rund um bibliographische Metadaten organisiert. Der erste Code Sprint fand vom 31. Juli bis 2. August 2018 im Institut für Bibliotheks- und Informationswissenschaft der Humboldt-Universität zu Berlin statt. Die Veranstaltung war offen für alle, die sich für die Programmierung von Use Cases der Digital Humanities interessieren, richtete sich aber in erster Linie an Entwicklerinnen und Entwickler. Sie diente der Förderung der Zusammenarbeit zwischen DARIAH-nahen Partnern und Institutionen sowie der Entwicklung von Dienstleistungskonzepten rund um bibliographische Daten. Obwohl als Teil des DESIR-Projekts organisiert, wurde die Veranstaltung als DARIAH-Aktivität gebrandet und verbreitet, um ein stärkeres Bewusstsein für DARIAH zu schaffen und sie eindeutig als Digital Humanities-Veranstaltung zu positionieren. Der Code Sprint wurden in vier Tracks gegliedert. Sie konzentrierten sich, mit Ausnahme des AAI-Tracks, auf bibliographische Daten:
  • A: Extrahieren bibliographischer Daten und Zitate aus PDFs unter Anwendung von GROBID
  • B: Import und Export bibliographischer Daten aus BibSonomy und Erfassung in bestehenden Sammlungen
  • C: Visualisierung prozessierter Daten mit zusätzlichen Dimensionen für Journals, bestimmten Themengebiete oder Abhängigkeitsgrafiken
  • D: Sicherung von Online-Diensten in der DARIAH-AAI mit SAML/Shibboleth
Code Sprint participants
Teilnehmende des Code Sprints 2019

GROBID

Nach der grundlegenden Entwicklung ab 2008 hat sich GROBID zu einer hochmodernen (Lipinski: 2013; Tkaczyk: 2018) Open-Source-Bibliothek für das Extrahieren von Metadaten aus technischen und wissenschaftlichen Dokumenten im PDF-Format entwickelt. Über reine bibliografische Extraktionsaufgaben hinaus besteht das Ziel der Bibliothek darin, die logische Struktur von Rohdokumenten zu rekonstruieren, um erweiterte Prozesse digitaler Bibliotheken in großem Maßstab zu ermöglichen. Um dies zu erreichen, entwickelt GROBID eine vollautomatische Lösung, basierend auf Machine Learning-Modellen (Linear Conditional Random Fields). Die Bibliothek ist in verschiedene kommerzielle und öffentliche wissenschaftliche Dienste wie ResearchGate, Mendeley, CERN Inspire und das nationale Publikationsrepositorium HAL in Frankreich integriert. Während des Code Sprints wurde eine Hands-On-Session angeboten, in der die Anwendenden durch die PDF-Daten-Extrahierung und -Verarbeitung geführt wurden. Ziel in Track A war es, PDF-Dokumente in das XML-TEI-Format zu extrahieren, die aus dem Extraktionsprozess gewonnenen Informationen mittels anderer Webdienste anzureichern und die in PDF-Dokumenten wissenschaftlicher Artikel gesammelten Ergebnisse zu visualisieren.

Hauptfunktionen/-entwicklungen in DESIR:

  • Erstellung eines neuen Modells für das Parsen von Bestätigungen sowohl in Form von Rohtexten als auch PDF-Dateien mit GROBID (https://github.com/kermitt2/grobid) und DeLFT (https://github.com/kermitt2/delft/).
  • Erstellung eines Bestätigungs-Webdienstes in GROBID.
  • Integrierte Ergebnisse des GROBID-Anerkennungsparsers in einen Demonstrator (https://github.com/DARIAH-ERIC/DESIR-CodeSprint-TrackA-TextMining).

Der GROBID-Demonstrator ist verfügbar über CLARIAH-DE.
PDF upload in GROBID and entity extraction
PDF upload in GROBID und Entity extraction

BibSonomy

Im Mittelpunkt stand die Vereinfachung der Dateneingabe, beispielsweise durch die Möglichkeit des Imports aus ORCID oder per Drag'n'Drop aus PDF-Dateien und die Nutzung von BibSonomy als Backend zur Speicherung und Organisation von Literaturnachweisen. Mit seiner REST-API ermöglichte es die kollaborative Speicherung und Abfrage bibliographischer Metadaten. Es wurde ein Werkzeug zum Extrahieren bibliographischer Metadaten aus PDF-Dateien unter Verwendung von GROBID und zum Speichern in BibSonomy entwickelt. Auf diese Weise können bibliografische Metadaten leicht und mit geringem Aufwand zu BibSonomy hinzugefügt werden. Das Tool verfügt über eine benutzerfreundliche Oberfläche. Der vollständige Java-Code und eine Installationsanleitung sind auf GitHub veröffentlicht: https://github.com/DESIR-CodeSprint/trackB.

Hauptfunktionen/-entwicklungen in DESIR:

  • Es wurden zwei neue Möglichkeiten der Datenübermittlung implementiert, 1) die Textdateien hochzuladen sowie 2) Text direkt im Browser über ein Textfeld zu übermitteln, so dass Nutzende Textteile aus anderen Quellen direkt kopieren und einfügen können.
  • Das Tool wurde mit einem individuellen Login für BibSonomy ausgestattet, sodass Nutzende bibliographische Einträge zu ihren eigenen BibSonomy-Konten hinzufügen können.
  • Die Anwendungsoberfläche wurde durch das Hinzufügen neuer hilfreicher Funktionen verbessert, z.B. das Entfernen bestimmter Elemente aus der Liste der extrahierten bibliographischen Elemente.

Der BibSonomy-Demonstrator ist verfügbar über CLARIAH-DE.
Extracted entities within BibSonomy’s personalized user section
Extracted entities in der persönlichen Benutzerumgebung von BibSonomy

Visnow/VIStory

Vorhandene Bausteine des generischen Visualisierungsframeworks VisNow (http://visnow.icm.edu.pl) wurden in Kombination mit Web-Frameworks verwendet. Das prototypische Web-Frontend für die 3D-Graphen-Visualisierung wurde um eine Individuum-zentrierte Ansicht von Knotenpunkten in Personennetzwerken, die die Autoren repräsentieren, sowie deren Randbereichen für Publikationen mit anderen Autoren in Personennnetzwerken erweitert. Die 3D-Interaktionskonzepte wurden neu gestaltet, und es wurden beispielhafte 2D-Karten erstellt. Im 3D-Interaktionsteil des Web-Frontends wurden eine Reihe von Erweiterungen implementiert und getestet, um die Interaktionsschemata zwischen dem Anwendenden und der 3D-Graphen-Visualisierung zu entwickeln. Es wurden Datenimport-Codes für die Interaktion mit Bibsonomy-Datenexportdateien und der Bibsonomy-API erstellt. Modifikationen der Backend-Datenstrukturierung für die Graphenerstellung wurden mit einer zusätzlichen Datenverarbeitungs- und Sortierebene im Backend getestet. Eine zusätzliche 2D-Visualisierung wurde auf der Frontend-Seite mit der deskriptiven High-Level-Sprache Vega-Lite eingeführt.

An exemplary visualization of data within ViStory
Eine beispielhafte Visualisierung von Daten mittels ViStory

Hauptfunktionen/-entwicklungen in DESIR:

  • Entwurf und Entwicklung eines internen generischen Datenmodells zeitlicher Entitätsbeziehungen.
  • Konzeptualisierung, Entwurf und Implementierung von Zeitachsen (einschließlich Koautorenschaft und Zitationsgraphen).
  • Webbasierte 3D-Visualisierung.
  • Erstellung eines Mappings vom RDF-Modell zum integrierten Modell.
  • Erstellung eines Mappings vom JSON-Modell zum integrierten Modell.
  • Erstellung eines Mappings vom BibSonomy REST API-Modell zum integrierten Modell.


Danksagung

Das DESIR Arbeitspaket 4 untersuchte Möglichkeiten zur Verbesserung bestehender Dienste für bibliographische Metadaten für DARIAH. Der Schwerpunkt des Arbeitspakets lag auf entitätsbasierter Suche, wissenschaftlichem Contentmanagement, Visualisierung und textanalytischen Diensten. Die Arbeit wurde von 2017 bis 2019 durchgeführt und kulminierte in zwei Code Sprints mit externen Teilnehmenden und zwei Workshops zur Software- und Infrastrukturnachhaltigkeit und -qualität sowie schließlich in einer Dokumentation der durchgeführten Arbeiten und Ergebnisse im DARIAH ERIC GitHub Repository. DESIR hat unter der Grant Agreement Number 731081 Mittel aus dem Forschungs- und Innovationsprogramm Horizont 2020 der Europäischen Union erhalten. INFRADEV-03-2016-2017 - Individual support to ESFRI and other world-class research infrastructures