# Text und Data Mining und Urheberrecht: # Aktuelles zum Thema 'abgeleitete Textformate'
Christof Schöch (Universität Trier) SPP-CLS General Meeting, 22. September 2021 Präsentation: https://dh-trier.github.io/atf
-- ### Überblick 1. Rekonstruktion von Text aus CET (InvBERT) 1. Evaluation von Textformaten bei Topic Modeling 1. Abgeleitete Textformate im NFDI-Konsortium Text+ -- ## Rekonstruktion von Text aus CET (InvBERT) --- ### Kontext * Masterarbeit von Johannes Hoehmann im Fach Computerlinguistik (Trier; Betreuung: Achim Rettinger) * Hintergrund: Rekonstruierbarkeit von abgeleiteten Textformaten als Kriterium bei der urheberrechtlichen Einordnung * Fokus: Das Format "contextualized embeddings" (BERT) --- ### Grundidee
* Es liegt ein auf umfangreichen Daten trainiertes BERT-Modell vor * Volltext wird als Menge kontextabhängiger Embeddings kodiert * Frage: Kann der Volltext aus den Embeddings rekonstruiert werden? * Strategie: neuronales Netz lernt, die Transformation von Wörtern in Vektoren umzukehren --- ### Die "attack scenarios" * Erfolg ist abhängig vom jeweiligen "attack scenario" (= verfügbare Information)
* **SC1: Embedding-only**: nur die Embeddings sind verfügbar * **SC2: Black-Box**: API-Zugriff auf das Modell * **SC3: White-Box**: Tokenizer, Vocabulary, Architektur, Parameter, Encoding Layer (nicht aber Gewichte) des Modells bekannt --- ### Ergebnisse
* SC1: Rekonstruktion nicht denkbar * SC2: Substantielle Hürden * SC3 (White Box): Rekonstruktion möglich * Werte oben zeigen die Tests mit Harry-Potter-Zitaten * Rekonstruktion klappt hier sehr gut (BLEU: >0.9) --- ### Beispiel
-- ## Evaluation von Textformaten bei Topic Modeling --- ### Kontext * Masterarbeit im Fach Digital Humanities (Trier) * Fragestellung: wie gut eignen sich abgeleitete Textformate für Topic Modeling? * Testkorpus: 126 englische Romane --- ### Evaluierte Formate * Einfache Term-Dokument-Matrix (TDM) * Segmentweise Aufhebung der Sequenzinformation (SAS) * Selektive Modifikation der Tokens (TKN) * (N-Gramme) --- ### Ergebnisse in aller Kürze
Original vs. TDM – Original vs. SAS – Original cs. TKN
* Kohärenz der Topics wurde mit Palmetto erhoben * Hier visualisiert: jeweils 20 Modelle pro Textformat -- ## Abgeleitete Textformate in Text+ --- ### Beitrag zu "Collections" * TCDH trägt u.a. zum Bereich "Collections" bei * Umfang: Etwa 0.5 FTE über 5 Jahre * Kernaufgabe: Weiterentwicklung der abgeleiteten Textformate --- ### Aufgaben * Im Einzelnen * Spezifikation mehrere Abgeleiteter Textformate (ATF) * Spezifikation der Transformations-Routine * Evaluation der ATF: Performance verschiedener Methoden mit verschiedenen ATF * Rechtliche Einschätzung (Werkgenuß, Wiedererkennbarkeit, Rekonstruierbarkeit) * Beispielhaftes Angebot mehrerer Sammlungen als ATF * Perspektive: Zertifizierung der Formate und Prozesse * Abstimmung mit der Community (SPP!) * Auswahl der Formate * Auswahl der Textsammlungen * Präferenzen zu den Modalitäten --