Textkorpora in Infrastrukturen für die Geistes- und Sozialwissenschaften

Konferenz und Workshop

17. - 18. November 2014

09:00 - 15:00

Akademiegebäude am Gendarmenmarkt, Einstein-Saal, Jägerstrasse 22/23, 10117 Berlin

Die zweite gemeinsame DTA- und CLARIN-D-Konferenz behandelt Bedeutung, Nutzen und Möglichkeiten der Nachnutzung von „Textkorpora in Infrastrukturen für die Geistes- und Sozialwissenschaften“.In zwei übergeordneten Themenblöcken stellen Wissenschaftlerinnen und Wissenschaftler verschiedener geistes- und sozialwissenschaftlicher Disziplinen zum einen aktuelle, korpusgeleitete Forschungsfragen und zum anderen verschiedene Zugriffs- und Auswertungsmöglichkeiten für Textkorpora vor.

Konferenz

17.11.2014, 13:30-19:00 Uhr
18.11.2014, 9:00-15:00 Uhr

Die zweite gemeinsame DTA- und CLARIN-D-Konferenz behandelt Bedeutung, Nutzen und Möglichkeiten der Nachnutzung von „Textkorpora in Infrastrukturen für die Geistes- und Sozialwissenschaften“.

In zwei übergeordneten Themenblöcken stellen Wissenschaftlerinnen und Wissenschaftler verschiedener geistes- und sozialwissenschaftlicher Disziplinen zum einen aktuelle, korpusgeleitete Forschungsfragen und zum anderen verschiedene Zugriffs- und Auswertungsmöglichkeiten für Textkorpora vor.

Der erste Themenblock beschäftigt sich mit den Möglichkeiten und den gegenwärtig noch bestehenden Grenzen korpusbasierter Forschung, um daraus Anforderungen an die zugrundeliegenden Daten und Infrastrukturen abzuleiten. Derzeit existieren viele Projekte, die den Aufbau von Textkorpora zum Inhalt haben und dabei von vielfältigen Erkenntnisinteressen geleitet sind. Die zentralen Aufgaben von Forschungsinfrastrukturen wie CLARIN bestehen unter anderem darin, solche Korpusressourcen zu sammeln, zu pflegen, ggf. weiter aufzubereiten sowie Werkzeuge zu deren Auswertung, Be- und Verarbeitung anzubieten. Auf diese Weise entstehen zunehmend große Textressourcen, welche Antworten auf neue und innovative Fragestellungen erlauben bzw. denkbar machen. Ein möglichst breit gefächerter Einblick aus der Perspektive verschiedener Disziplinen in die Arbeit mit Korpusdaten, mögliche Fragestellungen sowie die daraus sich ergebenden Anforderungen an die zugrundeliegenden Textkorpora und an Forschungsinfrastrukturen, die diese Korpora bereitstellen, ist daher von großer Bedeutung für eine breite und divers interessierte Community.

In einem zweiten Themenblock wird von der praktischen Seite erörtert, wie Text- und Metadaten projektübergreifend zusammengeführt und im Zusammenhang auswertbar gemacht werden können. Dabei wird es zum einen um Bemühungen hinsichtlich der Formulierung von Standards, die daraus sich ergebenden Konsequenzen für die Datenaufbereitung sowie die Sicherung der Konformität der Daten mit den formulierten Standards gehen. Zum anderen werden bereits implementierte Methoden vorgestellt, um solcherlei homogen aufbereitete Textkorpora und Metadaten entsprechend datenbasierter Fragestellungen auszuwerten.

Workshop

17.11.2014, 9:00-12:30 Uhr

Die Konferenz geht mit einem CLARIN-D-Workshop zum Arbeitspaket 5 „Sprachressourcen und Dienste“ einher. Dieser Workshop knüpft an den CLARIN-D/AP5-Workshop vom Januar 2013 an und widmet sich den neuen Entwicklungen im Verbundprojekt CLARIN-D rund um den Aufbau, das Angebot und Möglichkeiten der Auswertung von CLARIN-kompatiblen Sprachressourcen. Dabei werden die in CLARIN verfügbaren Ressourcen, Tools und Services behandelt und die Maßnahmen zur Sicherstellung der homogenen Aufbereitung von Ressourcen (Richtlinien und Schulungseinrichtungen) vorgestellt.

Anmeldung:
bis zum 10. November 2014 erbeten. Bitte benutzen Sie das Formular zur Anmeldung.

Weitere Informationen

Programm, 04. November 2014

Workshop
Montag, 17. November 2014

9:00

CLARIN-D-Ressourcen:

Was kann ich nutzen, und wie funktioniert das?

Axel Herold

Berlin

9:30

Die Vielfalt vereinen: Die CLARIN-Eingangsformate CMDI und TCF
Susanne Haaf

Berlin
Bryan Jurish

Berlin

10:00

„CLARINifizierung“ von Ressourcen – Anforderungen, Beispiele und Erfahrungen
Volker Boehlke

Leipzig

10:30 – 11:00 Pause

11:00

Stets zu Diensten: Wenn Textdaten auf Services treffen
Thorsten Trippel
Tübingen

11:30

Repositories in CLARIN-D am Beispiel des CLARIN-D
Servicezentrums an der BBAW
Kai Zimmer

Berlin

12:00

Helpdesk für Ressourcen – Ressourcen für den Helpdesk
Timm Lehmberg

Hamburg

Konferenz

Montag, 17. November 2014

13:30

Begrüßung
Alexander Geyken

Berlin

Themenblock 1: Ressourcengestützte Forschungsfragen , Teil 1

13:45

Getting to Open Greek and Latin
Gregory Crane

Leipzig

14:15

Eine korpusgestützte Geschichte des deutschsprachigen
Romans von 1500 bis 1950
Fotis Jannidis

Würzburg

14:45
Canonical Text Service und Text Re-Use am Beispiel des DTA-Korpus
Jochen Tiepmar
Leipzig

15:15 - 15:45 Pause

15:45

Das Korpus digitalisierter historischer Schulbücher von GEI Digital als Ausgangspunkt geisteswissenschaftlicher Forschungsfragen
Robert Strötgen

Braunschweig

16:15
Textkorpora in der pädagogisch - psychologischen Forschung: Anwendungen und Perspektiven
Sascha Schroeder

Berlin

16:45

Ordnung, Sicherheit und Risiko seit den 1960er Jahren
Perspektiven einer historischen Semantik der Geschichte der Gegenwart
Achim Saupe

Potsdam

18:45
Abendvortrag:

Der Fall der Mauer im Spiegel des Berliner Wendekorpus:
Soziolinguistische Bedeutung und didaktische Anwendbarkeit

Norbert Dittmar

Konferenz
Dienstag, 18. November 2014

Themenblock 1: Ressourcengestützte Forschungsfragen, Teil 2

9:00

Historische Zeitungskorpora als Materialien einer Geschichte des öffentlichen Kommunizierens:
„Die Stats - und gelehrte Zeitung des Hamburgischen unpartheyischen Correspondenten “ als Beispiel
Britt-Marie Schuster

Paderborn

9:30

Regensburger Rechnungsbücher interdisziplinär: Wirtschafts- und sprachhistorische Perspektiven

Christopher Kolbeck

Regensburg

Kathrin Pindl

Regensburg

Susanne Haaf

Berlin

Themenblock 2: Aufbereitung, Zusammenführung und Auswertung von Ressourcen

10:00

Kontextualisierung von Sprachressourcen und - technologie in der geisteswissenschaftlichen Forschung
Elke Teich

Saarbrücken

Christoph Draxler

München

Hannah Kermes
Saarbrücken

10:30 - 11:00 Pause

11:00
Generative bayes'sche Modelle zur explorativen Analyse eines historischen Zeitungskorpus
Peter Fankhauser

Mannheim

11:30

Die Integration von OCR - erfassten Texten in das Deutsche Textarchiv am Beispiel der Zeitschrift „Die Grenzboten“ (1841-1922)
Kay-Michael Würzner

Berlin

12:00

Deutsches Referenzkorpus zur internetbasierten Kommunikation
Fragen der Standardisierung und Datenerhebung
Michael Beißwenger

Dortmund

Lothar Lemnitzer

Berlin

12:30 - 13:30 Pause

13:30
Computerlinguistische Techniken und Textanalyse jenseits der grammatischen Struktur

Jonas Kuhn
Stuttgart
André Blessing

Stuttgart

14:00
Semantic, Similarity and Corpus Search in the Deutsches Textarchiv
Bryan Jurish

Berlin

14:30

correspSearch – Briefeditionen vernetzen
Stefan Dumont

Berlin

15:00

Auf der Suche nach Sprachressourcen: CLARINs Virtual Language Observatory
Dieter van Uytvanck

Nijmegen