D-SPIN CLARIN
Deutsche Sprachressourcen Infrastruktur (D-SPIN)
Prof. Dr. Erhard HinrichsD-SPIN Koordinator
Universität Tübingen
D-SPIN CLARIN
Mannheim, 15.05.2009
ESFRI
„The ESFRI Roadmap identifies new Research Infrastructure (RI) of pan-European interest corresponding to the long term needs of the European research communities, covering all scientific areas, regardless of possible location.“
D-SPIN CLARIN
Mannheim, 15.05.2009
ESFRI Roadmap
Preparatory Phase (2008-2010)
• Ko-Finanzierung durch EU und nationale Mittel
Construction and Exploitation Phase (2011-2020)
• Primäre Förderung aus nationalen Mitteln• Phase I (2011-2015)• Phase 2 (2016-2020)
D-SPIN CLARIN
Mannheim, 15.05.2009
ArbeitsgruppenESFRI Roadmap Projects
Im Bereich der Geistes- und Sozialwissenschaften:
CLARIN (Common LAnguage Resources and Technology INfrastructure); www.clarin.eu
DARIAH (DigitAl Research Infrastructure for the Arts and Humanities); www.dariah.eu
CESSDA (Council of European Social Science Data Archives);www.nsd.uib.no/cessda
D-SPIN CLARIN
Mannheim, 15.05.2009
Gliederung
Total number of members: 151Number of countries involved: 32
Clarin
D-SPIN CLARIN
Mannheim, 15.05.2009
D-SPIN Projektpartner
• Berlin-Brandenburgische Akademie der Wissenschaften• Deutsches Forschungszentrum für Künstliche Intelligenz
Saarbrücken GmbH (DFKI)• Institut für Deutsche Sprache (IDS) Mannheim • Max-Planck-Institut für Psycholinguistik Nijmegen• Eberhard-Karls Universität Tübingen; Computerlinguistik• Justus-Liebig-Universität Gießen; Ang. Sprachw. und CL• Universität Frankfurt; Vergleichende Sprachwissenschaft• Universität Leipzig, Institut für Informatik• Universität Stuttgart, Inst. für masch. Sprachverarbeitung
D-SPIN CLARIN
Mannheim, 15.05.2009
ArbeitsgruppenD-SPIN Arbeitspakete
• AP 1: Projekt Management (Uni Tübingen, MPI Nijmegen, IDS Mannheim, BBAW Berlin)
• AP 2: Etablierung der technischen Infrastruktur (MPI Nijmegen, Uni Tübingen, IDS Mannheim, BBAW Berlin, Uni Leipzig, Uni Frankfurt, DFKI Saarbrücken, Uni Stuttgart)
• AP 3: Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender (BBAW Berlin, Uni Frankfurt, Uni Gießen)
• AP 4: Verbindung mit nationalen und europäischen Initiativen (MPI Nijmegen, Uni Tübingen)
D-SPIN CLARIN
Mannheim, 15.05.2009
D-SPIN Arbeitspakete
• AP 5: Anpassung und Integration von Ressourcen und Tools (Uni Tübingen, MPI Nijmegen, IDS Mannheim, BBAW Berlin, Uni Leipzig, Uni Frankfurt, DFKI Saarbrücken, Uni Stuttgart)
• AP 6: Training und Ausbildung (Uni Gießen, Uni Tübingen, Uni Frankfurt)
• AP 7: Urheberrecht und ethische Fragen der Verwendung von Sprachressourcen, Lizenzmodelle (IDS Mannheim)
• AP 8: Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene (IDS Mannheim)
D-SPIN CLARIN
Mannheim, 15.05.2009
ArbeitsgruppenAP1 - Management
• Koordination der Projektarbeiten mit Aktivitäten des CLARIN-Projekts
• Durchführung der regelmäßigen Treffen des Leitungsausschusses, des Beirats, des Plenums und der Arbeitsgruppen
• Ansprechpartner:Prof. Dr. Erhard Hinrichs (wissenschaftlicher Leiter)Kathrin Beck (Projektkoordinatorin, [email protected])
D-SPIN CLARIN
Mannheim, 15.05.2009
ArbeitsgruppenMitglieder des D-SPIN Beirats
• Helge Kahler (BMBF)• Axel Horstmann (Volkswagen Stiftung)• Christiane Fellbaum (Princeton University)• Bernhard Neumair (GWDG, Göttingen)• Neil Freistat (Maryland Institute for Technology in the
Humanities)• Paul Doorenbosch (Koninklijke Bibliotheek NL)• Bente Maegaard (University of Copenhagen; CLARIN
Liaison)
D-SPIN CLARIN
Mannheim, 15.05.2009
ArbeitsgruppenAP 2: Technische Infrastruktur
Etablierung der technischen Infrastruktur
• Infrastruktur• Service-Zentren neuen Typs• Sprach-Ressourcen-Föderation• Registraturen• Web-Services• Basis-Services und Applikationen
D-SPIN CLARIN
Mannheim, 15.05.2009
ArbeitsgruppenAP 3: Geisteswissenschaften
Ressourcen- und Anwendungsplanung im Hinblick auf geisteswissenschaftliche Anwender
• Welchen Bedarf an Sprachressourcen gibt es in den Geisteswissenschaften?
• Welche Anforderungen muss eine Forschungsinfrastruktur für die Geisteswissenschaften erfüllen?
D-SPIN CLARIN
Mannheim, 15.05.2009
ArbeitsgruppenAP 4: Liaison
Verbindung mit nationalen und europäischen Initiativen
• Koordination mit anderen europäischen und nationalen Infrastruktur-Projekten wie DARIAH, FLaReNet (EU-Projekte); eAQUA, TextGrid (BMBF-Projekte); Dobes (Volkswagen-Stiftung);
• Entwicklung einer gemeinsamen Roadmap für Infrastrukturen und Standards im Bereich geisteswissenschaftlicher Ressourcen
D-SPIN CLARIN
Mannheim, 15.05.2009
AP 5: Integration
Anpassung und Integration von Ressourcen und Tools
• Standardisierung und Integration deutscher Ressourcen der verschiedenen Ressourcentypen
• Anreicherung der Ressourcen mit CLARIN-Metadaten
• Festlegung der Schnittstellen zwischen Daten undWerkzeugen
• Definition und Implementation von Webservices
D-SPIN CLARIN
Mannheim, 15.05.2009
AP 6: Training und Ausbildung
• Entwicklung von Lehrmaterialien und Kurse• Forscher mit den Möglichkeiten, die Sprachressourcen
für die empirische Forschung bieten, vertraut machen• die verfügbaren Typen von sprachlichen Ressourcen
bekannt machen und den Zugriff auf diese vermitteln• anhand von Beispielen aus der Praxis das Potential von
Sprachressourcen darstellen• Sommerschule für Nachwuchswissenschaftler und
Dozentenworkshop, 2010 in Gießen
D-SPIN CLARIN
Mannheim, 15.05.2009
AP 7: Recht und Ethik
• Urheberrecht und ethische Fragen der Verwendung von Sprachressourcen, Lizenzmodelle
D-SPIN CLARIN
Mannheim, 15.05.2009
AP 8: Nachhaltigkeit
• Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene
D-SPIN CLARIN
Mannheim, 15.05.2009
Webservices
Webservices zur Erschließung linguistischer Ressourcen
• Verteilte Architektur (z.Z. Stuttgart, Tübingen)• Standardisierte Web 2.0 Technologien• Standardisierte Metadaten beschreiben Tools und
Daten• Entwicklung eines gemeinsamen Datenformats
(Stuttgart, Leipzig)• Verkettung der einzelnen Services mittels Toolchain
• Webservice-Demonstrationen am Nachmittag
D-SPIN CLARIN
Mannheim, 15.05.2009
Webservices
In D-Spin schon verfügbare Webservices
Standort Webservice
Stuttgart Tokenizer
POS Tagger
Konstituenten Parser
SMOR
Tübingen Plain Text to XML
GermaNet – Wortnetz
OpenThesaurus - Synonyme
D-SPIN CLARIN
Mannheim, 15.05.2009
Webservices am IMS
• Trainierbarer Tokenizer (Parameter für DE, EN, FR, IT)• TreeTagger (Tagger und Lemmatizer; Parameter für DE,
EN, FR, IT)• Morphologiesystem SMOR• Parser BitPar (Parameter für DE, EN)• Dependenzparser FSPAR (DE)• Paketlösung zur Extraktion von signikanten Wortpaaren
aus geparstem Text auf Basis FSPAR (DE)• UCS toolkit zur Berechnung von Wortpaar-Assoziationen
(sprachunabhängig)
D-SPIN CLARIN
Mannheim, 15.05.2009
GermaNet Web Applikation
GermaNet gruppiert Wörter desselben Konzepts und zeigt Relationen zwischen diesen Konzepten auf:
Auto Automobil, Kraftfahrzeug, Wagen,
Kraftwagen
GermaNet: Ein semantisches Wortnetz des Deutschen
D-SPIN CLARIN
Mannheim, 15.05.2009
D-Spin Tool Chainer
Verkettung von Webservices: Der D-Spin Tool Chainer
• Die einzelnen Webservices bauen aufeinander auf und können in eine logische Kette geschaltet werden
• Einfacher Text wird von Webservice zu Webservice weitergereicht und mit linguistischen Informationen angereichert
D-SPIN CLARIN
Mannheim, 15.05.2009
Einbeziehen weiterer Partner
Einbeziehen weiterer Partner
• IDS Mannheim• BBAW Berlin
D-SPIN CLARIN
Mannheim, 15.05.2009
Webservices
• Peter Wittenburg: Metadaten und technische Infrastruktur von D-Spin
D-SPIN CLARIN
Mannheim, 15.05.2009
Vielen Dank für Ihre Aufmerksamkeit!
D-SPIN CLARIN
Mannheim, 15.05.200906.05.09
Bisherige Ergebnisse
AP 1: Management• Durchführung von Projekttreffen u.a. in Saarbrücken,
Berlin, Frankfurt• Teilnahme an CLARIN-Treffen• Konstitution des wissenschaftlichen Beirats• Ausarbeiten der Verträge, insbesondere
Kooperationsvertrag und FE-Verträge• Einrichtung eines Wikis für die interne
Projektkoordination
D-SPIN CLARIN
Mannheim, 15.05.200906.05.09
Bisherige Ergebnisse
AP 2: technische Infrastruktur• Erstellung von Anforderungs-Spezifikations-Dokumenten
und Short Guides• Aufstellung von Zentren• Föderationen und PIDs• Metadaten (siehe Vortrag Peter Wittenburg)• Entwicklung von Webservices
D-SPIN CLARIN
Mannheim, 15.05.2009
Bisherige Ergebnisse
AP 3: Ressourcen- und Anwenderplanung im Hinblick auf geisteswissenschaftliche Anwender
• Uni Gießen: Fallstudie zum Einsatz von Sprachressourcen im Computer-Assisted Language Learning (CALL)
• BBAW: Erstellung eines Fragebogens zur Ermittlung der Anforderungen von Geistes- und Sozialwissenschaftlern an Sprachressourcen und Services
D-SPIN CLARIN
Mannheim, 15.05.200906.05.09
Bisherige Ergebnisse
AP 4: Verbindung mit nationalen und europäischen Initiativen
• Interaktionen mit CLARIN• Interaktionen mit TextGrid• Interaktionen mit DEISA II bzgl. Langzeitarchivierung und
Auslagerung von rechenintensiven Prozessen auf universitäre Rechenzentren
• Interaktionen mit dem DFN-Verein• Gespräche zum Schwerpunktprogramm zu eHumanities• Interaktionen mit FlareNet• Mitgliedschaft bei ISO TC37/SC4 (Management of
Language Resources)
D-SPIN CLARIN
Mannheim, 15.05.200906.05.09
Bisherige Ergebnisse
AP 5: Anpassung und Integration der Ressourcen und Tools
• Implementation von Webservices (ISOcat, LMF-basierte Lexika, Metadaten)
• Erstellung von Metadaten• Formatanpassungen von Ressourcen für die Anbindung
an Webservices• Integration der Webservices in einen Workflow• Entwicklung einer prototypischen Infrastruktur• Z.B. die Frankfurter TITUS-Datenbank: Umwandlung in
eine standardkonforme Struktur, Konvertierung in XML, Erstellung von sprachspezifischen Teilkorpusübersichten
D-SPIN CLARIN
Mannheim, 15.05.200906.05.09
Bisherige Ergebnisse
AP 6: Training und Ausbildung• Planung eines inhaltlichen und didaktischen Konzepts
der Ausbildungsmodule• Anlegen einer Testplattform und Integration der ersten
Module (moodle, Uni Frankfurt)• Standardkonforme Bereitstellung existierender
Lehrmaterialien• Planung erster D-SPIN-bezogener Lehrveranstaltungen• Durchführung einer lehrbezogenen D-SPIN-Umfrage• Sommerschule für Nachwuchswissenschaftler und
Dozentenworkshop, 2010 in Gießen
D-SPIN CLARIN
Mannheim, 15.05.200906.05.09
Bisherige Ergebnisse
AP 7: Urheberrecht und ethische Fragen• Zusammenarbeit mit CLARIN• Erstellungen von Muster-Lizenzvereinbarungen
D-SPIN CLARIN
Mannheim, 15.05.200906.05.09
Bisherige Ergebnisse
AP 8: Ausarbeitung einer organisatorischen Struktur für die Nachhaltigkeit auf nationaler Ebene
• Enge Kooperation mit CLARIN• Planung langfristige Perspektiven für eine deutsche
Sprachressourceninfrastruktur
Top Related