Sprachtechnologien sind zunehmend auf große Mengen an Daten angewiesen, und ein besserer Zugang zu Sprachressourcen ermöglicht es, mehrsprachige Lösungen bereitzustellen. Daten sind jedoch selten direkt für die Verwendung geeignet und Spezialisten verbringen über 80% ihrer Zeit damit, Datensätze zu bereinigen, zu organisieren und zu sammeln. Die Reduzierung dieser Bemühungen verspricht enorme Kosteneinsparungen für alle Bereiche, in denen Sprachtechnologien erforderlich sind.
Ein wesentlicher Bestandteil des Extract-Transform-Load-Prozesses besteht darin, Datensätze mit vorhandenen Schemata zu verknüpfen, doch nur wenige Spezialisten nutzen verknüpfte Technologien, um diese Aufgabe durchzuführen. In diesem Projekt zielen wir darauf ab, die Akzeptanz von Sprachtechnologien zu steigern, indem wir die Kombination von verknüpften Daten und Sprachtechnologien, das sogenannte Linguistic Linked Open Data (LLOD), nutzen, um sofort einsatzbereite mehrsprachige Daten zu erstellen. Prêt-à-LLOD zielt darauf ab, dies zu erreichen, indem eine neue Methodik für den Aufbau von Datenwertschöpfungsketten entwickelt wird, die auf eine Vielzahl von Branchen und Anwendungen anwendbar ist und auf Sprachressourcen und Sprachtechnologien basiert, die mittels semantischer Technologien, insbesondere der Verwendung von Linguistic Linked Open Data (LLOD), integriert werden können.
Im Rahmen des Projekts werden neue Werkzeuge zur Transformation und Verknüpfung von Datensätzen entwickelt und diese sowohl auf Daten als auch auf Metadaten angewendet, um einen Multi-Portal-Zugang zu heterogenen Datenbanken zu ermöglichen. Wir werden untersuchen, wie wir Lizenzen automatisch analysieren können, um zu deduzieren, wie Daten rechtmäßig von Sprachressourcenanbietern verwendet und verkauft werden dürfen. Schließlich werden wir Werkzeuge bereitstellen, um Sprachdienste und -ressourcen mittels semantischer Technologien zu komplexen Pipelines zu kombinieren. Dadurch werden nachhaltige Datenangebote und -dienste geschaffen, die auf vielen Plattformen, einschließlich noch unbekannter Plattformen, bereitgestellt werden können und sich mittels verknüpfter Daten semantisch beschreiben lassen.