Deutsche Datensätze: GermanQuAD zum trainieren von LLM

  • Juli 4, 2025
  • Georg
  • 3 min read

Für die Entwicklung leistungsfähiger Machine-Learning-Modelle im Bereich Natural Language Processing (NLP) sind große, qualitativ hochwertige Datensätze unerlässlich. Besonders bei Frage-Antwort-Systemen – also Modellen, die aus einem gegebenen Text eine passende Antwort auf eine konkrete Frage generieren – haben solche Datensätze in den letzten Jahren enorme Fortschritte ermöglicht.

Ein prominentes Beispiel ist das Stanford Question Answering Dataset (SQuAD). Dieser Datensatz enthält über 100.000 Frage-Antwort-Paare, die auf Textpassagen aus Wikipedia basieren. Die Daten wurden sorgfältig zusammengestellt, indem relevante Abschnitte aus Artikeln extrahiert und manuell mit Fragen und entsprechenden Antworten versehen wurden (Rajpurkar et al., 2016). Aufgrund seines Umfangs und seiner Qualität ist SQuAD zu einem De-facto-Standard für das Trainieren und Evaluieren von englischsprachigen QA-Modellen geworden.

Die Herausforderung: Deutschsprachige Datensätze

Ein zentrales Problem für deutschsprachige NLP-Anwendungen ist jedoch die Verfügbarkeit geeigneter Datensätze. Die meisten gängigen Ressourcen – wie eben SQuAD – sind ausschließlich auf Englisch verfügbar. Das erschwert es erheblich, vergleichbar leistungsstarke Modelle für die deutsche Sprache zu entwickeln. Dabei haben Studien gezeigt, dass insbesondere große und domänenspezifisch kuratierte Datensätze einen signifikanten Einfluss auf die Qualität von QA-Systemen haben (Lewis et al., 2020).

Die Lösung: GermanQuAD

Um diese Lücke zu schließen, wurde GermanQuAD entwickelt – ein deutschsprachiger QA-Datensatz, der direkt vom englischen SQuAD abgeleitet ist. GermanQuAD umfasst rund 13.722 Frage-Antwort-Paare und basiert ebenfalls auf Wikipedia-Artikeln. Auch wenn das Volumen im Vergleich zum Original geringer ist, zeigt sich, dass die Qualität überzeugt.

Laut Möller et al. (2021) konnte ein Modell, das mit GermanQuAD trainiert wurde, in Vergleichstests mit anderen deutschen Datensätzen wie MLQA (Facebook), XQuAD und SFCR häufig semantisch passendere Antworten liefern. Trotz des geringeren Umfangs wurde also eine vergleichbare – teilweise sogar bessere – Performance erreicht.

Fazit

GermanQuAD zeigt, dass hochwertige Datensätze auch in kleinerem Maßstab eine starke Grundlage für deutschsprachige Frage-Antwort-Modelle bieten können. Für Entwickler:innen und Forscher:innen, die an NLP-Anwendungen im deutschsprachigen Raum arbeiten, ist dieser Datensatz eine wertvolle Ressource. Damit wird ein wichtiger Schritt gemacht, um KI-basierte Sprachverarbeitung nicht nur im Englischen, sondern auch für andere Sprachen wie Deutsch weiter voranzutreiben.

Literatur

Rajpurkar, P., Zhang, J., Lopyrev, K., & Liang, P. (2016). SQuAD: 100,000+ Questions for
Machine Comprehension of Text. https://doi.org/10.48550/arXiv.1606.05250

Lewis, P., Oguz, B., Rinott, R., Riedel, S., & Schwenk, H. (2020). MLQA: Evaluating Crosslingual Extractive Question Answering. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 7315–7330.
https://doi.org/10.18653/v1/2020.acl-main.653

Möller, T., Risch, J., & Pietsch, M. (2021). GermanQuAD and GermanDPR: Improving Non-English Question Answering and Passage Retrieval.
https://doi.org/10.48550/arXiv.2104.12741

Leave a Reply

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

💬
Chatbot