ellamind summarizer: Training von KI-Modellen

Erfolgsgeschichte: ellamind summarizer

Unser rechenintensives Forschungsprojekt „ellamind summarizer“ wurde im Januar beendet. Wir möchten uns herzlich für Ihre Unterstützung bedanken.

Hier ein kurzer Überblick über die KI-Modelle, die wir im Projekt auf dem KISSKI-Cluster trainiert haben:

sui-1: Grounded and Verifiable Long-Form Summarization

Bericht

Modell

sui-1 ist ein 24B-LLM für lange, überprüfbare Zusammenfassungen mit Inline-Zitaten, sodass sich jede Aussage zu einer konkreten Stelle im Quelltext zurückverfolgen lässt. Das Modell verarbeitet bis zu 100K Tokens in einem Durchlauf und unterstützt iterative Verarbeitung für Texte jenseits von 2M Tokens. Eine synthetische, mehrstufig verifizierte Trainingspipeline (22k+ Beispiele, 5 Sprachen) erzielt deutlich bessere Ergebnisse als offene Baselines – auch im Vergleich zu deutlich größeren Modellen. Das Modell wurde überwiegend auf deutschen Daten trainiert und ist bereits im öffentlichen Sektor im Einsatz.

propella-1: Multi-Property Document Annotation for LLM Data Curation at Scale

Bericht

Modelle und Annotationen

propella-1 ist eine Familie kleiner mehrsprachiger LLMs (0.6B/1.7B/4B), die Dokumente nicht mit einem einzigen Score, sondern entlang von 18 Eigenschaften in sechs Kategorien als strukturiertes JSON annotiert. Die Modelle unterstützen 57 Sprachen und erreichen als „Annotator“ eine hohe Übereinstimmung mit einem kommerziellen Frontier-LLM, wobei das 4B-Modell größere Allzweckmodelle übertrifft. In Kollaboration mit dem OpenEuroLLM-Projekt veröffentlichen wir außerdem propella-annotations (3B+ Annotationen) sowie Analysen, die Qualitäts- und Inhaltsunterschiede in gängigen Pretraining-Datensätzen sichtbar machen, die Single-Score-Ansätze nicht erfassen. Mit propella-annotations lassen sich sehr große Trainingsdatensätze flexibel filtern, z. B. auch nach Themen wie Medizin/Gesundheitswesen oder Energie.

Alle Modelle (sui-1 und propella-1) sind unter der Apache-2.0-Lizenz veröffentlicht und damit auch kommerziell frei nutzbar.

Bei Fragen oder Anregungen können Sie sich gern jederzeit bei uns melden.