Literatur vom gleichen Autor/der gleichen Autor*in
plus bei Google Scholar

Bibliografische Daten exportieren
 

Honey, I Shrunk the Language Model : Impact of Knowledge Distillation Methods on Performance and Explainability

Titelangaben

Hendriks, Daniel ; Spitzer, Philipp ; Kühl, Niklas ; Satzger, Gerharh:
Honey, I Shrunk the Language Model : Impact of Knowledge Distillation Methods on Performance and Explainability.
In: IEEE Transactions on Knowledge and Data Engineering. (April 2026) .
ISSN 1558-2191
DOI: https://doi.org/10.1109/TKDE.2026.3671872

Volltext

Link zum Volltext (externe URL): Volltext

Abstract

Artificial Intelligence (AI) has increasingly influenced modern society, recently in particular through significant advancements in Large Language Models (LLMs). However, high computational and storage demands of LLMs still limit their deployment in resource-constrained environments. Knowledge distillation addresses this challenge by training a small student model from a larger teacher model. Previous research has introduced several distillation methods for both generating training data and training the student model. Despite their relevance, the effects of state-of-the-art distillation methods on model performance and explainability have not been thoroughly investigated and compared. In this work, we enlarge the set of available methods by applying critique-revision prompting to distillation for data generation and by synthesizing existing training methods. We systematically compare the distillation methods on the widely used Commonsense Question-Answering (CQA), Extended Stanford Natural Language Inference (ESNLI), and StrategyQA datasets. While we measure performance via student model accuracy, we employ a human-grounded study to evaluate explainability. We contribute new distillation methods and their comparison in terms of both performance and explainability. This should further advance the distillation of small language models and, thus, contribute to broader applicability and faster diffusion of language models.

Weitere Angaben

Publikationsform: Artikel in einer Zeitschrift
Begutachteter Beitrag: Ja
Keywords: Training; Data Models; Training Data; Computational Modeling; Cognition; Adaption Models; Question Answering Information Retrieval
Institutionen der Universität: Fakultäten > Rechts- und Wirtschaftswissenschaftliche Fakultät > Fachgruppe Betriebswirtschaftslehre
Fakultäten > Rechts- und Wirtschaftswissenschaftliche Fakultät > Fachgruppe Betriebswirtschaftslehre > Lehrstuhl Wirtschaftsinformatik und humanzentrische Künstliche Intelligenz
Fakultäten > Rechts- und Wirtschaftswissenschaftliche Fakultät > Fachgruppe Betriebswirtschaftslehre > Lehrstuhl Wirtschaftsinformatik und humanzentrische Künstliche Intelligenz > Lehrstuhl Wirtschaftsinformatik und humanzentrische Künstliche Intelligenz - Univ.-Prof. Dr.-Ing. Niklas Kühl
Forschungseinrichtungen
Forschungseinrichtungen > Institute in Verbindung mit der Universität
Forschungseinrichtungen > Institute in Verbindung mit der Universität > FIM Forschungsinstitut für Informationsmanagement
Titel an der UBT entstanden: Ja
Themengebiete aus DDC: 000 Informatik,Informationswissenschaft, allgemeine Werke > 004 Informatik
300 Sozialwissenschaften > 330 Wirtschaft
Eingestellt am: 24 Apr 2026 05:48
Letzte Änderung: 24 Apr 2026 05:48
URI: https://eref.uni-bayreuth.de/id/eprint/96902