Die Kompetenzbeurteilung von Studierenden ist eine ressourcenintensive Herausforderung. Um die Edisconet-Plattform um tiefgehende Bewertungsmöglichkeiten zu erweitern, untersucht diese Arbeit die optimale Large Language Model (LLM)-Pipeline zur Generierung offener Übungsaufgaben aus unstrukturierten Materialien. Mittels eines Mixed-Methods-Ansatzes wurden vier Pipelines entwickelt, die Kontextaufbereitung (Sliding Window vs. Concept Extraction) und kognitive Rahmenwerke (Bloom’s Revised vs. Webb’s Depth of Knowledge) vergleichen. Eine Umfrage unter 21 Modulverantwortlichen an der HSLU evaluierte die Qualität. Die Ergebnisse zeigen, dass Concept Extraction kombiniert mit Webb’s DOK die höchste Zufriedenheit erzielt, besonders in technischen Fächern. Während sich das System als kosteneffiziente „Drafting Engine“ (0,05 $/Set) bewährt, bleibt ein Review von Dozenten für die Validität unerlässlich. Das Tool fungiert somit als Produktivitätshilfe, nicht als autonomer Prüfer.
Assessing student proficiency is a resource-intensive challenge in higher education. To address the lack of deep assessment capabilities in Edisconet’s platform, this thesis investigates the optimal Large Language Model (LLM) pipeline for generating open-ended exercises from unstructured course materials. Using a mixed-methods approach, four pipelines were developed comparing context preparation (Sliding Window vs. Concept Extraction) and cognitive frameworks (Bloom’s Revised Taxonomy vs. Webb’s Depth of Knowledge). A survey of 21 module coordinators at HSLU evaluated the output quality. Results indicate that Concept Extraction combined with Webb’s Depth of Knowledge yields the highest satisfaction, particularly for technical subjects. While effective as a cost-efficient ($0.05/set) drafting engine, findings confirm that a review by educators is essential for validity, establishing the tool as a productivity aid rather than an autonomous examiner.
Key Terms: Automated Assessment, Large Language Models, Question Generation, Webb’s Depth of Knowledge, Bloom’s Taxonomy, Higher Education, Proficiency Estimation
Die Kompetenzbeurteilung von Studierenden ist eine ressourcenintensive Herausforderung. Um die Edisconet-Plattform um tiefgehende Bewertungsmöglichkeiten zu erweitern, untersucht diese Arbeit die optimale Large Language Model (LLM)-Pipeline zur Generierung offener Übungsaufgaben aus unstrukturierten Materialien. Mittels eines Mixed-Methods-Ansatzes wurden vier Pipelines entwickelt, die Kontextaufbereitung (Sliding Window vs. Concept Extraction) und kognitive Rahmenwerke (Bloom’s Revised vs. Webb’s Depth of Knowledge) vergleichen. Eine Umfrage unter 21 Modulverantwortlichen an der HSLU evaluierte die Qualität. Die Ergebnisse zeigen, dass Concept Extraction kombiniert mit Webb’s DOK die höchste Zufriedenheit erzielt, besonders in technischen Fächern. Während sich das System als kosteneffiziente „Drafting Engine“ (0,05 $/Set) bewährt, bleibt ein Review von Dozenten für die Validität unerlässlich. Das Tool fungiert somit als Produktivitätshilfe, nicht als autonomer Prüfer.
Assessing student proficiency is a resource-intensive challenge in higher education. To address the lack of deep assessment capabilities in Edisconet’s platform, this thesis investigates the optimal Large Language Model (LLM) pipeline for generating open-ended exercises from unstructured course materials. Using a mixed-methods approach, four pipelines were developed comparing context preparation (Sliding Window vs. Concept Extraction) and cognitive frameworks (Bloom’s Revised Taxonomy vs. Webb’s Depth of Knowledge). A survey of 21 module coordinators at HSLU evaluated the output quality. Results indicate that Concept Extraction combined with Webb’s Depth of Knowledge yields the highest satisfaction, particularly for technical subjects. While effective as a cost-efficient ($0.05/set) drafting engine, findings confirm that a review by educators is essential for validity, establishing the tool as a productivity aid rather than an autonomous examiner.
Key Terms: Automated Assessment, Large Language Models, Question Generation, Webb’s Depth of Knowledge, Bloom’s Taxonomy, Higher Education, Proficiency Estimation