Große Übung mal anders – mit Peer Reviews

In den vergangenen Wochen habe ich mehrere Lehrveranstaltungen besucht, in denen ich mir den Einsatz von Peer-Reviews gut vorstellen konnte. Da dieses Konzept in unseren Veranstaltungen und Unterlagen bei teach4TU gar nicht erwähnt wird, halte ich es für eine gute Idee, einen etwas längeren Beitrag dazu zu schreiben.

tl;dr

Unter Peer-Reviews wird in der Lehre die Beurteilung von Studierenden durch Studierende verstanden. Es wird meist für das gegenseitige Bewerten von Texten genutzt, lässt sich prinzipiell aber auch für Rechenübungen, Programmieraufgaben oder für die Bearbeitung von Fällen und Fallstudien einsetzen.

Das alte Lied

An Hochschulen begegnet man neben Vorlesungen in vielen Fächern auch „großen Übungen“. Ihr Zweck wird meist darin gesehen, die rein theoretischen Ausführungen aus einer Vorlesung praktisch zu vertiefen.1

Skriptorium

Mittelalterliches Skriptorium, in dem Mönche handschriftlich Texte kopierten

In vielen Fällen sehen solche große Übungen so aus, dass die meiste Zeit vorne ein wissenschaftlicher Mitarbeiter (m/w) Aufgaben vorrechnet und nebenher erwähnt, was er/sie warum tut. Oder jemand stellt vor, wie eine juristische Frage zu lösen gewesen wäre. Oder jemand trägt vor, wie eine betriebswirtschaftliche Fallstudie hätte bearbeitet werden können. Ich habe das als Student der Wirtschaftinformatik querbeet durch die Mathematik, die Rechtswissenschaften und die Wirtschaftswissenschaften selbst erlebt. Was habe ich damals gemacht? Ich habe stur das abgeschrieben, was angeschrieben oder als Schaubild an die Wand geworfen wurde — ohne groß nachzudenken. Dasselbe sehe ich heute in eben diesen großen Übungen. Wer übt dort eigentlich was?

Was sich da nicht alles machen ließe…

Zumindest meinem Verständnis nach sollten es die Studierenden in einer Übung sein, die etwas üben. Sie sollten die erworbenen Kenntnisse anwenden.  Irgendwo müssen diese Kenntnisse herkommen. Wenn Selbstentdecken oder Nachlesen ausscheiden, lässt sich das Vorrechnen/ Quelltext erläutern/ Fälle erörtern/ … aber auch prima über ein Video zeigen. Das kann sich jede und jeder zu Hause so oft anschauen, wie er oder sie möchte. Die wertvolle Präsenzzeit kann dann sinnvoller genutzt werden als in einem mittelalterlichen Skriptorium. Flipped Classroom. Kennt ihr.

Was sich da nicht alles machen ließe: fragend-entwickelnde Gespräche, moderiertes oder Aktives Plenum, …, vielleicht aber auch einfach Übungsaufgaben selbst bearbeiten lassen. Genau das wird mitunter ja tatsächlich gemacht. Ich kann mir allerdings gut vorstellen, dass das noch etwas eleganter ginge als „Erst rechnet ihr, dann rechne ich oder einer von euch noch einmal ‚richtig‘ vor.“ Warum nicht mit Peer Reviews arbeiten, bei denen Studis ihre Lösungen gegenseitig begutachten?

Ein Peer Review in der Lehre dient vorwiegend nicht dazu, auf das „richtige Ergebnis“ zu prüfen. Das lässt sich schließlich gerade in technischen Fächern auch oft automatisieren. Es geht vielmehr darum, den Weg zum Ergebnis zu beleuchten und zu schauen, ob es noch auszubessernde Schlaglöcher gibt. Es soll also das aufgedeckt werden, was man schon kann und erst einmal nicht weiter üben muss — und was man nicht kann, um daran arbeiten zu können. Raus aus der Komfortzone! Die Lösung einer Rechenaufgabe könnte stimmen, aber die Rechnung umständlich oder potenziell fehleranfällig sein, weil man Einheiten nicht notiert. Ein juristisches Gutachten könnte zu dem richtigen Schluss kommen, aber holprig geschrieben sein oder gespickt mit unnötigen Schlenkern über gar nicht zu prüfende Normen. Ein Software-Programm könnte alle Tests bestehen, aber der Quelltext das reinste Tohuwabohu sein, das niemand versteht (in der Praxis leider die unerwünschte Regel!). Die Lösung einer Fallstudie in der BWL könnte eher durchgewurschtelt denn überlegt und abgewägt sein.

Neben dieser Sicht auf das Vorgehen beim Üben gibt es aber noch einen weiteren Aspekt, der für Peer Reviews in der Lehre spricht. Es kann sehr hilfreich sein, sich mit fremden Lösungen und Gedanken zu derselben Aufgabe auseinanderzusetzen. In nicht-technischen Fächern, in denen eher der Diskurs gang und gäbe ist, gilt das sowieso. Andererseits dürfte mir auch jeder zustimmen, der sich im Programmieren übt, dabei über fremden Quelltext stolpert und ihn verstehen will. Dabei lernt man eine Menge. Wenn also das Ziel einer großen Übung tatsächlich das praktische Vertiefen ist, dann könnte man es doch ab und an mal mit einem Peer Review versuchen, oder?

Schiebt man es in eine Übung hinein, in der Studierende selbst eine Aufgabe bearbeiten, hätten wir sogar das bekannte Grundprinzip des Kollaborativen Lernens aufgegriffen: Listen-Think-Pair-Share (vgl. Lyman 1981). Lyman schlug das Vorgehen vor, um möglichst alle Anwesenden aktiv handelnd zu beteiligen (Lyman 1981, S. 109):

What neither „mainstreamed“ students nor others need is a classroom in which one person talks, a classroom in which thinking is discouraged for fear it cannot be controlled, and in which competition is the chief motovator.

Um eine Situation herzustellen, die anders aussieht, nennt Lyman als Struktur vier Phasen. Er bezieht sie speziell auf Diskussionen, das Vorgehen kann jedoch allgemein auf andere Aktionsformen übertragen werden (vgl. Lyman 1981, S. 110-111):

  1. Listen: Der vom Lehrenden gestellten Frage zuhören. Es wird vorausgesetzt, dass Vorwissen vorhanden ist. Wir schließen es kurzerhand ein und sparen uns dadurch, noch eine Phase namens „Prepare“ oder etwas in der Art.
  2. Think: Für sich selbst über die Frage nachdenken. Hier sollte sich wirklich jeder zunächst eigene Gedanken machen. Einerseits werden Studis dadurch nicht beeinflusst, anderseits wird denjenigen entgegengekommen, die zunächst selbst über einer Aufgabe brüten möchten.
  3. Pair: Gedanken zur Frage bzw. die jeweilige Antwort mit dem Nachbarn diskutieren. Kleingruppen statt Paare sind natürlich auch denkbar. In dieser Phase bringen Studis ihre Gedanken einem oder wenigen anderen Studis näher. Das ist oft mit weniger Überwindung verbunden, als gleich mit dem Hörsaal und dem Lehrenden zu sprechen. Hier kommt zudem die Idee des „Lernen durch Lehren“ in einer sehr einfachen Form hinzu: Lernen, indem man anderen etwas erklärt.
  4. Share: Die Lösungen mit der gesamten Gruppe teilen. Durch die dritte Phase erhöht sich die Wahrscheinlichkeit, dass sich Studierende beteiligen. Sie haben schließlich gerade schon einmal mit jemandem ihre Gedankengeteilt, ihre Antwort quasi eingeübt, und womöglich sogar schon von jemanden bestätigt bekommen: „Ja, passt so!“

Notiz am Rande: Es müssen nicht alle Phasen innerhalb der Präsenzzeit eines Veranstaltungstermins abgearbeitet werden. Sie können auch vor- oder nachgelagert sein, was mitunter den Einsatz digitaler Medien erfordert. Es ist zwar nicht unbedingt wünschenswert, die Phasen mit großem zeitlichen Abstand zueinander zu zerreißen, aber anders ist es in der Praxis nicht immer machbar.

Wenn wir nun die vier Phasen als Struktur benutzen, die wir mit Inhalt füllen können, stehen uns zahlreiche Möglichkeiten offen. Folgend findet ihr eine natürlich (!) unvollständige Auflistung von Ideen, die aber beim Planen eines jeweiligen Übungstermins als Ausgangspunkt dienen kann — vielleicht in Form eines eigenen Morphologischen Kastens?

Listen

Als Vorbereitung für eine Frage, eine Aufgabe oder einen Fall stehen mehrere Optionen zur Verfügung. Wissen könnte beispielsweise vorab aus einer Vorlesung stammen, oder aber bündig noch in der großen Übung vorgestellt werden. Das ist das, was mir häufig begegnet. Wie bereits besprochen, erscheint mir eine eigenständige Vorbereitung anhand von Texten, Videos, Podcasts, Upload in der Matrix („I know Kung Fu“)2, usw. sinnvoller.

Als nützlich könnte sich auch erweisen zu prüfen, welches Wissen die Studierenden zu einem Thema tatsächlich mitbringen. Methodisch gibt es dafür wieder vielerlei Möglichkeiten, von Abstimmungen über offene Fragen bis hin zu Tests. Auf diese Weise können Lücken erkannt und womöglich solche geschlossen werden, die für die Aufgabe essenziell sind. Alternativ kann die Aufgabe angepasst werden.

Think

Für die zweite Phase gibt es grundlegend wohl zwei Möglichkeiten: Studierende bearbeiten entweder eigenständig Aufgaben/ denken eigenständig über die Frage nach/ …, oder sie bearbeiten Aufgaben in Kleingruppen.

An dieser Stelle ist es sehr hilfreich, wenn Studierenden klar ist, worauf es bei der Aufgabe ankommt. Wenn es nur die Lösung sein sollte: „Go ahead!“ Andernfalls sollte deutlich werden, worauf besonderes Augenmerk gerichtet werden sollte. Das hilft ungemein beim zielgerichteten Bearbeiten. Um entsprechende Anhaltspunkte zu geben, lässt sich beispielsweise ein Beurteilungsraster nutzen. Details dazu gibt es weiter unten.

Liegt ein Raster oder vergleichbares Hilfsmittel vor, wird Studierenden damit auch die Gelegenheit gegeben, sich selbst zu prüfen. Der Fähigkeit zur Selbsteinschätzung wird schließlich eine hohe Effektstärke für den Lernerfolg zugeschrieben (vgl. Hattie 2009, S. 43-44, aber auch die Methodenkritik daran von Schulmeister/Loviscach 2014). Erfolgt später die Rückmeldung durch andere über dasselbe Raster, kann auch ein strukturierter Abgleich erfolgen.

Pair

In dieser Phase geht es um den Austausch zwischen Studierenden. Als Ausgangspunkt kann das Raster dienen, wenn die Studierende damit die Bearbeitung eines anderen/mehrerer anderer beurteilt haben. Das sollte aber nicht das einzige Feedback bleiben. Schriftliche Kommentare oder Anmerkungen am Text/an der Aufgabe sind selbstverständlich ebenso möglich und einfach umsetzbar. Unklarheiten und Rückfragen lassen sich aber in einer Diskussion besser ausräumen.

Für euch als Lehrende kann es sich in dieser Phase anbieten, sich mit den studentischen Rückmeldungen vertraut zu machen und in die Gespräche hineinzuhören. Auf diese Weise erhaltet ihr einen Eindruck davon, wo die Studierenden stehen und wo es gegebenenfalls besonders hakt. Außerdem mag es Fälle geben, in denen eure Unterstützung gebraucht wird.

Ja nach Ausgestaltung der Phase gibt es noch ein paar Dinge zu bedenken. Es könnte beispielsweise Anonymität gewünscht sein, um mehr Objektivität zu gewährleisten. Man kann sich aber ebenso auch bewusst dagegen entscheiden. Denkbar ist es zudem, nach bestimmten Kriterien bewusst Paare oder Kleingruppen zusammenzustellen. Spontan dürfte dies jedoch gerade in Veranstaltungen mit vielen TeilnehmerInnen nicht gelingen, sondern nur geplant. Möglich ist es ebenfalls, eine Variante des Brainwriting bzw. der Methode 635 zu benutzen, bei der mehrere Studierende nacheinander dieselbe Aufgabe begutachten und bei Bedarf vorherige Kommentare relativieren oder ergänzen.

Share

Final bleibt die Share-Phase. Hier ist wesentlich mehr möglich als selbst einen Lösungsweg vorzustellen (oder vorstellen zu lassen) oder eine Lösung für einen Fall zu präsentieren (oder präsentieren zu lassen) — wenngleich auch das kein Tabu ist. Es muss nicht einmal zwingend „die Komplettlösung“ parat gehalten werden. Wenn beispielsweise die meisten sowieso zu einem erwünschten Ergebnis gekommen sind, scheint der Weg dorthin in Grundzügen klar gewesen zu sein. Ihr könnt euch dann etwa speziell auf diejenigen beschränken, die Probleme hatten oder auf das Beleuchten des Weges mit seinen Schlaglöchern konzentrieren, wo tatsächlich Bedarf besteht.

Herausbekommen lässt sich das je nach Aufgabe über verschiedene Wege, sei es über die Frage „Was war für euch schwierig?“ mit Sammlung an der Tafel oder in einem Etherpad, aber auch über Fragen, die gezielt nach typischen Problemen fragen. Abstimmen lässt sich dafür auf vielen Wegen, von Handzeichen über Summen bis zu „Audience Response“-Systemen wie EduVote. Eine weitere Idee, um einen Blick auf Lösungen zu werfen, findet ihr im Beitrag  „Danke Digitalfoto!“ Die schwierigen Punkte, die wie auch immer identifiziert wurden, lassen sich dann priorisiert angehen. Dafür stehen euch wiederum zahlreiche Möglichkeiten zur Verfügung.

Der Raster. Eine digitale Welt… (Moment, falscher Film)

Das folgende Beispiel für ein Beurteilungsraster nach Bowen (2012, S. 164-165) ist für Aufsätze gedacht, lässt sich aber auch für andere Aufgaben anpassen. In der ersten Spalte sind Kriterien aufgeführt, die für den Text wichtig sind. Ihre relative Bedeutung zueinander kann man an der prozentualen Gewichtung ablesen. In der ersten Zeile stehen die Stufen, die der Text erreichen kann. Die Prozentzahlen geben hier an, wie stark das Kriterium erfüllt worden ist. Die kurzen Beschreibungen in den verbleibenden Feldern sollen dabei helfen, die Güte des Aufsatzes einzuschätzen. In ähnlicher Form gibt es das sicher bereits an vielen Lehrstühlen, um die Einschätzung von Abschlussarbeiten zu erleichtern und wenigstens etwas zu objektivieren.

Absent (0 %)Poor (40 %)Average (70 %)Good (90 %)Great (100 %)
Thesis, Ideas, and Analysis (20 %)There is no thesis or focus.The thesis is split or unclear; the paper wanders off-topic.The essay is focused around a single thesis or idea.The thesis is interesting, and there is at least one original perspective on one of the points.The thesis is original, and there are compelling ideas throughout.
Evidence (30 %)There is almost no detailed evidence to support the thesis.There is some evidence, but in key places evidence is vague or missing.There is supporting evidence for most of the claims, but some evidence may be unrelated or vague.There is supporting evidence for all claims, but it is not as strong or complete in some areas.There is a variety of support for every claim, and it is strong, concrete and appropriate.
Organization (20 %)There is little or no organization.There is some organization, but the paper is „jumpy“ without a clear introduction and conclusion and paragraphs are not focused or out of order.There is clear introduction, body, and conclusion, but some paragraphs may need to be focused or moved.Each part of the paper is engaging, but better transitions, more/ fewer paragraphs, stronger conclusion are needed.Each paragraph is focused and in the proper order. Introduction and conclusion are complementary, and there are excellent transitions.
Language Maturity (10 %)Frequent and serious grammatical mistakes make the meaning unclaer.Grammatical mistakes slightly interfere with the paper.Writing is clear, but sentence structures are simple or repetitive; there are repeated grammar errors.The language is clear with complex sentence structure but contains minor grammatical errors.Creative word choice and sentence structure enhance the meaning and focus of the paper.
Style/Voice (10 %)Writing is very general with no sense of either the writer or audience.Writing is general with little sense of the audience or communication of the writer’s voice or passion.Essay addresses the audience appropriately with some examples of creative expression.The essay addresses the audience appropriately and is engaging with a strong sense of voice.There is a keen sense of the intended audience, the author’s voice, and the writing conveys passion.
Citations (10 %)Material is presented almost entirely without citations.There are some citations but either incomplete or inappropriateThere are good citations but not enough of them.All evidence is cited, but with minor format errors.All evidence is well cited in appropriate format.

Dieses Raster ist nur ein Beispiel. Ihr braucht nicht unbedingt Gewichtungen. Ihr müsst auch nicht fünf Stufen für jedes Kriterium haben, und die Anzahl der Stufen kann von Kriterium zu Kriterium auch variieren. Ihr müsst natürlich auch nicht nur sechs Kriterien auflisten — allerdings auch nicht zu viele, sonst wird das Raster unhandlich. Ihr solltet euch auf die Aspekte beschränken, die für den aktuellen Kenntnisstand der Studierenden am relevantesten sind. Außerdem benötigt ihr je nach Art der Aufgabe natürlich ganz unterschiedliche Kriterien.

Wer mathematische Aufgaben verwendet, der legt vielleicht Wert darauf, dass Größen mit den zugehörigen Einheiten versehen werden oder dass begründet wurde, warum welche Formel zum Einsatz kam. Wer juristische Fälle bearbeiten lässt, möchte sicher spezielle Merkmale des Gutachtenstils geprüft wissen oder den richtigen Gebrauch von Fachbegriffen. Wer in der Informatik Software entwickeln lässt, legt sicher Wert auf wartbaren Quelltext und legt als Kriterien womöglich selbsterklärende Variablennamen oder Kommentierung des „Warum“ statt des „Wie“ fest. Wer betriebswirtschaftliche Fallstudien ausgibt, fordert womöglich ausgewogene Pro- und Kontra-Argumente für verschiedene Szenarios und eine begründete Entscheidung für eine bestimmte Handlungsoption.

Mühe macht es darüber hinaus unabhängig vom Fach, gute Beschreibungen zu finden, mit denen die Studierenden bestimmen können, wie gut ein Kriterium erfüllt wurde. Diese Beschreibungen müssen nicht zwingend trennscharf oder 100%-ig exakt in Zahlen ausdrückbar sein. Das geht nicht immer, und die unvermeidbare Subjektivität von Peer Reviews dürfte jeder von euch kennen, der schon mal Feedback zu einem Artikel bekommen hat. Es sollte jedoch nicht möglich sein, dass sowohl die Beschreibungen einer unteren und einer oberen Stufe zutreffen und dazwischen noch eine oder mehrere liegen. Nicht schlimm ist es hingegen, wenn die Entscheidung zwischen zwei angrenzenden Stufen schwerfällt. Genau hier verbirgt sich Potenzial für den Austausch zwischen den Studierenden.

Ihr seht, da muss man sich schon einige Gedanken machen. Tut man das nicht, kann man sich die Mühe eigentlich sparen. Die Raster bieten den Studierenden dann nicht wirklich Hilfestellung, bergen die Gefahr der Willkür und verlieren damit ihre Nützlichkeit für das Peer Review.

Wer es noch ein wenig ausgefeilter mag…

Diejenigen unter euch, die es noch ein wenig ausgefeilter mögen, können noch tiefer graben. Einige Lehrende wünschen sich bei studentischen Peer Reviews eine möglichst qualifizierte und messbare Rückmeldung — es geht mitunter sogar in Richtung Benotung. Das Thema gewann durch Massive Open Online Courses (MOOCs) an Aufmerksamkeit, woraufhin Balfour (2013) einen Überblicksartikel veröffentlichte. Er beschreibt darin zum einen die automatisierte Bewertung von Aufsätzen, die zwar bei sehr eng gefassten und wenig komplexen Themen gute Ergebnisse liefere, allerdings auch einen hohen Trainingsaufwand der Software durch Lehrende erfordere. Für ein Programm der Plattform EdX etwa müssen Lehrende 100 Aufsätze beurteilen, damit es daraus eigenständig Kriterien zur Beurteilung ableiten könne. Anders arbeitet die Software Calibrated Peer Review. Ich benutze diesen Begriff kurzerhand als Bezeichnung für das folgende Vorgehen, weil es der Name trifft.

Das Calibrated Peer Review lässt sich in den Block Think-Pair einfügen und funktioniert etwa folgendermaßen (vgl. Balfour 2013, S. 43):

  1. Die Studierenden schließen ihre Aufgaben/Texte/Fallbearbeitungen ab. Sie kennen zu diesem Zeitpunkt das Raster noch nicht.
  2. Die Studierenden erhalten vom Lehrenden drei von ihm vorgegebene Bearbeitungen und müssen diese anhand des Rasters in Form von Punkten bewerten. Ihre Bewertung wird daraufhin mit der des Lehrenden verglichen. Je nach Stärke der Abweichung wird ihnen ein „Reviewer Competency Index“ (RCI) zugeordnet, der später zur Gewichtung herangezogen wird.
    Es bliebe zu überlegen, den Studierenden im Nachgang die Möglichkeit zu geben, ihre Bewertung auch mit der des Lehrenden zu vergleichen. Sie könnten daraus lernen, worauf es ihm/ihr ankommt.
  3. Die Studierenden bewerten mehrere Lösungen anderer (zum Beispiel drei Stück), so dass schließlich auch für jeden mehrere Beurteilungen vorliegen. Deren jeweilige Ergebnisse werden über den RCI gewichtet und dann gemittelt, aber den Studierenden noch nicht mitgeteilt.
  4. Die Studierenden schätzen nun ihre eigene Bearbeitung anhand des Rasters noch einmal selbst ein; sie haben nun ja mehrere andere Lösungen zum Vergleichen.
  5. Alle Studierenden erhalten die Rückmeldungen der anderen inklusive der Bepunktung.

Das Vorgehen liefert bei gutem Raster und guter Kalibrierung im zweiten Schritt wohl gute Ergebnisse, lässt sich per Hand aber kaum komfortabel bewältigen, schon gar nicht im Hörsaal. Leider ist mir lediglich die bereits oben genannte Software bekannt, aber keine entsprechenden PlugIns für die Lernmanagementsysteme, die an Hochschulen oft eingesetzt werden — aber vielleicht kennt ihr ja entsprechende frei nutzbare Systeme? Und was nicht ist, kann ja noch werden…

Fazit

Unter Peer-Reviews wird in der Lehre die Beurteilung von Studierenden durch Studierende verstanden. Es wird meist für das gegenseitige Bewerten von Texten genutzt, lässt sich prinzipiell aber auch für Rechenübungen, Programmieraufgaben oder für die Bearbeitung von Fällen und Fallstudien einsetzen.

Zwischenrufe

Dass es eher historisch-organisatorisch denn didaktisch begründet ist, Vorlesungen, große Übungen, kleine Übungen, usw. zu trennen, wird hier nicht thematisiert. Dem Thema könnte ich aber bei Gelegenheit einen eigenen Beitrag widmen :-)
Man beachte folgendes Detail: Im Originalton sagt Neo: „I know Kung Fu.“ In der deutschen Übersetzung heißt es: „Ich kann Kung Fu.“ Das ist ein Unterschied! Im Film muss Neo das Kämpfen trotz seines Wissens immer noch mit Morpheus üben, während man bei „können“ wohl eher davon ausgehen würde, dass das Üben bereits abgeschlossen ist.

Zum Vertiefen

2 thoughts on “Große Übung mal anders – mit Peer Reviews

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert