4  Quantitative Prüfung

4.1 Allgemeine Hinweise

  1. Verwenden Sie Standardwerte (defaults) der R-Funktionen, soweit nicht anders in der jeweiligen Aufgabe verlangt.
  2. Findet sich in einer Auswahlliste möglicher Antworten nicht die exakte Lösung, wählen Sie die am besten passende.
  3. Treffen Sie Annahmen, (nur) wo nötig.
  4. Die Prüfung besteht auch aus Single- bzw. Multiple-Choice- (MC)-Aufgaben mit mehreren Antwortoptionen.
  5. Bei Multiple-Choice-Aufgaben (MC-Aufgaben) ist zumeist genau eine Antwortoption auszuwählen aus vier oder fünf Antwortoptionen.
  6. Im Zweifel ist eine Aussage auf den Stoff, so wie im Unterricht behandelt, zu beziehen.
  7. Jede Aussage einer MC-Aufgabe ist entweder richtig oder falsch (aber nicht beides oder keines).
  8. Die MC-Aufgaben sind nur mit Kreuzen zu beantworten; Text wird bei der Korrektur nicht berücksichtigt.
  9. Jede Aussage gilt ceteris paribus (unter sonst gleichen Umständen). Aussagen der Art „A ist B“ (z.B. “Menschen sind sterblich”) sind nur dann als richtig auszuwählen, wenn die Aussage immer richtig ist.
  10. Falls Sie bei einer Aufgabe mehrere Antworten finden, aber nur nach einer gefragt ist, geben Sie nur eine an.
  11. Falls mehrere (widersprüchliche) Antworten gegeben wurden, wird im Zweifel die erst genannte gewertet.
  12. Die Aufgabenstellung in einer Moodle-Prüfung wird u.U. erst sichtbar, wenn Sie den Prüfungsbedingungen zugestimmt haben und die Prüfungszeit begonnen hat.
  13. Durch Ihre Teilnahme an der Prüfung bestätigen Sie, dass Sie die Hinweise zur Kenntnis genommen haben.
  14. Bei Fragen zu R-Syntax spielen Aspekte wie Enter-Taste o.Ä. bei der Beantwortung der Frage keine Rolle; diese Aspekte dürfen zu ignorieren.
  15. Wie auch bei den übrigen Hinweisen gelten diese Maßgaben nur soweit nicht explizit andere Hinweise gegeben wurden.

4.2 Aufgaben zur Datenanalyse

  1. Je nach Spracheinstellung in Moodle kann es sein, dass Sie als Dezimaltrennzeichen ein Komma oder einen Punkt verwenden müssen. Moodle weist Sie darauf hin, falls eine Zahl nicht als Zahl erkannt wurde.
  2. Runden Sie bei Fragen, die auf Anteile abzielen auf zwei Dezimalstellen, ansonsten auf eine.
  3. Geben Sie keine Prozentzahlen an, sondern Anteile (FALSCH: 50%, RICHTIG: 0.5 bzw. 0,5).
  4. Bei Aufgaben, die eine Zahl als Antwort verlangen, ist nur Ziffern anzugeben (nicht etwa Buchstaben).
  5. Alle Berechnungen, die Zufallszahlen beinhalten, sollen mit fixierten Startwert der Zufallszahlen durchgeführt werden. Es ist die Zahl 42 zu verwenden.
    1. Wenn Stichproben simuliert werden sollen, ziehen Sie \(10^3\) Zufallsstichproben.
  6. In einigen Aufgaben kann verlangt sein, dass Sie einen bestimmten Datensatz in R importieren sollen. In diesem Fall wird vorausgesetzt, dass Ihnen diese Bezugsquelle von Datensätzen bekannt ist und dass Sie wissen, wie man einen Datensatz in R importiert.
  7. Achten Sie darauf, R und R-Pakete sowie R-Studio in aktueller Version zu verwenden. Das Verwenden älterer Versionen kann (in seltenen Fällen) zu abweichenden Lösungen führen. Im Zweifel beziehen sich alle Aufgaben auf die jeweils aktuellste Version der verwendeten Software.
  8. Wenn Sie Text eingeben sollen: Geben Sie nur Kleinbuchstaben ein. Geben Sie nur ein einziges Wort ein. Geben Sie keine Leerzeichen ein.

4.3 Besonderheiten zur Bayes-Statistik

  1. Verwenden Sie Methoden der Bayes-Statistik für inferenzstatistische Analysen (soweit nicht anders vorgegeben).

  2. Bei Aufgaben zur “Bayes-Box” (Erstellung einer Gitterwert-Tabelle) gelten folgende Maßgaben:

    • Handelt es sich um Parameter mit einem begrenzten Wertebereich (wie etwa Anteile), so ist der ganze Wertebereich zu modellieren. Es sind 101 verschiedene Parameterwerte zu berechnen (wenn möglich, gleichabständig verteilt).
    • Handelt es sich um Parameter \(X\) mit einem unbegrenzten Wertebereich (wie normalverteilte Variablen), so ist der Wertebereich \(X-2\sigma \le X \le X+2\sigma\) zu simulieren.
  3. Nutzen Sie die Software Stan in Form des R-Pakets rstanarm für Regressionsmodelle auf Basis der Bayes-Methode.

  4. Verwenden Sie immer folgenden Seed-Wert bei stan_glm(): 42. Dazu setzen Sie folgenden Parameter seed = 42 (innerhalb von stan_glm()).

  5. Es gibt einen Toleranzbereich für Lösungen bei Aufgaben, die Zufallszahlen bei der Berechnung verwenden. Toleranzbereiche werden verwendet für Aufgaben mit Zufallszahlen: Lösungen solcher Aufgaben können schwanken (trotz gesetztem Seed). Dabei muss man unterscheiden zwischen Lösungen in Form eines Anteils (Wertebereich: 0-1 ) und sonstigen Aufgaben mit numerischer Lösung, wie Regressionsmodelllen (unbegrenztem Werbereich: \(-\infty\) bis \(+\infty\)).

  1. Lösungen mit Wertebereich 0-1: Toleranzbereich von 5 Prozentpunkten
  2. Lösungen mit unbegrenztem Wertebereich: - relativer Toleranzbereich: ±5% des Werts der Musterlösung - absoluter Toleranzbereich: 5% der SD der Outcome-Variablen (bei Regressionsmodellen)

Beispiele:

  • Der Wert laut Musterlösung liegt bei 100 (unbegrenzter Wertbereich); dann erstreckt sich der Toleranzbereich von 95 bis 105.
  • Der Wert laut Musterlösung liegt bei .05 (unbegrenzter Wertbereich); dann erstreckt sich der Toleranzbereich um ±0.0025 Punkte um 0.05.
  • Der Wert laut Musterlösung liegt bei .42 (Anteil); dann erstreckt sich der Toleranzbereich um ±5 Prozentpunkte um 0.42, also von .37 bis .47 (einschließlich).

4.4 Verwendete Datensätze

4.4.1 R-Pakete mit Prüfungsdatensätzen

In der Prüfung werden Sie u.U. aufgefordert, einen Datensatz zu importieren und zu bearbeiten. Die folgende Liste (Tabelle 4.1) zeigt, welche Datensätze in der Prüfung verwendet werden. Sie können die Datensätze vorab herunterladen (für eine schnellere Bearbeitung in der Prüfung).

Es werden Datensätze aus den folgenden R-Pakete verwendet:

[1] "datasets"       "palmerpenguins" "reshape2"       "gt"            
[5] "ggplot2"        "MASS"           "AER"            "robustbase"    
[9] "openintro"     

4.4.2 Importieren von Daten in R

Für die Prüfung sollten Sie wissen, wie man Datensätze (v.a. aus dem CSV-Format) in R importiert.

Hinweis

Sie können jeden Datensatz entweder per CSV-Datei importieren (z.B. mit read.csv) oder über Starten das zugehörige R-Paket. Letzteres kann ein bisschen schneller gehen. \(\square\)

Weg 1: Import via CSV-Datei:

library(tidyverse)  # `read_csv` wohnt im Tidyverse
penguins <- read_csv("https://vincentarelbundock.github.io/Rdatasets/csv/palmerpenguins/penguins.csv")

head(penguins)  # Check?! Passt!

Weg 2: Import über das zugehörige R-Paket (das natürlich vorab installiert sein muss):

library(palmerpenguins)
data(penguins)

head(penguins)  # Wieder Prüfen ... Passt!

Beide Möglichkeiten führen zum Ziel.

Für Datensätze, die schon mit R mitgeliefert werden, wie mtcars, muss kein Paket gestartet werden. Es reicht, den Datensatz mit data(name_des_datensatzes) zu starten.

4.4.3 Liste der Prüfungsdatensätze

In Tabelle 4.1 sind alle Prüfungsdatensätze aufgelistet inkl. dem Bezugsort der zugehörigen CSV-Datei sowie dem zugehörigen Code-Book (Beschreibung des Datensatzes).

Tabelle 4.1: Prüfungsdatensätze

Sie können auch die gesamte CSV-Datei mit Namen und URL zu den Datensätzen hier herunterladen.

4.5 Zugelassene Taschenrechner

Taschenrechner sind nur dann in der Prüfung zugelassen, wenn dies explizit in der Prüfungsplan vermerkt ist. Zugelassen sind in dann nur wissenschaftlicher Taschenrechner, dessen Funktionalität den Regelungen des KMS Nr. VI.7–5 S 5500–6b.80372 vom 11.11.2011 und der Anlage dazu entspricht.

Vereinfacht gesagt: Zugelassen sind nicht-programmierbare, wissenschaftliche Taschenrechner.

Ein Taschenrechner gilt als programmierbar, wenn zusätzliche, zum ursprünglichen Funktionsumfang nicht gehörige Routinen gespeichert werden können. (Anlage zum KMS Az.: VI.7 – 5 S 5500 – 6b.80372 vom 11. November 2011)