@@ -95,6 +95,10 @@ Nach jedem Szenario wurden die Fragebögen zu dem Test ausgefüllt. Hierbei wurd
Abschließend gab es noch einen weiteren Fragebogen mit einer allgemeine Frage und freien Kommentaren.
Um anfängliche Probleme und den Lerneffekt in der Evaluation nicht mit einzubeziehen wurden bei jedem Testlauf die ersten 5 Aufgaben verworfen.
Das heißt es wurden nur die letzten 10 Durchläufe der jeweilgen Szenarien ausgewertet und auf Fehler und Zeit unterschiede untersucht.
\section{Statistische verfahren}
Für die statistische Auswertung der Nutzerstudie sind einige verfahren notwendig.
Die Ergebnisse bestehen aus den Antworten der Fragebögen und den automatisierten Zeitmessungen.
...
...
@@ -112,31 +116,22 @@ Hierbei ist die Kennzeichnung wie folgt:
\end{description}
Für metrisch skalierte Daten wir als Maß das arithmetische Mittel, im Folgenden Mittelwert genannt, verwendet. Zusätzlich wird in den Schaubildern die Standartabweichung angegeben.
In der Auswertung werden Boxplots verwendet. Hierbei ist die Kennzeichnung wie folgt:
\begin{description}
\item[Whisker] Minimum bzw Maximum
\item[Box]erstes bzw drittes Quartil
\item[gepunktete Line] Median
\item[Raute]Mittelwert
\end{description}
Tabellen Anhang
Verwerfen der ersten 5 Messergebnisse!!!
Um Zusammenhänge in den Daten zu finden und zu analysieren wurden Signifikanzsanalysen der Daten durchgeführt.
Hierfür wird eine Gegenhypothese oder auch Nullhypothese genannt aufgestellt, welche ausdrückt das kein Zusammenhang besteht.
Ein berechnete Testgröße (p-Wert) gibt Aufschluss darüber,w ie wahrscheinlich die Nullhypothese zutrifft.
Liegt der p-WErt unter einem Signifikanzniveau kann die Nullhypothese verworfen werden.
Für das Signifikanzniveau wird meist ein Wert von 5\% verwendet \cite{Signifikanztests}
Für dei Evaluation wurde deshalb ebenfalls 5\% gewählt.
In dieser Arbeit wurde der T-Test für die Signifikanzanalyse verwendet.
Dieser bietet Verfahren für abhängige (gepaarte) und unabhängige Stichproben.
Abhängige Stichproben liegen vor wenn der Messwiederholung vorliegt, zum Beispiel die Messwerte stammen von der gleichen Person oder bei natürlichen Paaren, d.h. die Messwerte stammen von unterschiedlichen Personen, die zusammengehören.
In dieser Evaluation liegt eine Abhängigkeit zwischen dem Experten und dem lokalen Benutzer vor.
Unabhängige Stichproben sind zum Beispiel der Vergleich der beiden Experten zwischen dem VR und Video Szenario.
Die Rollen werden zwischen den Tests gewechselt und damit nimmt jeder Teilnehmer jede Rolle nur einmal an.
Als Nullhypothese wird in dieser Arbeit verwendet das sich die 2 Stichproben nicht unterscheiden.
Das ist keine gerichtete Hypothese, deshalb wurde der zweiseitige T-Test verwendet.
abstract = { NASA-TLX is a multi-dimensional scale designed to obtain workload estimates from one or more operators while they are performing a task or immediately afterwards. The years of research that preceded subscale selection and the weighted averaging approach resulted in a tool that has proven to be reasonably easy to use and reliably sensitive to experimentally important manipulations over the past 20 years. Its use has spread far beyond its original application (aviation), focus (crew complement), and language (English). This survey of 550 studies in which NASA-TLX was used or reviewed was undertaken to provide a resource for a new generation of users. The goal was to summarize the environments in which it has been applied, the types of activities the raters performed, other variables that were measured that did (or did not) covary, methodological issues, and lessons learned }
}
@misc{UE4Holo,
title = {Signifikanztests (so) kurz (wie möglich) erklärt},