@@ -95,6 +95,10 @@ Nach jedem Szenario wurden die Fragebögen zu dem Test ausgefüllt. Hierbei wurd
...
@@ -95,6 +95,10 @@ Nach jedem Szenario wurden die Fragebögen zu dem Test ausgefüllt. Hierbei wurd
Abschließend gab es noch einen weiteren Fragebogen mit einer allgemeine Frage und freien Kommentaren.
Abschließend gab es noch einen weiteren Fragebogen mit einer allgemeine Frage und freien Kommentaren.
Um anfängliche Probleme und den Lerneffekt in der Evaluation nicht mit einzubeziehen wurden bei jedem Testlauf die ersten 5 Aufgaben verworfen.
Das heißt es wurden nur die letzten 10 Durchläufe der jeweilgen Szenarien ausgewertet und auf Fehler und Zeit unterschiede untersucht.
\section{Statistische verfahren}
\section{Statistische verfahren}
Für die statistische Auswertung der Nutzerstudie sind einige verfahren notwendig.
Für die statistische Auswertung der Nutzerstudie sind einige verfahren notwendig.
Die Ergebnisse bestehen aus den Antworten der Fragebögen und den automatisierten Zeitmessungen.
Die Ergebnisse bestehen aus den Antworten der Fragebögen und den automatisierten Zeitmessungen.
...
@@ -112,31 +116,22 @@ Hierbei ist die Kennzeichnung wie folgt:
...
@@ -112,31 +116,22 @@ Hierbei ist die Kennzeichnung wie folgt:
\end{description}
\end{description}
Für metrisch skalierte Daten wir als Maß das arithmetische Mittel, im Folgenden Mittelwert genannt, verwendet. Zusätzlich wird in den Schaubildern die Standartabweichung angegeben.
Für metrisch skalierte Daten wir als Maß das arithmetische Mittel, im Folgenden Mittelwert genannt, verwendet. Zusätzlich wird in den Schaubildern die Standartabweichung angegeben.
Um Zusammenhänge in den Daten zu finden und zu analysieren wurden Signifikanzsanalysen der Daten durchgeführt.
Signifikanztest
Hierfür wird eine Gegenhypothese oder auch Nullhypothese genannt aufgestellt, welche ausdrückt das kein Zusammenhang besteht.
Abhängig paaren aka vr udn ar
Ein berechnete Testgröße (p-Wert) gibt Aufschluss darüber,w ie wahrscheinlich die Nullhypothese zutrifft.
unabhängig VR mit Video
Liegt der p-WErt unter einem Signifikanzniveau kann die Nullhypothese verworfen werden.
Für das Signifikanzniveau wird meist ein Wert von 5\% verwendet \cite{Signifikanztests}
pwert kleienr als 0.05 -> nullhpothesse verwerfen
Für dei Evaluation wurde deshalb ebenfalls 5\% gewählt.
In dieser Arbeit wurde der T-Test für die Signifikanzanalyse verwendet.
Dieser bietet Verfahren für abhängige (gepaarte) und unabhängige Stichproben.
Abhängige Stichproben liegen vor wenn der Messwiederholung vorliegt, zum Beispiel die Messwerte stammen von der gleichen Person oder bei natürlichen Paaren, d.h. die Messwerte stammen von unterschiedlichen Personen, die zusammengehören.
In dieser Evaluation liegt eine Abhängigkeit zwischen dem Experten und dem lokalen Benutzer vor.
Unabhängige Stichproben sind zum Beispiel der Vergleich der beiden Experten zwischen dem VR und Video Szenario.
In der Auswertung werden Boxplots verwendet. Hierbei ist die Kennzeichnung wie folgt:
Die Rollen werden zwischen den Tests gewechselt und damit nimmt jeder Teilnehmer jede Rolle nur einmal an.
\begin{description}
\item[Whisker] Minimum bzw Maximum
Als Nullhypothese wird in dieser Arbeit verwendet das sich die 2 Stichproben nicht unterscheiden.
\item[Box]erstes bzw drittes Quartil
Das ist keine gerichtete Hypothese, deshalb wurde der zweiseitige T-Test verwendet.
abstract = { NASA-TLX is a multi-dimensional scale designed to obtain workload estimates from one or more operators while they are performing a task or immediately afterwards. The years of research that preceded subscale selection and the weighted averaging approach resulted in a tool that has proven to be reasonably easy to use and reliably sensitive to experimentally important manipulations over the past 20 years. Its use has spread far beyond its original application (aviation), focus (crew complement), and language (English). This survey of 550 studies in which NASA-TLX was used or reviewed was undertaken to provide a resource for a new generation of users. The goal was to summarize the environments in which it has been applied, the types of activities the raters performed, other variables that were measured that did (or did not) covary, methodological issues, and lessons learned }
abstract = { NASA-TLX is a multi-dimensional scale designed to obtain workload estimates from one or more operators while they are performing a task or immediately afterwards. The years of research that preceded subscale selection and the weighted averaging approach resulted in a tool that has proven to be reasonably easy to use and reliably sensitive to experimentally important manipulations over the past 20 years. Its use has spread far beyond its original application (aviation), focus (crew complement), and language (English). This survey of 550 studies in which NASA-TLX was used or reviewed was undertaken to provide a resource for a new generation of users. The goal was to summarize the environments in which it has been applied, the types of activities the raters performed, other variables that were measured that did (or did not) covary, methodological issues, and lessons learned }
}
}
@misc{UE4Holo,
title = {Signifikanztests (so) kurz (wie möglich) erklärt},