Montag, 21. Mai 2018

Low-Cost Feinstaubmessung Teil 2

Analyse und Interpretation der Messwerte

Um zu beurteilen, wie gut oder schlecht unsere gemessenen mit den offiziellen Werten übereinstimmen, muss man zunächst ein Maß für die Übereinstimmung oder Abweichung festlegen.
Die grafischen Darstellungen auf der Zeitachse und das Streudiagramm erlauben schon eine gute  intuitive Einschätzung, aber um die Qualität der Sensoren und unserer Verfahren beurteilen und untereinander vergleichen zu können, brauchen wir eine quantitative Metrik.


Metrik 

Unsere Daten sind wie folgt aufgebaut, hier am Beispiel des SDS011-Sensors:

Datum                  Sensor       HLNUG
2018-03-20 00:00:00    10.90        16.9
2018-03-20 00:30:00    10.80        17.1
2018-03-20 01:00:00     9.90        16.1
2018-03-20 01:30:00     9.30        14.7
2018-03-20 02:00:00     9.55        15.2
2018-03-20 02:30:00     9.80        15.1
2018-03-20 03:00:00    10.10        15.4
2018-03-20 03:30:00    11.30        17.1
2018-03-20 04:00:00    10.90        16.6
2018-03-20 04:30:00    11.40        17.4
2018-03-20 05:00:00    11.50        17.5
2018-03-20 05:30:00    11.40        18.0
...
Wir haben eine lange Liste mit jeweils Datum und Zeit sowie den PM2.5 Werten unseres Sensors und der offiziellen Messstation zu diesem Zeitpunkt.

Zum einen kann man die Abweichung (Fehler) der gemessenen von den offiziellen Werten quantifizieren. Eine niedrige Fehlerrate bedeutet dabei eine bessere Übereinstimmung.
Wenn wir die Werte der beiden Listen voneinander abziehen (subtrahieren), haben wir eine Liste der Abweichungen. Wenn wir all diese zusammenzählen (bzw. deren Beträge, weil sich sonst positive und negative Abweichungen ausgleichen würden), erhalten wir die Summe der Abweichungen, die grafisch gesehen dem Flächeninhalt zwischen den beiden Kurven entspricht.
  • Teilen wir diese Summe durch die Anzahl der Messungen, haben wir die durchschnittliche Abweichung (Mean error).
  • Wenn wir die Liste der Abweichungen sortieren und den Wert in der Mitte nehmen, haben wir ebenfalls eine mittlere Abweichung, die etwas robuster gegenüber extremen Werten wie z.B. Messfehlern ist (Median Error).
  • Sicherheitshalber berechnen wir noch die maximale Abweichung (Max Error) als "worst case".
  • Ein verbreitetes Maß für die Abweichung ist auch der quadratische Mittelwert des Fehlers, d.h. die Wurzel aus der Summe der Quadrate der Differenzen
Zum anderen können wir errechnen, wie stark die beiden Größen linear zusammenhängen, das sogenannte Bestimmtheitsmaß (R2-Score). Ein höherer R2-Score bedeutet eine bessere Übereinstimmung, mit dem bestmöglichen Wert von 1.

Hier im Überblick die Bewertung der PM2.5 Messungen des SDS011 von Nova Fitness:

SDS011
R2-Score0.6922
Mean Error 3.4367
Median Error 2.8000
Max Error24.9000

Der durchschnittliche Fehler liegt bei 3.4, der mittlere bei 2.8 und die maximale Abweichung beträgt 24.9, alles in μg/m³. Das ist schon eine recht gute Übereinstimmung, aber der maximale Fehler ist sehr hoch und Durchschnitt und Median liegen deutlich auseinander, was bedeutet, dass unser Sensor zwar im Durchschnitt gut misst, aber bei den extremeren Werten stark abweicht.


Lineare Regression

Lineare Regression ist ein mathematisches Verfahren um Zusammenhänge zwischen mehreren Merkmalen zu modellieren und Vorhersagen zu ermöglichen. Es ist, wie der Name bereits andeutet, auf lineare Zusammenhänge beschränkt, d.h. die Zusammenhänge werden durch eine Formel Y = mX + c modelliert oder noch einfacher gesagt:
Es wird eine Formel gefunden, die die Kurve unserer Sensoren verschiebt und skaliert, um die Zielgröße, also die offiziellen Messungen, möglichst gut anzunähern.

Wir können dieses mathematische Modell nun dazu verwenden, auf Basis unserer Messwerte die offiziellen Messwerte "vorherzusagen" oder unsere Sensoren gewissermaßen zu kalibrieren.

Wenden wir diese Vorhersage (Prediction, hellgrüne Kurve) auf unsere Beispielwoche an, sieht man, dass die Kurve im Mittel etwas näher an den offiziellen Werten liegt.


Im Streudiagramm orange eingezeichnet:


In der Grafik fallen die Unterschiede nicht so stark auf, aber wenn wir die Vorhersage unter der oben beschrieben Metrik analysieren, sehen wir, dass sie die offiziellen Messungen deutlich besser beschreibt:

SensorRegression
R2-Score0.69220.8026
Mean Error 3.43672.6491
Median Error 2.80001.9446
Max Error24.900020.3716

Multiple lineare Regression

Unsere Sensoren haben keine Möglichkeit, Luftparameter wie Temperatur, Luftfeuchtigkeit oder Luftdruck in ihre Berechnungen mit einzubeziehen. Wir haben diese Parameter allerdings getrennt gemessen und können sie in unsere Regression als weitere unabhängige Variablen einführen.


SensorRegressionMultiple
R2-Score0.69220.80260.8281
Mean Error 3.43672.64912.4636
Median Error 2.80001.94461.8086
Max Error24.900020.371618.5109
Interessant ist dabei, dass wir nicht angeben müssen, welchen Einfluss Temperatur, Luftfeuchtigkeit oder Luftdruck auf die Messung nehmen. Wir füttern die Werte in unseren Algorithmus und er passt das mathematische Modell entsprechend an.

Polynomkombinationen

Wenn wir die Kurve unseres Sensors mit der des offiziellen Sensors vergleichen, sehen wir, dass sie manchmal darunter und manchmal darüber liegt. Das bedeutet, dass die beiden Größen nicht ganz linear zusammenhängen und eine lineare Regression damit auch keine optimale Vorhersage oder Kalibrierung leisten kann. Wir können zwar den Algorithmus der linearen Regression nicht ändern, aber wir können unsere Daten so transformieren, dass Polynom-Kombinationen der Eingangsvariablen gebildet werden, sie gewissermaßen in eine "höhere Dimension" projiziert werden. Damit wird das Modell allerdings auch wesentlich komplexer und damit schwieriger zur Kalibrierung anzuwenden. Außerdem erfordert es ein sorgfältigeres "Training" mit Testdaten.

Hier haben wir die Eingangsdaten bis zur 3. Potenz erhoben:

SensorRegressionMultiplePolynom
R2-Score0.69220.80260.82810.9298
Mean Error 3.43672.64912.46361.6153
Median Error 2.80001.94461.80861.1531
Max Error24.900020.371618.51099.8710

Wir haben den maximalen Fehler jetzt auf unter 10 μg/m³ bekommen und eine Korrelation von ca. 0.93. Auch das Streudiagramm erscheint jetzt wesentlich schlanker und nähert sich bereits der idealen Gerade an.
Im nächsten Post werden wir dieses Prozedere auf alle Sensoren unseres Testfeldes anwenden und sehen, wie gut sie performen.

5 Kommentare:

  1. Top 3 casinos near Washington D.C. (Washington D.C.
    1. MGM Grand Casino · 2. Caesars Palace 충청남도 출장샵 Casino · 세종특별자치 출장안마 3. Treasure 제주 출장마사지 Island Casino 영천 출장샵 · 4. 제주 출장마사지 Bally's Atlantic City Casino · 5. MGM Grand

    AntwortenLöschen
  2. "Low-Cost Feinstaubmessung Teil 2" likely refers to the continuation of a project or study focused on low-cost particulate matter (Feinstaub) measurement. This project would be centered around developing, implementing, or improving cost-effective methods for monitoring air quality, specifically concentrating on the measurement of fine particulate matter.
    estate planning lawyer near me
    motorcycle accident

    AntwortenLöschen
  3. Given the potential financial and legal repercussions of reckless driving convictions in Virginia, individuals facing these charges should seek legal counsel to understand their rights, explore defense strategies, and mitigate the impact of the offense. Consulting with a qualified attorney can provide guidance on navigating the legal process and working towards a favorable outcome. How much is the fine for reckless driving in Virginia

    AntwortenLöschen
  4. A reckless driving lawyer specializes in defending clients against charges of serious traffic violations, such as reckless driving. In Virginia, reckless driving is considered a serious offense that can result in large fines, loss of license points, and in some cases, even jail time. Competent legal representation is essential to protect rights and mitigate the consequences of such accusations. Abogado conducción imprudente Botetourt VA

    AntwortenLöschen