5. Kombination von Vorhersagen
Zwei und mehr unabhängige, nicht exakte Vorhersagen eines Ereignisses können so miteinander kombiniert werden, daß die Kombination im Mittel eine höhere Genauigkeit besitzt als die Einzelvorhersagen, wobei die Genauigkeit typischerweise durch den mittleren quadratischen Fehler E (MSE, mean square error) oder dessen Wurzel (RMSE, root mean square error) dargestellt wird. Die Koeffizienten der linearen Kombination werden durch Minimierung des MSE der Kombination, also durch eine multivariate lineare Regression, bestimmt. Diese Methode der Kombinationsvorhersage geht auf Thomson (1977) zurück und wurde von Fraedrich und Leslie (1987) zur Kombination von Wahrscheinlichkeitsvorhersagen ausgebaut. Leslie und Fraedrich (1990) haben das Verfahren auf tropische Zyklonenzugbahnen im australischen Bassin angewendet und gezeigt, daß durch eine lineare Kombination von statistischer und numerischer Wettermodell-Vorhersage eine Verringerung des mittleren Vorhersagefehlers um 15% und mehr zu erzielen ist.
Im folgenden werden verschiedene Kombinationsvariationen vorgestellt. Auf eine detailierte Herleitung der Koeffizienten wird dabei verzichtet. Anschließend werden die Ergebnisse der Kombination von Analogverfahren und CLIPER für diese Variationen dargestellt.
5.1. Kombinationsmodelle
Betrachtet wird in allen Fällen eine Kombination k=(xk,yk) von Einzelvorhersagen 1=(x1,y1) und 2=(x2,y2) mit dazugehörender Beobachtung =(x,y). Ausgehend von der allgemeinsten Linearkombination der Vorhersagen werden insgesamt 4 Variationen dargelegt. x bzw. y stellen hier keine absoluten Positionen, sondern die zonalen bzw. meridionalen Zyklonenbewegungen dar. Die Koeffizienten werden mittels linearer Regression ermittelt, indem die Fehler der Kombinationskomponenten
| |
 |
|
| |
und |
| |
 |
(36) |
minimiert werden. Der Ausdruck steht für den Mittelwert über die Menge aller x.
Kombination A
Die allgemeinste Linearkombination von 1 und 2 in der hier genutzten Form ergibt sich zu:
| |
 |
|
| |
 |
(37) |
In dieser Form haben Leslie und Fraedrich (1990) die australischen Zyklonenvorhersagen kombiniert.
Kombination B
Nimmt man an, daß zonale und meridionale Bewegung x und y unkorreliert bzw. nur schwach korreliert sind, kann man das System (37) vereinfachen zu
| |
 |
|
| |
 |
(38) |
Da der Modellbildungszeitraum nur eine endliche Anzahl von Vorhersagen 1 und 2 enthalten kann, muß das Kombinationsmodell A trotz der höheren Anzahl von Koeffizienten nicht notwendigerweise die besseren Ergebnisse liefern. Die geringere Koeffizientenzahl in (38) führt nämlich bei gleicher Anzahl von in die Regression eingehender Vorhersagen und Beobachtungen zu stabileren Koeffizienten, was bei starker Variabilität der Daten durchaus zu beachten ist.
Kombination C
In einer weiteren Vereinfachung wird der Intercept, die Verschiebung der Regressionsflächen gegen den Nullpunkt, vernachlässigt. Man erhält das Kombinationssystem
| |
 |
|
| |
 |
(39) |
Eine Herleitung des Gleichungssystems für diese Koeffizienten findet sich zum Beispiel in Raible (1997), wobei zu beachten ist, daß es sich dort um eine eindimensionale (Temperaturanomalie-) Vorhersage handelt. Die Koeffizienten reagieren sensitiv auf Verschiebungen des Datensatzschwerpunktes. In (37) und (38) wird dies durch den entsprechend großen Intercept [14] ausgeglichen. Daher ist es wichtig zu unterscheiden, ob es sich bei x und y um absolute Werte (Positionen) oder um Anomalien (Bewegungen) handelt.
Kombination D
Werden die mittleren Fehler nicht nach (36) einzeln, sondern der gesamte Vorhersagefehler
| |
 |
(40) |
minimiert, so erhält man das Gleichungssystem mit der minimalen Koeffizientenzahl:
| |
 |
|
| |
 |
(41) |
Wird dieses System verwendet, muß dem Umstand Beachtung geschenkt werden, daß es sich bei Eges um den Fehler in der Ebene handelt, die Bewegung tatsächlich aber auf der Kugeloberfläche stattfindet. Man wird verschiedene Koeffizienten erhalten, je nachdem ob x und y als Differenz von geographischer Länge bzw. Breite in Grad oder als Bewegung in Kilometern angegeben sind, wobei in letzterem Fall die geographische Breite in die Größe der zonalen Verschiebung mit eingehen wird. Gleiches gilt für das System (37), während bei den Systemen (38) und (39) dieses Problem nicht auftritt, da hierbei die zonale und meridionale Vorhersage bei der gesamten Rechnung getrennt bleiben. Werden beide Richtungen nicht kombiniert, so haben die Koeffizienten auch keinen Einfluß aufeinander. Die Größe dieses Einflusses wird hier nicht weiter untersucht, es werden einheitlich Breiten- bzw. Längendifferenzen betrachtet.
5.2. Ergebnisse
Die Kombination erfolgt zwischen dem in Kapitel 4 als "optimal" gefundenen Modell A bei einer Ensemblegröße von NE =18 und CLIPER. Um eine echte Aussage über die Qualität der Kombinationsvorhersage treffen zu können, muß man drei Zeiträume unterscheiden:
den Modellbildungszeitraum für das Analogmodell, in dem adaptiert wird;
den Modellbildungszeitraum für das Kombinationsmodell und
den Verifikationszeitraum.
Letzterer soll wieder die Jahre 1989 bis 1996 umfassen, um die Vergleichbarkeit mit den Ergebnissen des Analogmodells zu gewährleisten. Die in Kapitel 4.5 erläuterte starke Varianz der Daten macht eine möglichst umfassende Datenmenge für die Bestimmung der Kombinationskoeffizienten erforderlich, damit die Koeffizienten stabil werden. Da die CLIPER-Koeffizienten bis einschließlich 1970 gebildet wurden, ist erst ab 1971 eine statistisch unabhängige Vorhersage mit dem CLIPER-Modell möglich. Aus diesem Grund wird die Grenze zwischen den beiden Modellbildungszeiträumen auf den Saisonwechsel 1970 / 71 gelegt. Damit ergeben sich als statistisch unabhängige Zeiträume:
1886 - 1970 Adaption der Modelle (CLIPER seit 1931, vergleiche Kapitel 3.3), 10423 nutzbare Zustände;
1971 - 1988 Bestimmung der Kombinationskoeffizienten zwischen den Modellen, 2248 nutzbare [15] Zustände;
1989 - 1996 Verifikation der Kombinationsmodelle, 1566 nutzbare Zustände.
Die Adaption mit der reduzierten Bibliothek ergibt einen etwas anderen Fehler als das ursprüngliche Modell. Ähnlich wie bei der Reduzierung der Bibliotheksgröße zu Beginn des Datensatzes (vergleiche Abbildung 8 in Kapitel 4.5) nimmt der Fehler im kurzfristigen Vorhersagebereich leicht zu (um etwa 2.5%) und sinkt im längerfristigeren Bereich gegenüber der kompletten Bibliothek um wenige Zehntel Prozent.
Mit den durch die Adaption erhaltenen Gewichten wird die Analogvorhersage für den Zeitraum 1971 bis 1988 durchgeführt. Die so gefundenen 2248 Prognosen je Vorhersagezeitschritt bestimmen über die Regressionsanalyse die Kombinationskoeffizienten. Die Koeffizienten für die 4 verschiedenen Kombinationsvariationen sind in Tabelle 14 bis Tabelle 17 zu finden. Hierbei ist die Analogvorhersage grundsätzlich die erste Vorhersage, die CLIPER-Vorhersage ist 2. Bei der Betrachtung der Koeffizienten fallen einige Besonderheiten auf. Bei den Modellen A bis C, bei denen zonale und meridionale Vorhersage getrennt kombiniert werden, sind die Ergebnisse der meridionalen Kombination in den Grundzügen einheitlich. Die Gewichtung der Analogvorhersage nimmt mit der Vorhersagezeit stark zu, während das Gewicht der CLIPER-Meridionalkomponenten um über 20 Prozentpunkte abnimmt. In der zonalen Kombination zeigen Modell A auf der einen und die Modelle B und C auf der anderen Seite dagegen Unterschiede. Bei dem umfangreicheren Modell A nimmt das Gewicht der Zonalkomponente von ANALOG durchgehend zu, das der CLIPER-Komponente ab. Die Modelle B und C dagegen, die keine Korrelationen betrachten, zeigen in der Analogkomponente ein abnehmendes Gewicht (mit einem leichten Anstieg zur 72-Stunden-Vorhersage) und entsprechend umgekehrt eine zunehmende Gewichtung von CLIPER. Ähnlich sehen die Koeffizienten bei Modell D aus. CLIPER erreicht die größte Gewichtung nach 36 Stunden.
>
- Abb. 22: Großkreisfehler der Kombinationsmodelle, CLIPER und ANALOG

- Abb. 23: Skill der Kombinationsmodelle gegen CLIPER
Die Ergebnisse der kombinierten Prognose über den Verifikationszeitraum sind in Abbildung 22 (Großkreisfehler) und Abbildung 23 (Skill gegen CLIPER) dargestellt. Man erkennt, daß alle 4 Modelle einen nahezu identischen Skill gegenüber CLIPER aufweisen, und das über den gesamten Vorhersagezeitraum. Lediglich das Modell A zeigt zwischen 36 und 60 Stunden einen um etwa 0.5 Prozentpunkte höheren Skill. Das Maximum wird im Kurzfristbereich nach 12 Stunden mit 6.0% (Modell A) erreicht, nach 24 Stunden liegt der Skill zwischen 1.0% (Modell D) und 1.5% (Modell A). Jenseits von 24 Stunden schwankt er zwischen 1.0% und 1.5% bei den Modellen B, C und D bzw. zwischen 1.0% und 1.4% (Modell A). Der Grund dafür, daß die Verbesserung nur gering ausfällt (im Vergleich mit den von Leslie und Fraedrich (1990) gefundenen 15% zwischen dynamischem und statistischem Modell), liegt wahrscheinlich in der Ähnlichkeit der beiden Modelle. Bei beiden handelt es sich um rein statistische Verfahren, die von denselben Variablen abhängen. Daher sind die Prognosen nicht unabhängig und damit die Kombination nicht wirkungsvoll.
[14] a5 bzw. a10 in (37), a3 bzw. a6 in (38)
( zurück)
[15] Ein Zustand ist nutzbar für Adaption oder Verifikation, sofern bis zum Absterben der Zyklone mindestens 12 nachflogende Zustände gespeichert sind.
( zurück)
|