4.3. Die Adaption
Lernregel
Das Adaptionsprogramm stellt ein iteratives Verfahren dar, die Koeffizienten Gi möglichst optimal zu bestimmen. Hierfür ist es zunächst notwendig, das Adaptionsziel, das mit dem Vorhersageziel konsistent sein muß, zu definieren. Dies geschieht über die Festlegung der Funktion des Adaptions-Vorhersagefehlers VA. Im Unterschied zum Vorhersagefehler V, der das Vorhesageziel festlegt, beschreibt VA den Abstand zwischen Referenz und einzelnem Analogon, nicht zwischen Referenz und Ensembleprognose. Mittels VA werden NE optimale Analoga gefunden, die erst in der Prognose zur Minimierung von V kombiniert werden. Soll beispielsweise die zweite Komponente des Zustandes x nach einem Zeitschritt  vorhergesagt werden, so wird VA wie folgt definiert:
| |
 |
(20) |
x(t) und x( ) stellen hierbei den physikalischen Zustand zum betrachteten Zeitpunkt bzw. das gefundene Analogon dar. Wichtig bei der Definition von VA ist, daß die Funktion positiv definit ist, da es sonst im Laufe des Verfahrens zu Unstetigkeiten kommt. Ansonsten ist die Wahl des Vorhersagefehlers und damit des Adaptions- / Vorhersagezieles freigestellt. Die tatsächlich optimierten Vorhersagefehler werden im Kapitel 4.4 vorgestellt.
In die Iteration geht neben dem Vorhersagefehler VA auch die Metrik d(x(t),x(tj)) ein, wie sie in (13) definiert ist. Zum Iterationsbeginn werden die Koeffizienten Gi auf 1 gesetzt (Euklidische Metrik). Bei folgender Iterationsvorschrift wird davon ausgegangen, daß eine Ensemblevorhersage aus NE Mitgliedern gebildet wird. Die Adaption optimiert die Gewichte Gi dahingehend, diese NE besten Nachbarn zu finden. Hierzu wird ein Adaptionsensemble der Größe NA bestimmt.
Es werden für den ersten Zustand x(t1) die NA nächsten Nachbarn [8] gemäß der gegebenen Metrik d(x(t),x( )) mit den aktuellen Koeffizienten Gi bestimmt. NA ist eine Zahl größer als NE. Sortiert nach d(x(t),x( )) seien folgende x( i) gefunden worden: x( 1) , x( 2) ,...,x( ) ,..., x( ).
Es wird über die NE nächsten Nachbarn gemittelt. Es ergibt sich eine mittlere Metrik da:
| |
 |
(21) |
mit cai =mittlerem Abstand in der i-ten Komponente.
Die NA Analoga werden neu nach VA sortiert. Es finden sich so die NE besten Nachbarn:
x(a1)) , x(a2)) , ... , x( ), ... , x( ),
wobei VA(x(a1)) < VA(x(a2)) < ... < VA(x( )) sei.
Bei der Mittelung über die NE besten Nachbarn ergibt sich wiederum eine mittlere Metrik db :
| |
 |
(22) |
mit cbi =mittlerem Abstand in der i-ten Komponente. Es sei daran erinnert, daß die Abstände, deren Mittelwerte cai und cbi hier bestimmt werden, gemäß der Funktion (r) ermittelt werden, die die positive Definitheit der Metrik gewährleisten muß.
Die Schritte 1. bis 4. werden für alle Zustände x(ti) des Datensatzes durchgeführt und das Mittel über alle Zustände gebildet. Ist in einer beliebigen Komponente z der mittlere Abstand dBz kleiner als dAz, so liegt in dieser Komponente das mittlere "bessere Analogon" näher am Referenzzustand als das tatsächlich gefundene. Entsprechend muß diese Komponente höher gewichtet werden. Zur Bestimmung der neuen Koeffizienten wird folgende Lernregel eingeführt:
| |
 |
(23) |
Die Schritte 1. bis 5. werden mit den so bestimmten neuen Koeffizienten G' wiederholt, bis ein vorher festgelegtes Abbruchkriterium erfüllt ist. Dieses ist bei Fraedrich und Rückert (1998) dann gegeben, wenn in den letzten n=10 Iterationsschritten eine Verringerung des Vorhersagefehlers VA um weniger als 3% zu beobachten ist. In der vorliegenden Arbeit wurde kein spezielles Abbruchkriterium gewählt, sondern eine vorher festgelegte Anzahl von Iterationen gerechnet. Es hat sich gezeigt, daß das oben genannte Kriterium bei dem Datensatz der tropischen Stürme mehrfach zu früh zu einem Abbruch des Lernens geführt hätte (vergleiche das Unterkapitel "Rechenzeitoptimierung").
Die Lernregel, wie sie in (23) gegeben ist, bietet keine Gewährleistung, daß mit den neuen Koeffizienten tatsächlich bessere (im Sinne der Vorhersagbarkeit) nächste Nachbarn gefunden werden, sie ist heuristisch. Außerdem ist sie unausgewogen, d.h. auch wenige "untypische" Fälle in den Zuständen x(t) werden in die Optimierung mit eingehen. Das führt zu einem "Überlernen", also einer (leichten) Vergrößerung des Vorhersagefehlers eines unabhängigen Datensatzes beim Überschreiten einer "optimalen" Iterationszahl. Um den Einfluß solch isolierter Zustände auf die Gewichte zu begrenzen, wird die Metrik nach (13) und (15) benutzt. Da für kleine r die Näherung tanh(r) ~ r gilt, wird der quadratische Abstand bei nicht weit entfernten Analoga nur wenig beeinflußt, der maximale Abstand aber auf den Wert 1 beschränkt. Damit verursachen Zustände, deren nächste Nachbarn weit entfernt liegen, nur eine begrenzte Veränderung der mittleren Abstände nach (21) bzw. (22). Zur Erkennung des "Überlernens" wird der Datensatz in ein abhängiges Lernset und ein unabhängiges Kontrollset, welches in der Adaptionsphase das spätere, jetzt noch unbekannte Testset simuliert, aufgeteilt und für beide der Vorhersagefehler bei jedem Iterationsschritt aufgetragen. Die Koeffizienten werden nur durch das Lernset bestimmt. Die optimalen Koeffizienten Gi finden sich bei dem Iterationsschritt mit dem geringsten Lernset-Fehler. Weil Lernset und Testset niemals identische statistische Eigenschaften haben werden, muß man erwarten, daß die optimale Lösung für das Lernset nicht die ideale Lösung für das Testset ist. Da allerdings die Eigenschaften ähnlich sein sollten, reicht es, Stabilität des Vorhersagefehlers gegen geringe Variationen in den Koeffizienten Gi zu verlangen. Diese Stabilität kann durch Verrauschen der Zustände getestet werden. Daher werden vor jedem Iterationsschritt alle Zustände mit einem leichten normalverteilten Rauschen überzogen, dessen Standardabweichung konstant auf 0.1% der Standardabweichung der normalisierten Zustände festgelegt wird. Die Werte von geographischer Länge bzw. Breite weisen Standardabweichungen von 15° bzw. 7° auf (siehe Tabelle 7), so daß die Zustände eine Größenordnung unter der Datengenauigkeit (vergleiche Kapitel 2) verrauscht werden. Fraedrich und Rückert (1998) haben gezeigt, daß bei theoretischen Modellen ein Rauschen zwischen 0 und etwa 5% nahezu keine Auswirkungen auf den Testsetfehler hat, erst bei noch größerem Rauschen ist eine Abnahme der Vorhersagequalität zu beobachten.
Die absolute Größe der Koeffizienten Gi hat keine Bedeutung. Werden alle Gi mit derselben Konstanten multipliziert, so erhält man dieselben Analoga. Damit die Werte von G beschränkt bleiben, werden die Gi in jedem Iterationsschritt normiert, so daß das größte Gi den Wert 1.0 hat. In den Darstellungen werden die Gewichte
| |
 |
(24) |
angegeben, eine Größe, die anschaulich das Gewicht der Komponente i am Abstand d(x(t),x( )) darstellt. Ein Gewicht von 0.2 bedeutet also, daß diese Komponente 20% des Abstandes ausmacht.
Wichtig nicht nur bei der Adaption, sondern bei der gesamten Vorhersage ist die Forderung, die nächsten Nachbarn im konstruierten Phasenraum, nicht aber in der Zeit zu finden. Hierzu müssen alle gefundenen Analoga sowohl untereinander als auch zum Referenzzustand unabhängig sein. Dieses kann durch die Einführung eines minimalen zeitlichen Abstandes T zwischen Referenz und Analoga bzw. zwischen den Analoga selbst (mathematisch durch die Bedingungen und für alle i,j <= NE ausgedrückt) erreicht werden, wobei T hinreichend groß sein muß, um die Unabhängigkeit der Daten zu gewährleisten.
Rechenzeitoptimierung
Ein grundsätzliches Problem von Analogmodellen ist der Zeitaufwand bei der Berechnung. Bei der eigentlichen Vorhersage wird die Bibliothek für jeden Referenzzustand aus dem Testset einmal komplett durchlaufen und der jeweilige Abstand gemäß (13) zwischen Referenz und jedem Zustand berechnet, was bei großen Bibliotheken schon erhebliche Rechenleistung erfordert. Sehr viel mehr Zeit benötigt die Adaptionsphase des betrachteten Programmes. In jedem Iterationsschritt wird die komplette Bibliothek für jeden Zustand aus Lernset und Kontrollset einmal durchsucht, die Metrik zwischen allen Zuständen berechnet - was jeweils einem Zeitaufwand entspricht, der ungefähr proportional zur Dimension der Vektoren x ist - und zweimal nach Metrik bzw. Vorhersagefehler V sortiert. Günstige Sortieralgorhythmen haben einen Zeitbedarf, der mit dem Quadrat der zu sortierenden Anzahl von Zuständen wächst. Dies bedeutet für die Adaptionsdauer eine Proportionalität zu
| |
 |
(25) |
wobei N für die Anzahl der Iterationen, LL bzw. LK für die Größen von Lernset bzw. Kontrollset und LB für die Größe der Bibliothek steht. dx ist die Dimension der Zustände, und NA die Anzahl der ausgesuchten Analoga. Da (LL+LK)=LB ist, ergeben sich für jeden Iterationsschritt grob LB³+dx · LB²+NA² · LB Arbeitsschritte. Enthält die Bibliothek also 104 Zustände (dies ist näherungsweise die Größenordnung der Bibliothek der atlantischen Hurrikane), so erfordert jeder Iterationsschritt mehr als 1012 Arbeitsschritte. Geht man weiterhin von nur 4 Fließkommaoperationen pro Arbeitsschritt aus - eine Zahl, die in etwa auf das die Gesamtdauer beherrschende Sortierprogramm zutrifft-, so benötigt die CRAY-C90 des Deutschen Klimarechenzentrums mit theoretisch verfügbaren 1,5 Gigaflops (=1,5 · 109 Fließkommaoperationen pro Sekunde) Rechenleistung 2667 Sekunden pro Iteration, also etwa 45 Minuten. Für 12000 Zustände in der Bibliothek erhöht sich die benötigte theoretische Zeit auf 75 Minuten. Aufgrund der hohen Auslastung der CRAY ist aber nur ein Teil der Rechenleistung verfügbar. Gemessen wird eine benötigte Zeit von rund 150 Minuten pro Iterationsschritt bei einer Bibliotheksgröße von 12000 Zuständen. Eine weitere Verlängerung der Rechenzeit wird durch eine umfangreichere Defintion des Adaptionsfehlers VA verursacht, indem zum Beispiel durch Berücksichtigung der Kugelgestalt der Erde Winkelfunktionen genutzt werden.
Für einen Vergleich verschiedener Modelle genügt es, an einer Teilmenge der Bibliothek zu lernen. Wird das Lernset bei einer Bibliotheksgröße von 12000 Vektoren auf 1000 zufällig gewählte Zustände beschränkt, die aus dem gesamten Bibliotheksumfang stammen, so erniedrigt sich die theoretisch benötigte Rechenzeit auf deutlich unter 10 Minuten je Iteration. Der Vorhersagefehler des Testsets erweist sich als erstaunlich stabil gegenüber Schwankungen in der Lernsetgröße. Zur Erlangung einer unter Umständen besseren Lösung ist es möglich, das Lernset mit zunehmender Iterationszahl zu inkrementieren, also wachsen zu lassen. So erlangen die Gi zunächst zügig die ungefähr korrekte Größenordnung, um dann mit zunehmender Lernsetgröße langsamer und genauer zum endgültigen Wert zu konvergieren. Die Abhängigkeit des Vorhersagefehlers von der Lernsetgröße wird beispielhaft an einer Adaption untersucht, bei der eine Ensemblevorhersage mit 18 Mitgliedern gelernt wird. Optimiert werden soll der Vorhersagefehler
| |
 |
(26) |
für eine Bibliothek von 10423 atlantischen Sturmpositionen, wobei das Vorhersageintervall  =6 Std. beträgt und xi bzw. yi die Differenz zwischen Referenz und nächstem Nachbar ti zum jeweiligen Vorhersagezeitpunkt darstellt. Die Modellparameter sind dem in Kapitel 4.4 vorgestellten Modell A zu entnehmen. Die gegen die später benutzte Bibliothek um etwa 2000 Zustände verkleinerte Bibliothek enthält alle gespeicherten Sturmpositionen bis einschließlich 1970. Die zu untersuchende Größe ist der Vorhersagefehler des Testsets VT, der aus Gründen der Anschaulichkeit als mittlere Großkreisentfernung von 72-Stundenvorhersage und zugehörigem wahrem Ereignis, nicht aber als summierter Fehler wie V gewählt wird.
Nach einer Phase des groben Einschwingens mit hohem NA (siehe unten) über 50 Iterationsschritte wird die Lernsetgröße systematisch alle 50 Iterationen erhöht, NA als NA=NE+1 gewählt. Das Kontrollset hat eine konstante Größe von 500 Vektoren, die Größe des Lernssets erhöht sich von anfangs 1000 Zuständen (bis Iteration 100) über 2000, 4000 und 8000 auf die gesamte Bibliothek von 10422 Zuständen (je 50 Iterationen), wobei im letzten Fall das Kontrollset auf die minimale Größe von 1 gesetzt wird. Der Verlauf von DV für Lern- und Kontrollset und DVT für das Testset gegen die Iterationsdauer ist in Abbildung 3b dargestellt. In Abbildung 3a finden sich die Gewichte wi, wobei an dieser Stelle nur der Verlauf der Gewichte mit zunehmender Iterationszahl interessiert, nicht aber, welche physikalische Größe hinter welchem Gewicht steht [9]. Man erkennt, daß jede Lernsetvergrößerung zu veränderten Trends in der Gewicht-Entwicklung führt. Der Fehler des Testsets ändert sich nur wenig. Bei einer Lernsetgröße von 1000 Zuständen, wie sie für die Adaptionen verwendet wird, ist der Testsetfehler mit 796.8 km (Minimum für 1000 Zustände) um nur 0.4% höher als bei dem minimalen Testsetfehler für die gesamte Bibliothek von 10422 Zuständen bei Iteration 261, der 793.5 km beträgt. Für eine Lernsetgröße von 2000 Zuständen beträgt der Unterschied zur Gesamtbibliothek weniger als 0.1% (794.0 km bei Iterationsschritt 142). Allerdings fällt auf, daß die maximale Lernsetgröße nicht auch den minimalen Lernsetfehler ergibt, dieser liegt bei einer Lernsetgröße von 8000 in der Größenordnung von 791.2 km, das sind 0.3% weniger als für das vollständige Lernset und 0.7% weniger als bei der Lernsetgröße 1000.
Eine weitere Methode, zwar nicht den Rechenzeitbedarf pro Iterationsschritt, aber die Anzahl der benötigten Iterationen zu reduzieren, liegt in der Wahl von NA. Fraedrich und Rückert (1998) haben für ihre Ein-Analogprognose NA=NE+1 gewählt, also aus den beiden nächsten Nachbarn den Besseren bestimmt. Für die hier vorliegende Ensembleadaption gibt es die Möglichkeiten, entweder ebenfalls die NE besten Nachbarn aus NE+1 nächsten zu suchen oder aus (theoretisch) beliebig vielen. Bei einer Ensemblegröße von zum Beispiel NE=18 kann man erwarten, daß die Änderung der Gi größer ausfällt, wenn man die besten 18 aus 36 nächsten Nachbarn auswählt, als wenn man nur die nächsten 19 Nachbarn zur Verfügung hat. Letzteres verspricht aber durch die kleineren Änderungen eine genauere Bestimmung. Auch birgt eine große Änderung der Koeffizienten die Gefahr von Instabilitäten, indem im nächsten Iterationsschritt für einen Referenzzustand ein komplett anderer Satz von NA nächsten Nachbarn gefunden werden kann. Es muß also untersucht werden, ob eine unterschiedliche Wahl von NA einen Einfluß auf die Konvergenzgeschwindigkeit und auf die Größe der "optimalen Gewichte" hat.

- Abb. 3: Abhängigkeit von Lernset-Größe: (a) Gewichte; (b) Summierter Fehler von Lern- und Kontrollset gemäß (26) und Testsetfehler
Wie bei der oben durchgeführten Untersuchung der Adaptionssensitivität auf die Lernsetgröße wird für diese Untersuchung der Datensatz der atlantischen Sturmpositionen mit insgesamt 10423 Zuständen betrachtet, die Adaption erfolgt bei einer Lernsetgröße von 1000 für eine Ensemblegröße von NE=18. Der Adaptionsverlauf für unterschiedliche Größen von NA ist in Abbildung 4 dargestellt, wobei in 4a die Entwicklung der Gewichte, im 4b die des Vorhersagefehlers des Lernsets (26) dargestellt ist. Aus Gründen der Übersichtlichkeit sind nicht alle Gewichte, sondern nur die der Zustandskomponenten 1 (aktuelle geographische Länge der Position), 2 (aktuelle geographische Breite), 3 (mittlere zonale Windgeschwindigkeit der letzten 6 Stunden) und 20 (Kalendertag) dargestellt [10]. Wiederum spielt die absolute Größe der einzelnen Komponenten keine Rolle, sondern nur der Konvergenzverlauf. Man erkennt, daß die zur Konvergenz benötigte Iterationszahl mit zunehmenden NA wie erwartet abnimmt, da die Koeffizienten sich anfangs stärker ändern. Darüber hinaus stellt man fest, daß die Gewichte bei unterschiedlichem NA nicht zum selben Wert hin konvergieren, sondern zu leicht unterschiedlichen, wobei die Adaption bei hohen NA zunehmend zum anfänglichen Überlernen neigt. Besonders deutlich wird dies bei den Koeffizienten 1 und 2, die nur ein geringes Gewicht erhalten. Durch die logarithmische Auftragung der Gewichte und die damit verbundene Dehnung der Darstellung zu kleinen Werten hin sieht man deutlich den Wiederanstieg der Gewichte nach Durchlaufen eines Minimums bei ungefähr N=20. Der Wiederanstieg geht dabei aber langsamer vonstatten als die Konvergenz bei kleinen NA, so daß in diesem Bereich die Instabilität bei großen NA sogar kleiner ist. Der minimale Lernset-Fehler wird auch bei großen NA erst bei einer Iterationszahl zwischen 180 und 200 erreicht, ebenso wie bei NA=NE+1. Wird allerdings das oben erwähnte Abbruchkriterium von Fraedrich und Rückert (1998) genutzt, erzielt man deutlich verringerte Rechenzeiten.
Die minimalen Lernset-Fehler (26) für die vier unterschiedlichen NA liegen zwischen 11502 (NA=NE+2) und 11859 (NA=NE+18) und umspannen damit einen Bereich von ca. 3%. Wählt man als Vorhersageziel im Testset, das hier 1566 Fälle umfaßt (vergleiche Kapitel 4.5), die Großkreisentfernung der 72-Stunden-Vorhersage von der Beobachtung, so findet man Unterschiede von unter einem Prozent zwischen den betrachteten Modellen. Das Minimum liegt bei NA=NE+2 mit V2=789.7 km und nahezu nicht meßbarem Unterschied zu NA=NE+1 (DV1=790.4 km, das sind 0.09% mehr als V2). NA=NE+9 bzw. NA=NE+18 erzeugen bei der jeweiligen optimalen Iteration Vorhersagefehler von 797.6 km ( V2+1.0%) bzw. 795.3 km ( V2+0.7%). Etwas anders sieht die Situation bei der kurzfristigen Vorhersage aus: nach 12 Stunden ist der Fehler für das kleinste NA noch am größten, für NA=NE+2 am kleinsten (81.8km bzw. 80.0km, das entspricht rund 2.5 % Unterschied).
Insgesamt bedeutet dies, daß mit zunehmendem NE auch der Unterschied zu NA leicht erhöht werden kann, ohne daß die Qualität des Ergebnisses (gemessen am Testset) leidet. Damit kann die benötigte Iterationszahl bis zur Konvergenz der Gewichte deutlich reduziert werden, sofern ein Abbruchkriterium wie bei Fraedrich und Rückert (1998) gewählt wird, wo eine Reduzierung des Lernset-Fehlers um mindestens 3% in den letzten 10 Iterationsschritten gefordert wird. Bei der Nutzung einer solchen Bedingung ist aber darauf zu achten, daß sie an die Ensemblegröße angepaßt wird. Für NA=NE+1 erfolgt nämlich die Konvergenz bereits am Anfang so langsam, daß in den ersten 10 Iterationsschritten der Lernset-Fehler von 13970 im Schritt 0 (Euklidische Metrik) auf nur 13622 nach dem 10. Schritt abnimmt, eine Abnahme um weniger als 2.5%. Der somit gefundene minimale Lernset-Fehler von 13614 im Schritt 9 liegt aber um 14.5% über dem minimalen Lernset-Fehler, der (bis zum Schritt 300) bei der Iterationszahl 181 den Wert 11643 annimmt. Für zunehmende NA nimmt der Effekt in etwa umgekehrt proportional zur Differenz NA-NE ab, von 14.5% bei NA-NE=1 über 7.5% bei NA-NE=2 und 1.1% bei NA-NE=9 bis 0.65% bei NA-NE=18 (siehe Abbildung 5). Kommt also das oben genannte Abbruchkriterium zur Anwendung, so steigt die Genauigkeit mit zunehmendem NA, wird dagegen das absolute [11] Minimum des Lernset-Fehler gesucht, so darf NA nur leicht erhöht werden.
Zusammenfassend läßt sich festhalten, daß weder die Größe des Lernsets bei gegebener Bibliothek noch die Größe des Adaptionsensembles NA wesentliche Auswirkungen auf die Genauigkeit der Adaption haben. Das gefundene Minimum im Vorhersagefehler bei leicht erhöhtem NA (NA,min+1 bei NE=18) läßt keine einheitliche optimale Adaptionsgröße für alle Ensemblegrößen NE erwarten. Eine zur Vergleichbarkeit der Modellvariationen einheitliche Festlegung der Adaptionsgröße auf NA=NE+1 sowie der Lernsetgröße auf 1000 Zustände ist daher gut zu vertreten.
- Abb. 4: Stabilität der Adaption gegen Änderung von NA: (a) Gewichte (nicht alle Komponenten dargestellt, von oben nach unten stellen die vier Linienbündel die Komponenten 20, 3, 1 und 2 dar); (b) summierter Vorhersagefehler des Lernsets
- Abb. 5: Abweichung zwischen dem minimalem Lernsetfehler bei Adaptionsabbruch gemäß Fraedrich und Rückert (1998) und dem über 300 Iterationen gefundenen minimalem Lernsetfehler in Abhängigkeit von der Größe NA bei einer Ensemblegröße von NE=18
[8] Der Begriff Nachbar wird hier im Sinne von Analogon gebraucht.
( zurück)
[9] Die Zuordnung der Gewichte zu ihrem physikalischen Hintergrund erfolgt in Kapitel 4.6.
( zurück)
[10] Diese Auswahl ist rein willkürlich erfolgt und nicht begründet.
( zurück)
[11] Das Problem hierbei ist allerdings, wieviele Iterationsschritte man vorgeben will. Um wirklich sicher zu sein, den minimalen Lernset-Fehler gefunden zu haben, müßte man theoretisch unendlich lange adaptieren. Da das nicht möglich ist, muß immer ein praktikables Abbruchkriterium gewählt werden.
( zurück)
|