Przeprowadzanie średniej autokowariancji


Analiza szeregów czasowych tsa statsmodels. tsa zawiera klasy modeli i funkcje przydatne do analizy szeregów czasowych. Obejmuje to obecnie jednowymiarowe modele autoregresyjne (AR), wektorowe modele autoregresyjne (VAR) i jednowymiarowe autoregresyjne modele średniej ruchomej (ARMA). Obejmuje również statystykę opisową dla szeregów czasowych, na przykład autokorelację, funkcję częściowej autokorelacji i periodogram, a także odpowiednie teoretyczne właściwości ARMA lub powiązanych procesów. Obejmuje również metody pracy z autoregresyjnymi i ruchomymi średnimi wielomianami opóźnionymi. Dodatkowo dostępne są powiązane testy statystyczne i niektóre przydatne funkcje pomocnicze. Szacowanie odbywa się za pomocą dokładnej lub warunkowej maksymalnej wiarygodności lub warunkowego najmniejszego kwadratu, przy użyciu filtru Kalmana lub bezpośrednich filtrów. Obecnie funkcje i klasy muszą być importowane z odpowiedniego modułu, ale główne klasy będą udostępniane w przestrzeni nazw statsmodels. tsa. Struktura modułu znajduje się w statsmodels. tsa to stattools. empiryczne właściwości i testy, acf, pacf, granger-przyczynowość, test korzenia jednostki adf, test ljung-box i inne. armodel. jednowymiarowy proces autoregresyjny, oszacowanie z warunkowym i dokładnym maksymalnym prawdopodobieństwem i warunkowe najmniejsze kwadraty arimamodel. jednoczynnikowy proces ARMA, estymacja z warunkowym i dokładnym maksymalnym prawdopodobieństwem i warunkowym wektoriem najmniejszych kwadratów, var. modele oszacowania autoregresyjnego wektora (VAR), analiza odpowiedzi impulsowej, dekompozycje wariancji błędu prognozy oraz narzędzia wizualizacji danych kalmanf. Klasy estymacji dla ARMA i innych modeli z dokładnym MLE przy użyciu armapsrocess Filter Kalman. właściwości procesów arma z zadanymi parametrami, obejmuje narzędzia do konwersji pomiędzy ARMA, MA i AR, a także acf, pacf, gęstość widmową, funkcję odpowiedzi na impuls i podobną piaskownicę. tsa. fftarma. podobne do armaprocess, ale działające w tsatools w domenie częstotliwości. dodatkowe funkcje pomocnicze, tworzenie tablic zmiennych opóźnionych, tworzenie regresorów dla trendów, detrend i podobnych. filtry. funkcja pomocnicza do filtrowania szeregów czasowych Niektóre dodatkowe funkcje, które są również użyteczne w analizie szeregów czasowych, znajdują się w innych częściach modeli statycznych, na przykład w dodatkowych testach statystycznych. Niektóre powiązane funkcje są również dostępne w matplotlib, nitime i scikits. talkbox. Te funkcje są zaprojektowane bardziej do wykorzystania w przetwarzaniu sygnałów, gdzie dłuższe szeregi czasowe są dostępne i działają częściej w dziedzinie częstotliwości. Statystyki opisowe i testy stattools. acovf (x, bezstronny, demean, fft) Funkcja autokorelacji Zauważ, że 0 jest wariancją procesu stochastycznego. Funkcja autokowariancji przy opóźnieniu k. dla k 0 szeregi czasowe są zdefiniowane przez funkcję autokorelacji (ACF) w przypadku opóźnienia k. dla k 0 szeregi czasowe są zdefiniowane przez wariancję szeregów czasowych r 0. Wykres r k przeciwko k jest znany jako korelogram. Obserwacja. Podana powyżej definicja autokowariancji różni się nieco od zwykłej definicji kowariancji między 1. , y n-k i k 1. , y n pod dwoma względami: (1) dzielimy przez n zamiast nk i odejmujemy ogólną średnią zamiast środków 1. , y n-k i k 1. , y n odpowiednio. Dla wartości n, które są duże w odniesieniu do k. różnica będzie niewielka. Przykład 1 . Obliczyć s 2 i r 2 dla danych w zakresie B4: B19 na rysunku 1. Rysunek 1 ACF przy opóźnieniu 2 Wzory do obliczania s 2 i r 2 przy użyciu zwykłych funkcji COVARIANCE. S i CORREL są pokazane w komórkach G4 i G5. Formuły dla s 0. s 2 i r 2 z definicji 2 są pokazane w komórkach G8, G11 i G12 (wraz z alternatywnym wzorem w G13). Zauważ, że wartości dla s 2 w komórkach E4 i E11 nie są zbyt różne, podobnie jak wartości dla r 2 pokazane w komórkach E5 i E12 im większa próba tym bardziej prawdopodobne, że te wartości będą podobne Prawdziwa funkcja statystyczna. Pakiet zasobów statystycznych Real Resources zapewnia następujące funkcje: ACF (R1, k) wartość ACF w opóŸnieniu k dla szeregu czasowego w zakresie R1 ACVF (R1, k) autowariancja w opóŸnieniu k dla szeregu czasowego w zakresie R1 Należy zwrócić uwagę, że ACF (R1, k) jest równoważne SUMPRODUCT (OFFSET (R1,0,0, COUNT (R1) - K) - AVERAGE (R1), OFFSET (R1, k, 0, COUNT (R1) - K) - AVERAGE (R1 )) Obserwacja DEVSQ (R1). Istnieją teoretyczne zalety stosowania podziału przez n zamiast nk w definicji s k. mianowicie, że macierze kowariancji i macierzy korelacji będą zawsze określone jako nieujemne (patrz Matryce o pozytywnej definicji). Obserwacja. Mimo że definicja autokorelacji różni się nieco od korelacji, k (lub r k) nadal przyjmuje wartość od -1 do 1, jak widać w Właściwość 2. Przykład 2. Określić ACF dla opóźnienia 1 do 10 dla średnich wartości Dow Jones za miesiąc październik 2018, jak pokazano w kolumnach A i B na fig. 2 i skonstruować odpowiedni korelogram. Wyniki pokazano na rysunku 2. Wartości w kolumnie E oblicza się, umieszczając wzór ACF (B4: B25, D5) w komórce E5, podświetlając zakres E5: E14 i naciskając Ctrl-D. Rysunek 2 ACF i korelogram Jak widać na podstawie wartości w kolumnie E lub na wykresie, wartości ACF powoli schodzą w kierunku zera. Jest to typowe dla procesu autoregresyjnego. Obserwacja. Zasadą jest przeprowadzenie powyższego procesu dla opóźnień 1 do n 3 lub n 4, które dla powyższych danych wynoszą 224 6 lub 223 7. Naszym celem jest sprawdzenie, czy do tego czasu ACF jest znacząca (tj. Statystycznie różne od zera). Możemy to zrobić, używając następującej właściwości. Właściwość 3 (Bartlett): w dużych próbkach, jeśli szeregi czasowe o rozmiarze n są czysto losowe, to dla wszystkich k Przykład 3. Ustal, czy ACF w opóźnieniu 7 jest znaczący dla danych z Przykładu 2. Jak widzimy na Rysunku 3, krytyczną wartością dla testu w Właściwości 3 jest .417866. Od r 7 .303809 lt. 417866, wnioskujemy, że nie różni się znacząco od zera. Rysunek 3 Test Bartlettów Warto zauważyć, że wartości k do 5 są znaczące, a wartości wyższe niż 5 nie są znaczące. Bardziej statystycznie wydajna wersja Property 4, szczególnie dla mniejszych próbek, jest podana przez następną właściwość. Przykład 4. Użyj statystyk Box-Pierce i Ljung-Box, aby określić, czy wartości ACF w Przykładzie 2 są statystycznie równe zeru dla wszystkich opóźnień mniejszych niż lub równych 5 (hipoteza zerowa). Wyniki pokazano na fig. 4. Figura 4 Testy przebicia w pudełku i testu Ljung-Box Na podstawie tych testów widzimy, że ACF (k) znacząco różni się od zera dla co najmniej jednego k5, co jest zgodne z korelogramem na Figurze 2. Rzeczywiste funkcje statystyczne. Pakiet zasobów Real Statistics Resource Pack oferuje następujące funkcje do wykonywania testów opisanych przez powyższe właściwości. BARTEST (r, n, lag) p-wartość testu Bartletta dla współczynnika korelacji r na podstawie szeregu czasowego o wielkości n dla określonego opóźnienia. BARTEST (R1. Opóźnienie) BARTEST (r, n, opóźnienie), gdzie n liczba elementów w zakresie R1 i r ACF (R1, opóźnienie) PIERCE (R1 ,, opóźnienie) Box-Pierce statystyka Q dla zakresu R1 i określone opóźnienie BPTEST (R1, lag) wartość p dla testu Box-Pierce dla zakresu R1 i określonego opóźnienia LJUNG (R1, opóźnienie) Statystyka Ljung-Box Q dla zakresu R1 i określonego opóźnienia LBTEST (R1, opóźnienie) p - wartość dla testu Ljung-Box dla zakresu R1 i określonego opóźnienia W powyższych funkcjach, w których brakuje drugiego argumentu, test jest wykonywany przy użyciu współczynnika autokorelacji (ACF). Jeśli przypisana wartość to 1 lub pacf, wówczas test jest wykonywany przy użyciu częściowego współczynnika autokorelacji (PACF), jak opisano w następnej sekcji. W rzeczywistości, jeśli drugi argument przyjmuje dowolną wartość z wyjątkiem 1 lub pacf, wówczas używana jest wartość ACF. Na przykład. BARTEST (.303809,22,7) .07708 dla przykładu 3 i LBTEST (B4: B25, acf, 5) 1.81E-06 dla przykładu 4. FELOS 585A, analiza serii czasowej Applied: (520) 621-3457 Fax: (520) 621-8229 Godziny pracy Piątek, 1: 00-6: 00 PM (napisz e-mailem, aby zaplanować spotkanie) Opis kursu Narzędzia do analizy w dziedzinie czasu i częstotliwości są wprowadzane w kontekście przykładowych szeregów czasowych. Używam zbioru danych przykładowych szeregów czasowych do zilustrowania metod i zmieniam zestaw danych w każdym semestrze kursu. W tym roku przykładowy zestaw danych pochodzi z projektu NSF dotyczącego zmienności opadów śniegu w amerykańskim dorzeczu Kalifornii. Ten zbiór danych obejmuje chronologię pierścieni drzewiastych, indeksy klimatyczne, zapisy przepływu strumieniowego i szeregi czasowe równoważników śniegu i wody mierzone na stacjach śnieżnych. Zbierzcie swoje własne szeregi czasowe do wykorzystania w trakcie kursu. Mogą to być z twojego własnego projektu badawczego. Powrót na początek strony Jest to kurs wprowadzający, z naciskiem na praktyczne aspekty analizy szeregów czasowych. Metody są hierarchicznie wprowadzane - zaczynając od terminologii i grafiki eksploracyjnej, przechodząc do statystyki opisowej, a kończąc na podstawowych procedurach modelowania. Tematy obejmują detrending, filtrowanie, autoregresyjne modelowanie, analizę spektralną i regresję. Pierwsze dwa tygodnie spędzasz instalując Matlaba na swoim laptopie, uzyskując podstawowe wprowadzenie do Matlaba i gromadząc zestaw danych z szeregów czasowych dla kursu. Następnie obejmuje się dwanaście tematów lub lekcji, z których każdy obejmuje tydzień lub dwa okresy lekcyjne. Dwanaście zadań lekcyjnych pasuje do tematów. Przypisania polegają na stosowaniu metod poprzez uruchamianie wstępnie napisanych skryptów Matlab (programów) w szeregach czasowych i interpretowanie wyników. Kurs 3 kredyty dla studentów na kampusie Uniwersytetu Arizona w Tucson i 1 kredyt dla studentów online. Każda seria czasowa ze stałym przyrostem czasu (np. Dzień, miesiąc, rok) jest kandydatem do wykorzystania w kursie. Przykładami są codzienne pomiary opadów, sezonowy ogólny strumień, letnia średnia temperatura powietrza, roczne wskaźniki wzrostu drzew, wskaźniki temperatury powierzchni morza i dzienny wzrost wysokości krzewu. W wyniku podjęcia kursu powinieneś: rozumieć podstawowe pojęcia szeregów czasowych i terminologię być w stanie wybrać metody szeregów czasowych odpowiednie do celów, które są w stanie krytycznie ocenić literaturę naukową stosującą omawiane metody szeregów czasowych, poprawiły zrozumienie właściwości szeregów czasowych twojego własny zestaw danych umożliwia zwięzłe podsumowywanie wyników analizy szeregów czasowych na piśmie Wymagania wstępne Wstępny kurs statystyczny Dostęp do komputera przenośnego z zainstalowanym programem Matlab Zezwolenie instruktora (studenci i studenci online) Inne wymagania Jeśli jesteś na Uniwersytecie Arizona (UA) student na kampusie w Tucson, masz dostęp do Matlaba i wymaganych skrzynek narzędziowych za pośrednictwem licencji na stronie UA, ponieważ nie ma oprogramowania kosztowego. Żadne wcześniejsze doświadczenie z Matlab nie jest wymagane, a programowanie komputera nie jest częścią kursu. Jeśli jesteś online, a nie w kampusie na UA, będziesz mógł wziąć udział w kursie na semestr wiosenny 2017 jako kurs iCourse. Musisz upewnić się, że masz dostęp do Matlaba i wymaganych skrzynek (patrz poniżej) w twojej lokalizacji. Dostęp do Internetu. W trakcie kursu nie ma wymiany papierowej. Uwagi i zadania są wymieniane elektronicznie, a zakończone zadania są przesyłane elektronicznie za pośrednictwem systemu University of Arizona Desire2Learn (D2L). Wersja Matlaba. Aktualizuję skrypty i funkcje teraz, a następnie wykorzystuję bieżącą wersję licencji Matlaba dla witryny, a aktualizacje mogą korzystać z funkcji Matlab niedostępnych we wcześniejszych wersjach Matlab. Do 2017 roku używam programu Matlab w wersji 9.1.0.441655 (R2018b). Jeśli używasz wcześniejszej wersji, upewnij się, że jest to wersja Matlab Release 2007b lub nowsza. Oprócz głównego pakietu Matlab używane są cztery skrzynki narzędziowe: statystyki, przetwarzanie sygnałów, identyfikacja systemu i splajn (wersja Matlab 2017a lub wcześniejsza) lub dopasowanie krzywej (wersja Matlab 2017b lub późniejsza) Dostępność Kurs jest oferowany w semestrze wiosennym co drugi rok (2018, 2017, itp.). Jest on otwarty dla studentów i może być również przyjęty przez seniorów licencjackich za zgodą instruktora. Zapisy dla studentów z UA są ograniczone do 18 na semestr letni 2017. Niewielka liczba studentów online zazwyczaj została uwzględniona, oferując kurs na różne sposoby. Teraz jest miejsce na kurs iCourse opisane powyżej. Powrót do początku strony Zarys kursu (lekcje) Harmonogram zazwyczaj pozwala na około dwa tygodnie na zebranie danych i zapoznanie się z Matlab. Następnie jeden tydzień (dwa okresy lekcyjne) poświęcony jest każdej z 12 lekcji lub tematów. Klasa spotyka się we wtorek i czwartek. Nowy temat zostanie wprowadzony we wtorek i będzie kontynuowany w następny czwartek. Czwartkowa klasa kończy się zadaniem i demonstracją uruchomienia skryptu na moich przykładowych danych. Przydział jest należny (musi zostać przesłany przez ciebie do D2L) przed zajęciami w następny wtorek. Pierwsza 12-godzinna klasa we wtorki jest używana do samooceny kierowanej i oceny przypisania i przesyłania ocenionych (stopniowanych) zadań do D2L. Pozostałe 45 minut służy do wprowadzenia następnego tematu. Musisz weź ze sobą laptopa na zajęcia we wtorki. 12 lekcji lub tematów objętych kursem są wymienione w zarysie zajęć. Studenci online powinni postępować zgodnie z tym samym harmonogramem składania zadań, co studenci będący rezydentami, ale nie mają dostępu do wykładów. Przesłane zadania studentów online nie podlegają samoocenie, ale są oceniane przeze mnie. Studenci online powinni mieć dostęp do D2L w celu przesyłania zadań. Semestr letni 2017. Klasa spotyka się dwa razy w tygodniu w 75-minutowych sesjach, 9: 00-10: 15 AM T, w pokoju 424 (sala konferencyjna) budynku Bryant Bannister Tree-Ring (budynek 45B). Pierwszy dzień zajęć to styczeń 12 (czwartek). Ostatni dzień zajęć to 2 maja (wtorek). W tygodniu przerwy wiosennej nie ma klasy (Mar 11-19). Analizujesz dane według własnego wyboru w zadaniach klasowych. Jak podano w przeglądzie kursu. istnieje duża elastyczność w wyborze szeregów czasowych. Przygotuję katalog odpowiednich szeregów czasowych, ale najlepiej skupić się na swoim zestawie danych. Pierwsze zadanie polega na uruchomieniu skryptu przechowującego dane i metadane zebrane w pliku mat, natywnym formacie Matlab. Kolejne przypisania pobierają dane z pliku mat w celu analizy szeregów czasowych. Zadania 12 tematów porusza się kolejno w trakcie semestru, który obejmuje około 15 tygodni. Przez pierwsze dwa tygodnie (4-5 spotkań grupowych) wykorzystywane są niektóre materiały wprowadzające, decydujące i zbierające serie czasowe oraz przygotowujące Matlab na laptopie. Każdy tydzień po tym jest poświęcony jednemu z 12 tematów kursu. Każde zadanie polega na przeczytaniu rozdziału uwag, uruchomieniu powiązanego skryptu Matlab, który stosuje wybrane metody analizy szeregów czasowych do danych i zapisaniu interpretacji wyników. Zadania wymagają zrozumienia tematów wykładów oraz umiejętności korzystania z komputera i oprogramowania. Przesyłasz zadania, przesyłając je do D2L przed klasą wtorkową, kiedy zostanie wprowadzony następny temat. Pierwsze pół godziny tej wtorkowej klasy jest wykorzystywane do samodzielnej oceny zadania, w tym do samodzielnego oceniania plików PDF w D2L. Sprawdzam co najmniej jedno zadanie z automatyczną oceną każdego tygodnia (losowo) i mogę zmienić ocenę. Aby dowiedzieć się, jak uzyskać dostęp do przydziałów, kliknij pliki przydziału. Odczyty składają się z notatek z zajęć. Istnieje dwanaście zestawów plików notatek. pdf. po jednym dla każdego z tematów kursu. Dostęp do tych plików. pdf można uzyskać przez Internet. Więcej informacji na temat różnych tematów omawianych na kursie można znaleźć w referencjach wymienionych na końcu każdego rozdziału notatek lekcyjnych. Oceny opierają się wyłącznie na wynikach zadań, z których każdy jest wart 10 punktów. Nie ma egzaminów. Łączna liczba możliwych punktów dla 12 tematów wynosi 12 x 10 120. Ocena A wymagała 90-100 procent możliwych punktów. Ocena B wymaga 80-90 procent. Klasa C wymaga 70-80 procent i tak dalej. Oceny są przypisywane przez samoocenę kierowaną przez rubryki prezentowane w klasie. Liczba zdobytych punktów powinna być zaznaczona u góry każdego stopniowanego zadania. Twój znacznik przypisania powinien zawierać adnotację o wszelkich przecenach poprzez odniesienie do rubryki wskazanej w klasie (np. -0,5, rp3 oznacza odjęcie -0,5 z powodu błędu związanego z rubric point 3) Zadania, podane w klasie w czwartek, będą być należne (przesłane do D2L przez ciebie) przed rozpoczęciem zajęć w następny wtorek. Pierwsze pół godziny we wtorkowych posiedzeniach poświęcone będą prezentacji rubryk ocen, samooceny ukończonych zadań i przesyłaniu samodostatków do D2L. Ten harmonogram daje ci 4 dni na ukończenie zadania i przesłanie go do D2L przed 9:00 we wtorek. D2L śledzi czas przesłania zadania i żadna kara nie jest oceniana, dopóki nie zostanie przesłana przed godziną 9:00 we wtorek terminu. Jeśli masz zaplanowaną potrzebę nieobecności w klasie (np. Uczestnictwo w konferencji), jesteś odpowiedzialny za przesłanie swojego zadania przed godziną 9:00 we wtorek, kiedy to jest należne, oraz za przesłanie wersji własnej przez 10:15 tego samego dnia. Innymi słowy, harmonogram jest taki sam jak dla uczniów, którzy są w klasie. Jeśli pojawi się nagły wypadek (np. Masz grypę) i nie możesz wykonać zadania lub oceny zgodnie z harmonogramem, wyślij mi e-mail, a my osiągniemy pewne zakwaterowanie. W przeciwnym razie oceniona zostanie kara 5 punktów (połowa wszystkich dostępnych punktów za ćwiczenie). Wprowadzenie do organizacji szeregów czasowych danych do analizy Szeregi czasowe są szeroko definiowane jako dowolna seria pomiarów wykonywanych w różnym czasie. Niektóre podstawowe kategorie opisowe szeregów czasowych to: 1) długo vs krótki, 2) nawet krok w czasie w porównaniu z nierównomiernym krokiem w czasie, 3) dyskretny vs ciągły, 4) okresowy vs aperiodyczny, 5) stacjonarny vs niestacjonarny, i 6) jednowymiarowy vs wielowymiarowy . Te właściwości, jak również czasowe nakładanie się wielu serii, muszą być brane pod uwagę przy wyborze zestawu danych do analizy w tym kursie. W trakcie kursu przeanalizujesz własne szeregi czasowe. Pierwszym krokiem jest wybranie tych serii i zapisanie ich w strukturach w pliku mat. Jednorodność w przechowywaniu na początku jest wygodna dla tej klasy, tak więc uwaga może być skupiona na zrozumieniu metod szeregów czasowych, a raczej na debugowaniu kodu komputerowego w celu przygotowania danych do analizy. Struktura jest zmienną Matlaba podobną do bazy danych, ponieważ dostęp do jej treści uzyskuje się za pomocą tekstowych oznaczników pól. Struktura może przechowywać dane o różnych formach. Na przykład jedno pole może być numeryczną macierzą szeregów czasowych, innym może być tekst opisujący źródło danych itp. W pierwszym zadaniu uruchomi się skrypt Matlab, który odczytuje serie czasowe i metadane z plików tekstowych ascii, które przygotowujesz wcześniej i przechowuje dane w strukturach Matlab w jednym pliku mat. W kolejnych zadaniach zastosujesz metody szeregów czasowych do danych, uruchamiając skrypty Matlab i funkcje, które ładują plik mat i operują na tych strukturach. Wybierz przykładowe dane, które mają być użyte do przydziałów podczas kursu Czytaj: (1) Notes1.pdf, (2) Pierwsze kroki, dostępne z menu pomocy MATLAB Odpowiedź: Uruchom skrypt geosa1.m i odpowiedz na pytania podane w pliku w a1.pdf Jak rozróżnić kategorie szeregów czasowych Jak uruchomić i zakończyć program MATLAB Jak wprowadzić polecenia MATLAB w wierszu polecenia Jak tworzyć liczby w oknie rysunku Jak eksportować dane do edytora tekstu Różnice między skryptami i funkcjami MATLAB Jak uruchomić skrypty i funkcje forma zmiennej struktury MATLAB Jak zastosować skrypt geosa1.m, aby uzyskać zestaw szeregów czasowych i metadanych w strukturach MATLAB Rozkład prawdopodobieństwa szeregu czasowego opisuje prawdopodobieństwo, że obserwacja mieści się w określonym zakresie wartości. Empiryczny rozkład prawdopodobieństwa dla szeregu czasowego można uzyskać poprzez sortowanie i klasyfikowanie wartości serii. Kwantyle i percentyle są przydatnymi statystykami, które można pobrać bezpośrednio z empirycznego rozkładu prawdopodobieństwa. Wiele parametrycznych testów statystycznych przyjmuje, że szereg czasowy jest próbką z populacji o określonym rozkładzie prawdopodobieństwa populacji. Często zakłada się, że populacja jest normalna. W niniejszym rozdziale przedstawiono podstawowe definicje, statystyki i wykresy związane z rozkładem prawdopodobieństwa. Ponadto wprowadzono test (test Lillieforsa) do testowania, czy próbka pochodzi z rozkładu normalnego o nieokreślonej średniej i wariancji. Odpowiedź: Uruchom skrypt geosa2.m i odpowiedz na pytania wymienione w pliku w a2.pdf Definicje terminów: szeregi czasowe, stacjonarność, gęstość prawdopodobieństwa, funkcja rozkładu, kwantyl, rozkład, lokalizacja, średnia, odchylenie standardowe i pochylenie Jak interpretować najcenniejsza grafika w analizie szeregów czasowych - wykres szeregów czasowych Jak interpretować wykres pudełkowy, histogram i normalny wykres prawdopodobieństwa Parametry i kształt rozkładu normalnego Test Lilliefors na normalność: opis graficzny, założenia, hipotezy zerowe i alternatywne Zastrzeżenie dotyczące interpretacji poziomy istotności testów statystycznych, gdy szeregi czasowe nie są przypadkowe w czasie. Jak zastosować geosa2.m do sprawdzenia właściwości rozkładu szeregu czasowego i przetestować serię pod kątem normalności. Autokorelacja odnosi się do korelacji szeregu czasowego z jego przeszłymi i przyszłymi wartościami. Autokorelacja jest czasami nazywana opóźnioną korelacją lub korelacją szeregową. co odnosi się do korelacji między członkami szeregu liczb ułożonych w czasie. Pozytywna autokorelacja może być uważana za szczególną formę trwałości. tendencja do tego, aby system pozostał w tym samym stanie z jednej obserwacji do następnej. Na przykład prawdopodobieństwo, że jutro będzie deszcz, jest większe, jeśli dzisiaj jest deszczowo, niż dzisiaj, gdy jest sucho. Geofizyczne szeregi czasowe są często autokorelowane z powodu inercji lub procesów przenoszenia w systemie fizycznym. Na przykład wolno ewoluujące i poruszające się systemy niskociśnieniowe w atmosferze mogą nadawać uporowi dzienne opady. Lub powolne odwadnianie zasobów wód podziemnych może powodować korelację z kolejnymi rocznymi przepływami rzeki. Lub przechowywane fotosyntiany mogą wpływać na kolejne roczne wartości indeksów drzewiastych. Autorelacja utrudnia stosowanie testów statystycznych poprzez zmniejszenie liczby niezależnych obserwacji. Autokorelacja może także skomplikować identyfikację znaczącej kowariancji lub korelacji między seriami czasowymi (np. Wytrącanie z szeregiem pierścienia drzewa). Autokorelacja może być wykorzystana do przewidywań: serie związane z autokorelacją są przewidywalne, w sposób probabilistyczny, ponieważ przyszłe wartości zależą od wartości bieżących i przeszłych. Trzy narzędzia do oceny autokorelacji szeregu czasowego to (1) wykres szeregów czasowych, (2) opóźniony wykres rozrzutu i (3) funkcja autokorelacji. Odpowiedź: Uruchom skrypt geosa3.m i odpowiedz na pytania wymienione w pliku w a3.pdf Definicje: autokorelacja, trwałość, korelacja szeregowa, funkcja autokorelacji (acf), funkcja autokowariancji (acvf), efektywna wielkość próbki Jak rozpoznać autokorelację w szeregu czasowym fabuła Jak używać opóźnionych wykresów rozrzutu w celu oceny autokorelacji Jak interpretować wykreślone acf Jak dostosować rozmiar próbki do autokorelacji Matematyczna definicja funkcji autokorelacji Warunki wpływające na szerokość obliczonego przedziału ufności acf Różnica między jednostronnym a dwoma - sided test znaczącej autokorelacji lag-1 Jak zastosować geos3.m do badania autokorelacji szeregu czasowego Widmo szeregu czasowego jest rozkładem wariancji szeregu w funkcji częstotliwości. Celem analizy spektralnej jest oszacowanie i badanie widma. Widmo nie zawiera nowych informacji poza tym w funkcji autokowariancji (acvf), a w rzeczywistości spektrum można obliczyć matematycznie poprzez transformację akvf. Ale spektrum i aktywność przedstawiają informacje na temat wariancji szeregów czasowych z uzupełniających punktów widzenia. Acf podsumowuje informacje w dziedzinie czasu i widma w dziedzinie częstotliwości. Odpowiedź: Uruchom skrypt geosa4.m i odpowiedz na pytania podane w pliku w a4.pdf Definicje: częstotliwość, okres, długość fali, widmo, częstotliwość Nyquista, częstotliwości Fouriera, szerokość pasma Przyczyny analizy widma Jak interpretować spektrum w postaci spektrum w zakresie rozkładu wariancji Różnica między spektrum a znormalizowanym widmem Definicja okna opóźnienia w celu oszacowania widma metodą Blackmana-Tukeya Jak wybór okna opóźnienia wpływa na szerokość pasma i wariancję szacowanego widma Jak zdefiniować widmo białego szumu i spektrum autoregresji Jak naszkicować typowe kształty spektralne: biały szum, autoregresyjny, quasi-okresowy, niskiej częstotliwości, wysokiej częstotliwości Jak zastosować geosa4.m do analizy spektrum szeregów czasowych metodą Blackmana-Tukeya Autoregressive-Moving Modelowanie średnie (ARMA) Modele z automatyczną regresją autoregresji (ARMA) są matematycznymi modelami trwałości lub autokorelacji w szeregu czasowym. Modele ARMA są szeroko stosowane w hydrologii, dendrochronologii, ekonometrii i innych dziedzinach. Istnieje kilka możliwych powodów dopasowania modeli ARMA do danych. Modelowanie może przyczynić się do zrozumienia fizycznego systemu poprzez ujawnienie czegoś o fizycznym procesie, który buduje wytrwałość w serii. Na przykład, prosty fizyczny model bilansu wodnego, składający się z warunków dla wprowadzania opadów, parowania, infiltracji i magazynowania wód gruntowych, może dostarczyć serii przepływu, która następuje po określonej postaci modelu ARMA. Modele ARMA mogą być również używane do przewidywania zachowania szeregów czasowych z samych tylko przeszłych wartości. Takie przewidywanie może być wykorzystane jako linia podstawowa do oceny potencjalnego znaczenia innych zmiennych w systemie. Modele ARMA są szeroko stosowane do prognozowania ekonomicznych i przemysłowych szeregów czasowych. Modele ARMA można również stosować do usuwania uporczywości. Na przykład w dendrochronologii modelowanie ARMA jest stosowane rutynowo w celu generowania chronologicznych szeregów czasowych o indeksie szerokości pierścienia bez zależności od przeszłych wartości. Ta operacja, zwana wstępnym bieleniem, ma na celu usunięcie trwałości związanej z biologią z serii, tak aby reszta mogła być bardziej odpowiednia do badania wpływu klimatu i innych zewnętrznych czynników środowiskowych na wzrost drzew. Odpowiedź: Uruchom skrypt geosa5.m i odpowiedz na pytania wymienione w pliku w a5.pdf Funkcjonalna forma najprostszych modeli AR i ARMA Dlaczego takie modele są określane jako autoregresyjne lub ruchome? Trzy kroki w modelowaniu ARMA Wzorce diagnostyczne funkcje autokorelacji i częściowej autokorelacji dla szeregu czasowego AR (1) Definicja końcowego błędu prognozowania (FPE) i sposobu, w jaki FPE jest używane do wyboru najlepszego modelu ARMA. Definicja statystyki Portmanteau, oraz sposób i resztę służy do oceny, czy model ARMA skutecznie modeluje trwałość w szeregu Jak stosuje się zasadę oszczędności w modelowaniu ARMA Definicja przedwitwienia Jak przedwcześnie wpływa na (1) pojawienie się szeregów czasowych i (2) widmo szeregu czasowego Jak zastosować geosa5.m do modelu ARMA w szeregach czasowych Analiza spektralna - wygładzona metoda periodogramowa Istnieje wiele dostępnych metod szacowania widma szeregu czasowego. W lekcji 4 przyjrzeliśmy się metodzie Blackmana-Tukeya, opartej na transformacji Fouriera wygładzonej, skróconej funkcji autokowariancji. Wygładzona metoda periodogramu omija transformację acf poprzez bezpośrednią transformację Fouriera szeregu czasowego i obliczenia surowego periodogramu, funkcji wprowadzonej po raz pierwszy w XIX wieku do badania szeregów czasowych. Surowy periodogram jest wygładzany przez zastosowanie kombinacji lub rozpiętości jednego lub więcej filtrów w celu uzyskania szacowanego widma. Gładkość, rozdzielczość i wariancja estymacji widmowych jest kontrolowana przez wybór filtrów. Bardziej zaakcentowane wygładzenie surowego periodogramu powoduje powstanie płynnie zmieniającego się spektrum lub zerowego kontinuum, wobec którego można badać wartości szczytowe spektralne dla istotności. To podejście jest alternatywą dla specyfikacji funkcjonalnej postaci continuum zerowego (na przykład widma AR). Odpowiedź: Uruchom skrypt geosa6.m i odpowiedz na pytania wymienione w pliku w a6.pdf Definicja: surogram periodyczny, filtr Daniell, zakres filtru, zerowa płynność ciągła, stabilność i rozdzielczość zbieżności widma, wypełnienie, przeciek Cztery główne kroki w oszacowaniu spektrum przez wygładzony periodogram Jak efekt wyboru przęseł filtru na gładkość, stabilność i rozdzielczość widma Jak stosować continuum zerowe w testowaniu znaczenia szczytów spektralnych Jak zastosować geosa6.m do oszacowania spektrum czasu seria przez wygładzoną metodę periodogramu i test okresowości z określoną częstotliwością Trend w szeregu czasowym to powolna, stopniowa zmiana w niektórych właściwościach serii w całym badanym okresie. Trend jest czasami luźno definiowany jako długoterminowa zmiana średniej (rysunek 7.1), ale może również odnosić się do zmian w innych właściwościach statystycznych. Na przykład szeregi pierścienia drzewa o zmierzonej szerokości pierścienia często mają trend w wariancji, jak również średnią (rysunek 7.2). W tradycyjnej analizie szeregów czasowych szereg czasowy został zdekomponowany na tendencje, sezonowe lub okresowe składniki i nieregularne wahania, a różne części badano osobno. Nowoczesne techniki analityczne często traktują tę serię bez takiego rutynowego rozkładu, ale często konieczne jest oddzielne rozważenie trendu. Detrending to statystyczna lub matematyczna operacja usuwania trendu z serii. Detrending jest często stosowany w celu usunięcia funkcji, która może zniekształcać lub zaciemniać interesujące relacje. Na przykład w klimatologii trend temperaturowy wywołany miejskim ociepleniem może przesłonić związek między zachmurzeniem a temperaturą powietrza. Detrending jest również czasem wykorzystywany jako etap wstępnego przetwarzania w celu przygotowania szeregów czasowych do analizy metodami, które zakładają stacjonarność. Dostępnych jest wiele alternatywnych metod detrendingu. Prosty trend liniowy w średniej można usunąć, odejmując linię prostą o najmniejszych kwadratach. Bardziej skomplikowane trendy mogą wymagać różnych procedur. Na przykład sześcienny wypust wygładzający jest powszechnie stosowany w dendrochronologii w celu dopasowania i usunięcia trendu szerokości pierścienia, który może nie być liniowy, lub nawet nie monotonicznie zwiększać się lub maleć w czasie. Przy badaniu i usuwaniu trendu ważne jest zrozumienie wpływu znoszenia na właściwości spektralne szeregów czasowych. Efekt ten można podsumować za pomocą odpowiedzi częstotliwościowej funkcji wygaszenia. Odpowiedź: Uruchom skrypt geosa7.m i odpowiedz na pytania wymienione w pliku w a7.pdf Definicje: pasmo przenoszenia, splajn, sześcienny splajn Spline Plusy i minusy stosunku vs różnica detrending Interpretacja terminów w równaniu dla parametru splajnu Jak wybrać splajnuj interaktywnie z pożądaną charakterystyką częstotliwości Jak wpływa na widmo detekcja Jak mierzyć znaczenie komponentu trendu w szeregach czasowych Jak zastosować geosa7.m do interaktywnego wyboru funkcji detekcji splajnu i detrend szeregu czasowego Szacunkowe widmo czasu seria podaje rozkład wariancji jako funkcję częstotliwości. W zależności od celu analizy niektóre częstotliwości mogą być bardziej interesujące niż inne i pomocne może być zmniejszenie amplitudy zmian na innych częstotliwościach poprzez statystyczne filtrowanie ich przed przeglądaniem i analizowaniem serii. Na przykład, zmiany o wysokiej częstotliwości (rok do roku) w ocenianej skali zrzutu wody mogą być stosunkowo nieistotne dla zaopatrzenia w wodę w basenie z dużymi zbiornikami, które mogą przechowywać kilka lat średniego rocznego spływu. Tam, gdzie zmiany o niskiej częstotliwości są w głównym interesie, pożądane jest wygładzenie zapisu absolutorium w celu wyeliminowania lub zmniejszenia krótkotrwałych fluktuacji przed użyciem zapisu absolutorium dla zbadania znaczenia zmian klimatycznych w zaopatrzeniu w wodę. Wygładzanie jest formą filtrowania, która tworzy szereg czasowy, w którym zmniejsza się znaczenie składowych widmowych przy wysokich częstotliwościach. Inżynierowie elektrycy nazywają ten rodzaj filtra filtrem dolnoprzepustowym, ponieważ zmiany o niskiej częstotliwości mogą przechodzić przez filtr. W filtrze dolnoprzepustowym fale o niskiej częstotliwości (długookresowej) są słabo odczuwalne przez wygładzanie. Możliwe jest również filtrowanie szeregu w taki sposób, że zmiany o niskiej częstotliwości są zredukowane, a zmiany o wysokiej częstotliwości niezmienione. Ten rodzaj filtra nazywany jest filtrem górnoprzepustowym. Detrending jest formą filtrowania górnoprzepustowego: dopasowana linia trendu śledzi najniższe częstotliwości, a reszty z linii trendu mają usunięte te niskie częstotliwości. Trzeci rodzaj filtrowania, zwany filtrem pasmowo-przepustowym, zmniejsza lub filtruje zarówno wysokie, jak i niskie częstotliwości, i pozostawia pewne pośrednie pasmo częstotliwości stosunkowo niewrażliwe. W tej lekcji omawiamy kilka metod wygładzania lub filtrowania dolnoprzepustowego. Omówiliśmy już, w jaki sposób sześcienny wypust wygładzający może być przydatny do tego celu. Omówiono cztery inne typy filtrów: 1) prosta średnia ruchoma, 2) dwumianowe, 3) Gaussowskie i 4) okienkowanie (metoda Hamminga). W wyborze filtra dolnoprzepustowego należy uwzględnić pożądaną charakterystykę częstotliwościową i rozpiętość lub szerokość filtru. Odpowiedź: Uruchom skrypt geosa8.m i odpowiedz na pytania wymienione w pliku w a8.pdf Definicje: filtr, waga filtru, zakres filtru, filtr dolnoprzepustowy, filtr górnoprzepustowy, filtr pasmowoprzepustowy Odpowiedź częstotliwościowa filtra Jak działa metoda Gaussa filtr jest związany z rozkładem Gaussa Jak zbudować prosty dwumianowy filtr ręcznie (bez komputera) Jak opisać funkcję odpowiedzi częstotliwościowej w kategoriach systemu z wejściami i wyjściami sinusoidalnymi Jak zastosować geosa8.m do interaktywnego projektowania dwumianu Gaussa lub Filtr dolnoprzepustowy okna Hamminga dla szeregu czasowego Współczynnik korelacji Pearsona z wartością produktu jest prawdopodobnie najczęściej używaną statystyką do podsumowania zależności między dwiema zmiennymi. Istotność statystyczną i zastrzeżenia interpretacji współczynnika korelacji w odniesieniu do szeregów czasowych są tematami tej lekcji. Przy pewnych założeniach statystyczna istotność współczynnika korelacji zależy tylko od wielkości próby, zdefiniowanej jako liczba niezależnych obserwacji. Jeżeli szeregi czasowe są autokorelowane, przy ocenie istotności należy stosować efektywny rozmiar próbki, niższy niż rzeczywisty rozmiar próbki. Relacje przejściowe lub pozorne mogą powodować znaczącą korelację w niektórych okresach, a nie w innych. Zmienność czasową siły korelacji liniowej można badać za pomocą wykresów korelacji obliczanych dla okna przesuwnego. Ale jeśli wiele współczynników korelacji jest ocenianych jednocześnie, przedziały ufności powinny być dostosowane (dostosowanie Bonferroniego), aby zrekompensować zwiększone prawdopodobieństwo zaobserwowania pewnych wysokich korelacji, gdy nie istnieje związek. Interpretacja korelacji ślizgowych może być również komplikowana przez zmiany w czasie średniej i wariancji szeregu, ponieważ korelacja przesuwająca odzwierciedla współzmienność w kategoriach standaryzowanych odstępstw od środków w okienku czasowym zainteresowania, które mogą różnić się od środków długoterminowych. Na koniec należy podkreślić, że współczynnik korelacji Pearsona mierzy siłę zależności liniowej. Wykresy rozrzutu są przydatne do sprawdzenia, czy związek jest liniowy. Odpowiedź: Uruchom skrypt geosa9.m ​​i odpowiedz na pytania zawarte w pliku w a9.pdf Matematyczne określenie współczynnika korelacji Założenia i hipotezy dla testu istotności współczynnika korelacji Jak obliczyć poziom istotności współczynnika korelacji i dostosować poziom istotności dla autokorelacji w the individual time series Caveats to interpretation of correlation coefficient Bonferroni adjustment to signficance level of correlation under multiple comparisons Inflation of variance of estimated correlation coefficient when time series autocorrelated Possible effects of data transformation on correlation How to interpret plots of sliding correlations How to apply geosa9. m to analyze correlations and sliding correlations between pairs of time series Lagged relationships are characteristic of many natural physical systems. Lagged correlation refers to the correlation between two time series shifted in time relative to one another. Lagged correlation is important in studying the relationship between time series for two reasons. First, one series may have a delayed response to the other series, or perhaps a delayed response to a common stimulus that affects both series. Second, the response of one series to the other series or an outside stimulus may be smeared in time, such that a stimulus restricted to one observation elicits a response at multiple observations. For example, because of storage in reservoirs, glaciers, etc. the volume discharge of a river in one year may depend on precipitation in the several preceding years. Or because of changes in crown density and photosynthate storage, the width of a tree-ring in one year may depend on climate of several preceding years. The simple correlation coefficient between the two series properly aligned in time is inadequate to characterize the relationship in such situations. Useful functions we will examine as alternative to the simple correlation coefficient are the cross-correlation function and the impulse response function. The cross-correlation function is the correlation between the series shifted against one another as a function of number of observations of the offset. If the individual series are autocorrelated, the estimated cross-correlation function may be distorted and misleading as a measure of the lagged relationship. We will look at two approaches to clarifying the pattern of cross-correlations. One is to individually remove the persistence from, or prewhiten, the series before cross-correlation estimation. In this approach, the two series are essentially regarded on equal footing . An alternative is the systems approach: view the series as a dynamic linear system -- one series the input and the other the output -- and estimate the impulse response function. The impulse response function is the response of the output at current and future times to a hypothetical pulse of input restricted to the current time. Answer: Run script geosa10.m and answer questions listed in the file in a10.pdf Definitions: cross-covariance function, cross-correlation function, impulse response function, lagged correlation, causal, linear How autocorrelation can distort the pattern of cross-correlations and how prewhitening is used to clarify the pattern The distinction between the equal footing and systems approaches to lagged bivariate relationships Which types of situations the impulse response function (irf) is an appropriate tool How to represent the causal system treated by the irf in a flow diagram How to apply geos10.m to analyze the lagged cross-correlation structure of a a pair of time series Multiple linear regression Multiple linear regression (MLR) is a method used to model the linear relationship between a dependent variable and one or more independent variables. The dependent variable is sometimes also called the predictand, and the independent variables the predictors. MLR is based on least squares: the model is fit such that the sum-of-squares of differences of observed and predicted values is minimized. MLR is probably the most widely used method in dendroclimatology for developing models to reconstruct climate variables from tree-ring series. Typically, a climatic variable is defined as the predictand and tree-ring variables from one or more sites are defined as predictors. The model is fit to a period -- the calibration period -- for which climatic and tree-ring data overlap. In the process of fitting, or estimating, the model, statistics are computed that summarize the accuracy of the regression model for the calibration period. The performance of the model on data not used to fit the model is usually checked in some way by a process called validation. Finally, tree-ring data from before the calibration period are substituted into the prediction equation to get a reconstruction of the predictand. The reconstruction is a prediction in the sense that the regression model is applied to generate estimates of the predictand variable outside the period used to fit the data. The uncertainty in the reconstruction is summarized by confidence intervals, which can be computed by various alternative ways. Answer: Run script geosa11.m (Part 1) and answer questions listed in the file in a11.pdf The equation for the MLR model Assumptions for the MLR model Definitions of MLR statistics: coefficient of determination, sums-of-squares terms, overall-F for the regression equation, standard error of the estimate, adjusted R-squared, pool of potential predictors The steps in an analysis of residuals How to apply geosa11.m (part 1) to fit a MLR regression model to predict one variable from a set of several predictor variables Validating the regression model Regression R-squared, even if adjusted for loss of degrees of freedom due to the number of predictors in the model, can give a misleading, overly optimistic view of accuracy of prediction when the model is applied outside the calibration period. Application outside the calibration period is the rule rather than the exception in dendroclimatology. The calibration-period statistics are typically biased because the model is tuned for maximum agreement in the calibration period. Sometimes too large a pool of potential predictors is used in automated procedures to select final predictors. Another possible problem is that the calibration period itself may be anomalous in terms of the relationships between the variables: modeled relationships may hold up for some periods of time but not for others. It is advisable therefore to validate the regression model by testing the model on data not used to fit the model. Several approaches to validation are available. Among these are cross-validation and split-sample validation. In cross-validation, a series of regression models is fit, each time deleting a different observation from the calibration set and using the model to predict the predictand for the deleted observation. The merged series of predictions for deleted observations is then checked for accuracy against the observed data. In split-sample calibration, the model is fit to some portion of the data (say, the second half), and accuracy is measured on the predictions for the other half of the data. The calibration and validation periods are then exchanged and the process repeated. In any regression problem it is also important to keep in mind that modeled relationships may not be valid for periods when the predictors are outside their ranges for the calibration period: the multivariate distribution of the predictors for some observations outside the calibration period may have no analog in the calibration period. The distinction of predictions as extrapolations versus interpolations is useful in flagging such occurrences. Answer: Run script geosa11.m (Part 2) and answer questions listed in the file in a12.pdf Definitions: validation, cross-validation, split-sample validation, mean square error (MSE), root-mean-square error (RMSE) standard error of prediction, PRESS statistic, hat matrix, extrapolation vs interpolation Advantages of cross-validation over alternative validation methods How to apply geosa11.m (part 2) for cross-validated MLR modeling of the relationship between a predictand and predictors, including generation of a reconstruction and confidence bands Downloading Files -- tsfiles. zip The Matlab class scripts and user-written functions are zipped in a file called tsfiles. zip. To get the files, first create an empty directory on your computer. This is where you will store all functions, scripts and data used in the course. Go to D2L, or click on tsfiles. zip to download the zip file to that directory and unzip it there. When you run matlab, be sure that directory is your current matlab working directory. Powerpoint lecture outlines miscellaneous files. Downloadable file other. zip has miscellaneous files used in lectures. Included are Matlab demo scripts, sample data files, user-written functions used by demo scripts, and powerpoint presentations, as pdfs (lect1a. pdf, lect1b. pdf, etc.) used in on-campus lectures. I update other. zip over the semester, and add the presentation for the current lecture within a couple of days after that lecture is given. To run the Matlab scripts for the assignments, you must have your data, the class scripts, and the user-written Matlab functions called by the scripts in a single directory on your computer. The name of this directory is unimportant. Under Windows, it might be something like C:geos585a. The functions and scripts provided for the course should not require any tailoring, but some changes can be made for convenience. For example, scripts and functions will typically prompt you for the name of your input data file and present Spring17 as the default. That is because Ive stored the sample data in Spring17.mat. If you want to avoid having to type over Spring17 with the name of your own data file each time you run the script, edit the matlab script with the Matlab editordebugger to change one line. In the editor, search for the string Spring17 and replace it with the name of your. mat storage file (e. g. Smith2017), then be sure to re-save the edited script.

Comments