Dobór parametrów funkcji liniowej metodą najmniejszych kwadratów. Metoda najmniejszych kwadratów. Obszary zastosowań

Przykład.

Dane eksperymentalne dotyczące wartości zmiennych X I Na podano w tabeli.

W wyniku ich wyrównania uzyskuje się funkcję

Za pomocą metoda najmniejszych kwadratów , aproksymuj te dane za pomocą zależności liniowej y=topór+b(znajdź parametry A I B). Dowiedz się, która z dwóch linii lepiej (w sensie metody najmniejszych kwadratów) wyrównuje dane eksperymentalne. Narysuj coś.

Istota metody najmniejszych kwadratów (LSM).

Zadanie polega na znalezieniu współczynników zależności liniowej, przy której funkcjonuje funkcja dwóch zmiennych A I B przyjmuje najmniejszą wartość. To znaczy, dane A I B suma kwadratów odchyleń danych eksperymentalnych od znalezionej prostej będzie najmniejsza. Na tym polega cały sens metody najmniejszych kwadratów.

Zatem rozwiązanie przykładu sprowadza się do znalezienia ekstremum funkcji dwóch zmiennych.

Wyprowadzanie wzorów na znalezienie współczynników.

Układ dwóch równań z dwiema niewiadomymi jest kompilowany i rozwiązywany. Znajdowanie pochodnych cząstkowych funkcji przez zmienne A I B, przyrównujemy te pochodne do zera.

Powstały układ równań rozwiązujemy dowolną metodą (np metodą podstawieniową Lub Metoda Cramera) i uzyskać wzory na znalezienie współczynników metodą najmniejszych kwadratów (LSM).

Dany A I B funkcjonować przyjmuje najmniejszą wartość. Podano dowód tego faktu poniżej w tekście na końcu strony.

To cała metoda najmniejszych kwadratów. Wzór na znalezienie parametru A zawiera sumy ,, i parametr N- ilość danych eksperymentalnych. Zalecamy oddzielne obliczanie wartości tych kwot. Współczynnik B znalezione po obliczeniach A.

Czas przypomnieć sobie oryginalny przykład.

Rozwiązanie.

W naszym przykładzie n=5. Wypełniamy tabelę dla wygody obliczenia kwot uwzględnionych we wzorach wymaganych współczynników.

Wartości w czwartym wierszu tabeli uzyskuje się poprzez pomnożenie wartości drugiego wiersza przez wartości trzeciego wiersza dla każdej liczby I.

Wartości w piątym wierszu tabeli uzyskuje się przez podniesienie do kwadratu wartości w drugim wierszu dla każdej liczby I.

Wartości w ostatniej kolumnie tabeli są sumami wartości w wierszach.

Do znalezienia współczynników używamy wzorów metody najmniejszych kwadratów A I B. Podstawiamy do nich odpowiednie wartości z ostatniej kolumny tabeli:

Stąd, y = 0,165x+2,184- żądana przybliżająca linia prosta.

Pozostaje dowiedzieć się, która z linii y = 0,165x+2,184 Lub lepiej przybliża oryginalne dane, czyli dokonuje oszacowania metodą najmniejszych kwadratów.

Estymacja błędu metodą najmniejszych kwadratów.

Aby to zrobić, musisz obliczyć sumę kwadratów odchyleń oryginalnych danych od tych linii I , mniejsza wartość odpowiada linii, która lepiej przybliża oryginalne dane w sensie metody najmniejszych kwadratów.

Od , potem prosto y = 0,165x+2,184 lepiej przybliża oryginalne dane.

Graficzna ilustracja metody najmniejszych kwadratów (LS).

Wszystko doskonale widać na wykresach. Czerwona linia to znaleziona linia prosta y = 0,165x+2,184, niebieska linia to , różowe kropki to dane oryginalne.

W praktyce przy modelowaniu różnych procesów - w szczególności ekonomicznych, fizycznych, technicznych, społecznych - powszechnie stosuje się tę lub inną metodę obliczania przybliżonych wartości funkcji na podstawie ich znanych wartości w określonych punktach stałych.

Często pojawia się tego rodzaju problem aproksymacji funkcji:

    przy konstruowaniu przybliżonych wzorów do obliczania wartości wielkości charakterystycznych badanego procesu na podstawie danych tabelarycznych uzyskanych w wyniku eksperymentu;

    w całkowaniu numerycznym, różniczkowaniu, rozwiązywaniu równania różniczkowe itp.;

    w razie potrzeby obliczyć wartości funkcji w punktach pośrednich rozpatrywanego przedziału;

    przy wyznaczaniu wartości wielkości charakterystycznych procesu poza rozpatrywanym przedziałem, w szczególności przy prognozowaniu.

Jeżeli do modelowania pewnego procesu określonego tabelą skonstruujemy funkcję, która w przybliżeniu opisuje ten proces w oparciu o metodę najmniejszych kwadratów, będzie to nazywać się funkcją aproksymującą (regresją), a sam problem konstruowania funkcji aproksymujących nazwiemy problem przybliżenia.

W artykule omówiono możliwości pakietu MS Excel do rozwiązywania tego typu problemów, ponadto przedstawiono metody i techniki konstruowania (tworzenia) regresji dla funkcji tabelarycznych (co jest podstawą analizy regresji).

W programie Excel dostępne są dwie opcje tworzenia regresji.

    Dodanie wybranych regresji (linii trendu) do diagramu zbudowanego na podstawie tabeli danych dla badanej charakterystyki procesu (dostępne tylko w przypadku zbudowania diagramu);

    Wykorzystanie wbudowanych funkcji statystycznych arkusza Excel, pozwalających na uzyskanie regresji (linii trendu) bezpośrednio z tabeli danych źródłowych.

Dodawanie linii trendu do wykresu

W przypadku tabeli danych opisującej proces i przedstawionej w postaci diagramu Excel udostępnia skuteczne narzędzie do analizy regresji, które umożliwia:

    budować w oparciu o metodę najmniejszych kwadratów i dodawać do diagramu pięć rodzajów regresji, które modelują badany proces z różnym stopniem dokładności;

    dodaj do diagramu skonstruowane równanie regresji;

    określić stopień zgodności wybranej regresji z danymi wyświetlanymi na wykresie.

Na podstawie danych wykresowych Excel umożliwia uzyskanie regresji liniowych, wielomianowych, logarytmicznych, potęgowych, wykładniczych, które są określone równaniem:

y = y(x)

gdzie x jest zmienną niezależną, która często przyjmuje wartości ciągu liczb naturalnych (1; 2; 3; ...) i daje na przykład odliczenie czasu badanego procesu (charakterystyka).

1 . Regresja liniowa jest dobra do modelowania cech, których wartości rosną lub maleją w stałym tempie. Jest to najprostszy model do skonstruowania dla badanego procesu. Konstruuje się go według równania:

y = mx + b

gdzie m jest tangensem nachylenia regresji liniowej do osi x; b - współrzędna punktu przecięcia regresji liniowej z osią rzędnych.

2 . Linia trendu wielomianowego jest przydatna do opisywania cech, które mają kilka różnych ekstremów (maksimów i minimów). O wyborze stopnia wielomianu decyduje liczba ekstremów badanej cechy. Zatem wielomian drugiego stopnia może dobrze opisać proces, który ma tylko jedno maksimum lub minimum; wielomian trzeciego stopnia - nie więcej niż dwa ekstrema; wielomian czwartego stopnia - nie więcej niż trzy ekstrema itp.

W tym przypadku linia trendu jest konstruowana zgodnie z równaniem:

y = c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

gdzie współczynniki c0, c1, c2,... c6 są stałymi, których wartości wyznaczane są w trakcie budowy.

3 . Linię trendu logarytmicznego z powodzeniem stosuje się przy modelowaniu cech, których wartości początkowo szybko się zmieniają, a następnie stopniowo stabilizują.

y = do ln(x) + b

4 . Linia trendu prawa potęgowego daje dobre wyniki, jeśli wartości badanej zależności charakteryzują się stałą zmianą tempa wzrostu. Przykładem takiej zależności jest wykres ruchu samochodu z jednostajnym przyspieszeniem. Jeśli dane zawierają zero lub wartości ujemne, nie można użyć linii trendu mocy.

Zbudowane zgodnie z równaniem:

y = doxb

gdzie współczynniki b, c są stałymi.

5 . Jeśli tempo zmian danych stale rośnie, należy zastosować linię trendu wykładniczego. W przypadku danych zawierających wartości zerowe lub ujemne ten rodzaj przybliżenia również nie ma zastosowania.

Zbudowane zgodnie z równaniem:

y = do ebx

gdzie współczynniki b, c są stałymi.

Wybierając linię trendu, Excel automatycznie oblicza wartość R2, która charakteryzuje wiarygodność aproksymacji: niż bliższa wartość R2 do jedności, tym bardziej wiarygodnie linia trendu przybliża badany proces. W razie potrzeby wartość R2 można zawsze wyświetlić na wykresie.

Określone według wzoru:

Aby dodać linię trendu do serii danych:

    aktywuj wykres na podstawie serii danych, czyli kliknij w obszarze wykresu. W menu głównym pojawi się pozycja Diagram;

    po kliknięciu tej pozycji na ekranie pojawi się menu, w którym należy wybrać polecenie Dodaj linię trendu.

Te same działania można łatwo wykonać przesuwając wskaźnik myszy nad wykresem odpowiadającym jednej z serii danych i klikając prawym przyciskiem myszy; W wyświetlonym menu kontekstowym wybierz polecenie Dodaj linię trendu. Na ekranie pojawi się okno dialogowe Trendline z otwartą zakładką Type (rys. 1).

Następnie potrzebujesz:

Wybierz żądany typ linii trendu na karcie Typ (domyślnie wybrany jest typ Liniowy). W przypadku typu Wielomian w polu Stopień określ stopień wybranego wielomianu.

1 . Pole Seria zbudowana na podstawie zawiera listę wszystkich serii danych na danym wykresie. Aby dodać linię trendu do określonej serii danych, wybierz jej nazwę w polu Zbudowana na serii.

W razie potrzeby wchodząc w zakładkę Parametry (rys. 2) można ustawić następujące parametry linii trendu:

    zmienić nazwę linii trendu w polu Nazwa krzywej aproksymowanej (wygładzonej).

    w polu Prognoza ustaw liczbę okresów (do przodu lub do tyłu) prognozy;

    wyświetlić równanie linii trendu w obszarze wykresu, dla którego należy włączyć opcję pokazuj równanie na wykresie;

    wyświetlić w obszarze wykresu wartość wiarygodności aproksymacji R2, dla której należy zaznaczyć opcję Umieść na wykresie wartość wiarygodności aproksymacji (R^2);

    ustawić punkt przecięcia linii trendu z osią Y, dla którego należy zaznaczyć checkbox przecięcia krzywej z osią Y w punkcie;

    Kliknij przycisk OK, aby zamknąć okno dialogowe.

Aby rozpocząć edycję narysowanej już linii trendu, można skorzystać z trzech sposobów:

    użyj polecenia Wybrana linia trendu z menu Format, po wcześniejszym wybraniu linii trendu;

    z menu kontekstowego wybierz polecenie Formatuj linię trendu, które wywołuje się klikając prawym przyciskiem myszy na linię trendu;

    kliknij dwukrotnie linię trendu.

Na ekranie pojawi się okno dialogowe Format linii trendu (rys. 3), zawierające trzy zakładki: Widok, Typ, Parametry, przy czym zawartość dwóch ostatnich całkowicie pokrywa się z podobnymi zakładkami okna dialogowego Linia trendu (rys. 1). -2). Na karcie Widok możesz ustawić rodzaj linii, jej kolor i grubość.

Aby usunąć narysowaną już linię trendu, wybierz linię trendu do usunięcia i naciśnij klawisz Delete.

Zaletami rozważanego narzędzia analizy regresji są:

    względna łatwość konstruowania linii trendu na wykresach bez tworzenia dla niej tabeli danych;

    dość szeroka lista typów proponowanych linii trendu, a lista ta obejmuje najczęściej stosowane typy regresji;

    zdolność przewidywania zachowania badanego procesu na dowolnym dowolnym poziomie (w obrębie zdrowy rozsądek) liczba kroków do przodu i do tyłu;

    możliwość otrzymania równania linii trendu w formie analitycznej;

    możliwość, w razie potrzeby, uzyskania oceny wiarygodności przybliżenia.

Wady obejmują:

    konstrukcja linii trendu odbywa się tylko wtedy, gdy istnieje diagram zbudowany na serii danych;

    proces generowania serii danych dla badanej cechy na podstawie uzyskanych dla niej równań linii trendu jest nieco zaśmiecony: wymagane równania regresji są aktualizowane przy każdej zmianie wartości oryginalnej serii danych, ale tylko w obszarze wykresu , natomiast szeregi danych utworzone na podstawie trendu starego równania liniowego pozostają niezmienione;

    W raportach wykresu przestawnego zmiana widoku wykresu lub powiązanego raportu w formie tabeli przestawnej nie powoduje zachowania istniejących linii trendu, co oznacza, że ​​przed narysowaniem linii trendu lub innym formatowaniem raportu w formie wykresu przestawnego należy upewnić się, że układ raportu spełnia wymagane wymagania.

Linie trendu można wykorzystać do uzupełnienia serii danych prezentowanych na wykresach, takich jak wykresy, histogramy, płaskie, niestandaryzowane wykresy warstwowe, wykresy słupkowe, wykresy punktowe, wykresy bąbelkowe i wykresy giełdowe.

Nie można dodawać linii trendu do serii danych na wykresach 3D, znormalizowanych, radarowych, kołowych i pierścieniowych.

Korzystanie z wbudowanych funkcji programu Excel

Excel posiada także narzędzie do analizy regresji umożliwiające wykreślanie linii trendu poza obszarem wykresu. Istnieje wiele funkcji arkusza statystycznego, których można użyć w tym celu, ale wszystkie pozwalają jedynie na budowanie regresji liniowej lub wykładniczej.

Excel ma kilka funkcji do konstruowania regresji liniowej, w szczególności:

    TENDENCJA;

  • NACHYLENIE i CIĘCIE.

A także kilka funkcji do konstruowania wykładniczej linii trendu, w szczególności:

    LGRFPRIBL.

Należy zauważyć, że techniki konstruowania regresji przy użyciu funkcji TREND i WZROST są prawie takie same. To samo można powiedzieć o parze funkcji LINEST i LGRFPRIBL. W przypadku tych czterech funkcji do tworzenia tabeli wartości wykorzystuje się funkcje Excela takie jak formuły tablicowe, co nieco zaśmieca proces budowania regresji. Zauważmy też, że konstrukcję regresji liniowej naszym zdaniem najłatwiej przeprowadzić korzystając z funkcji SLOPE i INTERCEPT, gdzie pierwsza z nich wyznacza nachylenie regresji liniowej, a druga wyznacza odcinek przechwycony przez regresję na oś Y.

Zalety wbudowanego narzędzia funkcyjnego do analizy regresji to:

    dość prosty, jednolity proces generowania serii danych o badanej charakterystyce dla wszystkich wbudowanych funkcji statystycznych wyznaczających linie trendu;

    standardowa metodyka konstruowania linii trendu na podstawie wygenerowanych serii danych;

    umiejętność przewidywania zachowania badanego procesu poprzez wymaganą liczbę kroków do przodu lub do tyłu.

Do wad można zaliczyć fakt, że Excel nie posiada wbudowanych funkcji umożliwiających tworzenie innych (poza liniowymi i wykładniczymi) typów linii trendu. Okoliczność ta często nie pozwala na wybór wystarczająco dokładnego modelu badanego procesu, a także na uzyskanie prognoz bliskich rzeczywistości. Dodatkowo przy korzystaniu z funkcji TREND i WZROST nie są znane równania linii trendu.

Należy zaznaczyć, że autorzy nie postawili sobie za cel przedstawienia przebiegu analizy regresji w jakimkolwiek stopniu kompletności. Jego głównym zadaniem jest pokazanie na konkretnych przykładach możliwości pakietu Excel przy rozwiązywaniu problemów aproksymacyjnych; zademonstrować, jakie skuteczne narzędzia ma Excel do budowania regresji i prognozowania; ilustrują, jak takie problemy mogą być stosunkowo łatwo rozwiązane nawet przez użytkownika, który nie ma rozległej wiedzy na temat analizy regresji.

Przykłady rozwiązań specyficzne zadania

Przyjrzyjmy się rozwiązywaniu konkretnych problemów za pomocą wymienionych narzędzi Excela.

Problem 1

Z tabelą danych o zyskach przedsiębiorstwa transportu samochodowego za lata 1995-2002. musisz wykonać następujące czynności:

    Zbuduj diagram.

    Dodaj do wykresu linie trendu liniowego i wielomianowego (kwadratowego i sześciennego).

    Korzystając z równań linii trendu, uzyskaj dane tabelaryczne dotyczące zysków przedsiębiorstw dla każdej linii trendu w latach 1995-2004.

    Proszę o prognozę zysków przedsiębiorstwa na lata 2003 i 2004.

Rozwiązanie problemu

    W obszarze komórek A4:C11 arkusza Excel wpisz arkusz pokazany na ryc. 4.

    Po wybraniu zakresu komórek B4:C11 budujemy diagram.

    Aktywujemy skonstruowany diagram i zgodnie z metodą opisaną powyżej, po wybraniu rodzaju linii trendu w oknie dialogowym Linia trendu (patrz rys. 1), dodajemy do wykresu naprzemiennie linie trendu liniowego, kwadratowego i sześciennego. W tym samym oknie dialogowym należy otworzyć zakładkę Parametry (patrz rys. 2), w polu Nazwa krzywej aproksymowanej (wygładzanej) wpisać nazwę dodawanego trendu, a w polu Prognoza do przodu na: okresy ustawić wartość wartość 2, gdyż planuje się sporządzenie prognozy zysków na dwa lata do przodu. Aby wyświetlić równanie regresji i wartość niezawodności aproksymacji R2 w obszarze wykresu, należy włączyć opcję pokazywania równania na ekranie i umieścić na wykresie wartość wiarygodności aproksymacji (R^2). Dla lepszej percepcji wizualnej zmieniamy rodzaj, kolor i grubość konstruowanych linii trendu, do czego służy zakładka Widok okna dialogowego Format linii trendu (patrz rys. 3). Powstały diagram z dodanymi liniami trendu pokazano na ryc. 5.

    Uzyskanie danych tabelarycznych o zyskach przedsiębiorstw dla każdej linii trendu za lata 1995-2004. Skorzystajmy z równań linii trendu przedstawionych na ryc. 5. W tym celu w komórkach zakresu D3:F3 należy wpisać informację tekstową o rodzaju wybranej linii trendu: Trend liniowy, Trend kwadratowy, Trend sześcienny. Następnie wpisz formułę regresji liniowej w komórce D4 i korzystając ze znacznika wypełnienia, skopiuj tę formułę z odniesieniami względnymi do zakresu komórek D5:D13. Należy zaznaczyć, że każda komórka posiadająca formułę regresji liniowej z zakresu komórek D4:D13 ma jako argument odpowiadającą komórkę z zakresu A4:A13. Podobnie w przypadku regresji kwadratowej wypełnij zakres komórek E4:E13, a w przypadku regresji sześciennej wypełnij zakres komórek F4:F13. W związku z tym sporządzono prognozę zysków przedsiębiorstwa na lata 2003 i 2004. wykorzystując trzy trendy. Wynikową tabelę wartości pokazano na ryc. 6.

Problem 2

    Zbuduj diagram.

    Dodaj do wykresu linie trendu logarytmicznego, potęgowego i wykładniczego.

    Wyprowadź równania uzyskanych linii trendu, a także wartości niezawodności przybliżenia R2 dla każdej z nich.

    Korzystając z równań linii trendu, uzyskaj dane tabelaryczne dotyczące zysku przedsiębiorstwa dla każdej linii trendu za lata 1995-2002.

    Korzystając z tych linii trendu, sporządź prognozę zysków firmy na lata 2003 i 2004.

Rozwiązanie problemu

Kierując się metodologią podaną przy rozwiązaniu zadania 1, otrzymujemy diagram z dodanymi do niego liniami trendu logarytmicznego, potęgowego i wykładniczego (rys. 7). Następnie korzystając z otrzymanych równań linii trendu wypełniamy tabelę wartości zysku przedsiębiorstwa zawierającą przewidywane wartości na lata 2003 i 2004. (ryc. 8).

Na ryc. 5 i rys. widać, że model z trendem logarytmicznym odpowiada najniższej wartości niezawodności aproksymacji

R2 = 0,8659

Największe wartości R2 odpowiadają modelom o trendzie wielomianowym: kwadratowym (R2 = 0,9263) i sześciennym (R2 = 0,933).

Problem 3

Mając do dyspozycji tabelę danych o zyskach przedsiębiorstwa transportu samochodowego za lata 1995-2002 podaną w zadaniu 1 należy wykonać następujące czynności.

    Uzyskaj serie danych dla linii trendu liniowego i wykładniczego za pomocą funkcji TREND i GROW.

    Korzystając z funkcji TREND i WZROST, oszacuj prognozę zysków przedsiębiorstwa na lata 2003 i 2004.

    Utwórz diagram dla oryginalnych danych i wynikowych serii danych.

Rozwiązanie problemu

Skorzystajmy z arkusza ćwiczeń dla zadania 1 (patrz rys. 4). Zacznijmy od funkcji TREND:

    wybierz zakres komórek D4:D11, który należy wypełnić wartościami funkcji TREND odpowiadającymi znanym danym o zysku przedsiębiorstwa;

    Wywołaj polecenie Funkcja z menu Wstaw. W wyświetlonym oknie dialogowym Kreator funkcji wybierz funkcję TREND z kategorii Statystyka, a następnie kliknij przycisk OK. Tę samą operację można wykonać, klikając przycisk (Wstaw funkcję) na standardowym pasku narzędzi.

    W wyświetlonym oknie dialogowym Argumenty funkcji wprowadź zakres komórek C4:C11 w polu Znane_wartości_y; w polu Znane_wartości_x - zakres komórek B4:B11;

    Aby wprowadzona formuła stała się formułą tablicową należy użyć kombinacji klawiszy + + .

Formuła, którą wpisaliśmy w pasku formuły, będzie wyglądać następująco: =(TREND(C4:C11,B4:B11)).

W rezultacie zakres komórek D4:D11 zostaje wypełniony odpowiednimi wartościami funkcji TREND (rys. 9).

Sporządzenie prognozy zysków przedsiębiorstwa na lata 2003 i 2004. niezbędny:

    wybierz zakres komórek D12:D13, w którym zostaną wprowadzone wartości przewidywane przez funkcję TREND.

    wywołaj funkcję TREND i w wyświetlonym oknie Argumenty funkcji wpisz w polu Znane_wartości_y - zakres komórek C4:C11; w polu Znane_wartości_x - zakres komórek B4:B11; oraz w polu Nowe_wartości_x - zakres komórek B12:B13.

    zamień tę formułę w formułę tablicową, używając kombinacji klawiszy Ctrl + Shift + Enter.

    Wprowadzona formuła będzie wyglądać następująco: =(TREND(C4:C11;B4:B11;B12:B13)), a zakres komórek D12:D13 zostanie wypełniony przewidywanymi wartościami funkcji TREND (patrz rys. 9).

Serię danych wypełnia się w podobny sposób za pomocą funkcji WZROST, która służy do analizy zależności nieliniowych i działa dokładnie tak samo, jak jej liniowy odpowiednik TREND.

Rysunek 10 przedstawia tabelę w trybie wyświetlania formuły.

Dla danych początkowych i otrzymanych serii danych schemat pokazany na rys. jedenaście.

Problem 4

Mając tabelę danych o przyjęciu wniosków o usługi przez służbę spedycyjną przedsiębiorstwa transportu samochodowego za okres od 1 do 11 dnia bieżącego miesiąca, należy wykonać następujące czynności.

    Uzyskaj serie danych dla regresji liniowej: za pomocą funkcji SLOPE i INTERCEPT; za pomocą funkcji REGLINP.

    Uzyskaj serię danych do regresji wykładniczej za pomocą funkcji LGRFPRIBL.

    Korzystając z powyższych funkcji, sporządź prognozę wpływu wniosków do działu spedycyjnego na okres od 12 do 14 dnia bieżącego miesiąca.

    Utwórz diagram dla oryginalnej i otrzymanej serii danych.

Rozwiązanie problemu

Należy zauważyć, że w przeciwieństwie do funkcji TREND i WZROST żadna z funkcji wymienionych powyżej (NACHYLENIE, PRZECIĘCIE, REGLINP, LGRFPRIB) nie jest regresją. Funkcje te pełnią jedynie rolę pomocniczą, wyznaczając niezbędne parametry regresji.

W przypadku regresji liniowych i wykładniczych budowanych za pomocą funkcji SLOPE, INTERCEPT, LINEST, LGRFPRIB zawsze znany jest wygląd ich równań, w przeciwieństwie do regresji liniowych i wykładniczych odpowiadających funkcjom TREND i GROWTH.

1 . Zbudujmy regresję liniową za pomocą równania:

y = mx+b

przy użyciu funkcji SLOPE i INTERCEPT, przy czym nachylenie regresji m jest określone funkcją SLOPE, a człon wolny b jest określany przez funkcję INTERCEPT.

W tym celu wykonujemy następujące czynności:

    wprowadź oryginalną tabelę do zakresu komórek A4:B14;

    wartość parametru m zostanie określona w komórce C19. Wybierz funkcję Nachylenie z kategorii Statystyka; wpisz zakres komórek B4:B14 w polu znane_wartości_y oraz zakres komórek A4:A14 w polu znane_wartości_x. Formuła zostanie wpisana w komórkę C19: =NACHYLENIE(B4:B14,A4:A14);

    W podobny sposób określa się wartość parametru b w komórce D19. A jego zawartość będzie wyglądać następująco: =SEGMENT(B4:B14,A4:A14). Zatem wartości parametrów m i b wymagane do skonstruowania regresji liniowej zostaną zapisane odpowiednio w komórkach C19, D19;

    Następnie wprowadź formułę regresji liniowej do komórki C4 w postaci: =$C*A4+$D. W tej formule komórki C19 i D19 zapisywane są z odwołaniami bezwzględnymi (adres komórki nie powinien zmieniać się podczas ewentualnego kopiowania). Znak odniesienia bezwzględnego $ można wpisać z klawiatury lub przy pomocy klawisza F4, po umieszczeniu kursora na adresie komórki. Używając uchwytu wypełniania, skopiuj tę formułę do zakresu komórek C4:C17. Otrzymujemy wymagane serie danych (ryc. 12). Z uwagi na to, że liczba żądań jest liczbą całkowitą, należy w zakładce Liczba okna Format komórki ustawić format liczb z liczbą miejsc po przecinku na 0.

2 . Zbudujmy teraz regresję liniową określoną równaniem:

y = mx+b

za pomocą funkcji REGLINP.

Dla tego:

    Wprowadź funkcję REGLINP jako formułę tablicową w zakresie komórek C20:D20: =(LINEST(B4:B14,A4:A14)). W rezultacie otrzymujemy wartość parametru m w komórce C20 i wartość parametru b w komórce D20;

    wpisz formułę w komórce D4: =$C*A4+$D;

    skopiuj tę formułę za pomocą znacznika wypełnienia do zakresu komórek D4:D17 i uzyskaj żądaną serię danych.

3 . Regresję wykładniczą budujemy za pomocą równania:

korzystając z funkcji LGRFPRIBL wykonuje się to analogicznie:

    W zakresie komórek C21:D21 wpisujemy funkcję LGRFPRIBL w postaci formuły tablicowej: =( LGRFPRIBL (B4:B14,A4:A14)). W tym przypadku wartość parametru m zostanie określona w komórce C21, a wartość parametru b zostanie określona w komórce D21;

    formułę wpisuje się do komórki E4: =$D*$C^A4;

    za pomocą znacznika wypełnienia formuła ta jest kopiowana do zakresu komórek E4:E17, gdzie będzie zlokalizowany szereg danych dla regresji wykładniczej (patrz rys. 12).

Na ryc. Rysunek 13 przedstawia tabelę, w której możesz zobaczyć funkcje, których używamy z wymaganymi zakresami komórek, a także formuły.

Ogrom R 2 zwany współczynnik determinacji.

Zadaniem konstrukcji zależności regresyjnej jest znalezienie wektora współczynników m modelu (1), przy którym współczynnik R przyjmuje wartość maksymalną.

Do oceny istotności R wykorzystuje się test F Fishera, obliczany ze wzoru

Gdzie N- wielkość próby (liczba eksperymentów);

k jest liczbą współczynników modelu.

Jeśli F przekracza pewną wartość krytyczną dla danych N I k i przyjęte prawdopodobieństwo ufności, wówczas wartość R uważa się za znaczącą. Tabele wartości krytycznych F podano w podręcznikach dotyczących statystyki matematycznej.

Zatem o istotności R decyduje nie tylko jego wartość, ale także stosunek liczby eksperymentów do liczby współczynników (parametrów) modelu. Rzeczywiście, współczynnik korelacji dla n=2 dla prostego modelu liniowego wynosi 1 (pojedynczą linię prostą można zawsze poprowadzić przez 2 punkty na płaszczyźnie). Jeśli jednak danymi eksperymentalnymi są zmienne losowe, takiej wartości R należy ufać z dużą ostrożnością. Zwykle, aby uzyskać istotny R i wiarygodną regresję, dążą do tego, aby liczba eksperymentów znacznie przekraczała liczbę współczynników modelu (n>k).

Aby zbudować model regresji liniowej, potrzebujesz:

1) przygotować listę n wierszy i m kolumn zawierających dane eksperymentalne (kolumna zawierająca wartość wyjściową Y musi być pierwszy lub ostatni na liście); Weźmy np. dane z poprzedniego zadania, dodając kolumnę o nazwie „Nr okresu”, ponumerujmy numery okresów od 1 do 12. (będą to wartości X)

2) przejdź do menu Dane/Analiza danych/Regresja

Jeżeli w menu „Narzędzia” brakuje pozycji „Analiza danych”, należy w tym samym menu przejść do pozycji „Dodatki” i zaznaczyć pole wyboru „Pakiet analiz”.

3) w oknie dialogowym „Regresja” ustaw:

· przedział wejściowy Y;

· przedział wejściowy X;

· przedział wyjściowy - lewa górna komórka przedziału, w którym będą umieszczane wyniki obliczeń (zaleca się umieszczenie ich na nowym arkuszu);

4) kliknij „OK” i przeanalizuj wyniki.

  • Programowanie
    • Instruktaż

    Wstęp

    Jestem matematykiem i programistą. Największym krokiem w mojej karierze był moment, gdy nauczyłem się mówić: "Niczego nierozumiem!" Teraz nie wstydzę się powiedzieć luminarzowi nauki, że wygłasza dla mnie wykład, że nie rozumiem, co on, luminarz, mówi mi. I to jest bardzo trudne. Tak, przyznanie się do swojej niewiedzy jest trudne i zawstydzające. Kto lubi przyznać się do tego, że nie zna jakiejś podstawy? Ze względu na zawód muszę być obecny duże ilości prezentacje i wykłady, na których, przyznaję, w zdecydowanej większości przypadków chce mi się spać, bo nic nie rozumiem. Ale nie rozumiem, bo ogromny problem obecnej sytuacji w nauce leży w matematyce. Zakłada, że ​​wszyscy słuchacze znają absolutnie wszystkie dziedziny matematyki (co jest absurdem). Przyznanie się, że nie wiesz, czym jest pochodna (o tym, czym jest, porozmawiamy nieco później) jest wstydliwe.

    Ale nauczyłem się mówić, że nie wiem, co to jest mnożenie. Tak, nie wiem, czym jest podalgebra w stosunku do algebry Liego. Tak, nie wiem, po co są potrzebne w życiu równania kwadratowe. Swoją drogą, jeśli jesteś pewien, że wiesz, to mamy o czym rozmawiać! Matematyka to seria sztuczek. Matematycy próbują dezorientować i zastraszać opinię publiczną; gdzie nie ma zamieszania, nie ma reputacji, nie ma autorytetu. Tak, mówienie możliwie abstrakcyjnym językiem jest prestiżem, co jest kompletną bzdurą.

    Czy wiesz, co to jest pochodna? Najprawdopodobniej powiesz mi o granicy stosunku różnicy. Na pierwszym roku matematyki i mechaniki na Uniwersytecie Państwowym w Petersburgu powiedział mi Wiktor Pietrowicz Chawin określony pochodna jako współczynnik pierwszego wyrazu szeregu Taylora funkcji w punkcie (była to osobna gimnastyka wyznaczania szeregu Taylora bez pochodnych). Długo się śmiałem z tej definicji, aż w końcu zrozumiałem, o co w niej chodzi. Pochodna to nic innego jak prosta miara tego, jak podobna jest funkcja, którą różniczkujemy, do funkcji y=x, y=x^2, y=x^3.

    Teraz mam zaszczyt prowadzić wykłady dla studentów, którzy przestraszony matematyka. Jeśli boisz się matematyki, jesteśmy na tej samej ścieżce. Gdy tylko spróbujesz przeczytać jakiś tekst i wydaje Ci się, że jest on zbyt skomplikowany, to wiedz, że jest słabo napisany. Twierdzę, że nie ma takiego obszaru matematyki, którego nie da się omówić „na palcach” bez utraty dokładności.

    Zadanie na najbliższą przyszłość: Poleciłem moim uczniom zrozumienie, czym jest liniowy regulator kwadratowy. Nie wstydź się, poświęć trzy minuty swojego życia i kliknij link. Jeśli niczego nie rozumiesz, oznacza to, że jesteśmy na tej samej ścieżce. Ja (zawodowy matematyk-programista) też nic nie rozumiałem. Zapewniam, że można to rozgryźć „na palcach”. NA ten moment Nie wiem, co to jest, ale zapewniam, że możemy to rozgryźć.

    Zatem pierwszy wykład, jaki wygłoszę moim studentom po tym, jak przybiegną do mnie z przerażeniem i powiedzą, że regulator liniowo-kwadratowy to straszna rzecz, której nigdy w życiu nie opanujecie, to metody najmniejszych kwadratów. Czy możesz zdecydować równania liniowe? Jeśli czytasz ten tekst, to najprawdopodobniej nie.

    Zatem mając dane dwa punkty (x0, y0), (x1, y1), na przykład (1,1) i (3,2), zadaniem jest znalezienie równania prostej przechodzącej przez te dwa punkty:

    ilustracja

    Linia ta powinna mieć równanie podobne do poniższego:

    Tutaj alfa i beta nie są nam znane, ale znane są dwa punkty tej linii:

    Równanie to możemy zapisać w postaci macierzowej:

    W tym miejscu należy dokonać lirycznej dygresji: czym jest matrix? Macierz to nic innego jak tablica dwuwymiarowa. Jest to sposób przechowywania danych i nie należy do niego przywiązywać żadnego innego znaczenia. Od nas zależy, jak dokładnie zinterpretujemy daną macierz. Okresowo będę to interpretował jako odwzorowanie liniowe, okresowo jako postać kwadratową, a czasami po prostu jako zbiór wektorów. Wszystko zostanie wyjaśnione w kontekście.

    Zastąpmy konkretne macierze ich symboliczną reprezentacją:

    Następnie (alfa, beta) można łatwo znaleźć:

    Dokładniej dla naszych poprzednich danych:

    Co prowadzi do następującego równania prostej przechodzącej przez punkty (1,1) i (3,2):

    OK, tutaj wszystko jest jasne. Znajdźmy równanie prostej przechodzącej przez nią trzy punkty: (x0,y0), (x1,y1) i (x2,y2):

    Och, och, och, ale mamy trzy równania z dwiema niewiadomymi! Zwykły matematyk powie, że nie ma rozwiązania. Co powie programista? I najpierw przepisze poprzedni układ równań w następującej formie:

    W naszym przypadku wektory i,j,b są trójwymiarowe, zatem (w ogólnym przypadku) nie ma rozwiązania dla tego układu. Dowolny wektor (alfa\*i + beta\*j) leży w płaszczyźnie rozpiętej przez wektory (i, j). Jeśli b nie należy do tej płaszczyzny, to nie ma rozwiązania (w równaniu nie można osiągnąć równości). Co robić? Szukajmy kompromisu. Oznaczmy przez e(alfa, beta) dokładnie, jak daleko nie osiągnęliśmy równości:

    Postaramy się zminimalizować ten błąd:

    Dlaczego kwadratowy?

    Szukamy nie tylko minimum normy, ale także minimum kwadratu normy. Dlaczego? Sam punkt minimalny pokrywa się, a kwadrat daje funkcję gładką (funkcję kwadratową argumentów (alfa, beta)), natomiast sama długość daje funkcję w kształcie stożka, niezróżniczkowalną w punkcie minimalnym. Br. Kwadrat jest wygodniejszy.

    Oczywiście błąd jest minimalizowany, gdy wektor mi prostopadłe do płaszczyzny rozpiętej na wektorach I I J.

    Ilustracja

    Innymi słowy: szukamy takiej prostej, aby suma kwadratów długości odległości wszystkich punktów od tej prostej była minimalna:

    AKTUALIZACJA: Mam tutaj problem, odległość do linii prostej należy mierzyć w pionie, a nie w rzucie ortogonalnym. Komentator ma rację.

    Ilustracja

    Zupełnie innymi słowami (ostrożnie, słabo sformalizowany, ale powinno być jasne): bierzemy wszystkie możliwe linie pomiędzy wszystkimi parami punktów i szukamy średniej linii pomiędzy wszystkimi:

    Ilustracja

    Inne wyjaśnienie jest proste: dołączamy sprężynę pomiędzy wszystkimi punktami danych (tutaj mamy trzy) a linią prostą, której szukamy, a linia prosta stanu równowagi jest dokładnie tym, czego szukamy.

    Minimalna forma kwadratowa

    Biorąc pod uwagę ten wektor B oraz płaszczyzna rozpięta wektorami kolumnowymi macierzy A(W w tym przypadku(x0,x1,x2) i (1,1,1)), szukamy wektora mi o minimalnej długości kwadratowej. Oczywiście minimum można osiągnąć tylko dla wektora mi, prostopadła do płaszczyzny rozpiętej przez wektory kolumnowe macierzy A:

    Inaczej mówiąc, szukamy wektora x=(alfa, beta) takiego, że:

    Przypomnę, że ten wektor x=(alfa, beta) jest minimum funkcja kwadratowa||e(alfa, beta)||^2:

    W tym miejscu warto pamiętać, że macierz można interpretować także w postaci kwadratowej, np. macierz jednostkowa ((1,0),(0,1)) można interpretować jako funkcję x^2 + y^ 2:

    forma kwadratowa

    Cała ta gimnastyka znana jest pod nazwą regresji liniowej.

    Równanie Laplace'a z warunkiem brzegowym Dirichleta

    Teraz najprostsze prawdziwe zadanie: istnieje pewna trójkątna powierzchnia, należy ją wygładzić. Na przykład załadujmy model mojej twarzy:

    Oryginalne zatwierdzenie jest dostępne. Aby zminimalizować zależności zewnętrzne, wziąłem kod mojego oprogramowania renderującego, już na Habré. Dla rozwiązań układ liniowy Ja używam OpenNL, jest to doskonały solwer, który jednak jest bardzo trudny w instalacji: trzeba skopiować dwa pliki (.h+.c) do folderu z projektem. Całe wygładzanie odbywa się za pomocą następującego kodu:

    Dla (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&twarz = twarze[i]; dla (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

    Współrzędne X, Y i Z są rozłączne, wygładzam je osobno. Oznacza to, że rozwiązuję trzy układy równań liniowych, każdy z liczbą zmiennych równą liczbie wierzchołków mojego modelu. W pierwszych n wierszach macierzy A znajduje się tylko jedna cyfra 1 w każdym wierszu, a pierwsze n wierszy wektora b ma oryginalne współrzędne modelu. Oznacza to, że wiążę sprężynę pomiędzy nową pozycją wierzchołka a starą pozycją wierzchołka - nowe nie powinny zbytnio oddalać się od starych.

    We wszystkich kolejnych wierszach macierzy A (faces.size()*3 = liczba krawędzi wszystkich trójkątów w siatce) występuje jedno wystąpienie wartości 1 i jedno wystąpienie -1, przy czym wektor b ma przeciwne składowe zerowe. Oznacza to, że umieściłem sprężynę na każdej krawędzi naszej trójkątnej siatki: wszystkie krawędzie starają się uzyskać ten sam wierzchołek, co ich punkt początkowy i końcowy.

    Jeszcze raz: wszystkie wierzchołki są zmienne i nie mogą oddalić się od swojego pierwotnego położenia, ale jednocześnie starają się upodobnić do siebie.

    Oto wynik:

    Wszystko byłoby w porządku, model rzeczywiście jest wygładzony, jednak odszedł od pierwotnej krawędzi. Zmieńmy trochę kod:

    Dla (int i=0; tj<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

    W naszej macierzy A dla wierzchołków znajdujących się na krawędzi dodaję nie wiersz z kategorii v_i = verts[i][d], ale 1000*v_i = 1000*verts[i][d]. Co to zmienia? A to zmienia naszą kwadratową postać błędu. Teraz pojedyncze odchylenie od góry przy krawędzi będzie kosztować nie jedną jednostkę, jak poprzednio, ale 1000*1000 jednostek. Oznacza to, że na skrajnych wierzchołkach zawiesiliśmy mocniejszą sprężynę, rozwiązanie będzie wolało mocniej naciągnąć pozostałe. Oto wynik:

    Podwoimy siłę sprężyny między wierzchołkami:
    nlWspółczynnik(twarz[j], 2); nlWspółczynnik(twarz[(j+1)%3], -2);

    Logiczne jest, że powierzchnia stała się gładsza:

    A teraz jeszcze sto razy silniejszy:

    Co to jest? Wyobraź sobie, że zanurzyliśmy druciany pierścień w wodzie z mydłem. W rezultacie powstały film mydlany będzie starał się mieć jak najmniejszą krzywiznę, dotykając granicy - naszego drucianego pierścienia. Dokładnie to uzyskaliśmy ustalając brzeg i prosząc o gładką powierzchnię wewnątrz. Gratulacje, właśnie rozwiązaliśmy równanie Laplace'a z warunkami brzegowymi Dirichleta. Brzmi nieźle? Ale w rzeczywistości wystarczy rozwiązać jeden układ równań liniowych.

    Równanie Poissona

    Zapamiętajmy kolejną fajną nazwę.

    Powiedzmy, że mam taki obraz:

    Wszystkim się podoba, ale mi nie podoba się to krzesło.

    Przetnę zdjęcie na pół:



    I wybiorę krzesło własnymi rękami:

    Następnie przeciągnę wszystko, co białe w masce na lewą stronę obrazu, a jednocześnie na całym obrazie powiem, że różnica między dwoma sąsiednimi pikselami powinna być równa różnicy między dwoma sąsiednimi pikselami po prawej stronie zdjęcie:

    Dla (int i=0; tj

    Oto wynik:

    Dostępny kod i zdjęcia

    Metoda zwykłych najmniejszych kwadratów (OLS).- metoda matematyczna służąca do rozwiązywania różnych problemów, polegająca na minimalizowaniu sumy kwadratów odchyleń pewnych funkcji od pożądanych zmiennych. Można go stosować do „rozwiązywania” nadokreślonych układów równań (gdy liczba równań przekracza liczbę niewiadomych), do znajdowania rozwiązań w przypadku zwykłych (nie nadokreślonych) nieliniowych układów równań, do przybliżania wartości punktowych niektórych funkcjonować. OLS jest jedną z podstawowych metod analizy regresji służącą do estymacji nieznanych parametrów modeli regresji na podstawie przykładowych danych.

    Encyklopedyczny YouTube

      1 / 5

      ✪ Metoda najmniejszych kwadratów. Temat

      ✪ Mitin I.V. – Przetwarzanie wyników fizycznych. eksperyment - Metoda najmniejszych kwadratów (wykład 4)

      ✪ Metoda najmniejszych kwadratów, lekcja 1/2. Funkcja liniowa

      ✪ Ekonometria. Wykład 5. Metoda najmniejszych kwadratów

      ✪ Metoda najmniejszych kwadratów. Odpowiedzi

      Napisy na filmie obcojęzycznym

    Fabuła

    Do początków XIX wieku. naukowcy nie mieli pewnych zasad rozwiązywania układu równań, w którym liczba niewiadomych jest mniejsza niż liczba równań; Do tego czasu stosowano techniki prywatne, zależne od rodzaju równań i dowcipu kalkulatorów, dlatego różne kalkulatory, bazując na tych samych danych obserwacyjnych, dochodziły do ​​różnych wniosków. Gauss (1795) jako pierwszy zastosował tę metodę, a Legendre (1805) niezależnie odkrył ją i opublikował pod jej współczesną nazwą (francuską. Méthode des moindres quarrés) . Laplace powiązał tę metodę z teorią prawdopodobieństwa, a amerykański matematyk Adrain (1808) rozważał jej zastosowania w teorii prawdopodobieństwa. Metoda ta była szeroko rozpowszechniona i udoskonalona dzięki dalszym badaniom Encke, Bessela, Hansena i innych.

    Istota metody najmniejszych kwadratów

    Pozwalać x (\ displaystyle x)- zestaw n (\ displaystyle n) nieznane zmienne (parametry), fa ja (x) (\ Displaystyle f_ (i) (x)), , m > n (\ displaystyle m> n)- zbiór funkcji z tego zbioru zmiennych. Zadanie polega na wybraniu takich wartości x (\ displaystyle x), tak aby wartości tych funkcji były jak najbliżej określonych wartości y ja (\ displaystyle y_ (i)). Zasadniczo mówimy o „rozwiązaniu” nadokreślonego układu równań fa ja (x) = y ja (\ displaystyle f_ (i) (x) = y_ (i)), ja = 1 , … , m (\ Displaystyle i = 1, \ ldots, m) we wskazanym sensie maksymalnej bliskości lewej i prawej części systemu. Istotą metody najmniejszych kwadratów jest wybranie jako „miary bliskości” sumy kwadratów odchyleń lewej i prawej strony | fa ja (x) − y ja | (\ Displaystyle | f_ (i) (x) -y_ (i) |). Zatem istotę MNC można wyrazić następująco:

    ∑ ja mi ja 2 = ∑ ja (y ja - fa ja (x)) 2 → min x (\ Displaystyle \ suma _ (i) e_ (i) ^ (2) = \ suma _ (i) (y_ (i) -f_ ( i)(x))^(2)\rightarrow \min _(x)).

    Jeżeli układ równań ma rozwiązanie, to minimum sumy kwadratów będzie równe zero, a dokładne rozwiązania układu równań można znaleźć analitycznie lub np. stosując różne metody optymalizacji numerycznej. Jeżeli układ jest naddeterminowany, czyli, mówiąc luźno, liczba niezależnych równań jest większa od liczby pożądanych zmiennych, to układ nie ma dokładnego rozwiązania i metoda najmniejszych kwadratów pozwala znaleźć jakiś „optymalny” wektor x (\ displaystyle x) w sensie maksymalnej bliskości wektorów y (\ displaystyle y) I fa (x) (\ displaystyle f (x)) lub maksymalna bliskość wektora odchylenia mi (\ displaystyle e) do zera (bliskość rozumiana jest w sensie odległości euklidesowej).

    Przykład - układ równań liniowych

    W szczególności metodę najmniejszych kwadratów można zastosować do „rozwiązania” układu równań liniowych

    ZA x = b (\ displaystyle Ax = b),

    Gdzie A (\ displaystyle A) macierz o wymiarach prostokątnych m × n , m > n (\ displaystyle m \ razy n, m> n)(tj. liczba wierszy macierzy A jest większa od liczby poszukiwanych zmiennych).

    W ogólnym przypadku taki układ równań nie ma rozwiązania. Zatem układ ten można „rozwiązać” jedynie w sensie wybrania takiego wektora x (\ displaystyle x) aby zminimalizować „odległość” między wektorami A x (\ displaystyle Ax) I b (\ displaystyle b). Można w tym celu zastosować kryterium minimalizacji sumy kwadratów różnic pomiędzy lewą i prawą stroną równań układu, czyli (A x - b) T (A x - b) → min (\ Displaystyle (Ax-b) ^ (T) (Ax-b) \ Rightarrow \ min). Łatwo pokazać, że rozwiązanie tego problemu minimalizacji prowadzi do rozwiązania następującego układu równań

    ZA T ZA x = ZA T b ⇒ x = (A T A) - 1 ZA T b (\ Displaystyle A ^ (T) Ax = A ^ (T) b \ Strzałka w prawo x = (A ^ (T) A) ^ (-1) A ^ (T)b).

    OLS w analizie regresji (aproksymacja danych)

    Niech będzie n (\ displaystyle n) wartości jakiejś zmiennej y (\ displaystyle y)(mogą to być wyniki obserwacji, eksperymentów itp.) i powiązane zmienne x (\ displaystyle x). Wyzwanie polega na zapewnieniu, że relacje pomiędzy y (\ displaystyle y) I x (\ displaystyle x) przybliżone przez jakąś znaną funkcję w ramach pewnych nieznanych parametrów b (\ displaystyle b), czyli faktycznie znajdź najlepsze wartości parametrów b (\ displaystyle b), maksymalnie przybliżając wartości fa (x, b) (\ displaystyle f (x, b)) do wartości rzeczywistych y (\ displaystyle y). W rzeczywistości sprowadza się to do przypadku „rozwiązania” nadokreślonego układu równań ze względu na b (\ displaystyle b):

    fa (x t , b) = y t , t = 1 , … , n (\ displaystyle f (x_ (t), b) = y_ (t), t = 1, \ ldots, n).

    W analizie regresji, a zwłaszcza w ekonometrii, wykorzystuje się probabilistyczne modele zależności między zmiennymi

    Y t = fa (x t, b) + ε t (\ Displaystyle y_ (t) = f (x_ (t), b) + \ varepsilon _ (t)},

    Gdzie ε t (\ displaystyle \ varepsilon _ (t))- tak zwana przypadkowe błędy modele.

    W związku z tym odchylenia od obserwowanych wartości y (\ displaystyle y) od modelu fa (x, b) (\ displaystyle f (x, b)) jest już założone w samym modelu. Istotą metody najmniejszych kwadratów (zwykłej, klasycznej) jest znalezienie takich parametrów b (\ displaystyle b), przy czym suma kwadratów odchyleń (błędów, w przypadku modeli regresji nazywa się je często resztami regresji) mi t (\ displaystyle e_ (t)) będzie minimalne:

    b ^ O L S = arg ⁡ min b R S S (b) (\ Displaystyle (\ kapelusz (b)) _ (OLS) = \ arg \ min _ (b) RSS (b)),

    Gdzie R S S (\ displaystyle RSS)- Język angielski Resztkową sumę kwadratów definiuje się jako:

    R S S (b) = mi T mi = ∑ t = 1 n mi t 2 = ∑ t = 1 n (y t - fa (x t , b)) 2 (\ Displaystyle RSS (b) = e ^ (T) e = \ suma _ (t=1)^(n)e_(t)^(2)=\suma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

    W ogólnym przypadku problem ten można rozwiązać metodami optymalizacji numerycznej (minimalizacji). W tym przypadku o tym mówią nieliniowa metoda najmniejszych kwadratów(NLS lub NLLS – angielskie nieliniowe metody najmniejszych kwadratów). W wielu przypadkach możliwe jest otrzymanie rozwiązania analitycznego. Aby rozwiązać problem minimalizacji, należy znaleźć punkty stacjonarne funkcji R S S (b) (\ displaystyle RSS (b)), różnicując go według nieznanych parametrów b (\ displaystyle b), przyrównując pochodne do zera i rozwiązując powstały układ równań:

    ∑ t = 1 n (y t - fa (x t, b)) ∂ fa (x t, b) ∂ b = 0 (\ Displaystyle \ suma _ (t = 1) ^ (n) (y_ (t) -f (x_ (t),b))(\frac (\częściowe f(x_(t),b))(\częściowe b))=0).

    OLS w przypadku regresji liniowej

    Niech zależność regresji będzie liniowa:

    y t = ∑ jot = 1 k b jot x t jot + ε = x t T b + ε t (\ Displaystyle y_ (t) = \ suma _ (j = 1) ^ (k) b_ (j) x_ (tj) + \ varepsilon = x_ ( t)^(T)b+\varepsilon _(t)).

    Pozwalać y jest wektorem kolumnowym obserwacji wyjaśnianej zmiennej, oraz X (\ displaystyle X)- Ten (n × k) (\ Displaystyle ((n \ razy k)))-macierz obserwacji czynnikowych (wiersze macierzy są wektorami wartości czynników w danej obserwacji, kolumny są wektorem wartości danego czynnika we wszystkich obserwacjach). Reprezentacja macierzowa modelu liniowego ma postać:

    y = X b + ε (\ Displaystyle y = Xb + \ varepsilon).

    Wtedy wektor oszacowań zmiennej objaśnianej i wektor reszt regresji będą równe

    y ^ = X b , mi = y - y ^ = y - X b (\ Displaystyle (\ kapelusz (y)) = Xb, \ quad e = y- (\ kapelusz (y)) = y-Xb).

    W związku z tym suma kwadratów reszt regresji będzie równa

    R S S = mi T mi = (y - X b) T (y - X b) (\ Displaystyle RSS = e ^ (T) e = (y-Xb) ^ (T) (y-Xb)}.

    Różniczkowanie tej funkcji względem wektora parametrów b (\ displaystyle b) i przyrównując pochodne do zera otrzymujemy układ równań (w postaci macierzowej):

    (X T X) b = X T y (\ displaystyle (X ^ (T) X) b = X ^ (T) y).

    W odszyfrowanej postaci macierzowej ten układ równań wygląda następująco:

    (∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 ∑ x t 3 x t 2 ∑ x t 3 2 … ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3 … ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y t ∑ x t 2 y t ∑ x t 3 y t ⋮ ∑ x t k y t) , (\ Displaystyle (\ początek (pmatrix) \ suma x_ (t1) ^ (2) & \ suma x_ (t1) x_ (t2) i \ suma x_ (t1) x_ (t3) & \ ldots &\suma x_(t1)x_(tk)\\\suma x_(t2)x_(t1)&\suma x_(t2)^(2)&\suma x_(t2)x_(t3)&\ldots &\ suma x_(t2)x_(tk)\\\suma x_(t3)x_(t1)&\suma x_(t3)x_(t2)&\suma x_(t3)^(2)&\ldots &\suma x_ (t3)x_(tk)\\\vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ldots &\suma x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_(k)\\\end(pmatrix))=(\begin(pmatrix)\suma x_(t1)y_(t)\\\suma x_(t2)y_(t)\\ \sum x_(t3)y_(t)\\\vdots \\\sum x_(tk)y_(t)\\\end(pmatrix)),) gdzie wszystkie sumy są przejmowane przez wszystkie ważne wartości t (\ displaystyle t).

    Jeśli w modelu uwzględniona jest stała (jak zwykle), to x t 1 = 1 (\ displaystyle x_ (t1) = 1) przed wszystkimi t (\ displaystyle t), zatem w lewym górnym rogu macierzy układu równań znajduje się liczba obserwacji n (\ displaystyle n), a w pozostałych elementach pierwszego wiersza i pierwszej kolumny - po prostu sumy wartości zmiennych: ∑ x t jot (\ displaystyle \ suma x_ (tj)) a pierwszym elementem prawej strony układu jest ∑ y t (\ displaystyle \ suma y_ (t)).

    Rozwiązanie tego układu równań daje ogólny wzór na szacunki metodą najmniejszych kwadratów dla modelu liniowego:

    b ^ O L S = (X T X) - 1 X T y = (1 n X T X) - 1 1 n X T y = V x - 1 do x y (\ Displaystyle (\ kapelusz (b)) _ (OLS) = (X ^ (T )X)^(-1)X^(T)y=\lewo((\frac (1)(n))X^(T)X\prawo)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

    Dla celów analitycznych przydatna okazuje się ostatnia reprezentacja tego wzoru (w układzie równań przy dzieleniu przez n zamiast sum pojawiają się średnie arytmetyczne). Jeśli w modelu regresji data wyśrodkowany, wówczas w tej reprezentacji pierwsza macierz ma znaczenie przykładowej macierzy kowariancji czynników, a druga jest wektorem kowariancji czynników ze zmienną zależną. Jeśli dodatkowo dane są również znormalizowany do MSE (czyli ostatecznie standaryzowane), wówczas pierwsza macierz ma znaczenie przykładowej macierzy korelacji czynników, drugi wektor - wektor przykładowych korelacji czynników ze zmienną zależną.

    Ważna właściwość szacunków OLS dla modeli ze stałą- linia skonstruowanej regresji przechodzi przez środek ciężkości danych próbnych, czyli spełniona jest równość:

    y ¯ = b 1 ^ + ∑ jot = 2 k b ^ jot x ¯ jot (\ Displaystyle (\ bar (y)) = (\ kapelusz (b_ (1))) + \ suma _ (j = 2) ^ (k) (\hat (b))_(j)(\bar (x))_(j)).

    W szczególności w skrajnym przypadku, gdy jedynym regresorem jest stała, stwierdzamy, że estymacja OLS jedynego parametru (samej stałej) jest równa średniej wartości zmiennej objaśnianej. Oznacza to, że średnia arytmetyczna, znana ze swoich dobrych własności z praw wielkich liczb, jest jednocześnie estymacją metodą najmniejszych kwadratów – spełnia kryterium minimalnej sumy kwadratów odchyleń od niej.

    Najprostsze przypadki specjalne

    W przypadku sparowanej regresji liniowej y t = za + b x t + ε t (\ Displaystyle y_ (t) = a + bx_ (t) + \ varepsilon _ (t)), gdy szacuje się liniową zależność jednej zmiennej od drugiej, wzory obliczeniowe są uproszczone (można obejść się bez algebry macierzy). Układ równań ma postać:

    (1 x ¯ x ¯ x 2 ¯) (za b) = (y ¯ x y ¯) (\ Displaystyle (\ początek (pmatrix) 1 i (\ bar (x)) \\ (\ bar (x)) i (\ bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline (xy))\\\end(pmatrix))).

    Stąd łatwo jest znaleźć szacunki współczynników:

    ( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = x y ¯ - x ¯ y ¯ x 2 ¯ - x ¯ 2 , za ^ = y ¯ - b x ¯ . (\ Displaystyle (\ początek (przypadki) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x)))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(przypadki)))

    Pomimo tego, że w ogólnym przypadku preferowane są modele ze stałą, w niektórych przypadkach z rozważań teoretycznych wiadomo, że stała za (\ displaystyle a) musi być równe zeru. Na przykład w fizyce istnieje związek między napięciem i prądem U = ja ⋅ R (\ displaystyle U = ja \ cdot R); Podczas pomiaru napięcia i prądu konieczne jest oszacowanie rezystancji. W tym przypadku mówimy o modelu y = b x (\ displaystyle y = bx). W tym przypadku zamiast układu równań mamy pojedyncze równanie

    (∑ x t 2) b = ∑ x t y t (\ Displaystyle \ lewo (\ suma x_ (t) ^ (2) \ prawo) b = \ suma x_ (t) y_ (t)).

    Dlatego wzór na oszacowanie pojedynczego współczynnika ma postać

    b ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\ Displaystyle (\ kapelusz (b)) = (\ Frac (\ suma _ (t = 1) ^ (n) x_ (t )y_(t))(\suma _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

    Przypadek modelu wielomianowego

    Jeśli dane są dopasowane za pomocą funkcji regresji wielomianowej jednej zmiennej fa (x) = b 0 + ∑ ja = 1 k b ja x ja (\ Displaystyle f (x) = b_ (0) + \ suma \ limity _ (i = 1) ^ (k) b_ (i) x ^ (i)}, następnie postrzeganie stopni x ja (\ displaystyle x ^ (i)) jako niezależne czynniki dla każdego z nich ja (\ displaystyle ja) możliwe jest oszacowanie parametrów modelu w oparciu o ogólny wzór na estymację parametrów modelu liniowego. Aby to zrobić, wystarczy uwzględnić w ogólnym wzorze, że przy takiej interpretacji x t ja x t jot = x t ja x t jot = x t ja + jot (\ Displaystyle x_ (ti) x_ (tj) = x_ (t) ^ (i) x_ (t) ^ (j) = x_ (t) ^ (i + j)) I x t jot y t = x t jot y t (\ Displaystyle x_ (tj) y_ (t) = x_ (t) ^ (j) y_ (t)). W konsekwencji równania macierzowe w tym przypadku będą miały postać:

    (n ∑ n x t … ∑ n x t k ∑ n x t ∑ n x ja 2 … ∑ m x ja k + 1 ⋮ ⋮ ⋱ ⋮ ∑ n x t k ∑ n x t k + 1 … ∑ n x t 2 k) [ b 0 b 1 ⋮ b k ] = [ ∑ n y t ∑ n x t y t ⋮ ∑ n x t k y t ] . (\ Displaystyle (\ początek (pmatrix) n & \ suma \ limity _ (n) x_ (t) & \ ldots & \ suma \ limity _ (n) x_ (t) ^ (k) \\\ suma \ limity _ ( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ suma \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmacierz)).)

    Własności statystyczne estymatorów OLS

    Przede wszystkim zauważamy, że w przypadku modeli liniowych estymatory OLS są estymatorami liniowymi, jak wynika z powyższego wzoru. Dla bezstronnych estymatorów OLS konieczne i wystarczające jest spełnienie najważniejszego warunku analizy regresji: matematyczne oczekiwanie błędu losowego, uzależnione od czynników, musi być równe zero. Warunek ten jest w szczególności spełniony, jeżeli

    1. matematyczne oczekiwanie błędów losowych wynosi zero, oraz
    2. czynniki i błędy losowe są niezależnymi zmiennymi „losowymi”.

    Warunek drugi – warunek egzogeniczności czynników – jest zasadniczy. Jeśli ta właściwość nie jest spełniona, możemy założyć, że prawie wszystkie szacunki będą wyjątkowo niezadowalające: nie będą nawet spójne (to znaczy nawet bardzo duża ilość danych nie pozwala nam w tym przypadku uzyskać szacunków wysokiej jakości) ). W klasycznym przypadku przyjmuje się mocniejsze założenie o determinizmie czynników, w przeciwieństwie do błędu losowego, co automatycznie oznacza, że ​​warunek egzogeniczności jest spełniony. W ogólnym przypadku dla spójności oszacowań wystarczy spełnić warunek egzogeniczności wraz ze zbieżnością macierzy V x (\ displaystyle V_ (x)) do jakiejś nieosobliwej macierzy, gdy wielkość próbki wzrasta do nieskończoności.

    Aby oprócz spójności i bezstronności estymacje metodą (zwykłych) najmniejszych kwadratów były także efektywne (najlepsze w klasie estymatorów liniowych nieobciążonych), muszą zostać spełnione dodatkowe właściwości błędu losowego:

    Założenia te można sformułować dla macierzy kowariancji wektora błędu losowego V (ε) = σ 2 ja (\ Displaystyle V (\ varepsilon) = \ sigma ^ (2) ja).

    Model liniowy spełniający te warunki nazywa się klasyczny. Szacunki OLS dla klasycznej regresji liniowej są bezstronnymi, spójnymi i najbardziej efektywnymi estymacjami w klasie wszystkich liniowych nieobciążonych estymatorów (w literaturze angielskiej czasami używany jest skrót NIEBIESKI (Najlepszy liniowy nieobciążony estymator) - najlepsze liniowe, nieobciążone oszacowanie; W literaturze rosyjskiej częściej przytacza się twierdzenie Gaussa-Markowa). Jak łatwo pokazać, macierz kowariancji wektora oszacowań współczynników będzie równa:

    V (b ^ O L S) = σ 2 (X T X) - 1 (\ Displaystyle V ({\ kapelusz (b)) _ (OLS)) = \ sigma ^ (2) (X ^ (T) X) ^ (-1 )).

    Efektywność oznacza, że ​​ta macierz kowariancji jest „minimalna” (każda liniowa kombinacja współczynników, a w szczególności same współczynniki mają minimalną wariancję), czyli w klasie liniowych nieobciążonych estymatorów najlepsze są estymatory OLS. Elementy diagonalne tej macierzy – wariancje estymatorów współczynników – są ważnymi parametrami jakości otrzymywanych estymatorów. Nie jest jednak możliwe obliczenie macierzy kowariancji, ponieważ wariancja błędu losowego jest nieznana. Można wykazać, że bezstronną i spójną (dla klasycznego modelu liniowego) estymacją wariancji błędów losowych jest wielkość:

    S 2 = R S S / (n - k) (\ Displaystyle s ^ (2) = RSS / (nk)).

    Podstawiając tę ​​wartość do wzoru na macierz kowariancji, otrzymujemy oszacowanie macierzy kowariancji. Uzyskane szacunki są również bezstronne i spójne. Istotne jest również to, że estymacja wariancji błędu (a co za tym idzie wariancji współczynników) oraz estymaty parametrów modelu są niezależnymi zmiennymi losowymi, co umożliwia uzyskanie statystyki testowej do testowania hipotez dotyczących współczynników modelu.

    Należy zaznaczyć, że w przypadku niespełnienia klasycznych założeń estymacje parametrów OLS nie są najefektywniejsze i gdzie W (\ displaystyle W) jest pewną symetryczną macierzą o dodatniej określonej wadze. Szczególnym przypadkiem tego podejścia są konwencjonalne metody najmniejszych kwadratów, gdzie macierz wag jest proporcjonalna do macierzy jednostkowej. Jak wiadomo, w przypadku macierzy (lub operatorów) symetrycznych następuje rozwinięcie W = P T P (\ displaystyle W = P ^ (T) P). Dlatego określony funkcjonał można przedstawić w następujący sposób mi T P T P mi = (P mi) T P mi = mi ∗ T mi ∗ (\ Displaystyle e ^ (T) P ^ (T) Pe = (Pe) ^ (T) Pe = e_ (*) ​​^ (T) e_ ( *)), to znaczy, że funkcjonał ten można przedstawić jako sumę kwadratów niektórych przekształconych „reszt”. Można zatem wyróżnić klasę metod najmniejszych kwadratów – metody LS (ang. Least Squares).

    Udowodniono (twierdzenie Aitkena), że dla uogólnionego modelu regresji liniowej (w którym nie nakłada się ograniczeń na macierz kowariancji błędów losowych) najbardziej efektywne (w klasie liniowych estymatorów nieobciążonych) są tzw. estymaty. uogólnione najmniejsze kwadraty (GLS – uogólnione najmniejsze kwadraty)- metoda LS z macierzą wag równą macierzy odwrotnej kowariancji błędów losowych: W = V ε - 1 (\ Displaystyle W = V _ (\ varepsilon) ^ (-1)).

    Można wykazać, że wzór na estymatory GLS parametrów modelu liniowego ma postać

    b ^ sol L S = (X T V - 1 X) - 1 X T V - 1 r (\ Displaystyle (\ kapelusz (b)) _ (GLS) = (X ^ (T) V ^ (-1) X) ^ (-1) X^(T)V^(-1)y).

    Macierz kowariancji tych szacunków będzie odpowiednio równa

    V (b ^ sol L S) = (X T V - 1 X) - 1 (\ Displaystyle V ({\ kapelusz (b)) _ (GLS)) = (X ^ (T) V ^ (-1) X) ^ (- 1)).

    Tak naprawdę istota OLS polega na pewnej (liniowej) transformacji (P) danych pierwotnych i zastosowaniu zwykłego OLS do danych przekształconych. Celem tej transformacji jest to, że dla przekształconych danych błędy losowe spełniają już klasyczne założenia.

    Ważony OLS

    W przypadku diagonalnej macierzy wag (a więc i macierzy kowariancji błędów losowych) mamy do czynienia z tzw. ważoną metodą najmniejszych kwadratów (WLS). W tym przypadku suma ważona kwadratów reszt modelu jest minimalizowana, czyli każda obserwacja otrzymuje „wagę” odwrotnie proporcjonalną do wariancji błędu losowego w tej obserwacji: mi T W mi = ∑ t = 1 n mi t 2 σ t 2 (\ Displaystyle e ^ (T) My = \ suma _ (t = 1) ^ (n) (\ Frac (e_ (t) ^ (2)) (\ sigma_(t)^(2)))). W rzeczywistości dane są przekształcane poprzez ważenie obserwacji (podzielenie przez kwotę proporcjonalną do oszacowanego odchylenia standardowego błędów losowych), a do danych ważonych stosuje się zwykły OLS.

    ISBN 978-5-7749-0473-0 .

  • Ekonometria. Podręcznik / wyd. Eliseeva II - wyd. 2. - M.: Finanse i statystyka, 2006. - 576 s. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Historia terminów, pojęć, oznaczeń matematycznych: słownik-podręcznik. - wyd. 3 - M.: LKI, 2008. - 248 s. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Analiza i przetwarzanie danych eksperymentalnych - wydanie V - 24 s.
  • Metoda najmniejszych kwadratów

    Metoda najmniejszych kwadratów ( OLS, OLS, zwykła metoda najmniejszych kwadratów) - jedna z podstawowych metod analizy regresji służąca do estymacji nieznanych parametrów modeli regresji na podstawie przykładowych danych. Metoda polega na minimalizacji sumy kwadratów reszt regresji.

    Należy zauważyć, że samą metodę najmniejszych kwadratów można nazwać metodą rozwiązywania problemu w dowolnym obszarze, jeśli rozwiązanie leży lub spełnia jakieś kryterium minimalizacji sumy kwadratów niektórych funkcji wymaganych zmiennych. Zatem metodę najmniejszych kwadratów można zastosować także do przybliżonego przedstawienia (aproksymacji) danej funkcji przez inne (prostsze) funkcje, przy znalezieniu zbioru wielkości spełniających równania lub ograniczenia, których liczba przekracza liczbę tych wielkości itp.

    Esencja MNC

    Niech zostanie podany jakiś (parametryczny) model probabilistycznej (regresji) zależności pomiędzy (objaśnioną) zmienną y i wiele czynników (zmiennych objaśniających) X

    gdzie jest wektorem nieznanych parametrów modelu

    - losowy błąd modelu.

    Niech będą też przykładowe obserwacje wartości tych zmiennych. Niech będzie numerem obserwacji (). Następnie są wartości zmiennych w obserwacji. Następnie dla zadanych wartości parametrów b można obliczyć teoretyczne (modelowe) wartości zmiennej objaśnianej y:

    Wielkość reszt zależy od wartości parametrów b.

    Istotą metody najmniejszych kwadratów (zwykłej, klasycznej) jest znalezienie parametrów b, dla których suma kwadratów reszt (ang. Pozostała suma kwadratów) będzie minimalne:

    W ogólnym przypadku problem ten można rozwiązać metodami optymalizacji numerycznej (minimalizacji). W tym przypadku o tym mówią nieliniowa metoda najmniejszych kwadratów(NLS lub NLLS – angielski) Nieliniowa metoda najmniejszych kwadratów). W wielu przypadkach możliwe jest otrzymanie rozwiązania analitycznego. Aby rozwiązać problem minimalizacji, należy znaleźć punkty stacjonarne funkcji, różniczkując ją ze względu na nieznane parametry b, przyrównując pochodne do zera i rozwiązując otrzymany układ równań:

    Jeżeli błędy losowe modelu mają rozkład normalny, mają tę samą wariancję i są nieskorelowane, oszacowania parametrów OLS są takie same jak oszacowania największej wiarygodności (MLM).

    OLS w przypadku modelu liniowego

    Niech zależność regresji będzie liniowa:

    Pozwalać y jest wektorem kolumnowym obserwacji zmiennej objaśnianej i jest macierzą obserwacji czynnikowych (wiersze macierzy są wektorami wartości czynników w danej obserwacji, kolumny są wektorem wartości danego czynnika we wszystkich obserwacjach). Reprezentacja macierzowa modelu liniowego to:

    Wtedy wektor oszacowań zmiennej objaśnianej i wektor reszt regresji będą równe

    W związku z tym suma kwadratów reszt regresji będzie równa

    Różniczkując tę ​​funkcję względem wektora parametrów i przyrównując pochodne do zera, otrzymujemy układ równań (w postaci macierzowej):

    .

    Rozwiązanie tego układu równań daje ogólny wzór na szacunki metodą najmniejszych kwadratów dla modelu liniowego:

    Dla celów analitycznych przydatna jest druga reprezentacja tego wzoru. Jeśli w modelu regresji data wyśrodkowany, wówczas w tej reprezentacji pierwsza macierz ma znaczenie przykładowej macierzy kowariancji czynników, a druga jest wektorem kowariancji czynników ze zmienną zależną. Jeśli dodatkowo dane są również znormalizowany do MSE (czyli ostatecznie standaryzowane), wówczas pierwsza macierz ma znaczenie przykładowej macierzy korelacji czynników, drugi wektor - wektor przykładowych korelacji czynników ze zmienną zależną.

    Ważna właściwość szacunków OLS dla modeli ze stałą- linia skonstruowanej regresji przechodzi przez środek ciężkości danych próbnych, czyli spełniona jest równość:

    W szczególności w skrajnym przypadku, gdy jedynym regresorem jest stała, stwierdzamy, że estymacja OLS jedynego parametru (samej stałej) jest równa średniej wartości zmiennej objaśnianej. Oznacza to, że średnia arytmetyczna, znana ze swoich dobrych własności z praw wielkich liczb, jest jednocześnie estymacją metodą najmniejszych kwadratów – spełnia kryterium minimalnej sumy kwadratów odchyleń od niej.

    Przykład: najprostsza regresja (parami).

    W przypadku sparowanej regresji liniowej wzory obliczeniowe są uproszczone (można obejść się bez algebry macierzowej):

    Własności estymatorów OLS

    Przede wszystkim zauważamy, że w przypadku modeli liniowych estymatory OLS są estymatorami liniowymi, jak wynika z powyższego wzoru. Dla bezstronnych estymatorów OLS konieczne i wystarczające jest spełnienie najważniejszego warunku analizy regresji: matematyczne oczekiwanie błędu losowego, uzależnione od czynników, musi być równe zero. Warunek ten jest w szczególności spełniony, jeżeli

    1. matematyczne oczekiwanie błędów losowych wynosi zero, oraz
    2. czynniki i błędy losowe są niezależnymi zmiennymi losowymi.

    Warunek drugi – warunek egzogeniczności czynników – jest zasadniczy. Jeśli ta właściwość nie jest spełniona, możemy założyć, że prawie wszystkie szacunki będą wyjątkowo niezadowalające: nie będą nawet spójne (to znaczy nawet bardzo duża ilość danych nie pozwala nam w tym przypadku uzyskać szacunków wysokiej jakości) ). W klasycznym przypadku przyjmuje się mocniejsze założenie o determinizmie czynników, w przeciwieństwie do błędu losowego, co automatycznie oznacza, że ​​warunek egzogeniczności jest spełniony. W ogólnym przypadku, dla spójności estymatorów wystarczy spełnienie warunku egzogeniczności wraz ze zbieżnością macierzy do jakiejś macierzy nieosobliwej w miarę zwiększania się liczebności próby do nieskończoności.

    Aby oprócz spójności i bezstronności estymacje metodą (zwykłych) najmniejszych kwadratów były także efektywne (najlepsze w klasie estymatorów liniowych nieobciążonych), muszą zostać spełnione dodatkowe właściwości błędu losowego:

    Założenia te można sformułować dla macierzy kowariancji wektora błędu losowego

    Model liniowy spełniający te warunki nazywa się klasyczny. Szacunki OLS dla klasycznej regresji liniowej są bezstronnymi, spójnymi i najbardziej efektywnymi estymacjami w klasie wszystkich liniowych nieobciążonych estymatorów (w literaturze angielskiej czasami używany jest skrót NIEBIESKI (Najlepszy liniowy estymator bez podstawy) - najlepsze liniowe, nieobciążone oszacowanie; w literaturze rosyjskiej częściej przytacza się twierdzenie Gaussa-Markowa). Jak łatwo wykazać, macierz kowariancji wektora oszacowań współczynników będzie równa:

    Uogólnione OLS

    Metoda najmniejszych kwadratów pozwala na szerokie uogólnienia. Zamiast minimalizować sumę kwadratów reszt, można zminimalizować pewną dodatnio określoną postać kwadratową wektora reszt, gdzie jest pewna symetryczna macierz dodatnich określonych wag. Szczególnym przypadkiem tego podejścia są konwencjonalne metody najmniejszych kwadratów, gdzie macierz wag jest proporcjonalna do macierzy jednostkowej. Jak wiadomo z teorii macierzy symetrycznych (lub operatorów), dla takich macierzy następuje rozkład. W związku z tym określony funkcjonał można przedstawić w następujący sposób, to znaczy funkcjonał ten można przedstawić jako sumę kwadratów niektórych przekształconych „reszt”. Można zatem wyróżnić klasę metod najmniejszych kwadratów – metody LS (ang. Least Squares).

    Udowodniono (twierdzenie Aitkena), że dla uogólnionego modelu regresji liniowej (w którym nie nakłada się ograniczeń na macierz kowariancji błędów losowych) najbardziej efektywne (w klasie liniowych estymatorów nieobciążonych) są tzw. estymaty. uogólnione najmniejsze kwadraty (GLS – uogólnione najmniejsze kwadraty)- metoda LS z macierzą wag równą macierzy odwrotnej kowariancji błędów losowych: .

    Można wykazać, że wzór na estymatory GLS parametrów modelu liniowego ma postać

    Macierz kowariancji tych szacunków będzie odpowiednio równa

    Tak naprawdę istota OLS polega na pewnej (liniowej) transformacji (P) danych pierwotnych i zastosowaniu zwykłego OLS do danych przekształconych. Celem tej transformacji jest to, że dla przekształconych danych błędy losowe spełniają już klasyczne założenia.

    Ważony OLS

    W przypadku diagonalnej macierzy wag (a więc i macierzy kowariancji błędów losowych) mamy do czynienia z tzw. ważoną metodą najmniejszych kwadratów (WLS). W tym przypadku suma ważona kwadratów reszt modelu jest minimalizowana, czyli każda obserwacja otrzymuje „wagę” odwrotnie proporcjonalną do wariancji błędu losowego w tej obserwacji: . W rzeczywistości dane są przekształcane poprzez ważenie obserwacji (podzielenie przez kwotę proporcjonalną do oszacowanego odchylenia standardowego błędów losowych), a do danych ważonych stosuje się zwykły OLS.

    Kilka szczególnych przypadków wykorzystania MNC w praktyce

    Aproksymacja zależności liniowej

    Rozważmy przypadek, gdy w wyniku badania zależności pewnej wielkości skalarnej od pewnej wielkości skalarnej (może to być na przykład zależność napięcia od natężenia prądu: , gdzie jest wartością stałą, rezystancja przewodnik) przeprowadzono pomiary tych wielkości, w wyniku czego otrzymano wartości i odpowiadające im wartości. Dane pomiarowe należy zapisać w tabeli.

    Tabela. Wyniki pomiarów.

    Pomiar nr.
    1
    2
    3
    4
    5
    6

    Pytanie brzmi: jaką wartość współczynnika można wybrać, aby najlepiej opisać zależność? Według metody najmniejszych kwadratów wartość ta powinna być taka, aby suma kwadratów odchyleń wartości od wartości

    był minimalny

    Suma kwadratów odchyleń ma jedno ekstremum – minimum, co pozwala nam zastosować ten wzór. Znajdźmy z tego wzoru wartość współczynnika. Aby to zrobić, przekształcamy jego lewą stronę w następujący sposób:

    Ostatni wzór pozwala nam znaleźć wartość współczynnika, czyli to, co było wymagane w zadaniu.

    Fabuła

    Do początków XIX wieku. naukowcy nie mieli pewnych zasad rozwiązywania układu równań, w którym liczba niewiadomych jest mniejsza niż liczba równań; Do tego czasu stosowano techniki prywatne, zależne od rodzaju równań i dowcipu kalkulatorów, dlatego różne kalkulatory, bazując na tych samych danych obserwacyjnych, dochodziły do ​​różnych wniosków. Gauss (1795) jako pierwszy zastosował tę metodę, a Legendre (1805) niezależnie odkrył ją i opublikował pod jej współczesną nazwą (francuską. Méthode des moindres quarrés ) . Laplace powiązał tę metodę z teorią prawdopodobieństwa, a amerykański matematyk Adrain (1808) rozważał jej zastosowania w teorii prawdopodobieństwa. Metoda ta była szeroko rozpowszechniona i udoskonalona dzięki dalszym badaniom Encke, Bessela, Hansena i innych.

    Alternatywne zastosowania OLS

    Ideę metody najmniejszych kwadratów można zastosować także w innych przypadkach niezwiązanych bezpośrednio z analizą regresji. Faktem jest, że suma kwadratów jest jedną z najczęstszych miar bliskości wektorów (metryka euklidesowa w przestrzeniach skończenie wymiarowych).

    Jednym z zastosowań jest „rozwiązanie” układów równań liniowych, w których liczba równań jest większa niż liczba zmiennych

    gdzie macierz nie jest kwadratowa, ale prostokątna.

    Taki układ równań w ogólnym przypadku nie ma rozwiązania (jeśli ranga jest rzeczywiście większa niż liczba zmiennych). Zatem układ ten można „rozwiązać” jedynie w sensie doboru takiego wektora, aby zminimalizować „odległość” pomiędzy wektorami a . Można w tym celu zastosować kryterium minimalizacji sumy kwadratów różnic pomiędzy lewą i prawą stroną równań układu, tj. Łatwo pokazać, że rozwiązanie tego problemu minimalizacji prowadzi do rozwiązania następującego układu równań

    Metoda najmniejszych kwadratów to matematyczna procedura konstruowania równania liniowego, które najlepiej pasuje do zbioru uporządkowanych par, poprzez znalezienie wartości a i b, czyli współczynników w równaniu linii. Celem metody najmniejszych kwadratów jest zminimalizowanie całkowitego błędu kwadratowego między wartościami y i ŷ. Jeśli dla każdego punktu wyznaczymy błąd ŷ, metoda najmniejszych kwadratów minimalizuje:

    gdzie n = liczba uporządkowanych par wokół linii. możliwie najbliżej danych.

    Koncepcja ta została zilustrowana na rysunku

    Na podstawie rysunku linia, która najlepiej pasuje do danych, czyli linia regresji, minimalizuje całkowity błąd kwadratowy czterech punktów na wykresie. Na poniższym przykładzie pokażę, jak to określić za pomocą metody najmniejszych kwadratów.

    Wyobraź sobie młodą parę, która niedawno zamieszkała razem i dzieli toaletkę w łazience. Młody człowiek zaczął zauważać, że połowa jego stołu nieubłaganie się kurczy, ustępując miejsca pianom do włosów i kompleksom sojowym. Przez ostatnie kilka miesięcy facet uważnie obserwował tempo, w jakim zwiększała się liczba obiektów po jej stronie stołu. Poniższa tabela pokazuje liczbę przedmiotów, które dziewczyna zgromadziła na toaletce w łazience w ciągu ostatnich kilku miesięcy.

    Ponieważ naszym celem jest sprawdzenie, czy liczba pozycji rośnie w czasie, „Miesiąc” będzie zmienną niezależną, a „Liczba pozycji” będzie zmienną zależną.

    Stosując metodę najmniejszych kwadratów, wyznaczamy równanie, które najlepiej pasuje do danych, obliczając wartości a, punktu przecięcia y i b, nachylenia linii:

    a = y średnio - bx średnio

    gdzie x śr. to średnia wartość x, zmiennej niezależnej, y śr. to średnia wartość y, zmiennej niezależnej.

    Poniższa tabela podsumowuje obliczenia wymagane dla tych równań.

    Krzywą efektu dla naszego przykładu wanny można przedstawić za pomocą następującego równania:

    Ponieważ nasze równanie ma nachylenie dodatnie wynoszące 0,976, facet ma dowody na to, że liczba przedmiotów na stole rośnie w czasie średnio o 1 przedmiot na miesiąc. Wykres przedstawia krzywą efektu z uporządkowanymi parami.

    Oczekiwanie dotyczące liczby pozycji w ciągu najbliższych sześciu miesięcy (miesiąc 16) zostanie obliczone w następujący sposób:

    ŷ = 5,13 + 0,976x = 5,13 + 0,976(16) ~ 20,7 = 21 elementów

    Nadszedł więc czas, aby nasz bohater podjął pewne działania.

    Funkcja TREND w Excelu

    Jak już zapewne się domyślasz, Excel posiada funkcję obliczania wartości wg metoda najmniejszych kwadratów. Ta funkcja nazywa się TREND. Jego składnia jest następująca:

    TREND (znane wartości Y; znane wartości X; nowe wartości X; stała)

    znane wartości Y – tablica zmiennych zależnych, w naszym przypadku liczba obiektów na stole

    znane wartości X – tablica zmiennych niezależnych, w naszym przypadku jest to miesiąc

    nowe wartości X – nowe wartości X (miesiące), dla których Funkcja TREND zwraca oczekiwaną wartość zmiennych zależnych (liczba elementów)

    stała – opcjonalna. Wartość logiczna określająca, czy stała b musi wynosić 0.

    Na przykład rysunek przedstawia funkcję TREND służącą do określenia oczekiwanej liczby elementów na toaletce w 16 miesiącu.