Izbor parametrov linearne funkcije z metodo najmanjših kvadratov. Najmanj kvadrata. Regija njegove uporabe

Primer.

Eksperimentalni podatki o variabilnih vrednostih h.in w.lED v tabeli.

Zaradi njihove poravnave je bila pridobljena funkcija

Z uporabo najmanj kvadratna metoda, približati to linearno odvisnost y \u003d AX + B (Poiščite parametre. zvezek in b.). Ugotovite, katera od obeh vrstic je boljša (v smislu metode najmanjših kvadratov) poravna eksperimentalne podatke. Naredite risbo.

Bistvo metode najmanjših kvadratov (MNC).

Naloga je najti koeficiente linearne odvisnosti, v kateri je funkcija dveh spremenljivk zvezek in b. traja najmanjšo vrednost. To je s podatki zvezek in b. Vsota kvadratov odstopanj eksperimentalnih podatkov iz neposredne linije bo najmanjša. To je celotno bistvo metode najmanjših kvadratov.

Tako je primer rešitev prišla do iskanja ekstremne funkcije dveh spremenljivk.

Prikaže formulo za iskanje koeficientov.

Sistem dveh enačb z dvema neznanostma je sestavljen in rešen. Našli smo zasebne izvedene finančne instrumente s spremenljivkami zvezek in b., izenačijo te derivate na nič.

Rešite nastali sistem enačb s katero koli metodo (na primer za metodo zamenjave ali metoda Cramer) In dobimo formule za iskanje koeficientov z metodo najmanjših kvadratov (MNC).

S podatki zvezekin b.funkcija traja najmanjšo vrednost. Dokazilo o tem dejstvu v besedilu na koncu strani.

To je celotna metoda najmanjših kvadratov. Formula za iskanje parametra a. Vsebuje zneske ,, in parameter n. - Število eksperimentalnih podatkov. Vrednosti teh zneskov se priporočajo ločeno. Koeficient. b. Nahaja se po izračunu a..

Čas je, da si zapomnite o izvoru.

Sklep.

V našem primeru n \u003d 5.. Izpolnite tabelo za udobje izračunanih zneskov, ki so vključeni v formulo želenih koeficientov.

Vrednosti v četrti vrstici tabele se pridobimo z množenjem vrednosti drugega niza v vrednosti tretjega niza za vsako številko jAZ..

Vrednosti v peti vrstici tabele dobimo z izgradnjo 2. vrednosti niza za vsako številko. jAZ..

Vrednosti zadnjega stolpca tabele so vsote vrednosti po progah.

Uporabljamo formule najmanjših kvadratov za iskanje koeficientov zvezek in b.. Namestimo ustrezne vrednosti iz zadnjega stolpca tabele:

Zato, y \u003d 0,165x + 2.184 - Želeno približevanje ravne črte.

Ostaja, da ugotovite, katera od vrstic y \u003d 0,165x + 2.184 ali bolje je približati začetne podatke, to je, da je ocenjena z metodo najmanjših kvadratov.

Ocena napake na metodi najmanjših kvadratov.

To zahteva izračun vsote kvadratov odstopanj izvornih podatkov iz teh prog. in Manjša vrednost ustreza vrstici, ki je bolje v smislu manjše kvadratne metode približajo izvornim podatkom.

Od takrat naravnost y \u003d 0,165x + 2.184 Bolje prinašajo izvorne podatke.

Grafična ilustracija metode najmanjših kvadratov (MNC).

Na grafikonih je vse popolnoma vidno. Rdeča črta je najden naravnost y \u003d 0,165x + 2.184, modra črta je Pink pik so izvorni podatki.

V praksi se pogosto uporabljajo, ko se uporabljajo modeliranje različnih procesov - zlasti gospodarske, fizične, tehnične, socialne - nekatere metode za izračun približne vrednosti funkcij po svojih znanih vrednotah v nekaterih fiksnih točkah se pogosto uporabljajo.

Tovrstne naloge približevanja funkcij se pogosto pojavljajo: \\ t

    pri gradnji približnih formul za izračun vrednosti karakterističnih vrednosti iz študije o tabelih podatkov, pridobljenih kot posledica poskusa;

    z numerično integracijo, diferenciacijo, reševanjem diferencialnih enačb itd.;

    Če morate izračunati vrednosti funkcij na vmesnih točkah obravnavanega intervala;

    pri določanju vrednosti znakovnih vrednosti postopka zunaj obravnavanega intervala, zlasti med napovedi.

Če želite simulirati nekaj postopka, ki ga določa tabela, zgraditi funkcijo, ki približno opisuje ta proces, ki temelji na metodi najmanjših kvadratov, se imenuje približna funkcija (regresija), naloga gradnje približevalnih funkcij je naloga samega približevanja .

Ta članek obravnava zmogljivosti paketa MS Excel, da bi rešila tovrstne naloge, poleg tega pa so podane metode in metode konstruiranja (ustvarjanje) regresije za tabele določene funkcije (ki je osnova za regresijsko analizo).

V Excelu obstajata dve možnosti za izgradnjo regresij.

    Dodajanje izbranih regresij (trend linije - trendlines) v diagramu, ki temelji na podatkovni tabeli za preučevanje postopka (na voljo samo v prisotnosti grajenega diagrama);

    Z vgrajenimi statističnimi funkcijami Excelovega delovnega lista, ki omogočajo, da pridobijo regresijo (trendne linije) neposredno na podlagi tabele podatkov izvor.

Dodajanje trendovskih linij v tabeli

Za podatkovno tabelo, ki opisuje nekaj procesa in predstavila shemo, je v Excelu učinkovito orodje za analizo regresij, kar omogoča:

    graditi na podlagi metode najmanjših kvadratov in dodati pet vrst regresij na diagram, ki z eno stopnjo natančnosti simulira proces v študiji;

    dodajte diagramu enačba konstruirane regresije;

    določite stopnjo skladnosti izbrane regresije, prikazane na diagramu podatkov.

Na podlagi podatkov Excel diagrame omogoča pridobitev linearne, polinomske, logaritmične, moči, eksponencialne vrste reggererjev, ki jih daje enačba:

y \u003d y (x)

kjer je X neodvisna spremenljivka, ki pogosto vzame vrednosti zaporedja naravnega števila števil (1; 2; 3; ...) in proizvaja, na primer, štejejo potek postopka v študiji (značilnosti ).

1 . Linearna regresija je dobra pri modeliranju značilnosti, katerih vrednote se povečajo ali zmanjšajo s konstantno hitrostjo. To je najbolj preprosto pri gradnji postopka v študiji. Zgrajena je v skladu z enačbo:

y \u003d mx + b

kjer je m tangentni kot nagiba linearne regresije do osi abscisa; B je koordinata presečišča linearne regresije z lastnikom ordinata.

2 . Polinomska linija trenda je uporabna za opisovanje značilnosti, ki imajo več izrazite skrajnosti (Maxima in Minima). Izbira stopnje polinoma je določena z količino ekstremih študijskih značilnosti. Torej, v drugi stopnji polinom lahko dobro opiše proces z le eno maksimalno ali minimalno; Polinom tretje stopnje - ne več kot dve skrajnosti; Polinomska četrta stopnja - ne več kot tri skrajnosti itd.

V tem primeru je trendna linija v skladu z enačbo:

y \u003d C0 + C1X + C2X2 + C3X3 + C4X4 + C5X5 + C6X6

kadar so koeficienti C0, C1, C2, ... C6 konstante, katerih vrednosti so določene med gradnjo.

3 . Logaritemska linija trenda se uspešno uporablja pri modeliranju značilnosti, katerih vrednosti se najprej hitro spremenijo, nato pa se postopoma stabilizirajo.

y \u003d c ln (x) + b

4 . Napajalna linija trenda daje dobre rezultate, če so vrednosti odvisnosti od odvisnosti, za katere je značilna stalna sprememba stopnje rasti. Primer takšne odvisnosti je lahko graf ravnotežnega gibanja avtomobila. Če med podatki obstajajo nič ali negativne vrednosti, je nemogoče uporabiti trend moči.

V skladu z enačbo:

y \u003d c xb

kjer koeficienti B, C - konstante.

5 . Trendna eksponentna linija je treba uporabiti, če se stopnja spremembe podatkov nenehno povečuje. Za podatke, ki vsebujejo nič ali negativne vrednosti, se ta vrsta približevanja ne uporablja tudi.

V skladu z enačbo:

y \u003d c ebx

kjer koeficienti B, C - konstante.

Pri izbiri vrstice Trend Excel samodejno izračuna vrednost vrednosti R2, ki označuje točnost približevanja: bližje vrednosti R2 na eno, bolj zanesljiva linija trenda približuje postopek v študiji. Po potrebi lahko vrednost R2 vedno prikaže na diagramu.

Določena s formulo:

Če želite dodati vrstico trenda na številne podatke:

    aktivirajte diagram, ki je zgrajen na podlagi številnih podatkov, i.e. kliknite na območju diagrama. V glavnem meniju se bo pojavil;

    ko kliknete na to točko, se na zaslonu prikaže meni, v katerem je treba izbrati ukaz Add Trend Line.

Ista dejanja so enostavna za izvajanje, če prinesete kazalec miške na grafikon, ki ustreza eni od podatkovnih serij, in z desnim klikom; V kontekstnem meniju, ki se prikaže, izberite vrstico Dodaj trend. Pojavi se pogovorno okno Trend Line s pogovorno okno Vrsta, ki je odprto tip (Sl. 1).

Po tem potrebujete:

Izberite vrsto vrste vrste trenda na kartici vrste (izbran privzeti linearni tip). Za tip polinom na področju stopnje, navedite stopnjo izbrane polinome.

1 . Polje, ki je zgrajeno na številnih seznamih vseh podatkov na obravnavanem diagramu. Če želite dodati vrstico trenda na določeno število podatkov, je polje vgrajeno v polju, da izberete njegovo ime.

Po potrebi, tako da greste na zavihek Možnosti (Sl. 2), lahko nastavite naslednje parametre za trend linije:

    spremenite ime trend linije v imenu približevalne (gladene) krivulje.

    nastavite število obdobij (naprej ali nazaj), da napovedujemo napovedano polje;

    da bi prinesli trend linije enačbo na tabelo v tabelo, za tisto, kar je treba omogočiti potrditveno polje Pokaži enačbo na diagramu;

    prikazati vrednost natančnosti približevanja R2 na grafikonu, za katero je treba omogočiti, da vrednost za diagram daje vrednost natančnosti približevanja (R ^ 2);

    nastavite točko križišča trend linije z osjo Y, za katero morate omogočiti potrditveno polje pri prečkanju krivulje z osi Y na točki;

    kliknite gumb OK, da zaprete pogovorno okno.

Da bi začeli urejati že zgrajeno trendno linijo, obstajajo trije načine:

    izberete izbrano vrstico Trend iz menija Oblika, potem ko izberete vrstico trendov;

    v kontekstnem meniju izberite ukaz za format TREND LINE, ki se imenuje s klikom na desni gumb miške vzdolž trendne linije;

    dvokliknite vzdolž vrstice trendov.

Na zaslonu se prikaže pogovorno okno Trend (Sl. 3), ki vsebuje tri zavihke: Pogled, vrsto, parametre in vsebino zadnjih dveh popolnoma sovpada z istimi zavihki pogovornega okna Trend Line (Sl. 1-2 ). Na kartici Pogled lahko določite vrsto linije, njeno barvo in debelino.

Če želite izbrisati že zgrajen trend linije, izberite črto izbrisanega trenda in pritisnite tipko Izbriši.

Prednosti pregledanega orodja za analizo regresije so:

    relativna enostavnost gradnje na trendnih linijskih diagramih brez ustvarjanja podatkovne tabele za to;

    dokaj široki seznam vrst predlaganih trendovskih linij in ta seznam vključuje najpogosteje uporabljene regresijske vrste;

    sposobnost napovedovanja vedenja v študiju na poljubno (v zdravem pasu) število korakov naprej, kot tudi nazaj;

    možnost pridobitve enačbe trendne linije v analitični obliki;

    možnost, če je potrebno, pridobitev ocene natančnosti opravljenega približevanja.

Naslednje točke vključujejo slabosti:

    izgradnja vrstice trendov se izvede le, če je na številnih podatkih, ki je bil zgrajen na številnih podatkih;

    postopek oblikovanja podatkovnih serij za preučevano značilnost, ki temelji na trendnih progah, pridobljenih za to, je nekoliko obrezana: želene regresijske enačbe se posodabljajo z vsako spremembo vrednosti izvornih vrst podatkov, vendar le znotraj območja diagrama, Medtem ko je več podatkov, oblikovanih na podlagi starega trenda enačb, ostaja nespremenjen;

    v poročilih o konsolidiranih diagramih pri spreminjanju diagrama ali s tem povezanih poročil, obstoječe trendne linije niso shranjene, to je, preden držite trendne linije ali drugo oblikovanje povzetkov diagrami, se prepričajte, da poročilo poročila izpolnjuje potrebne zahteve.

Trend linije vključujejo podatkovne vrstice, predstavljene na diagramih grafikona, histograma, ploščati, ki niso normalizirane grafikone z regijami, linijo, točko, mehurčkom in borzo.

Nemogoče je dopolniti trendnih linij podatkov o razsutem stanju, normaliziranih, cvetnih listih, krožnih in obročnih diagramih.

Uporaba dodatnih funkcij Excel

Excel ima tudi orodje za analizo regresije za izgradnjo trendovskih linij zunaj območja diagrama. V ta namen lahko uporabite številne statistične funkcije delovnega lista, vendar nam vsi omogočajo, da gradimo le linearne ali eksponentne regresije.

Excel ima več funkcij za izgradnjo linearne regresije, zlasti:

    Trend;

  • Nagniti in rezati.

Kot tudi več funkcij za izgradnjo eksponentne linije trendov, zlasti:

    Lgrfpribl.

Opozoriti je treba, da metode gradnje regresij z uporabo trendov in rasti funkcij praktično sovpadajo. Enako lahko rečemo o paru linene in lgrfpribla. Za štiri te funkcije se pri ustvarjanju tabele vrednosti, Excel funkcije uporabljajo kot formule za nize, ki rahlo vzpenja proces gradnje regresije. Ugotavljamo tudi, da je gradnja linearne regresije, po našem mnenju, najlažje, da je lažje izvajati nagib in segmentu z uporabo funkcij, kjer prva od njih določa kotnega koeficienta linearne regresije, drugi pa segment odrezan z regresijo na oredih osi.

Prednosti orodja vgrajenih funkcij za regresijsko analizo so:

    dokaj preprosta posamezna vrsta nastanka podatkovnih vrst preučevanih značilnosti za vse vgrajene statistične funkcije, ki določajo trendne črte;

    standardna metoda gradnje trendovske črte, ki temeljijo na oblikovanih podatkovnih serijah;

    sposobnost napovedovanja obnašanja procesa v študiju na zahtevano število korakov naprej ali nazaj.

In pomanjkljivosti vključujejo dejstvo, da v Excelu ni vgrajenih funkcij, da bi ustvarili druge (razen linearnih in eksponetnih) vrst trendovskih linij. Ta okoliščina pogosto vam ne omogoča izbire dokaj natančnega modela postopka v študiju, kot tudi za pridobitev projekcij blizu realnosti. Poleg tega, ko uporabljate funkcije, trend in rast ni znana enačbi trendovskih linij.

Opozoriti je treba, da avtorji niso določili namena člena, da bi predstavili potek regresijske analize z eno stopnjo popolnosti. Njegova glavna naloga - na določenih primerih, kažejo funkcije Excelovega paketa pri reševanju nalog približevanja; Pokazati, katera učinkovita orodja za izgradnjo regresije in napovedovanja je Excel; Ilustriramo, kot sorazmerno enostavno, take naloge lahko rešijo tudi uporabnik, ki ne govori poglobljenega znanja o regresijski analizi.

Primeri reševanja posebnih nalog

Razmislite o rešitvi za določene naloge, ki uporabljajo orodja Excel paketna orodja.

Naloga 1.

S tabelo podatkov o dobičku prevoza motorja za obdobje 1995-2002. Izvesti je treba naslednje korake.

    Zgraditi tabelo.

    Dodajte linearno in polinomsko (kvadratno in kubično) trend na diagram.

    Uporaba enačb trendnih linij, da dobimo tabelarne podatke o dobičku podjetja za vsako trend linijo za obdobje 1995-2004.

    Ustvarite napoved o dobičku družbe za leto 2003 in 2004.

Rešitev problema

    V območju celic A4: C11 se program Excel uvede delovni tabela, prikazana na sl. Štiri.

    Položaj paleto celic B4: C11, gradimo diagram.

    Aktiviramo konstruiran diagram in v skladu z zgoraj opisanim metodo, ko izberete vrsto trend linije v pogovornem oknu Trend Line (glejte sliko 1) izmenično dodajte linearno, kvadratno in kubično trend linijo na diagram. V istem pogovornem oknu odprite zavihek Parametri (glejte sliko 2), v polju imena polja približevalne (gladene) krivulje, vnesite ime dodanega trenda, in v polju napovedi naprej na: obdobja, nastavljena na 2, Kot je predvideno, da napoved za dobiček za dve leti naprej. Za prikaz enačbe regresijske enačbe in veljavnosti približevanja R2 enačbo vklopite zastave, da prikažete enačbo na zaslonu in na diagramu dal vrednost točnost približevanja (R ^ 2). Za boljšo vizualno zaznavanje spremenimo vrsto, barvo in debelino vgrajenih trendovskih linij, za katere uporabljamo pogled zavihka na pogovornem oknu Format trend linije (glej sliko 3). Dobljeni diagram z dodanimi trendnimi linijami je predstavljen na sl. pet.

    Za pridobitev tabelarnih podatkov o dobičku podjetja za vsako trend linijo za obdobje 1995-2004. Uporabljamo enačbe vrstic trendov, predstavljenih na sl. 5. Če želite to narediti, v območju D3: F3, vnesemo besedilne informacije o vrsti izbrane vrstice trend: linearni trend, kvadratni trend, kubični trend. Nato vstopimo v linearno regresijsko formulo v celico D4 in z oznako polnjenja kopirajte to formulo z relativnimi referencami v območju celic D5: D13. Opozoriti je treba, da je vsaka celica z linearno regresijsko formulo iz območja celic D4: D13 ustrezna celica iz območja A4: A13 kot argument. Podobno, za kvadratno regresijo, je obseg celic E4: E13 napolnjen, in za kubično regresijo - obseg celic F4: F13. Tako je bila pripravljena napoved o dobičku podjetja za leto 2003 in 2004. S pomočjo treh trendov. Pridobljena tabela vrednosti je predstavljena na sl. 6.

Naloga 2.

    Zgraditi tabelo.

    V diagramu dodajte logaritmične, napajalne in eksponecijske trendne linije.

    Sprostite enačbo dobljenih trendov, kot tudi veljavnost približevanja R2 za vsakega od njih.

    Uporaba enačb trendov, za pridobitev podatkov tabele na dobiček družbe za vsako trend linijo za obdobje 1995-2002.

    Da bi napoved za dobiček družbe za leto 2003 in 2004, z uporabo teh trendovskih linij.

Rešitev problema

Po metodi, opisani pri reševanju težav 1, dobimo diagram z logaritmičnimi, napajalnimi in eksponentnimi trendnimi linijami (sl. 7), ki je dodana (sl. 7). Nato z uporabo dobljenih trendovskih vrstic izpolnite tabelo vrednosti dobička podjetja, vključno s predvidenimi vrednostmi za leto 2003 in 2004. (Sl. 8).

Na sl. 5 in riž. Videti je mogoče, da modeli z logaritmičnim trendom ustreza najmanjši vrednosti natančnosti približevanja

R2 \u003d 0,8659.

Največje vrednosti R2 ustrezajo modelim s polinomskim trendom: kvadratno (R2 \u003d 0,9263) in kubično (R2 \u003d 0,933).

Naloga 3.

S tabelo podatkov o dobičku prevoza motornega prevoza za obdobje 1995-2002, ki je v težavi 1, je treba izvesti naslednje korake.

    Pridobite vrsto podatkov za linearno in eksponentno trendno linijo s pomočjo funkcij trenda in rasti.

    Z uporabo značilnosti trenda in rasti, se napoved za dobiček družbe za leto 2003 in 2004.

    Za izvorne podatke in prejete podatkovne serije za izgradnjo diagrama.

Rešitev problema

Uporabljamo delovno tabelo nalog 1 (glej sliko 4). Začnimo trend:

    izberite obseg celic D4: D11, ki ga je treba napolniti z vrednostmi funkcije trend, ki ustreza znanim podatkom o dobičku podjetja;

    pokličite ukazno funkcijo iz menija Vstavi. V pogovornem oknu, ki se prikaže, čarovnik funkcije dodeli trend funkcijo iz statistične kategorije, nato kliknite gumb OK. Isto operacijo lahko izvedete s pritiskom na gumb (funkcijski vložek) standardne orodne vrstice.

    V pogovornem oknu, ki se prikaže, funkcije argumente v polje znane_stations_y paleto celic C4: C11; Na področju znanih_stations_x - paleta celic B4: B11;

    da bi nastala formula, da postane formula Array, uporabljamo kombinacijo tipk + +.

Formula, ki nas je uvedla v obliki formule, bo: \u003d (trend (C4: C11; B4: B11)).

Posledično je obseg celic D4: D11 napolnjen z ustreznimi vrednostmi funkcije trenda (sl. 9).

Pripraviti napoved o dobičku družbe za leto 2003 in 2004. Potreba:

    izberite obseg celic D12: D13, kjer bodo vnesene vrednosti, ki jih predvideva funkcija trenda.

    pokličite funkcijo trenda in v pogovornem oknu argumentov, ki se prikaže, uvaja znano_y_s_n - obseg celic C4: C11; Na področju znanih_stations_x - paleta celic B4: B11; In na področju New_stations_X - paleta celic B12: B13.

    to formulo obrnite v formulo Rešite s kombinacijo tipk CTRL + SHIFT + ENTER.

    Uvedena formula bo obravnavana: \u003d (trend (C4: C11; B4: B11; B12: B13)) in obseg celic D12: D13 bo napolnjen z napovedanimi vrednostmi funkcije trend (glej sliko . 9).

Podobno so številni podatki napolnjeni s funkcijo, ki se uporablja pri analiziranju nelinearnih odvisnosti in deluje na enak način kot njen linearni analogni trend.

Slika 10 prikazuje tabelo v načinu prikaza formul.

Za izvorne podatke in pridobljene podatkovne serije, diagram, prikazan na sl. enajst.

Naloga 4.

S tabelo podatkov o vstopu v službo za pošiljanje motornega prometa za storitve za obdobje od 1 do 11, je treba opraviti število tekočega meseca.

    Pridobite serijo podatkov za linearno regresijo: z nagibanjem funkcij in rezanjem; Z uporabo linearne funkcije.

    Pridobite številne podatke za eksponentno regresijo z uporabo LGRFRBLE.

    Uporaba zgornjih funkcij, da napoved za prejem vlog za odpremne storitve za obdobje od 12 do 14 število tekočega meseca.

    Za začetno in prejeto podatkovno serijo za izgradnjo grafikona.

Rešitev problema

Upoštevajte, da v nasprotju s funkcijami, trendom in rasti, nobena od zgoraj navedenih funkcij (naklon, segment, linearna, Lgrfrib) ni regresija. Te funkcije igrajo le pomožno vlogo, ki določa potrebne regresijske parametre.

Za linearno in eksponentno regresijo, zgrajena s pomočjo naklona, \u200b\u200bsegmenta, linearnega, LGRFPRIB, je videz njihovih enačb vedno znana, v nasprotju z linearnimi in eksponentnimi regresijami, ki ustrezajo trendu in rastjo rasti.

1 . Zgradili smo linearno regresijo, ki ima enačbo:

y \u003d mx + b

z uporabo funkcij, naklona in segmenta, s kotnim regresijskim koeficientom M, je odvisna od funkcije naklona, \u200b\u200bsvobodni član B pa je funkcija segmenta.

V ta namen izvedite naslednje ukrepe:

    predstavljamo izvorno tabelo v območju celic A4: B14;

    vrednost parametra M je določena v celici C19. Iz kategorije izberite statistično funkcijo naklona; Predstavimo paleto celic B4: B14 na področju znanih_stations_y in paleto celic A4: A14 na področju znanih_stations_X. Formula bo uvedena v C19 celico: \u003d nagib (B4: B14; A4: A14);

    s podoben metodi se vrednost B parameter B določi v celici D19. In njegova vsebina bo obravnavana: \u003d Cut (B4: B14; A4: A14). Tako je potrebno zgraditi linearno regresijo, bodo parametri M in B ustrezno vzdrževani v celicah C19, D19;

    nato vstopamo v C4 celično formulo linearne regresije v obliki: \u003d $ C * A4 + $ D. V tej formuli se celica C19 in D19 zabeleži z absolutnimi referencami (naslov celice se ne sme spreminjati z možnim kopiranjem). Absolutni referenčni znak se lahko napolni bodisi s tipkovnice ali s tipko F4, potem ko nastavite kurzor na naslovu celice. Izkoriščanje polnilnega markerja, kopirajte to formulo v območju C4 celic: C17. Pridobimo želeno vrsto podatkov (slika 12). Zaradi dejstva, da je število aplikacij celo število, morate nastavite število okna celičnega formata številčne oblike s številom decimalnih znakov 0.

2 . Zdaj gradimo linearno regresijo, ki jo je dala enačba:

y \u003d mx + b

z uporabo linearne funkcije.

Za to:

    vstopimo v funkcijo C20: D20 R20 Funkcija kot linearna formula: \u003d (liner (B4: B14; A4: A14)). Posledično smo v C20 celici pridobili vrednost M Parameter in v celici D20 - vrednost parametra B;

    uvajamo v formulo D4 celic: \u003d $ C * A4 + $ D;

    kopirajte to formulo z oznako za polnjenje v območju celic D4: D17 in dobimo želeno serijo podatkov.

3 . Gradimo eksponentno regresijo, ki ima enačbo:

uporaba funkcije LGRFPRIB, se izvede podobno:

    v območju celic C21: D21, vnašamo funkcijo LGRFPRIBL kot formula matrike: \u003d (LGRFPriblin (B4: B14; A4: A14)). V tem primeru, v celici C21, se določi vrednost M parameter, in v celici D21 - vrednost parametra B;

    formula se uvede v celico E4: \u003d $ D * $ C ^ A4;

    z oznako za polnjenje se ta formula kopira na območje celic E4: E17, kjer bo več podatkov za eksponentno regresijo (glej sliko 12).

Na sl. 13 prikazuje mizo, kjer so vidne funkcije, ki jih uporabljamo s potrebnimi razponi celic, pa tudi formule.

Vrednost R. 2 imenovan koeficient določanja.

Naloga izgradnje odvisnosti od regresije je najti vektor koeficientov M modela (1), v katerem koeficient r vzame največjo vrednost.

Da bi ocenili pomen R, se uporabljajo FISHOVE FISCHER F-merila, izračunana s formulo

kje n. - velikost vzorca (število poskusov);

k - število modelov koeficientov.

Če F presega določeno kritično vrednost za podatke n. in k. in sprejeto verjetnost zaupanja, potem se vrednost R se šteje za bistveno. Tabele kritičnih vrednosti F so podane v referenčnih knjigah o matematični statistiki.

Pomembnost R se torej ne določa le z njeno vrednostjo, temveč tudi z razmerjem med količino poskusov in številu koeficientov (parametrov) modela. Dejansko je razmerje korelacije za n \u003d 2 za preprost linearni model 1 (po 2 točkah na ravnini je vedno mogoče izvesti edina ravna). Če pa so eksperimentalni podatki naključne vrednosti, zaupajte tako vrednost R z veliko previdnostjo. Običajno za pridobitev pomembne R in zanesljive regresije si prizadevajo zagotoviti, da število poskusov bistveno presega število modelnih koeficientov (N\u003e K).

Za izgradnjo linearne regresijske modela je potrebno:

1) Pripravite seznam N strings in m stolpcev, ki vsebujejo eksperimentalne podatke (stolpec, ki obsega izhodno vrednost Y.mora biti prvi ali zadnji na seznamu); Na primer, prejmemo prejšnje podatke o opravilu z dodajanjem stolpca z imenom "Številka obdobja", število obdobij od 1 do 12. (To bodo vrednosti H.)

2) Obrnite se na analizo podatkov / podatkov / regresij

Če je element "analiza podatkov" v meniju "Service" manjka, se obrnite na "dodatek" istega menija in preverite potrditveno polje "Analiza".

3) V pogovornem oknu "regresije":

· Vhodni interval y;

· Vhodni interval X;

· Izhodni interval je zgornja leva celica intervala, v kateri bodo postavljeni rezultati izračunov (priporočljivo je, da se postavi na nov delovni list);

4) Pritisnite "OK" in analizirajte rezultate.

  • Programiranje
    • Tutorial.

    Uvod

    Jaz sem matematik Programer. V svoji karieri sem se zavezala največji skok, ko sem se naučil povedati: "Ne razumem ničesar!" Zdaj se ne sramujem, da bi povedal svetilko znanosti, kar bere predavanje, da ne razumem, kaj je, kričal, povem mi. In zelo težko je. Da, težko je priznati mojo neznanje in sramoto. Kdo bo rad priznal, da ne ve nekaj - tam. Na podlagi vašega poklica moram biti prisoten na velikem številu predstavitev in predavanj, kjer priznavam, v veliki večini, ki ga želim spati, ker ne razumem ničesar. In ne razumem, ker je velik problem trenutnega stanja v znanosti laži v matematiki. Predlaga, da so vsi poslušalci seznanjeni z vsemi področji matematike (kar je absurdno). Priznati, da ne veste, kaj je derivat (o tem, kaj je malo kasneje) je sramota.

    Vendar sem se naučil reči, da ne vem, kaj je razmnoževanje. Da, ne vem, kaj je subalgebra nad algebro Lee. Da, ne vem, zakaj so kvadratne enačbe potrebne v življenju. Mimogrede, če ste prepričani, da veste, potem imamo kaj govoriti! Matematika je vrsta fokusa. Matematika poskušajo zamenjati in ustrahovati javnost; Kjer ni zmede, ni ugleda, ni organa. Da, je prestižno govoriti kot abstraktni jezik, kot je mogoče, da je popolna neumnost.

    Ali veste, kaj je izpeljano? Najverjetneje mi poveš o meji razlika. V prvem letu Matmeach Spbu Viktor Petrovich havin me določen Derivat kot koeficient prvega člana taylor serije funkcij na točki (je bila ločena gimnastika za določitev serije Taylor brez izvedenih finančnih instrumentov). Zaradi tega sem se smejal tako opredelitev, zato nisem razumel, kaj je bilo. Derivat ni nič drugega kot samo merilo, koliko funkcije, ki smo jo razlikovali, podobne funkciji y \u003d x, y \u003d x ^ 2, y \u003d x ^ 3.

    Zdaj imam čast, da predavam študente, ki strah matematika. Če se bojite matematike - smo z vami na poti. Ko poskušate prebrati nekaj besedila, se vam zdi, da je preveč zapleteno, potem veste, da je napisan. Trdim, da ni enotnega območja matematike, ki se ne more reči, da "na prstih", ne da bi izgubili točnost.

    Naloga za bližnjo prihodnost: Učenci sem naročil, da razumejo, kaj je linearni kvadratni regulator. Ne oklevajte, preživite tri minute svojega življenja, pojdite na povezavo. Če ne razumete ničesar, potem smo z vami na poti. I (Strokovni matematični programer) ni razumel ničesar. In zagotovim ga v tem, da lahko ugotovimo "na prstih." Trenutno ne vem, kaj je, vendar zagotavljam, da bomo razumeli.

    Torej, prvo predavanje, bom prebral moje učence, potem ko se mi zatekajo v grozo z besedami, da je linearni kvadratov regulator strašno bjak, ki nikoli ni gospodarstvo v življenju, to metode najmanjših kvadratov. Ali veste, kako rešiti linearne enačbe? Če preberete to besedilo, potem najverjetneje ne.

    Torej, dve točki (x0, y0), (X1, Y1), na primer, (1,1) in (3, 2), naloga, da najdejo enačbo neposredno, ki poteka skozi te dve točki:

    ilustracija

    Ta neposredna bi morala imeti naslednjo enačbo:

    Tukaj nam ALPHA in beta nista znana, toda za to sta znana dve točki:

    To enačbo lahko napišete v matrični obliki:

    Tukaj je treba narediti liričnega umika: kaj je matrika? Matrica ni nič drugega kot dvodimenzionalna matrika. To je način za shranjevanje podatkov, nihče ne bi smel dati več vrednot. Od nas je odvisno, kako interpretirati nekaj matrike. Periodično ga bom razlagati kot linearno kartiranje, periodično kot kvadratna oblika, včasih pa kot niz vektorjev. To bo posodobljeno v kontekstu.

    Zamenjaj posebne matrike na njihovi simbolni predstavitvi:

    Potem (Alpha, Beta) lahko zlahka najdete:

    Natančneje za naše prejšnje podatke:

    Ki vodi do naslednje enačbe neposredno, ki poteka skozi točke (1.1) in (3.2):

    V redu, vse je jasno. In poiščimo enačbo neposredno mimo tri Točke: (x0, y0), (X1, Y1) in (X2, Y2):

    Oh oh, in imamo tri enačbe na dva neznana! Standardni matematik bo rekel, da rešitve ne obstajajo. Kaj bo rekel programer? In prvi bo ponovno napisal prejšnji sistem enačb v naslednji obliki:

    V našem primeru, vektorji I, J, B tridimenzionalni, zato (na splošno) rešitev tega sistema ne obstaja. Vsak vektor (alfa \\ * I + beta * j) leži v ravnini, ki se razteza v vektorje (i, j). Če B ne pripada tej ravnini, potem rešitve ne obstajajo (enakost v enačbi ni dosežena). Kaj storiti? Poglejmo kompromis. Poglejmo skozi e (alfa, beta) Kolikor nismo dosegli enakosti:

    In to bomo poskušali zmanjšati to napako:

    Zakaj kvadratni?

    Iščemo ne samo normo, in vsaj kvadrat norme. Zakaj? Najnižja točka sama sovpada, trg pa daje gladko funkcijo (kvadratna funkcija agreita (alfa, beta)), medtem ko preprosto dolžina daje funkcijo v obliki stožca, neniferencirana na minimalni točki. BRR. Kvadrat je bolj priročen.

    Očitno je, da je napaka zmanjšana, ko vektor e. Ortogonalna letala se je raztezala na vektorjih jAZ. in j..

    Ilustracija

    Z drugimi besedami: iščemo tako naravnost, da je vsota kvadratov dolžine razdalje iz vseh točk na to neposredno, je minimalna:

    Posodobitev: Tukaj imam jabolko, razdaljo do ravnega je treba meriti z navpično in ne ortogonalno projekcijo. Komentar.

    Ilustracija

    Sobsmie v različnih besedah \u200b\u200b(skrbno, slabo formalizirana, vendar bi morala biti jasna na prstih): vzamemo vse možne ravne črte med vsemi pari točk in iščejo povprečno neposredno med vsemi:

    Ilustracija

    Pojasnilo na prstih: Pritrdite vzmet med vsemi podatkovnimi točkami (tukaj imamo tri) in neposredno, da iščemo, in neposredno ravnovesje stanje je točno to, kar iščemo.

    Minimalna kvadratna oblika

    Torej, ko je ta vektor b. in letalo, raztegnjeno na stolpcih matričnih vektorjev A. (V tem primeru (X0, X1, X2) in (1,1,1)) iščemo vektor e. Z minimalnim kvadratom dolžine. Očitno je minimum dosegljiv samo za vektorja e., Ortogonalna ravnina, raztegnjena na stolpcih-vektorjih matrike A.:

    Z drugimi besedami, iščemo tak vektor x \u003d (Alpha, beta), ki:

    Spominjam vas, da je ta vektor X \u003d (alfa, beta) minimalno kvadratno funkcijo || E (alfa, beta) || ^ 2:

    Tukaj bo koristno zapomniti, da je matrika mogoče razlagati, vključno kot kvadratna oblika, na primer, ena matrika ((1,0), (0,1)), lahko interpretiramo kot funkcijo x ^ 2 + y ^ 2:

    kvadratna oblika

    Vsa ta gimnastika je znana pod imenom linearne regresije.

    Laplace Equation z Drichletom

    Zdaj najpreprostejša realna naloga: Obstaja določena triangulirana površina, je potrebno izravnati. Na primer, nalagamo model mojega obraza:

    Začetni kobiti je na voljo. Da bi zmanjšali zunanje odvisnosti, sem vzel kodo mojega programske opreme, ki je že na Habréju. Če želite rešiti linearni sistem, uporabljam OpenNL, je odličen reševalec, ki je res, je zelo težko namestiti: morate kopirati dve datoteki (.H + .c) v mapo s svojim projektom. Vse glajenje se opravi z naslednjo kodo:

    Za (INT D \u003d 0; D<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i & Face \u003d Hears [I]; za (int j \u003d 0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

    X, Y in Z koordinate so ločeni, ločeno jih ločeno. To pomeni, da rešujem tri sisteme linearnih enačb, vsak ima število spremenljivk, ki je enak številu tock v mojem modelu. Prvi N strune matrike A imajo samo eno enoto na nizu, prve N vrstice vektorja B pa imajo izvirne koordinate modela. To pomeni, da se spomladi med novim položajem vozlišča in starega položaja vozlišča - novo ne sme biti predaleč od starega.

    Vse nadaljnje črte matrike a (obrazih.size () * 3 \u003d količina roba vseh trikotnikov v omrežju) imajo en vnos 1 in en vnos -1, vektor B pa ima ničelne komponente nasproti. To pomeni, da držim pomlad na vsakem robu naše trikotne mreže: vsa rebra poskušajo dobiti isto vertex kot začetno in končno točko.

    Še enkrat: Vse tocke so spremenljivke in ne morejo daleč od prvotnega položaja, vendar poskušajo postati podobni drug drugemu.

    Tukaj je rezultat:

    Vse je bilo v redu, model je res poravnan, vendar se je odmaknjena od njenega prvotnega roba. Spremenimo kodo rahlo:

    Za (INT I \u003d 0; I<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

    V naši matrici A sem za tocke, ki so na robu, dodajte niza iz praznjenja V_I \u003d Verts [I] [D] in 1000 * V_I \u003d 1000 * Verts [I] [D]. Kaj se spremeni? In to spremeni na našo kvadratno obliko napake. Zdaj eno samo odstopanje od vrha na robu ne bo stalo eno enoto, kot prej in 1000 * 1000 enot. To pomeni, da smo viseli močnejši pomlad do ekstremnih vrhov, bi se rešitev raje raztezala bolj močnejša. Tukaj je rezultat:

    Dvojno podvojimo vzmeti med vozlišči:
    nlcoefficient (obraz [j], 2); nlcoefficient (obraz [(J + 1)% 3], -2);

    Logično je, da je površina postala bolj gladka:

    In zdaj še stokrat močnejši:

    Kaj je to? Predstavljajte si, da smo žični obroč v milnici. Posledica tega je, da bo nastali milni film poskušal imeti najmanjšo ukrivljenost, kolikor je to mogoče, dotikanje meja - naši žični obroči. To je tisto, kar imamo, popravljamo mejo in prosimo, da dobimo gladko površino znotraj. Čestitam vam, smo pravkar rešili Laplace Equation z mejnimi pogoji Dirichlea. Kul zvoki? Dejansko je rešen samo en sistem linearnih enačb.

    Poissonova enačba

    Še vedno se spomnimo hladnega imena.

    Recimo, da imam takšno sliko:

    Vsakdo je dober, samo stol mi ni všeč.

    Sliko bomo prerezali na pol:



    In poudarja stol:

    Potem, vse, kar je belo v maski, privlači levo stran slike, in hkrati bom rekel, da je razlika med dvema sosednjimi slikovnimi pikami enaka razliki med dvema sosednjimi pikami desne slike:

    Za (INT I \u003d 0; I

    Tukaj je rezultat:

    Na voljo so kode in slike

    Metoda najmanjših kvadratov (MNA, angleški na rednih najmanjših kvadratov, OLS) - matematična metoda, ki se uporablja za reševanje različnih nalog, ki temeljijo na zmanjšanju vsote kvadratov odstopanj nekaterih funkcij iz želenih spremenljivk. Uporablja se lahko za "reševanje" ponovno opredeljenih sistemov enačb (ko število enačb presega število neznanih), za iskanje rešitev v primeru običajnih (neredofiniranih) nelinearnih sistemov enačb, za približevanje točkovnih vrednosti Nekaterih funkcij. MNA je ena od osnovne metode analize regresije za ocenjevanje neznanih parametrov regresijskih modelov na selektivnih podatkih.

    Enciklopedijski YouTube.

      1 / 5

      ✪ metoda najmanjših kvadratov. Predmet

      ✪ Mitin i.v. - Obdelava rezultatov Piz. Eksperiment - metoda najmanjših kvadratov (predavanje 4)

      ✪ metoda najmanjših kvadratov, lekcijo 1/2. Linearna funkcija

      ✪ ekonometrija. Predavanje 5. Postopek najmanjših kvadratov

      ✪ metoda najmanjših kvadratov. Odgovori

      Podnapisi.

    Zgodovina

    Pred začetkom XIX stoletja. Znanstveniki niso imeli določenih pravil za reševanje sistema enačb, v katerih se je število neznanih manj kot število enačb; Do takrat so bile uporabljene zasebne sprejeme, ki so bile odvisne od vrste enačb in ostrine kalkulatorjev, zato različne računalnike, ki temeljijo na enakih opazovalnih podatkih, prišli do različnih zaključkov. Gaussu (1795) pripada prvi uporabi metode, Legendre (1805) pa je neodvisno odkril in ga objavil pod sodobnim imenom (Fr. Méthode des Moindres Sedés). Laplace je vezana na metodo s teorijo verjetnosti, ameriški matematik Eldeine (1808) pa je upošteval svoje teoretične in verjetnostne aplikacije. Metoda je porazdeljena in izboljšala z nadaljnjimi raziskavami, ki jih Enk, Bessel, Ganzen in drugi.

    Bistvo najmanjše kvadrate

    Naj bo. X (DisplayStyle X) - Set. N (displaystyle n) neznane spremenljivke (parametri), f I (x) (displaystyle f_ (i) (x)), , M\u003e n (displaystyle m\u003e n) - niz funkcij iz tega sklopa spremenljivk. Naloga je, da izberete take vrednosti X (DisplayStyle X)Da so vrednosti teh funkcij čim bližje določenim vrednostim. Y i (displaystyle y_ (i)). V bistvu govorimo o "odločitvi" redefijenega sistema enačb f i (x) \u003d y i (displaystyle f_ (i) (x) \u003d y_ (i)), i \u003d 1, ..., m (displaystyle i \u003d 1, ldots, m) V določenem občutku največje bližine levega in desnega dela sistema. Bistvo MNA je izbrati kot "bližinski ukrepi" vsota kvadratov odstopanj levega in desnega dela | f i (x) - y i | (DisplayStyle | F_ (I) (x) -y_ (i) |). Tako je bistvo MNK lahko izraženo na naslednji način:

    Σ iei 2 \u003d σ i (yi-fi (x)) 2 → min x (Disclowstyle SUM _ (I) E_ (I) ^ (2) \u003d SUM _ (I) (Y_ (I) -F_ ( i) (x)) ^ (2) pravicarrow \\ m_ (x)).

    V primeru, da ima sistem enačb rešitev, bo vsaj vsota kvadratov nič in natančne rešitve sistema enačb analitično ali, na primer z različnimi numeričnimi metodami optimizacije. Če je sistem preglasen, to je, da je neverjetno, število neodvisnih enačb je večje od števila želenih spremenljivk, sistem nima natančne raztopine, metoda najmanjših kvadratov pa vam omogoča, da najdete nekaj "optimalnega" vektorja X (DisplayStyle X) v smislu največje bližine vektorjev Y (displaystyle y) in f (x) (displaystyle f (x)) ali največja bližina nenormalnega vektorja E (DisplayStyle E) Na nič (bližina razumemo v smislu evklidske razdalje).

    Primer - Sistem linearnih enačb

    Zlasti se lahko metoda najmanjših kvadratov uporablja za "reševanje" sistema linearnih enačb

    A X \u003d B (DisplayStyle AX \u003d B),

    kje A (displaystyle a) Pravokotna velikost Matrix. M × N, M\u003e N (DisplayStyle M Časi n, m\u003e N) (i.e., število matričnih vrstic je večje od števila želenih spremenljivk).

    Tak sistem enačb v splošnem primeru nima rešitve. Zato je ta sistem lahko "rešeni" le v smislu izbire takega vektorja X (DisplayStyle X)Da bi zmanjšali "razdaljo" med vektorjem X (DisplayStyle AX) in B (DisplayStyle B). To storiti, lahko uporabite merilo za zmanjšanje vsote kvadratov razlike med levim in desnimi deli sistemskih enačb, to je (A X-B) T (A X - B) → Min (DisplayStyle (AX-B) ^ (T) (AX-B) \\ t. Enostavno je pokazati, da rešitev za ta problem minimizacije vodi do rešitve naslednjega sistema enačb

    Ata x \u003d pri b ⇒ x \u003d (ata) - 1 pri b (disprovestyle a ^ (t) sex \u003d a ^ (t) b pravica x \u003d (a ^ (t) a) ^ (- 1) a ^ (T) b).

    MNG v regresijski analizi (približek podatkov)

    Naj bo N (displaystyle n) Vrednosti neke spremenljivke Y (displaystyle y) (To so lahko rezultati opazovanj, poskusov itd.) In ustrezne spremenljivke X (DisplayStyle X). Naloga je odnos med Y (displaystyle y) in X (DisplayStyle X) Približati nekaj funkcij, ki so znane nekaterim neznanim parametrom B (DisplayStyle B), to je, pravzaprav najde najboljše vrednosti parametrov B (DisplayStyle B)Največje približevanje vrednosti f (x, b) (displaystyle f (x, b)) dejanske vrednosti Y (displaystyle y). Pravzaprav se to zmanjša na primer "rešitev" redefiniranega sistema enačb B (DisplayStyle B):

    F (x T, b) \u003d y t, t \u003d 1, ..., n (displaystyle f (x_ (t), b) \u003d y_ (t), t \u003d 1, ldots, n).

    V regresijski analizi in zlasti obstajajo verjetnostne modele odnosov med spremenljivkami in ekonometriji

    Y t \u003d f (x T, b) + ε t (Displaystyle y_ (t) \u003d f (x_ (t), b) + Varepsilon _ (t)),

    kje Ε T (DisplayStyle Varepsilon _ (t)) - Tako imenovana naključne napake Modeli.

    V skladu s tem odstopanja opazovanih vrednosti Y (displaystyle y) iz modela f (x, b) (displaystyle f (x, b)) Predvideva se že v samem modelu. Bistvo MNC (navadne, klasične) je najti takšne parametre B (DisplayStyle B)na kateri se vsota kvadratov odstopanj (napake za regresijske modele se pogosto imenujejo regresijski ostanki) E t (displaystyle e_ (t)) To bo minimalno:

    B ^ O L S \u003d Arg \u2061 Min B R S S S S S S (b) (PrikaznoStyle (Klobuk (B)) _ (OLS) \u003d ARG Min _ (B) RSS (B)),

    kje R S S (Razkazijo RSS) - Angleščina Preostala vsota kvadratov je opredeljena kot:

    RSS (B) \u003d e t e \u003d σ t \u003d 1 net 2 \u003d σ t \u003d 1 n (yt - f (xt, b)) 2 (disststyle RSS (b) \u003d e ^ (t) e \u003d vsota _ (t \u003d 1) ^ (n) e_ (t) ^ (2) \u003d vsota _ (t \u003d 1) ^ (n) (y_ (t) -f (x_ (t), b)) ^ (2)).

    Na splošno se rešitev tega problema lahko izvede z numeričnimi metodami optimizacije (minimizacija). V tem primeru se pogovorite nelinear MNC. (NLS ali NLL - angleščina. Nelinearni najmanjši kvadrati). V mnogih primerih lahko dobite analitično rešitev. Za reševanje problema minimizacije je potrebno najti stacionarne točke funkcije. R S S (b) (DisplayStyle RSS (B))brez navedbe neznanih parametrov B (DisplayStyle B)izenačevanje izvedenih finančnih instrumentov na nič in reševanje pridobljenega sistema enačb: \\ t

    Σ t \u003d 1 n (yt - f (xt, b)) ∂ f (xt, b) ∂ b \u003d 0 (disststyle sum _ (t \u003d 1) ^ (n) (y_ (t) -f (x_ (t), b)) (frac (delno f (x_ (t), b)) (delno b)) \u003d 0).

    MNA v primeru linearne regresije

    Naj bo regresijska odvisnost linearna:

    yt \u003d σ j \u003d 1 kbjxtj + ε \u003d xt t b + ε t (disststyle y_ (t) \u003d 10 _ (J \u003d 1) ^ (k) b_ (j) x_ (tj) + Varepsilon \u003d x_ (t ) ^ (t) b + Varepsilon _ (t)).

    Naj bo. y. - opažanje spremenljivke vektorske kolone spremenljivke, in X (DisplayStyle X) - To je (N × k) (displaySyle ((n \\ T-krat k)))- zadovoljstvo opazovanja dejavnikov (linije matričnih vektorjev v tem opazovanju, v skladu s stolpci - vektorske vrednosti tega faktorja v vseh opazovanjih). Predstavitev matrike linearnega modela je:

    y \u003d x b + ε (displaystyle y \u003d xb + varepsilon).

    Potem bo oceni vektor pojasnjevalne spremenljivke in regresijski ostanki enak

    y ^ \u003d x b, e \u003d y - y ^ \u003d y - x b (Displaystyle (klobuk (y)) \u003d xb, quad e \u003d y - (hat (y)) \u003d y-xb).

    v skladu s tem bo vsota kvadratov regresijskih ostankov enaka

    R S S \u003d E T E \u003d (Y - X B) T (Y - X B) (DisplayStyle RSS \u003d E ^ (T) E \u003d (Y - XB) ^ (T) (Y-XB)).

    Razlikovanje te funkcije z vektorjem parametrov B (DisplayStyle B) in izenačevanje izvedenih finančnih instrumentov na nič, smo pridobili sistem enačb (v matrični obliki):

    (X T x) b \u003d x t y (displaystyle (x ^ (t) x) b \u003d x ^ (t) y).

    V dešifrirani matrični obliki ta sistem enačb je naslednji:

    (Σ xt 1 2 Σ xt 1 xt 2 σ xt 1 xt 3 ... σ xt 1 xtk σ xt 2 xt 1 σ xt 2 2 σ xt 2 xt 3 ... σ xt 2 xtk σ xt 3 xt 1 σ xt 3 xt 2 Σ xt 3 2 ... σ xt 3 xtk ⋮ ⋮ ⋱ ⋮ ⋮ σ xtkxt 1 σ xtkxt 2 σ xtkxt 3 ... σ xtk 2) (B 1 B 2 B 3 ⋮ BK) \u003d (σ XT 1 yt σ xt 2 yt σ xt 3 yt ⋮ σ xtkyt), (Prikaže se (PMATRIX) \\ S SUM X_ (T1) ^ (2) x_ (T3) LDOTS & SUM X_ (T1) X_ (TK) x_ (T2) x_ (T1) SUM X_ (T2) ^ (2) SUM X_ (T2) X_ (T3) \\ t LDOTS & SUM X_ (T2) X_ (TK) x_ (T3) x_ (T1) SUM X_ (T3) X_ (T2) ^ (2) x_ (T3) ^ (2) & LDOTS & SUM X_ (T3) X_ (TK) VDOTS & VDOTS VDOTS DDOTS VDOTS X_ (TK) X_ (T1) SUM X_ (TK) X_ (T2) SUM X_ (TK ) x_ (T3) LDOTS SUM X_ (TK) ^ (2) END (PMATRIX)) (Začetek (PMATRIX) B_ (1) \\\\ B_ (2) \\ t VDOTS \\\\ B_ (k) End (PMATRIX)) \u003d (Začetek (PMATRIX) SUM X_ (T1) Y_ (T) \\\\ x_ (T2) Y_ (T) \\ t T3) Y_ (T) \\\\\\ VDOTS SUM X_ (TK) Y_ (T) END (PMATRIX)),) kjer se vsi zneski sprejmejo v vseh veljavnih vrednotah T (DisplayStyle T).

    Če model vključuje konstantno (kot običajno), potem X T 1 \u003d 1 (DisplayStyle X_ (T1) \u003d 1) nasploh T (DisplayStyle T)Zato je v zgornjem levem kotu matrike sistema enačb število opazovanj N (displaystyle n)In v drugih elementih prve vrstice in prvega stolpca - preprosto vsota vrednosti spremenljivk: Σ x T j (DisplayStyle SUM X_ (TJ)) in prvi element desnega dela sistema - Σ y t (displaystyle sum y_ (t)).

    Rešitev tega sistema enačb in daje splošno formulo za MN-ocene za linearni model:

    B ^ OLS \u003d (XTX) - 1 XT Y \u003d (1 N XTX) - 1 1 N XT Y \u003d V X - 1 C XY (DisplayStyle (Klobuk (B)) _ (OLS) \u003d (X ^ (T) X) ^ (- 1) x ^ (t) y \u003d levo ((Frac (1) (n)) x ^ (t) x desno) ^ (- 1) (Frac (1) (n) ) X ^ (t) y \u003d v_ (x) ^ (- 1) c_ (xy)).

    Za analitične namene je zadnja predstavitev te formule uporabna (v sistemu enačb pri delitvi na n, namesto zneskov se pojavijo povprečna aritmetika). Če v regresijskem modelu centrent.V tej predstavitvi je prva matrika smiselna za selektivno matriko kovariance dejavnikov, drugi pa je vektor kovariance dejavnikov z odvisno spremenljivko. Če je poleg tega podatki tudi podatki non pri hitrosti (to je nazadnje standardizirano), potem ima prva matrika pomen selektivne korelacijske matrike dejavnikov, drugi vektor - vektor selektivnih korelacij dejavnikov z odvisno spremenljivko.

    Pomembna lastnost MN-ocen za modele s Constanta - linijo konstruiranega regresije skozi središče težišča vzorčnih podatkov, to je enakost izvedena:

    y ¯ \u003d b 1 ^ + Σ j \u003d 2 Kb ^ jx ¯ ¯ j (PrikaznoStyle (BAR (Y)) \u003d (Hat (B_ (1))) + SUM _ (J \u003d 2) ^ (K) (Hat (b)) _ (j) (bar (x)) _ (j)).

    Zlasti kot zadnja možnost, ko je edini regresor stalna, dobimo, da je MNC-vrednotenje posameznega parametra (dejansko konstanta) enaka povprečni vrednosti pojasnjene spremenljivke. To je aritmetično povprečje, znano po svojih dobrih lastnostih iz zakonov velikega števila, je tudi ocena MNK - izpolnjuje merilo najmanjšega zneska kvadratov odstopanj od nje.

    Najenostavnejši posebni primeri

    V primeru seznanjene linearne regresije y t \u003d a + b x t + ε t (disstestyle y_ (t) \u003d a + bx_ (t) + Varepsilon _ (t))Ko je ocenjena linearna odvisnost ene spremenljivke od druge, se oblikule izračuna poenostavijo (brez matrike algebre). Sistem enačb je:

    (1 x ¯ x ¯ x 2 ¯) (ab) \u003d (y ¯ xy ¯) (prikaz (PMATRIX) 1 (BAR (X)) \\ t (x)) & (\\ t Bar (x ^ (2))) \\\\ End (PMATRIX)) (Začetek (PMATRIX) a \\\\ B. \\\\ B. \\\\ B. \\\\ BRANI (PMATRIX)) \u003d (Začetek (Pmatrix) (Bar (Y) (Overline (XY)) \\\\ \\\\ \\\\ konec (PMATRIX))) \\ t.

    Od tu je enostavno najti ocene koeficientov:

    (B ^ \u003d cov \u2061 (x, y) var \u2061 (x) \u003d xy ¯ - x ¯ y ¯ x 2 ¯ - x ¯ 2, ^ \u003d y ¯ - bx ¯. (\\ T DirokstSyle (začetek (primeri) (Klobuk (B)) \u003d (Frac (Matplem (TEXTRM (COV)) (X, Y)) (\\ MATHTRM (VAR)) (X))) \u003d (Frac ((\\ t (xy)) - (bar (x)) (bar (y))) ((prekrivanje (X ^ (2))) - (Prekrivanje (X)) ^ (2))), \\ t Hat (a)) \u003d (bar (y)) - b (bar (x)). Konec (primeri)))

    Kljub dejstvu, da je v splošnem primeru modela s stalnim prednostnim, v nekaterih primerih, je znan iz teoretičnih vidikov, ki so konstantni A (displaystyle a) mora biti nič. Na primer, v fiziki ima odvisnost med napetostjo in tokom obliko U \u003d i ⋅ r (displaystyle u \u003d i cdot r); Merjenje napetosti in trdnosti toka, je treba oceniti odpornost. V tem primeru govorimo o modelu y \u003d b x (displaystyle y \u003d bx). V tem primeru, namesto sistema enačb, imamo edina enačba

    (Σ x T 2) b \u003d σ x t y t (RazkaznoStyle levo (SUM X_ (T) ^ (2) DESNO) B \u003d SUM X_ (T) Y_ (T)).

    Posledično ima formula za ocenjevanje edinega koeficienta obrazca

    B ^ \u003d σ t \u003d 1 nxtyt σ t \u003d 1 nxt 2 \u003d xy ¯ x 2 ¯ (displaystyle (klobuk (b)) \u003d (Frac _ (t \u003d 1) ^ (n) x_ (t ) y_ (t)) (vsota _ (t \u003d 1) ^ (n) x_ (t) ^ (2))) \u003d (Overline (xy)) (precejanje (x ^ (2)) ))).

    Primer polinomskega modela

    Če se podatki približajo funkciji polinomske regresije ene spremenljivke f (x) \u003d b 0 + Σ i \u003d 1 K i x i (disststyle f (x) \u003d b_ (0) + vsote limits _ (i \u003d 1) ^ (k) b_ (i) x ^ (i)), zaznavanje stopinj X i (displaystyle x ^ (i)) samostojni dejavniki za vsakega I (displaystyle i) Parametri modela lahko ocenite na podlagi splošne formule za ocenjevanje parametrov linearnega modela. Za to je splošna formula dovolj, da se s tako razlago X T I X T J \u003d X T I X T J \u003d X T I + J (TI) X_ (TJ) X_ (TJ) \u003d X_ (T) ^ (I) X_ (T) ^ (J) \u003d X_ (T) ^ (I + J)) in x T j j y t \u003d x t j y t (disstestyle x_ (tj) y_ (t) \u003d x_ (t) ^ (j) y_ (t)). Posledično bodo matrične enačbe v tem primeru pogledale:

    (nx nxt ... σ nxtk σ nxt σ nxi 2 ... σ mxik + 1 ⋮ ⋮ ⋱ σ nxtk σ nxtk + 1 ... σ nxt 2 k) [B 0 B 1 ⋮ BK] \u003d [σ nyt Σ nxtyt ⋮ σ nxtkyt]. (DisplaySyle (Začetek (PMATRIX) n Limits _ (n) x_ (t) _ (n) x_ (t) _ (n) x_ (t) ^ (k) \\ t n) x_ (t) vsote limits _ (n) x_ (i) ^ (2) LDOTS Smet limits _ (m) x_ (i) ^ (k + 1) \\\\\\ VDOTS & VDOTS \\ t DDOTS VDOTS Omejitve _ (N) X_ (T) ^ (K) Smeni _ (N) X_ (T) ^ (K + 1) LDOTS & SMES Omejitve _ (n) x_ (t) ^ (2k) konec (PMATRIX)) (začetek (BMATRIX) B_ (0) \\\\ B_ (1) \\\\ B_ (k) End (BMATRIX)) \u003d (Začetek (bmatrix) vsote limits _ (n) y_ (t) vsote limits _ (n) x_ (t) y_ (t) \\\\\\\\\\\\\\t "vsote \\ bime _ (n) x_ (t ) ^ (k) y_ (t) konec (bmatrix)).)

    Statistične lastnosti Ocene MNK

    Najprej ugotavljamo, da so za linearne modele ocen MNA linearne ocene, kot sledi iz zgornje formule. Za invalidnost MNK-ocen je nujno in dovolj izpolnjevanja najpomembnejših pogojev za regresijsko analizo: pogojni z dejavniki matematično pričakovanje naključne napake mora biti nič. Ta pogoj, zlasti, se izvede, če

    1. matematično pričakovanje naključnih napak je nič, in
    2. dejavniki in naključne napake so neodvisne naključne spremenljivke.

    Drugi pogoj je stanje eksogenih dejavnikov - glavnice. Če ta lastnost ni izpolnjena, se lahko domneva, da bodo skoraj vse ocene izjemno nezadovoljive: niti ne bodo niti pravne (to je, tudi zelo velika količina podatkov ne dovoljuje pridobitev kvalitativnih ocen v tem primeru). V klasičnem primeru je narejena močnejša predpostavka o določitvi dejavnikov, v nasprotju z naključno napako, ki samodejno pomeni izpolnjevanje stanja izgajnice. Na splošno, za doslednost ocen, je dovolj, da izvedemo pogoj eksogen skupaj s konvergenco matrike V x (displaystyle v_ (x)) Do ne-degenerirane matrike s povečanjem velikosti vzorca do neskončnosti.

    Poleg doslednosti in neformanja, ocene (običajno), MNC so bile učinkovite tudi (najboljše v razredu linearnih nestatenih ocen) zahteva dodatne lastnosti naključne napake:

    Te predpostavke se lahko oblikujejo za matriko kovariance naključnih napak. V (ε) \u003d σ 2 i (Displaystyle v (Varepsilon) \u003d \\ silma ^ (2) i).

    Linearni model, ki izpolnjuje takšne pogoje, se imenuje classic.. MNA Ocene za klasično linearno regresijo so nestabilne, premeščene in najučinkovitejše ocene v razredu vseh linearnih nepovezanih ocen (v literaturo angleške jezika se včasih uporablja z okrajšavo Blue. (Najboljši linearni nepristranski ocenjevalnik) - najboljša linearna nedvorna ocena; V domači literaturi je Gaussova - Markova Teorem pogosteje dana). Ker je enostavno prikazati, bo matrika kovariance v nasprotju s koeficientom enaka:

    V (b ^ OLS) \u003d Σ 2 (xtx) - 1 (Displaystyle V ((H klobuk (B)) _ (OLS)) \u003d Sigma ^ (2) (x ^ (T) X) ^ (- 1 )).

    Učinkovitost pomeni, da je ta matrika kovariance "minimalna" (vsaka linearna kombinacija koeficientov, zlasti koeficienti, imajo minimalno disperzijo), to je v razredu linearnih neverjetnih ocen MNK-najboljše ocene. Diagonalni elementi te matrične disperzije koeficientov so pomembni parametri kakovosti ocen. Vendar pa je nemogoče izračunati matriko kovariance, saj razpršenost naključnih napak ni znana. Izkazalo se je, da je neomejena in bogata (za klasičen linearni model) ocena razpršenosti naključnih napak vrednost:

    S 2 \u003d R S / (N - K) (DisplayStyle S ^ (2) \u003d RSS / (N-K)).

    Zamenjava te vrednosti v formuli za matrico kovariance in pridobite oceno matrike kovariance. Pridobljene ocene so tudi nestabilne in premožne. Pomembno je tudi, da so razpršenost napak pri oceni (in zato displaja koeficientov) in ocene parametrov modela neodvisne naključne vrednosti, ki vam omogočajo, da pridobite statistične podatke o preskusu, da preskusite hipoteze o modelu koeficientov.

    Opozoriti je treba, da če klasične predpostavke niso izpolnjene, ocene MNK parametrov niso najbolj učinkovite in kje W (displaystyle w) - nekaj simetrične pozitivno opredeljene matrike. Normalno MNC je poseben primer tega pristopa, ko je matrika teže sorazmerna z enim matriko. Kot je znano, je razgradnja za simetrične matrike (ali operaterje) W \u003d P T P (DisplayStyle W \u003d P ^ (T) P). Zato lahko podana funkcionalnost predstavljajo na naslednji način. E TPTP E \u003d (P E) TP E \u003d E * T E * (disststyle e ^ (t) p ^ (t) pe \u003d e_ (t) ^ (t) e_ (t) e_ (t) e_ (t) e_ ( *))To je, da je ta funkcionalnost lahko zastopana kot vsota kvadratov nekaterih preoblikovanih "ostankov". Tako lahko izberete razred najmanjših kvadratov - LS-metode (najmanjših kvadratov).

    Dokazano je (Theorem Aitken), ki je za splošni model linearnega regresije (v kateri se ne uvedejo omejitve matrike kovariaracije naključnih napak), so najbolj učinkovita (v razredu linearnih nepovezanih ocen), so ocene T.N. generaliziran MNC (OMNA, GLS - generalizirani najmanjši kvadrati) - LS-metode s matrico mase, ki je enaka obratni matrici kovariance naključnih napak: W \u003d V ε - 1 (Displaystyle W \u003d V _ (Varepsilon) ^ (- 1)).

    Lahko se prikaže, da ima formula za OMNA-ocene parametrov linearnega modela obrazca

    B ^ GLS \u003d (XTV - 1 x) - 1 XTV - 1 Y (DisplayStyle (Klobuk (B)) _ (GLS) \u003d (x ^ (T) v ^ (- 1) x) ^ (- 1) X ^ (t) v ^ (- 1) y).

    Matrica kovariance teh ocen bo enaka

    V (b ^ gls) \u003d (XTV-1 x) - 1 (Displaystyle v ((klobuk (B)) _ (GLS)) \u003d (x ^ (T) V ^ (- 1) x) ^ (- Ena)).

    Pravzaprav je bistvo OMNA specifična (linearna) transformacija (P) izvornih podatkov in uporaba navadnih MNC za preoblikovane podatke. Namen tega preoblikovanja je za pretvorjene podatkovne napake že zadovoljijo klasične predpostavke.

    Pondered MNC.

    V primeru diagonalne matrike mase (in s tem kovarianco matrika naključnih napak) imamo tako imenovano tehtano MNNA (WLS - tehtanih najmanjših kvadratov). V tem primeru je tehtana vsota kvadratov vzorčnih ostankov zmanjšana, to je, vsaka opazovanje prejme "težo", obratno proporcionalno razpršenost naključne napake v tem opazovanju: E TW E \u003d Σ t \u003d 1 Net 2 σ t 2 (Displaystyle e ^ (t) smo \u003d vsota _ (t \u003d 1) ^ (n) (Frac (e_ (t) ^ (2)) (\\ t Sigma _ (t) ^ (2))))). Dejansko se podatki pretvorijo s stanjem tehtanj (delitev z velikosti sorazmerno s sorazmernim od standardnega odstopanja naključnih napak), in navadni MNC se uporablja za začasno prekinitev podatkov.

    ISBN 978-5-7749-0473-0.

  • Ekonometrija. Vaje / Ed. Eliseeva I. I. - 2. ed. - M.: Financiranje in statistika, 2006. - 576 str. - ISBN 5-279-02786-3.
  • Alexandrova N. V. Zgodovina matematičnih pogojev, konceptov, označb: Directory. - 3. ed .. - M.: LKi, 2008. - 248 str. - ISBN 978-5-382-00839-4.I.V Mitin, Rusakov V.S. Analiza in obdelava eksperimentalnih podatkov - 5. izdaja - 24C.
  • Najmanj kvadratna metoda

    Najmanj kvadratna metoda ( MNA, OLS, navadne najmanjše kvadrate) - Ena od osnovnih metod analize regresije za ocenjevanje neznanih parametrov regresijskih modelov na vzorčne podatke. Metoda temelji na zmanjšanju vsote kvadratov regresijskih ostankov.

    Opozoriti je treba, da se metoda reševanja problema na katerem koli področju lahko kliče na kakršen koli način, če odločitev leži ali izpolnjuje nekaj merilo za zmanjšanje vsote kvadratov nekaterih funkcij iz želenih spremenljivk. Zato se lahko metoda najmanjših kvadratov uporablja tudi za približno predstavitev (približevanje) določene funkcije z drugimi (enostavnejšimi) funkcijami, hkrati pa najdejo niz vrednosti, ki izpolnjujejo enačbe ali omejitve, število presega. \\ T Število teh vrednosti itd.

    Essence MNC.

    Naj določenega (parametričnega) modela verjetnostne (regresije) odvisnosti med (pojasnjeno) spremenljivko y. in več dejavnikov (pojasnjevanje spremenljivk) x.

    kje - vektor neznani model parametrov

    - Napaka naključnega modela.

    Recimo, da so tudi selektivne opazovanja vrednosti določenih spremenljivk. Naj - opazovalna številka (). Potem - vrednote spremenljivk v -m opazovanje. Nato po določenih vrednostih parametrov B lahko izračunate teoretične (modele) vrednosti pojasnjene spremenljivke Y:

    Vrednost ostankov je odvisna od vrednosti parametrov b.

    Bistvo MNC (konvencionalno, klasično) je najti takšne parametre B, na kateri je vsota kvadratov ostankov (ENG. Preostala vsota kvadratov ) Minimalno bo:

    Na splošno se rešitev tega problema lahko izvede z numeričnimi metodami optimizacije (minimizacija). V tem primeru se pogovorite nelinear MNC. (NLS ali NLL - angleščina. Nelinearni najmanjši kvadrati). V mnogih primerih lahko dobite analitično rešitev. Za reševanje problema minimizacije je treba najti stacionarne točke funkcije z usmerjanjem v neznane parametre B, karva izenačevanje derivatov na nič in reševanje pridobljenega sistema enačb:

    Če imajo napake naključnih modelov normalno porazdelitev, imajo enako disperzijo in nepovezano, ocene MNK parametrov sovpadajo z ocenami maksimalne metode resničnosti (MMP).

    MNA v primeru linearnega modela

    Naj bo regresijska odvisnost linearna:

    Naj bo. y. - Opazovanje vektorskega stolpca pojasnjevalne spremenljivke, a - matrika opazovanja dejavnikov (linije matričnih vektorjev vrednosti dejavnikov v tem opazovanju, v skladu s stolpci - vektorske vrednosti tega faktorja v vseh opazovanjih) . Predstavitev matrike linearnega modela je:

    Potem bo oceni vektor pojasnjevalne spremenljivke in regresijski ostanki enak

    v skladu s tem bo vsota kvadratov regresijskih ostankov enaka

    Razlikovanje te funkcije s parametrom vektorjem in izenačevanjem derivatov na nič, dobimo sistem enačb (v matrični obliki):

    .

    Rešitev tega sistema enačb in daje splošno formulo za MN-ocene za linearni model:

    Za analitične namene je zadnja predstavitev te formule uporabna. Če v regresijskem modelu centrent.V tej predstavitvi je prva matrika smiselna za selektivno matriko kovariance dejavnikov, drugi pa je vektor kovariance dejavnikov z odvisno spremenljivko. Če je poleg tega podatki tudi podatki non pri hitrosti (to je nazadnje standardizirano), potem ima prva matrika pomen selektivne korelacijske matrike dejavnikov, drugi vektor - vektor selektivnih korelacij dejavnikov z odvisno spremenljivko.

    Pomembna lastnost MN-ocen za modele s Constanta - linijo konstruiranega regresije skozi središče težišča vzorčnih podatkov, to je enakost izvedena:

    Zlasti kot zadnja možnost, ko je edini regresor stalna, dobimo, da je MNC-vrednotenje posameznega parametra (dejansko konstanta) enaka povprečni vrednosti pojasnjene spremenljivke. To je aritmetično povprečje, znano po svojih dobrih lastnostih iz zakonov velikega števila, je tudi ocena MNK - izpolnjuje merilo najmanjšega zneska kvadratov odstopanj od nje.

    Primer: Najenostavnejši (par) regresija

    V primeru seznanjene linearne regresije je formula za izračun poenostavljena (brez matrike algebre):

    Lastnosti ocen MNK

    Najprej ugotavljamo, da so za linearne modele ocen MNA linearne ocene, kot sledi iz zgornje formule. Za invalidnost MNK-ocen je nujno in dovolj izpolnjevanja najpomembnejših pogojev za regresijsko analizo: pogojni z dejavniki matematično pričakovanje naključne napake mora biti nič. Ta pogoj, zlasti, se izvede, če

    1. matematično pričakovanje naključnih napak je nič, in
    2. dejavniki in naključne napake so neodvisne naključne spremenljivke.

    Drugi pogoj je stanje eksogenih dejavnikov - glavnice. Če ta lastnost ni izpolnjena, se lahko domneva, da bodo skoraj vse ocene izjemno nezadovoljive: niti ne bodo niti pravne (to je, tudi zelo velika količina podatkov ne dovoljuje pridobitev kvalitativnih ocen v tem primeru). V klasičnem primeru je narejena močnejša predpostavka o določitvi dejavnikov, v nasprotju z naključno napako, ki samodejno pomeni izpolnjevanje stanja izgajnice. Na splošno, za doslednost ocen, je dovolj, da izvedemo stanje eksogen, skupaj s konvergenco matrike na določeno ne-degenerirano matriko s povečanjem velikosti vzorca na neskončnost.

    Poleg doslednosti in neformanja, ocene (običajno), MNC so bile učinkovite tudi (najboljše v razredu linearnih nestatenih ocen) zahteva dodatne lastnosti naključne napake:

    Te predpostavke se lahko oblikujejo za matriko kovariance naključnih napak.

    Linearni model, ki izpolnjuje takšne pogoje, se imenuje classic.. MNA Ocene za klasično linearno regresijo so nestabilne, premeščene in najučinkovitejše ocene v razredu vseh linearnih nepovezanih ocen (v literaturo angleške jezika se včasih uporablja z okrajšavo Blue. (Najboljši linearni lončni ocenjevalnik) - najboljša linearna nedvorna ocena; V domači literaturi je Gaussova - Markova Teorem pogosteje dana). Ker je enostavno prikazati, bo matrika kovariance v nasprotju s koeficientom enaka:

    Splošni MNK.

    Metoda najmanjših kvadratov omogoča široko posplošitev. Namesto da bi zmanjšali vsoto kvadratov ostankov, lahko zmanjšate nekaj pozitivno opredeljene kvadratne oblike iz preostalega vektorja, kjer - nekaj simetrično pozitivno definirano definirano matrico. Normalno MNC je poseben primer tega pristopa, ko je matrika teže sorazmerna z enim matriko. Kot je znano iz teorije simetričnih matrik (ali operaterjev) za takšne matrike, je razgradnja. Zato lahko navedena funkcionalnost zastopa na naslednji način, to je, da je ta funkcionalnost lahko zastopana kot vsota kvadratov nekaterih pretvorjenih "ostankov". Tako lahko izberete razred najmanjših kvadratov - LS-metode (najmanjših kvadratov).

    Dokazano je (Theorem Aitken), ki je za splošni model linearnega regresije (v kateri se ne uvedejo omejitve matrike kovariaracije naključnih napak), so najbolj učinkovita (v razredu linearnih nepovezanih ocen), so ocene T.N. generaliziran MNC (OMNA, GLS - generalizirani najmanjši kvadrati) - LS-metode s matrico mase, ki je enaka obratna matrika kovariance naključnih napak :. \\ T

    Lahko se prikaže, da ima formula za OMNA-ocene parametrov linearnega modela obrazca

    Matrica kovariance teh ocen bo enaka

    Pravzaprav je bistvo OMNA specifična (linearna) transformacija (P) izvornih podatkov in uporaba navadnih MNC za preoblikovane podatke. Namen tega preoblikovanja je za pretvorjene podatkovne napake že zadovoljijo klasične predpostavke.

    Pondered MNC.

    V primeru diagonalne matrike mase (in s tem kovarianco matrika naključnih napak) imamo tako imenovano tehtano MNNA (WLS - tehtanih najmanjših kvadratov). V tem primeru je tehtana vsota kvadratov vzorčnih ostankov čim manjše, to je vsaka opazovanje prejme "težo", obratno proporcionalno razpršenost naključne napake v tem opazovanju :. Dejansko se podatki pretvorijo s stanjem tehtanj (delitev z velikosti sorazmerno s sorazmernim od standardnega odstopanja naključnih napak), in navadni MNC se uporablja za začasno prekinitev podatkov.

    Nekateri posebni primeri uporabe MNA v praksi

    Približevanje linearne odvisnosti

    Razmislite o primeru, ko je zaradi preučevanja odvisnosti od neke skalarne vrednosti od neke skalarne vrednosti (to lahko, na primer odvisnost napetosti iz trenutne sile:, kjer - konstantna vrednost, odpornost vodnika) so bile izmerjene s temi vrednotami, zaradi katerih so bile vrednosti in ustrezne vrednosti. Podatki o meritvah morajo biti zabeleženi v tabeli.

    Tabela. Rezultati merjenja.

    Številka merjenja
    1
    2
    3
    4
    5
    6

    Vprašanje, kot je ta: Kakšna je vrednost koeficienta, ki se odloči, da najbolje opisuje odvisnost? Po mnenju MN bi morala biti ta vrednost takšna, da je vsota kvadratov odstopanj od vrednosti

    bilo je minimalno

    Vsota kvadratov odstopanj ima en ekstremnik - minimum, ki nam omogoča uporabo te formule. Iz te formule najdemo vrednost koeficienta. To storite, pretvorimo svoj levi del na naslednji način:

    Slednja formula nam omogoča, da najdemo vrednost koeficienta, ki je bila potrebna v opravilu.

    Zgodovina

    Pred začetkom XIX stoletja. Znanstveniki niso imeli določenih pravil za reševanje sistema enačb, v katerih se je število neznanih manj kot število enačb; Do takrat so bile uporabljene zasebne sprejeme, ki so bile odvisne od vrste enačb in ostrine kalkulatorjev, zato različne računalnike, ki temeljijo na enakih opazovalnih podatkih, prišli do različnih zaključkov. Gaussu (1795) pripada prvi uporabi metode, Legendre (1805) pa je neodvisno odkril in ga objavil pod sodobnim imenom (Fr. Méthode des Moindres Sedés ). Laplace je vezana na metodo s teorijo verjetnosti, ameriški matematik Eldeine (1808) pa je upošteval svoje teoretične in verjetnostne aplikacije. Metoda je porazdeljena in izboljšala z nadaljnjimi raziskavami, ki jih Enk, Bessel, Ganzen in drugi.

    Alternativna uporaba MNK.

    Zamisel o metodi najmanjših kvadratov se lahko uporablja tudi v drugih primerih, ki niso neposredno povezani z regresijsko analizo. Dejstvo je, da je vsota kvadratov ena najpogostejših bližina vektorjev (euclidean metrika v končnih-dimenzionalnih prostorih).

    Ena od aplikacij je "rešitev" sistemov linearnih enačb, v katerih je število enačb večje od števila spremenljivk

    kjer matrika ni kvadratna, ampak pravokotna velikost.

    Tak sistem enačb na splošno nima rešitve (če je mesto dejansko več kot število spremenljivk). Zato je ta sistem lahko "rešen" samo v smislu izbire takega vektorja, da se zmanjša "razdalja" med vektorjev in. Če želite to narediti, lahko uporabite merilo za zmanjšanje vsote kvadratov razlike med levim in desnimi deli sistemskih enačb, to je. Enostavno je pokazati, da rešitev za ta problem minimizacije vodi do rešitve naslednjega sistema enačb

    Metoda najmanjših kvadratov je matematični postopek za pripravo linearne enačbe, kar ustreza nizu naročene pare, z iskanjem vrednosti za A in B, koeficiente v ravni enačbi. Namen metode najmanjših kvadratov je zmanjšati skupno kvadratno napako med vrednostmi Y in ŷ. Če za vsako točko določimo napako ŷ, se metoda najmanjših kvadratov zmanjša:

    kjer je n \u003d število naročenih parov okoli črte. Najvišji ustrezni podatki.

    Ta koncept je prikazan na sliki.

    Glede na številko, linijo, največje ustrezne podatke, regresijska linija, zmanjšuje skupno kvadratno napako štirih točk na grafikonu. Pokazal vam bom, kako to določiti z uporabo manjše kvadratne metode na naslednjem primeru.

    Predstavljajte si mladega para, ki je pred kratkim živel skupaj in delil mizo za kozmetične dodatke v kopalnici. Mladenič je začel opaziti, da je polovica njegove tabele neizogibno zmanjšuje, tako da izroči svoje položaje za lase in sojine komplekse. V zadnjih nekaj mesecih je fant skrbno sledil, ko je število postavk na njej povečuje. Spodnja tabela prikazuje število predmetov deklet na mizi v kopalnici, ki se je nabralo v zadnjih nekaj mesecih.

    Ker smo opredelili nalogo ugotovitve, ali se bo število predmetov, "mesec" povečevalo s časom, in "število predmetov" je odvisno.

    Uporaba metode najmanjših kvadratov ugotavljamo enačbo, ki je največja, ki ustreza podatkom, tako da izračuna vrednosti A, segment na osi Y, in B, vrstice vrstice:

    a \u003d y cf - bx cp

    kjer je X CP povprečna vrednost X, neodvisne spremenljivke, Y CF - povprečna vrednost Y, neodvisne spremenljivke.

    Spodnja tabela povzema izračun, ki je potreben za te enačbe.

    Učinek krivulja za naš primer s kopalnico bo določena z naslednjo enačbo:

    Ker ima naša enačba pozitivno nagib - 0,976, ima fant dokaz, da se število postavk na tabeli sčasoma poveča po povprečni hitrosti 1 predmeta na mesec. Graf prikazuje krivuljo učinka z naročenimi pari.

    Čakanje na število predmetov v naslednjih pol leta (16 mesecev) se izračuna na naslednji način:

    ŷ \u003d 5.13 + 0,976x \u003d 5.13 + 0,976 (16) ~ 20,7 \u003d 21

    Torej, je čas, da naš junak sprejme kakršne koli ukrepe.

    Trend funkcije v Excelu

    Kot ste že verjetno uganili v Excelu, je funkcija za izračun vrednosti metoda najmanjših kvadratov.Ta funkcija se imenuje trend. Sintaksa je naslednja:

    Trend (znane vrednosti y; znane vrednosti x; nove vrednosti x; const)

    znane vrednosti Y - niz odvisnih spremenljivk, v našem primeru, število predmetov na mizi

    znane vrednosti X - niz neodvisnih spremenljivk, v našem primeru je mesec dni

    nove vrednosti x - nove vrednosti X (mesec), za katere funkcija trenda Vrne pričakovano vrednost odvisnih spremenljivk (število elementov)

    cONST - neobvezno. Logična vrednost, ki označuje, ali je konstanta B enaka 0.

    Na primer, slika prikazuje trend funkcije, ki se uporablja za določitev pričakovanega števila predmetov na tabeli v kopalnici za 16. mesec.