Misal.

Değişkenlerin değerlerine ilişkin deneysel veriler xve entabloda verilmiştir.

Hizalamalarının bir sonucu olarak, fonksiyon elde edilir

kullanma en küçük kareler yöntemi, bu verileri doğrusal bir bağımlılıkla yaklaşık olarak hesaplayın y \u003d ax + b (parametreleri bul ve ve b). İki çizgiden hangisinin daha iyi olduğunu bulun (en küçük kareler yöntemi anlamında) deneysel verileri hizalar. Çizim yapmak.

En küçük kareler (mns) yönteminin özü.

Görev, iki değişkenin fonksiyonu için doğrusal bağımlılık katsayılarını bulmaktır. ve ve b en küçük değeri alır. Yani verilen ve ve b Deneysel verilerin bulunan düz çizgiden sapmalarının karelerinin toplamı en küçük olacaktır. En küçük kareler yönteminin tüm noktası budur.

Böylece, örneğin çözümü iki değişkenli bir fonksiyonun uç noktasını bulmaya indirgenmiştir.

Katsayıları bulmak için formüllerin türetilmesi.

İki bilinmeyenli iki denklem sistemi oluşturulur ve çözülür. Fonksiyonun kısmi türevlerini bulun değişkenlere göre ve ve b, bu türevleri sıfıra eşitliyoruz.

Ortaya çıkan denklem sistemini herhangi bir yöntemle çözüyoruz (örneğin ikame yöntemi veya cramer yöntemi) ve en küçük kareler yöntemini (OLS) kullanarak katsayıları bulmak için formüller elde ediyoruz.

Verilerle veve bfonksiyon en küçük değeri alır. Bu gerçeğin kanıtı verilmiştir sayfanın sonundaki metinde aşağıda.

En küçük kareler yöntemi budur. Parametreyi bulmak için formül bir toplamları içerir ,,, ve parametre n - deneysel veri miktarı. Bu miktarların değerlerini ayrı ayrı hesaplamanızı tavsiye ederiz. katsayı b hesaplamadan sonra bir.

Orijinal örneği hatırlamanın zamanı geldi.

Karar.

Örneğimizde n \u003d 5... İstenilen katsayıların formüllerinde yer alan miktarların hesaplanmasında kolaylık sağlamak için tabloyu dolduruyoruz.

Tablonun dördüncü satırındaki değerler, 2. satırın değerleri ile her sayı için 3. satırın değerleri çarpılarak elde edilir. ben.

Tablonun beşinci satırındaki değerler, her sayı için 2. satırın değerlerinin karesi alınarak elde edilir. ben.

Tablonun son sütunundaki değerler, değerlerin satır bazında toplamıdır.

Katsayıları bulmak için en küçük kareler formüllerini kullanıyoruz ve ve b... İçlerine tablonun son sütunundaki karşılık gelen değerleri koyarız:

Bu nedenle, y \u003d 0,165x + 2,184 - gerekli yaklaşık düz çizgi.

Hatlardan hangisini bulmak için kalır y \u003d 0,165x + 2,184 veya orijinal verilere daha iyi yaklaşır, yani en küçük kareler yöntemini kullanarak bir tahmin yapın.

En küçük kareler yönteminin hatasının tahmini.

Bunu yapmak için, ilk verilerin bu satırlardan sapmalarının karelerinin toplamını hesaplamanız gerekir. ve daha küçük değer, en küçük kareler yöntemi anlamında orijinal verilere daha iyi yaklaşan çizgiye karşılık gelir.

O zamandan beri düz y \u003d 0,165x + 2,184 orijinal verilere daha iyi yaklaşır.

En küçük kareler (mns) yönteminin grafiksel gösterimi.

Grafiklerde her şey açıkça görülebilir. Kırmızı çizgi, bulunan düz çizgidir y \u003d 0,165x + 2,184mavi çizgi pembe noktalar ham verilerdir.

Uygulamada, çeşitli süreçleri (özellikle ekonomik, fiziksel, teknik, sosyal) modellerken, fonksiyonların yaklaşık değerlerini hesaplamanın bir veya başka bir yöntemi, bazı sabit noktalardaki bilinen değerlerinden yaygın olarak kullanılır.

Fonksiyonların bu tür yakınsama sorunları sıklıkla ortaya çıkar:

deney sonucunda elde edilen tablo verilerine göre incelenen işlemin karakteristik değerlerinin değerlerini hesaplamak için yaklaşık formüller oluştururken;

sayısal entegrasyon, farklılaştırma, diferansiyel denklem çözme vb. için;

dikkate alınan aralığın ara noktalarındaki fonksiyonların değerlerini hesaplamak gerektiğinde;

sürecin karakteristik değerlerinin değerlerini, dikkate alınan aralığın dışında belirlerken, özellikle tahmin ederken.

Tabloda verilen belirli bir süreci modellemek için, en küçük kareler yöntemine dayalı olarak bu süreci yaklaşık olarak tanımlayan bir fonksiyon inşa ederseniz, bu bir yaklaştırma fonksiyonu (regresyon) olarak adlandırılır ve yaklaşık fonksiyonların inşa edilmesi probleminin kendisi bir yaklaşım problemidir.

Bu makale, MS Excel paketinin bu tür problemleri çözmek için yeteneklerini tartışmakta, ayrıca tablo tanımlı fonksiyonlar için (regresyon analizinin temeli olan) regresyonlar oluşturmak (oluşturmak) için yöntemler ve teknikler verilmektedir.

Excel, regresyonları çizmek için iki seçeneğe sahiptir.

Seçilen regresyonları (eğilim çizgileri - eğilim çizgileri), incelenen süreç karakteristiği için veri tablosu temelinde oluşturulan diyagrama eklemek (yalnızca yapılandırılmış bir diyagram varsa kullanılabilir);

Doğrudan ham veri tablosundan regresyonlar (eğilim çizgileri) elde etmek için bir Excel çalışma sayfasının yerleşik istatistiksel işlevlerini kullanın.

Bir grafiğe eğilim çizgileri ekleme

Bir süreci açıklayan ve bir diyagramla temsil edilen bir veri tablosu için, Excel şunları yapmanızı sağlayan etkili bir regresyon analiz aracına sahiptir:

en küçük kareler yöntemini temel alarak inşa edin ve diyagrama, incelenen süreci değişen doğruluk dereceleri ile modelleyen beş tür regresyon ekleyin;

oluşturulan regresyon denklemini diyagrama ekleyin;

seçilen regresyonun grafikte görüntülenen verilerle ne derece eşleşeceğini belirleyin.

Excel grafiğinin verilerine dayanarak, denklem tarafından verilen doğrusal, polinom, logaritmik, kuvvet, üstel regresyon türleri elde etmenizi sağlar:

y \u003d y (x)

burada x, genellikle bir doğal sayı dizisinin (1; 2; 3; ...) değerlerini alan ve örneğin, incelenen sürecin akış süresinin geri sayımını üreten (özellikler) bağımsız bir değişkendir.

1 ... Doğrusal regresyon, sabit bir oranda artan veya azalan modelleme özellikleri için iyidir. Bu, üzerinde çalışılan sürecin inşa edilmesi için en basit modelidir. Denkleme göre inşa edilmiştir:

y \u003d mx + b

burada m, apsis eksenine doğrusal regresyonun eğim açısının tanjantıdır; b - doğrusal regresyonun ordinat ekseni ile kesişme noktasının koordinatı.

2 ... Polinom eğilim çizgisi, birkaç farklı uç noktaya (en yüksek ve en düşük) sahip özellikleri tanımlamak için kullanışlıdır. Polinom derecesinin seçimi, incelenen karakteristiğin ekstremma sayısı ile belirlenir. Bu nedenle, ikinci dereceden bir polinom, yalnızca bir maksimum veya minimuma sahip bir süreci iyi tanımlayabilir; üçüncü dereceden polinom - ikiden fazla ekstrema; dördüncü derecenin polinomu - üçten fazla ekstrema vb.

Bu durumda, trend çizgisi denkleme göre çizilir:

y \u003d c0 + c1x + c2x2 + c3x3 + c4x4 + c5x5 + c6x6

burada c0, c1, c2, ... c6 katsayıları sabitler olup, değerleri inşaat sırasında belirlenir.

3 ... Logaritmik eğilim çizgisi, değerleri önce hızlı bir şekilde değişen ve ardından kademeli olarak stabilize olan özellikleri simüle etmek için başarıyla kullanılır.

y \u003d c ln (x) + b

4 ... Bir güç yasası eğilim çizgisi, incelenen bağımlılığın değerleri büyüme oranındaki sabit bir değişiklikle karakterize edilirse iyi sonuçlar verir. Bu tür bir ilişkinin bir örneği, muntazam hızlanan araç hareketinin bir grafiğidir. Veriler sıfır veya negatif değerler içeriyorsa, bir güç eğilim çizgisi kullanamazsınız.

Denkleme göre oluşturulmuştur:

y \u003d c xb

burada b, c katsayıları sabittir.

5 ... Verilerdeki değişim oranı sürekli artarken üstel bir eğilim çizgisi kullanılmalıdır. Sıfır veya negatif değerler içeren veriler için bu tür bir yaklaşım da geçerli değildir.

Denkleme göre oluşturulmuştur:

y \u003d c ebx

burada b, c katsayıları sabittir.

Bir eğilim çizgisi seçerken, Excel, yaklaşımın doğruluğunu karakterize eden R2 değerini otomatik olarak hesaplar: R2 değeri bire ne kadar yakınsa, eğilim çizgisi incelenen sürece o kadar güvenilir bir şekilde yaklaşır. Gerekirse, R2 değeri her zaman grafikte görüntülenebilir.

Formül ile belirlenir:

Bir veri serisine bir eğilim çizgisi eklemek için:

bir dizi veriye dayalı bir grafiği etkinleştirin, yani grafik alanının içini tıklayın. Grafik öğesi ana menüde görünecektir;

bu öğeye tıkladıktan sonra, ekranda Trend çizgisi ekle komutunu seçmeniz gereken bir menü görünecektir.

Aynı eylemler, fare imlecini veri serilerinden birine karşılık gelen grafiğin üzerine getirip sağ fare düğmesini tıklatarak kolayca gerçekleştirilebilir; görünen bağlam menüsünde Trend çizgisi ekle komutunu seçin. Trend çizgisi iletişim kutusu, Tip sekmesi açık olarak ekranda görünecektir (Şekil 1).

Bundan sonra gerekli:

Tür sekmesinde gerekli eğilim çizgisi türünü seçin (varsayılan olarak Doğrusal tür seçilidir). Polinom tipi için Derece alanında, seçili polinomun derecesini belirtin.

1 ... Seri Üzerinde Çizilen kutusu, söz konusu grafiğin tüm veri serilerini listeler. Belirli bir veri serisine bir eğilim çizgisi eklemek için, Dizide Çizilen alanında adını seçin.

Gerekirse, Parameters sekmesine giderek (Şekil 2), trend çizgisi için aşağıdaki parametreleri ayarlayabilirsiniz:

yaklaşık (düzleştirilmiş) eğri alanının Adı'ndaki eğilim çizgisinin adını değiştirin.

tahmin alanında tahmin için dönem sayısını (ileri veya geri) ayarlayın;

grafik alanında denklemi göstermek için onay kutusunu etkinleştirmeniz gereken grafik alanında eğilim çizgisinin denklemini görüntüleyin;

yaklaşık güvenilirlik değerini (R ^ 2) diyagrama yerleştirmek için onay kutusunu etkinleştirmeniz gereken diyagram alanında R2 yaklaşık güvenilirliğinin değerini görüntüleyin;

eğilim çizgisinin Y ekseni ile kesişme noktasını ayarlayın, bunun için eğrinin Y ekseni ile bir noktada kesişmesini onay kutusunu işaretleyin;

iletişim kutusunu kapatmak için Tamam düğmesine tıklayın.

Önceden oluşturulmuş bir trend çizgisini düzenlemeye başlamanın üç yolu vardır:

trend çizgisini seçtikten sonra Biçim menüsünden Seçilen trend çizgisi komutunu kullanın;

trend çizgisine sağ tıklayarak açılan bağlam menüsünden Trend çizgisini biçimlendir komutunu seçin;

trend çizgisine çift tıklayarak.

Eğilim Çizgisi Formatı iletişim kutusu (Şekil 3) ekranda üç sekme içeren görünecektir: Görünüm, Tür, Parametreler ve son ikisinin içeriği Eğilim Çizgisi iletişim kutusunun benzer sekmeleriyle tamamen örtüşür (Şekil 1-2). Görünüm sekmesinde çizgi türünü, rengini ve kalınlığını ayarlayabilirsiniz.

Halihazırda oluşturulmuş bir trend çizgisini silmek için, silinecek trend çizgisini seçin ve Sil tuşuna basın.

Dikkate alınan regresyon analizi aracının avantajları şunlardır:

bunun için bir veri tablosu oluşturmadan grafikler üzerinde bir eğilim çizgisi çizmenin göreceli kolaylığı;

oldukça geniş bir önerilen eğilim çizgisi türleri listesi ve bu liste en sık kullanılan regresyon türlerini içerir;

Çalışılan sürecin davranışını gelişigüzel (sağduyu dahilinde) ileriye doğru ve geriye doğru adım sayısı için tahmin etme yeteneği;

eğilim çizgisinin denklemini analitik bir biçimde elde etme yeteneği;

gerekirse, yaklaşıklığın güvenilirliğine ilişkin bir tahmin elde etme olasılığı.

Dezavantajlar aşağıdaki noktaları içerir:

bir eğilim çizgisinin inşası, yalnızca bir dizi veriye dayalı bir şema varsa gerçekleştirilir;

Çalışılan karakteristik için elde edilen trend çizgisi denklemlerine dayalı veri serileri oluşturma süreci biraz dağınıktır: aranan regresyon denklemleri, orijinal veri serilerinin değerlerindeki her değişiklikle, ancak yalnızca diyagram alanı içinde güncellenirken, veri serileri eski çizgi denklemine göre oluşturulur. eğilim değişmeden kalır;

pivotChart raporlarında, bir grafiğin veya bağlantılı bir PivotTable raporunun görünümünü değiştirdiğinizde, mevcut eğilim çizgileri korunmaz, yani eğilim çizgilerini çizmeden veya PivotChart raporunu başka bir şekilde biçimlendirmeden önce, rapor düzeninin ihtiyaçlarınızı karşıladığından emin olmalısınız.

Eğilim çizgileri, grafikler, çubuk grafikler, düz normalize edilmemiş alan grafikleri, çubuk, dağılım, kabarcık ve hisse senedi grafiklerinde sunulan veri serilerini desteklemek için kullanılabilir.

3-B, Normalleştirilmiş, Radar, Pasta ve Halka grafiklerinde veri serilerine eğilim çizgileri ekleyemezsiniz.

Yerleşik Excel işlevlerini kullanma

Excel ayrıca, grafik alanının dışındaki eğilim çizgilerini çizmek için bir regresyon analizi aracı sağlar. Bu amaç için bir dizi çalışma sayfası istatistiksel işlevi kullanılabilir, ancak bunların tümü yalnızca doğrusal veya üstel regresyonların oluşturulmasına izin verir.

Excel, doğrusal regresyon oluşturmak için çeşitli işlevler sağlar, özellikle:

AKIM;

EĞİM ve KES.

Üstel bir eğilim çizgisi oluşturmak için çeşitli işlevler, özellikle:

LGRFPRIBL.

TREND ve GROWTH işlevlerini kullanarak regresyon oluşturma yöntemlerinin pratikte aynı olduğu unutulmamalıdır. LINEST ve LGRFPRIBL çift işlevler için de aynısı söylenebilir. Bu dört işlev için, dizi formülleri gibi Excel özellikleri, regresyon sürecini biraz karmaşık hale getiren bir değerler tablosu oluşturmak için kullanılır. Ayrıca, bizim görüşümüze göre, doğrusal regresyonun inşasının, EĞİM ve KESMENOKT fonksiyonlarını kullanarak gerçekleştirilmesinin en kolay olduğunu unutmayın; burada, birincisi doğrusal regresyonun eğimini belirler ve ikincisi, ordinat eksenindeki regresyon tarafından kesilen segmenttir.

Yerleşik regresyon analizi aracının faydaları şunları içerir:

eğilim çizgilerini belirleyen tüm yerleşik istatistiksel işlevler için incelenen karakteristiğin aynı tür veri dizisi oluşumunun oldukça basit bir süreci;

oluşturulan veri serilerine göre trend çizgilerini çizmek için standart teknik;

İleri veya geri doğru gerekli adım sayısı için çalışılan sürecin davranışını tahmin etme yeteneği.

Dezavantajı, Excel'in diğer (doğrusal ve üstel) eğilim çizgisi türlerini oluşturmak için yerleşik işlevlere sahip olmamasıdır. Bu durum genellikle, çalışılan sürecin yeterince doğru bir modelinin seçilmesine ve gerçeğe yakın tahminlerin elde edilmesine izin vermez. Ayrıca, TREND ve GROWTH işlevlerini kullanırken eğilim çizgisi denklemleri bilinmemektedir.

Yazarların, farklı derecelerde tamlık ile regresyon analizinin gidişatını sunmak için makalenin amacını belirlemediğine dikkat edilmelidir. Ana görevi, belirli örnekler kullanarak Excel'in yaklaştırma problemlerini çözmedeki yeteneklerini göstermektir; Excel'in regresyon ve tahmin oluşturmak için hangi etkili araçlara sahip olduğunu gösterin; Bu tür problemlerin, derin regresyon analizi bilgisine sahip olmayan bir kullanıcı tarafından bile ne kadar kolay çözülebileceğini gösterin.

Belirli problemleri çözme örnekleri

Excel paketinin listelenen araçlarını kullanarak belirli sorunları çözmeyi düşünelim.

Problem 1

1995-2002 yılları arasında bir nakliye şirketinin karına ilişkin bir veri tablosu ile. aşağıdakileri yapmanız gerekir.

Bir diyagram oluşturun.

Grafiğe doğrusal ve polinom (ikinci dereceden ve kübik) eğilim çizgileri ekleyin.

Trend çizgisi denklemlerini kullanarak, 1995-2004 için her bir trend çizgisi için kurumsal karlar hakkında tablo verileri elde edin.

İşletmenin 2003 ve 2004 karı için bir tahmin yapın.

Sorunun çözümü

Excel çalışma sayfasının A4: C11 hücre aralığında, Şekil 2'de gösterilen çalışma sayfasını girin. 4.

B4: C11 hücre aralığını seçtikten sonra bir diyagram oluşturuyoruz.

Oluşturulan grafiği etkinleştiririz ve yukarıda açıklanan yönteme göre, Trend çizgisi iletişim kutusundaki trend çizgisi türünü seçtikten sonra (bkz. Şekil 1), sırasıyla grafiğe doğrusal, ikinci dereceden ve kübik trend çizgileri ekleriz. Aynı iletişim kutusunda, Parametreler sekmesini açın (bkz.Şekil 2), Yaklaşık (düzleştirilmiş) eğri alanının Adı alanına eklenen trendin adını girin ve İleriye doğru tahmin: dönemler alanında 2 değerini ayarlayın, çünkü iki kişi için bir kar tahmini yapılması planlandı önümüzdeki yıllar. Regresyon denklemini ve yaklaşık güven değeri R2'yi diyagram alanında görüntülemek için, denklemi ekranda göstermek için onay kutularını açın ve yaklaşık güven değerini (R ^ 2) diyagrama yerleştirin. Daha iyi bir görsel algı için, Eğilim Çizgisi Formatı iletişim kutusunun Görünüm sekmesini kullandığımız inşa edilmiş eğilim çizgilerinin türünü, rengini ve kalınlığını değiştiriyoruz (bkz. Şekil 3). Eklenen trend çizgileri ile ortaya çıkan diyagram, Şekil 2'de gösterilmiştir. beş.

1995-2004 için her trend çizgisi için kurumsal karlar hakkında tablo verileri elde etmek. Şekil 2'de gösterilen eğilim çizgisi denklemlerini kullanalım. 5. Bunu yapmak için, D3: F3 aralığındaki hücrelerde, seçilen trend çizgisinin türü hakkında metin bilgilerini girin: Doğrusal eğilim, Karesel eğilim, Kübik eğilim. Ardından, D4 hücresine doğrusal regresyon formülünü girin ve dolgu işaretleyicisini kullanarak, bu formülü D5: D13 hücre aralığına göreceli referanslarla kopyalayın. D4: D13 hücre aralığından doğrusal bir regresyon formülüne sahip her hücrenin, karşılık gelen hücreyi A4: A13 aralığından bağımsız değişken olarak aldığına dikkat edilmelidir. Benzer şekilde, ikinci dereceden regresyon için E4: E13 hücre aralığı doldurulur ve kübik regresyon için hücre aralığı F4: F13 doldurulur. Böylelikle işletmenin 2003 ve 2004 karı için tahmin yapılmıştır. üç eğilim kullanıyor. Elde edilen değerler tablosu Şekil 2'de gösterilmektedir. 6.

Problem 2

Bir diyagram oluşturun.

Grafiğe logaritmik, kuvvetli ve üstel eğilim çizgileri ekleyin.

Elde edilen trend çizgilerinin denklemlerini ve bunların her biri için yaklaşım güvenilirliği R2 değerlerini türetiniz.

Trend çizgisi denklemlerini kullanarak, 1995-2002 için her bir trend çizgisi için kurumsal karlarla ilgili tablo verileri elde edin.

Bu trend çizgilerini kullanarak şirketin 2003 ve 2004 karını tahmin edin.

Sorunun çözümü

Problem 1 çözümünde verilen metodolojiyi takiben, eklenen logaritmik, güç ve üstel trend çizgileri içeren bir diyagram elde ederiz (Şekil 7). Ayrıca, eğilim çizgilerinin elde edilen denklemlerini kullanarak, 2003 ve 2004 için tahmin edilen değerler de dahil olmak üzere, işletmenin karı için değerler tablosunu dolduruyoruz. (şek. 8).

İncirde. 5 ve şek. Logaritmik bir eğilime sahip modellerin yaklaşık güvenilirliğin en küçük değerine karşılık geldiği görülebilir.

R2 \u003d 0.8659

En büyük R2 değerleri, polinom eğilimi olan modellere karşılık gelir: ikinci dereceden (R2 \u003d 0,9263) ve kübik (R2 \u003d 0,933).

Sorun 3

Görev 1'de verilen, 1995-2002 yılları arasında bir nakliye şirketinin karına ilişkin veri tablosu ile aşağıdaki işlemleri gerçekleştirmelisiniz.

TREND ve GROWTH işlevlerini kullanarak doğrusal ve üstel eğilim çizgisi için veri serileri alın.

EĞİLİM ve BÜYÜME işlevlerini kullanarak, şirketin 2003 ve 2004 karını tahmin edin.

İlk veriler ve alınan veri serileri için bir şema oluşturun.

Sorunun çözümü

Görev 1'in çalışma sayfasını kullanalım (bkz. Şekil 4). TREND işleviyle başlayalım:

işletmenin karına ilişkin bilinen verilere karşılık gelen, TREND işlevinin değerleriyle doldurulması gereken D4: D11 hücre aralığını seçin;

ekle menüsünden İşlev komutunu çağırın. Görünen İşlev Sihirbazı iletişim kutusunda, İstatistik kategorisinden TREND işlevini seçin ve ardından Tamam düğmesine tıklayın. Aynı işlem, standart araç çubuğundaki (İşlev Ekle) düğmesine basılarak da gerçekleştirilebilir.

Görünen İşlev Bağımsız Değişkenleri iletişim kutusunda, Bilinen_değerler alanına C4: C11 hücre aralığını girin; Bilinen_x alanında - B4: B11 hücre aralığı;

girilen formülü bir dizi formülü yapmak için + + tuş kombinasyonunu kullanın.

Formül çubuğuna girdiğimiz formül şöyle görünecektir: \u003d (TREND (C4: C11; B4: B11)).

Sonuç olarak, D4: D11 hücre aralığı, TREND işlevinin karşılık gelen değerleriyle doldurulur (Şekil 9).

Şirketin 2003 ve 2004 karını tahmin etmek. bu gerekli:

tREND işlevi tarafından tahmin edilen değerlerin girileceği D12: D13 hücre aralığını seçin.

tREND işlevini çağırın ve görünen İşlev Bağımsız Değişkenleri iletişim kutusunda Bilinen_değerler_y alanına C4: C11 hücre aralığını girin; Bilinen_x alanında - B4: B11 hücre aralığı; ve Yeni_x_değerleri alanında, B12: B13 hücre aralığı.

ctrl + Shift + Enter klavye kısayolunu kullanarak bu formülü bir dizi formülüne dönüştürün.

Girilen formül şöyle görünecektir: \u003d (TREND (C4: C11; B4: B11; B12: B13)) ve D12: D13 hücre aralığı, TREND işlevinin tahmin edilen değerleriyle doldurulacaktır (bkz. Şekil 9).

Benzer şekilde, doğrusal olmayan bağımlılıkların analizinde kullanılan ve doğrusal analog TREND ile aynı şekilde çalışan BÜYÜME işlevi kullanılarak bir dizi veri doldurulur.

Şekil 10, formül görüntüleme modunda bir tabloyu göstermektedir.

İlk veriler ve elde edilen veri serileri için, Şekil 2'de gösterilen diyagram. onbir.

Sorun 4

Karayolu taşımacılığı firmasının sevk servisi tarafından mevcut ayın 1'den 11'ine kadar olan süre boyunca hizmet başvurularının alınmasına ilişkin veri tablosu ile aşağıdaki işlemleri yapmanız gerekir.

Doğrusal regresyon için veri serilerini alın: EĞİM ve KESMENOKT işlevlerini kullanarak; DOT işlevini kullanarak.

LGRFPRIBL işlevini kullanarak üstel regresyon için bir veri serisi alın.

Yukarıdaki işlevleri kullanarak, cari ayın 12. ila 14. günü arasındaki dönem için gönderim hizmetindeki başvuruların alınması hakkında bir tahmin yapın.

Orijinal ve alınan veri serileri için bir diyagram oluşturun.

Sorunun çözümü

EĞİLİM ve BÜYÜME işlevlerinden farklı olarak, yukarıda listelenen işlevlerden hiçbirinin (EĞİM, KESME, DOT, LGRFPRIB) bir gerileme olmadığını unutmayın. Bu işlevler, regresyonun gerekli parametrelerini belirleyen yalnızca yardımcı bir rol oynar.

SLOPE, INTERCEPT, LINEST, LGRFPRIB fonksiyonları kullanılarak oluşturulan lineer ve üstel regresyonlar için, TREND ve GROWTH fonksiyonlarına karşılık gelen lineer ve üstel regresyonların aksine, denklemlerinin görünümü her zaman bilinir.

1 ... Denklemle doğrusal bir regresyon oluşturalım:

y \u003d mx + b

eĞİM ve KESMEN işlevleriyle, burada eğim m EĞİM işlevi ve kesişim b KESME işlevi tarafından belirlenir.

Bunu yapmak için aşağıdaki eylemleri gerçekleştiriyoruz:

orijinal tabloyu A4: B14 hücre aralığına giriyoruz;

m parametresinin değeri C19 hücresinde belirlenecektir. Eğim İstatistik kategorisinden seçin; Bilinen_y alanına B4: B14 hücre aralığını ve bilinen_x alanına A4: A14 hücre aralığını girin. Formülü C19 hücresine gireceksiniz: \u003d EĞİM (B4: B14; A4: A14);

benzer bir yöntemle, D19 hücresindeki b parametresinin değeri belirlenir. Ve içeriği şöyle görünecektir: \u003d INTERCEPT (B4: B14; A4: A14). Dolayısıyla, doğrusal regresyonu oluşturmak için gerekli olan m ve b parametrelerinin değerleri sırasıyla C19, D19 hücrelerinde depolanacaktır;

daha sonra C4 hücresine doğrusal regresyon formülünü şu şekilde giriyoruz: \u003d $ C * A4 + $ D. Bu formülde, C19 ve D19 hücreleri mutlak referanslarla yazılır (kopyalama mümkün olduğunda hücre adresi değişmemelidir). Mutlak referans işareti $, imleç hücre adresi üzerine yerleştirildikten sonra klavyeden veya F4 tuşu kullanılarak yazılabilir. Doldurma tutamacını kullanarak bu formülü C4: C17 hücre aralığına kopyalayın. Gerekli veri serisini alıyoruz (Şekil 12). Sipariş sayısının bir tam sayı olması nedeniyle, Hücreleri biçimlendir penceresinin Sayı sekmesinde sayı biçimini 0 ondalık basamağa ayarlayın.

2 ... Şimdi denklemle verilen doğrusal bir regresyon oluşturalım:

y \u003d mx + b

dOT işlevini kullanarak.

Bunun için:

dOT işlevini dizi formülü olarak C20: D20 hücre aralığına girin: \u003d (DOT (B4: B14; A4: A14)). Sonuç olarak, C20 hücresinde m parametresinin değerini ve D20 hücresinde - b parametresinin değerini alırız;

formülü D4 hücresine girin: \u003d $ C * A4 + $ D;

bu formülü doldurma tutamacıyla D4: D17 hücre aralığına kopyalayın ve gerekli veri serisini alın.

3 ... Denklemle üstel bir regresyon oluşturuyoruz:

lGRFPRIBL işlevi kullanılarak, aynı şekilde gerçekleştirilir:

c21: D21 hücre aralığında LGRFPRIBL işlevini bir dizi formülü olarak giriyoruz: \u003d (LGRFPRIBL (B4: B14; A4: A14)). Bu durumda, C21 hücresinde m parametresinin değeri belirlenir ve D21 hücresinde - b parametresinin değeri;

formül E4 hücresine girilir: \u003d $ D * $ C ^ A4;

doldurma işaretçisi kullanılarak bu formül, üstel regresyon için veri serilerinin yerleştirileceği E4: E17 hücre aralığına kopyalanır (bkz. Şekil 12).

İncirde. 13, formüllerin yanı sıra gerekli hücre aralıklarıyla kullandığımız fonksiyonları görebileceğiniz bir tablodur.

Miktar R, 2 aranan determinasyon katsayısı.

Bir regresyon bağımlılığı oluşturmanın görevi, R katsayısının maksimum değerini aldığı modelin (1) m katsayılarının vektörünü bulmaktır.

R'nin önemini değerlendirmek için, Fisher's F testi kullanılır ve formülle hesaplanır.

nerede n - örnek boyutu (deney sayısı);

k, model katsayılarının sayısıdır.

F, veriler için bazı kritik değerleri aşarsa n ve k ve kabul edilen güven seviyesi, ardından R'nin değeri önemli kabul edilir. F'nin kritik değerlerinin tabloları matematiksel istatistik el kitaplarında verilmiştir.

Bu nedenle, R'nin önemi yalnızca değeriyle değil, aynı zamanda deney sayısı ile modelin katsayılarının (parametrelerinin) sayısı arasındaki oranla da belirlenir. Aslında, basit bir doğrusal model için n \u003d 2 için korelasyon oranı 1'dir (tek bir düz çizgi her zaman düzlemdeki 2 noktadan çizilebilir). Bununla birlikte, deneysel veriler rastgele değerler ise, bu R değerine güvenmek için büyük özen gösterilmelidir. Genellikle, önemli R ve güvenilir regresyon elde etmek için, deney sayısının model katsayılarının sayısını (n\u003e k) önemli ölçüde aşmasını sağlamaya çalışır.

Doğrusal bir regresyon modeli oluşturmak için şunları yapmanız gerekir:

1) deneysel verileri içeren n satır ve m sütundan oluşan bir liste hazırlayın (çıktı değerini içeren sütun Ylistedeki ilk veya sonuncu olmalıdır); örneğin, önceki görevin verilerini alacağız, "Dönem No." adında bir sütun ekleyeceğiz, dönem numaralarını 1'den 12'ye kadar numaralandıracağız (bunlar X)

2) Veri / Veri Analizi / Regresyon menüsüne gidin

"Araçlar" menüsünde "Veri Analizi" öğesi yoksa, aynı menünün "Eklentiler" öğesine gitmeli ve "Analiz paketi" onay kutusunu seçmelisiniz.

3) "Regresyon" iletişim kutusu setinde:

· Giriş aralığı Y;

· Giriş aralığı X;

· Çıktı aralığı - hesaplamaların sonuçlarının yerleştirileceği aralığın sol üst hücresi (yeni bir çalışma sayfasına yerleştirilmesi önerilir);

4) "Tamam" ı tıklayın ve sonuçları analiz edin.

Programlama

Eğitimi

Giriş

Ben bir yazılım matematikçisiyim. Kariyerimdeki en büyük sıçrama şunu söylemeyi öğrendiğim zamandı: "Hiç birşey anlamıyorum!" Şimdi, bilimin aydınlığına bana bir ders verdiğini, bana ne anlattığını anlamadığımı söylemekten utanmıyorum. Ve bu çok zor. Evet, cehaletinizi kabul etmek zor ve utanç verici. Orada bir şeyin temellerini bilmediğini kabul etmekten hoşlanan. Mesleğim gereği, itiraf ediyorum, vakaların büyük çoğunluğunda hiçbir şey anlamadığım için kendimi uykulu hissediyorum. Ve anlamıyorum, çünkü bilimdeki mevcut durumun en büyük sorunu matematikte yatıyor. Tüm öğrencilerin matematiğin kesinlikle tüm alanlarına aşina olduğunu varsayar (ki bu saçma). Türevin ne olduğunu bilmediğinizi kabul etmek utanç verici (biraz sonra olacak).

Ama çarpmanın ne olduğunu bilmediğimi söylemeyi öğrendim. Evet, Lie cebirinin alt cebirinin ne olduğunu bilmiyorum. Evet, hayatta ikinci dereceden denklemlere neden ihtiyaç duyulduğunu bilmiyorum. Bu arada, bildiğinizden eminseniz, konuşacak bir şeyimiz var! Matematik bir dizi numaradır. Matematikçiler halkı şaşırtmaya ve korkutmaya çalışır; karışıklığın, itibarın, otoritenin olmadığı yerde. Evet, olabildiğince soyut bir dille konuşmak prestijlidir, ki bu başlı başına tamamen saçmadır.

Türevin ne olduğunu biliyor musunuz? Muhtemelen bana fark oranı sınırından bahsedeceksiniz. St.Petersburg Eyalet Üniversitesi'ndeki matematiğin ilk yılında, Victor Petrovich Khavin tespit Taylor serisinin bir noktadaki ilk terim katsayısı olarak türev (türevsiz Taylor serisini belirlemek için ayrı bir cimnastikti). Bu tanıma uzun süre güldüm, ta ki ne hakkında olduğunu nihayet anlayana kadar. Türev, farklılaştırdığımız fonksiyonun y \u003d x, y \u003d x ^ 2, y \u003d x ^ 3 fonksiyonuna ne kadar benzediğinin bir ölçüsünden başka bir şey değildir.

Şimdi öğrencilere ders verme onuruna sahibim. korku matematik. Matematikten korkuyorsanız aynı yoldayız. Bir metni okumaya çalıştığınızda ve size aşırı karmaşık göründüğünde, kötü yazılmış olduğunu bilin. Doğruluğu kaybetmeden "parmaklar" dan bahsedilemeyecek tek bir matematik alanı olmadığını savunuyorum.

Yakın gelecek için görev: Öğrencilerime doğrusal-ikinci dereceden bir düzenleyicinin ne olduğunu anlamalarını söyledim. Tereddüt etmeyin, hayatınızın üç dakikasını geçirin, linki takip edin. Hiçbir şey anlamazsan, yolumuza devam ederiz. Ben (profesyonel bir matematikçi-programcı) da hiçbir şey anlamadım. Ve sizi temin ederim ki parmaklarınızla çözebilirsiniz. Şu anda ne olduğunu bilmiyorum, ama sizi temin ederim ki çözebileceğiz.

Öyleyse, doğrusal-kuadratik bir düzenleyicinin hayatımda asla ustalaşamayacak korkunç bir yanılgı olduğu sözleriyle korku içinde bana koşarak geldiklerinde öğrencilerime okuyacağım ilk ders, bu en küçük kareler yöntemleri... Doğrusal denklemleri çözebilir misin? Bu metni okuyorsanız, büyük olasılıkla değil.

Dolayısıyla, (x0, y0), (x1, y1), örneğin (1,1) ve (3,2) gibi iki nokta verildiğinde, sorun bu iki noktadan geçen düz bir çizginin denklemini bulmaktır:

örnekleme

Bu çizgi aşağıdaki gibi bir denkleme sahip olmalıdır:

Burada alfa ve beta bizim için bilinmemektedir, ancak bu çizginin iki noktası bilinmektedir:

Bu denklemi matris formunda yazabilirsiniz:

Burada lirik bir tartışma yapılmalıdır: matris nedir? Bir matris, iki boyutlu bir diziden başka bir şey değildir. Bu, verileri depolamanın bir yoludur, ona daha fazla önem vermemelisiniz. Belirli bir matrisin tam olarak nasıl yorumlanacağı bize bağlıdır. Periyodik olarak onu doğrusal bir gösterim olarak, periyodik olarak ikinci dereceden bir form olarak ve bazen sadece bir vektör kümesi olarak yorumlayacağım. Bunların hepsi bağlam içinde açıklığa kavuşturulacaktır.

Belirli matrisleri sembolik temsilleriyle değiştirelim:

Daha sonra (alfa, beta) kolayca bulunabilir:

Önceki verilerimiz için daha spesifik olarak:

Bu, (1,1) ve (3,2) noktalarından geçen düz çizginin aşağıdaki denklemine yol açar:

Tamam, burada her şey açık. Geçen düz çizginin denklemini bulalım üç noktalar: (x0, y0), (x1, y1) ve (x2, y2):

Oh-oh-oh, ama iki bilinmeyen için üç denklemimiz var! Standart bir matematikçi size çözüm olmadığını söyleyecektir. Programcı ne diyecek? Ve başlangıç \u200b\u200bolarak, önceki denklem sistemini aşağıdaki biçimde yeniden yazacak:

Bizim durumumuzda, i, j, b vektörleri üç boyutludur, bu nedenle (genel durumda) bu sistem için bir çözüm yoktur. Herhangi bir vektör (alfa \\ * i + beta \\ * j), vektörlerin (i, j) yaydığı düzlemde bulunur. B bu düzleme ait değilse çözüm mevcut değildir (denklemde eşitlik sağlanamaz). Ne yapalım? Bir uzlaşma bulalım. Hadi gösterelim e (alfa, beta) tam olarak ne kadar eşitliğe ulaşmadık:

Ve bu hatayı en aza indirmeye çalışacağız:

Neden kare?

Sadece normun minimumunu değil, norm karesinin minimumunu arıyoruz. Neden? Minimum noktanın kendisi çakışır ve kare düzgün bir fonksiyon verir (argümanların ikinci dereceden bir fonksiyonu (alfa, beta)), basitçe uzunluk ise minimum noktada türevlenemeyen koni benzeri bir fonksiyon verir. Brr. Kare daha uygun.

Vektör, hatanın en aza indirildiği açıktır. e vektörler tarafından yayılan düzleme ortogonaldir ben ve j.

örnekleme

Başka bir deyişle, tüm noktalardan bu çizgiye olan mesafelerin kare uzunluklarının toplamı minimum olacak şekilde bir çizgi arıyoruz:

GÜNCELLEME: Burada bir eğim var, düz çizgiye olan mesafe dikey olarak ölçülmeli, dikey bir projeksiyon değil. yorumcu haklı.

örnekleme

Çok farklı kelimelerle (dikkatlice, yetersiz bir şekilde resmileştirilmiş, ancak parmaklarda net olmalı): tüm nokta çiftleri arasındaki tüm olası düz çizgileri alır ve tümü arasındaki ortalama düz çizgiyi ararız:

örnekleme

Parmaklarla ilgili başka bir açıklama: Tüm veri noktaları (burada üç tane var) ile aradığımız düz çizgi arasına bir yay iliştiriyoruz ve denge durumunun düz çizgisi tam olarak aradığımız şeydir.

Minimum ikinci dereceden

Yani, belirli bir vektöre sahip olmak b ve matrisin sütun vektörlerinin kapsadığı düzlem bir (bu durumda (x0, x1, x2) ve (1,1,1)), bir vektör arıyoruz e minimum bir kare uzunluğunda. Açıkçası, minimum sadece vektör için elde edilebilir e, matrisin sütun vektörleri tarafından yayılan düzleme ortogonal bir:

Başka bir deyişle, x \u003d (alpha, beta) vektörünü arıyoruz, öyle ki:

Bu x \u003d (alfa, beta) vektörünün ikinci dereceden fonksiyon || e (alfa, beta) || ^ 2'nin minimum olduğunu hatırlatmama izin verin:

Burada matrisin ikinci dereceden bir form olarak yorumlanabileceğini hatırlamakta fayda var, örneğin, birim matris ((1,0), (0,1)) x ^ 2 + y ^ 2 fonksiyonu olarak yorumlanabilir:

ikinci dereceden form

Bütün bu jimnastik doğrusal regresyon olarak bilinir.

Dirichlet sınır koşullu Laplace denklemi

Şimdi en basit gerçek görev: belirli bir üçgenlenmiş yüzey var, onu düzeltmeniz gerekiyor. Örneğin, yüz modelimi yükleyelim:

İlk taahhüt mevcuttur. Dış bağımlılıkları en aza indirmek için, yazılım oluşturucumun kodunu zaten habr'de aldım. Doğrusal bir sistemi çözmek için OpenNL kullanıyorum, bu mükemmel bir çözücü, ancak kurulumu çok zor: iki dosyayı (.h + .c) projenizin bulunduğu klasöre kopyalamanız gerekiyor. Tüm kenar yumuşatma aşağıdaki kodla yapılır:

İçin (int d \u003d 0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i & yüz \u003d yüzler [i]; for (int j \u003d 0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

X, Y ve Z koordinatları ayrılabilir, onları ayrı ayrı düzeltirim. Yani, her biri modelimdeki köşe sayısına eşit değişken sayısına sahip üç doğrusal denklem sistemi çözüyorum. A matrisinin ilk n satırının satır başına yalnızca bir birimi vardır ve vektör b'nin ilk n satırı orijinal model koordinatlarına sahiptir. Yani, yeni tepe konumu ile eski tepe konumu arasında yaylıyorum - yenileri eskisinden çok uzak olmamalıdır.

A matrisinin sonraki tüm satırları (faces.size () * 3 \u003d ızgaradaki tüm üçgenlerin kenarlarının sayısı) bir oluşum 1'e ve bir oluşum -1'e sahiptir ve vektör b'nin karşısında sıfır bileşen vardır. Bu, üçgen ağımızın her bir kenarına bir yay astığım anlamına gelir: tüm kenarlar, başlangıç \u200b\u200bve bitiş noktası olarak aynı tepe noktasını elde etmeye çalışır.

Bir kez daha: tüm köşeler değişkendir ve orijinal konumlarından uzağa gidemezler, ancak aynı zamanda birbirlerine benzemeye çalışırlar.

İşte sonuç:

Her şey yoluna girecek, model gerçekten düzeltildi, ancak orijinal kenarından uzaklaştı. Kodu biraz değiştirelim:

(İnt i \u003d 0; i için<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

A matrisimizde, kenardaki köşeler için, v_i \u003d verts [i] [d] bitinden bir satır değil, 1000 * v_i \u003d 1000 * verts [i] [d] ekliyorum. Neyi değiştirir? Ve bizim kare kanun hatamızı değiştirir. Şimdi, kenardaki tepe noktasından bir birim sapma, eskisi gibi bir birime değil, 1000 * 1000 birime mal olacak. Yani, en uç noktalara daha güçlü bir yay astık, çözüm diğerlerini daha fazla esnetmeyi tercih ediyor. İşte sonuç:

Köşeler arasındaki yayları ikiye katlayalım:
nlCoefficient (yüz [j], 2); nlCoefficient (yüz [(j + 1)% 3], -2);

Yüzeyin daha pürüzsüz hale gelmesi mantıklı:

Ve şimdi yüz kat daha güçlü:

Bu ne? Sabunlu suya bir tel halkayı daldırdığınızı hayal edin. Sonuç olarak, ortaya çıkan sabunlu film, sınıra - tel halkamıza - dokunarak mümkün olduğunca en küçük eğriliğe sahip olmaya çalışacaktır. Sınırı sabitleyerek ve iç tarafta pürüzsüz bir yüzey isteyerek elde ettiğimiz tam da bu. Tebrikler, Laplace denklemini Dirichlet sınır koşullarıyla çözdük. Kulağa hoş geliyor mu? Ama aslında çözülmesi gereken tek bir doğrusal denklem sistemi.

Poisson denklemi

Başka bir havalı ismi hatırlayalım.

Şöyle bir resmim olduğunu varsayalım:

Herkes iyidir, ama sandalyeyi sevmiyorum.

Resmi ikiye böleceğim:

Ve sandalyeyi ellerimle vurgulayacağım:

Sonra maskedeki beyaz olan her şeyi resmin sol tarafına çekeceğim ve aynı zamanda resim boyunca iki komşu piksel arasındaki farkın sağ resmin iki komşu pikseli arasındaki farka eşit olması gerektiğini söyleyeceğim:

(İnt i \u003d 0; i için

İşte sonuç:

Kod ve resimler mevcuttur

Sıradan En Küçük Kareler (OLS) - istenen değişkenlerden bazı fonksiyonların sapmalarının karelerinin toplamını en aza indirmeye dayalı, çeşitli problemleri çözmek için kullanılan matematiksel bir yöntem. Üstbelirlenmiş denklem sistemlerini "çözmek" (denklemlerin sayısı bilinmeyenlerin sayısını aştığında), sıradan (fazla belirlenmemiş) doğrusal olmayan denklem sistemleri durumunda bir çözüm bulmak, bazı fonksiyonların nokta değerlerine yaklaşmak için kullanılabilir. OLS, örnek verilere dayalı olarak regresyon modellerinin bilinmeyen parametrelerini tahmin etmek için temel regresyon analizi yöntemlerinden biridir.

Ansiklopedik YouTube

1 / 5

✪ En küçük kareler yöntemi. konu

✪ Mitin IV - Fiziksel sonuçların işlenmesi. Deney - En Küçük Kareler Yöntemi (Ders 4)

✪ En küçük kareler dersi 1/2. Doğrusal fonksiyon

✪ Ekonometri. Ders 5 En küçük kareler yöntemi

✪ En küçük kareler yöntemi. Yanıtlar

Altyazı

Tarih

19. yüzyılın başına kadar. Bilim adamlarının, bilinmeyenlerin sayısının denklem sayısından daha az olduğu bir denklem sistemini çözmek için kesin kuralları yoktu; O zamana kadar, denklem tipine ve hesap makinelerinin zekasına bağlı olarak belirli yöntemler kullanıldı ve bu nedenle aynı gözlemsel verilere dayanan farklı hesap makineleri farklı sonuçlara ulaştı. Gauss (1795), yöntemin ilk uygulamasının yazarıydı ve Legendre (1805), bağımsız olarak keşfetti ve modern adıyla (fr. Méthode des moindres kavgaları). Laplace yöntemi olasılık teorisi ile ilişkilendirdi ve Amerikalı matematikçi Edrain (1808) onun olasılıksal uygulamalarını değerlendirdi. Yöntem, Encke, Bessel, Hansen ve diğerleri tarafından yapılan ileri araştırmalarla yaygınlaştırıldı ve geliştirildi.

En küçük kareler yönteminin özü

İzin vermek x (\\ displaystyle x) - Ayarlamak n (\\ displaystyle n) bilinmeyen değişkenler (parametreler), f ben (x) (\\ Displaystyle f_ (i) (x)), , m\u003e n (\\ Displaystyle m\u003e n) - bu değişkenler kümesinden bir dizi işlev. Görev, bu tür değerleri seçmektir x (\\ displaystyle x)böylece bu işlevlerin değerleri bazı değerlere olabildiğince yakın olur y ben (\\ Displaystyle y_ (i))... Esasen, üst belirlenmiş denklem sistemini "çözmekten" bahsediyoruz f ben (x) \u003d y ben (\\ Displaystyle f_ (i) (x) \u003d y_ (i)), ben \u003d 1,…, m (\\ displaystyle i \u003d 1, \\ ldots, m) sistemin sol ve sağ kısımlarının maksimum yakınlığının belirtilen anlamında. LSM'nin özü, sol ve sağ tarafların sapmalarının karelerinin toplamını bir "yakınlık ölçüsü" olarak seçmektir. | f ben (x) - y i | (\\ Displaystyle | f_ (i) (x) -y_ (i) |)... Dolayısıyla OLS'nin özü şu şekilde ifade edilebilir:

∑ iei 2 \u003d ∑ ben (yi - fi (x)) 2 → min x (\\ displaystyle \\ toplamı _ (i) e_ (i) ^ (2) \u003d \\ toplamı _ (i) (y_ (i) -f_ ( i) (x)) ^ (2) \\ rightarrow \\ min _ (x)).

Denklem sisteminin bir çözümü varsa, kareler toplamının minimum değeri sıfır olacaktır ve denklem sisteminin kesin çözümleri analitik olarak veya örneğin çeşitli sayısal optimizasyon yöntemleriyle bulunabilir. Sistemin üst sınırı belirlenmişse, yani gevşek bir şekilde konuşuyorsa, bağımsız denklemlerin sayısı aranan değişkenlerin sayısından daha büyükse, bu durumda sistemin kesin bir çözümü yoktur ve en küçük kareler yöntemi bazı "optimal" vektörleri bulmanızı sağlar. x (\\ displaystyle x) vektörlerin maksimum yakınlığı anlamında y (\\ Displaystyle y) ve f (x) (\\ Displaystyle f (x)) veya sapma vektörünün maksimum yakınlığı e (\\ Displaystyle e) sıfıra (yakınlık Öklid mesafesi anlamında anlaşılır).

Örnek - bir doğrusal denklem sistemi

Özellikle, en küçük kareler yöntemi bir doğrusal denklem sistemini "çözmek" için kullanılabilir.

Bir x \u003d b (\\ displaystyle Ax \u003d b),

nerede Bir (\\ Displaystyle A) dikdörtgen boyutlu matris m × n, m\u003e n (\\ displaystyle m \\ kere n, m\u003e n) (yani A matrisinin satır sayısı, aranan değişkenlerin sayısından fazladır).

Genel durumda, böyle bir denklem sisteminin çözümü yoktur. Bu nedenle, bu sistem ancak böyle bir vektörün seçilmesi anlamında "çözülebilir" x (\\ displaystyle x)vektörler arasındaki "mesafeyi" en aza indirmek için Bir x (\\ displaystyle Balta) ve b (\\ Displaystyle b)... Bunu yapmak için, sistemin denklemlerinin sol ve sağ tarafları arasındaki farkların karelerinin toplamını minimize etme kriterini uygulayabilirsiniz, yani (A x - b) T (A x - b) → min (\\ Displaystyle (Ax-b) ^ (T) (Ax-b) \\ sağ yön \\ min)... Bu küçültme problemini çözmenin aşağıdaki denklem sisteminin çözülmesine yol açtığını göstermek kolaydır.

ATA x \u003d AT b ⇒ x \u003d (ATA) - 1 AT b (\\ Displaystyle A ^ (T) Ax \u003d A ^ (T) b \\ Sağa x \u003d (A ^ (T) A) ^ (- 1) A ^ (T) b).

Regresyon analizinde OLS (veri uyumu)

Orada olsun n (\\ displaystyle n) bazı değişkenlerin değerleri y (\\ Displaystyle y) (bunlar gözlemlerin, deneylerin vb. sonuçları olabilir) ve ilgili değişkenler x (\\ displaystyle x)... Buradaki zorluk, arasındaki ilişkinin sağlanmasıdır. y (\\ Displaystyle y) ve x (\\ displaystyle x) bilinmeyen bazı parametrelere kadar bilinen bazı işlevlerle yaklaşık b (\\ Displaystyle b)yani en iyi parametre değerlerini bulun b (\\ Displaystyle b), maksimum yaklaşık değerler f (x, b) (\\ displaystyle f (x, b)) gerçek değerlere y (\\ Displaystyle y)... Aslında, bu, üst belirlenmiş bir denklem sisteminin "çözülmesi" durumuna indirgenir. b (\\ Displaystyle b):

F (x t, b) \u003d y t, t \u003d 1,…, n (\\ displaystyle f (x_ (t), b) \u003d y_ (t), t \u003d 1, \\ ldots, n).

Regresyon analizinde ve özellikle ekonometride, değişkenler arasındaki ilişkinin olasılıksal modelleri kullanılır.

Y t \u003d f (x t, b) + ε t (\\ displaystyle y_ (t) \u003d f (x_ (t), b) + \\ varepsilon _ (t)),

nerede ε t (\\ Displaystyle \\ varepsilon _ {t)) - Lafta rastgele hatalar modelleri.

Buna göre, gözlemlenen değerlerin sapmaları y (\\ Displaystyle y) modelden f (x, b) (\\ displaystyle f (x, b)) zaten modelin kendisinde olduğu varsayılmaktadır. OLS'nin (sıradan, klasik) özü, bu tür parametreleri bulmaktır. b (\\ Displaystyle b)sapmaların karelerinin toplamı (hatalar, regresyon modelleri için bunlara genellikle regresyon artıkları denir) e t (\\ Displaystyle e_ {t)) minimum olacak:

b ^ O L S \u003d arg \u2061 min b R S S (b) (\\ Displaystyle (\\ şapka (b)) _ (OLS) \u003d \\ arg \\ min _ (b) RSS (b)),

nerede R S S (\\ displaystyle RSS) - İngilizce. Artık Kareler Toplamı şu şekilde tanımlanır:

RSS (b) \u003d e T e \u003d ∑ t \u003d 1 net 2 \u003d ∑ t \u003d 1 n (yt - f (xt, b)) 2 (\\ displaystyle RSS (b) \u003d e ^ (T) e \u003d \\ toplamı _ (t \u003d 1) ^ (n) e_ (t) ^ (2) \u003d \\ toplam _ (t \u003d 1) ^ (n) (y_ (t) -f (x_ (t), b)) ^ (2) ).

Genel olarak bu sorun sayısal optimizasyon (minimizasyon) yöntemleriyle çözülebilir. Bu durumda hakkında konuşurlar doğrusal olmayan en küçük kareler (NLS veya NLLS - İngilizce Doğrusal Olmayan En Küçük Kareler). Çoğu durumda, analitik bir çözüm elde edilebilir. Minimizasyon problemini çözmek için, fonksiyonun durağan noktalarını bulmak gerekir. R S S (b) (\\ displaystyle RSS (b)), onu bilinmeyen parametrelerle ayırt ederek b (\\ Displaystyle b), türevleri sıfıra eşitlemek ve ortaya çıkan denklem sistemini çözmek:

∑ t \u003d 1 n (yt - f (xt, b)) ∂ f (xt, b) ∂ b \u003d 0 (\\ displaystyle \\ toplamı _ (t \u003d 1) ^ (n) (y_ (t) -f (x_ (t), b)) (\\ frac (\\ kısmi f (x_ (t), b)) (\\ kısmi b)) \u003d 0).

Doğrusal regresyon için OLS

Regresyon bağımlılığı doğrusal olsun:

yt \u003d ∑ j \u003d 1 kbjxtj + ε \u003d xt T b + ε t (\\ displaystyle y_ (t) \u003d \\ toplamı _ (j \u003d 1) ^ (k) b_ (j) x_ (tj) + \\ varepsilon \u003d x_ ( t) ^ (T) b + \\ varepsilon _ (t)).

İzin vermek y açıklanmakta olan değişkenin gözlemlerinin sütun vektörüdür ve X (\\ displaystyle X) - bu (n × k) (\\ displaystyle ((n \\ kere k)))-Faktörlerin gözlem matrisi (matrisin satırları, belirli bir gözlemdeki faktörlerin değerlerinin vektörleridir, sütunlarla - tüm gözlemlerde belirli bir faktörün değerlerinin bir vektörü). Doğrusal modelin matris gösterimi şöyledir:

y \u003d X b + ε (\\ displaystyle y \u003d Xb + \\ varepsilon).

Daha sonra açıklanan değişkenin tahmin vektörü ve regresyon kalıntılarının vektörü eşit olacaktır.

y ^ \u003d X b, e \u003d y - y ^ \u003d y - X b (\\ displaystyle (\\ şapka (y)) \u003d Xb, \\ dört e \u003d y - (\\ şapka (y)) \u003d y-Xb).

buna göre, regresyon artıklarının karelerinin toplamı

R S S \u003d e T e \u003d (y - X b) T (y - X b) (\\ Displaystyle RSS \u003d e ^ (T) e \u003d (y-Xb) ^ (T) (y-Xb)).

Bu işlevi parametre vektörüyle ayırt etme b (\\ Displaystyle b) ve türevleri sıfıra eşitlediğimizde, bir denklem sistemi elde ederiz (matris formunda):

(X T X) b \u003d X T y (\\ Displaystyle (X ^ (T) X) b \u003d X ^ (T) y).

Şifresi çözülmüş matris formunda, bu denklem sistemi şuna benzer:

(∑ xt 1 2 ∑ xt 1 xt 2 ∑ xt 1 xt 3… ∑ xt 1 xtk ∑ xt 2 xt 1 ∑ xt 2 2 ∑ xt 2 xt 3… ∑ xt 2 xtk ∑ xt 3 xt 1 ∑ xt 3 xt 2 ∑ xt 3 2… ∑ xt 3 xtk ⋮ ⋮ ⋮ ⋱ ⋮ ∑ xtkxt 1 ∑ xtkxt 2 ∑ xtkxt 3… ∑ xtk 2) (b 1 b 2 b 3 ⋮ bk) \u003d (∑ xt 1 yt ∑ xt 2 yt ∑ xt 3 yt ⋮ ∑ xtkyt), (\\ displaystyle (\\ begin (pmatrix) \\ toplamı x_ (t1) ^ (2) & \\ toplamı x_ (t1) x_ (t2) ve \\ toplamı x_ (t1) x_ (t3) ve \\ ldots & \\ toplam x_ (t1) x_ (tk) \\\\\\ toplam x_ (t2) x_ (t1) & \\ toplam x_ (t2) ^ (2) & \\ toplam x_ (t2) x_ (t3) & \\ ldots & \\ (t3) x_ (tk) \\\\\\ vdots & \\ vdots & \\ vdots & \\ ddots & \\ vdots \\\\\\ toplamı x_ (tk) x_ (t1) & \\ sum x_ (tk) x_ (t2) & \\ sum x_ (tk) x_ (t3) & \\ ldots & \\ sum x_ (tk) ^ (2) \\\\\\ end (pmatrix)) (\\ begin (pmatrix) b_ (1) \\\\ b_ (2) \\\\ b_ (3 ) \\\\\\ vdots \\\\ b_ (k) \\\\\\ end (pmatrix)) \u003d (\\ begin (pmatrix) \\ sum x_ (t1) y_ (t) \\\\\\ toplam x_ (t2) y_ (t) \\\\ \\\\\\ toplam x_ (tk) y_ (t) \\\\\\ end (pmatrix)),) tüm meblağların tüm kabul edilebilir değerler üzerinden alındığı yer t (\\ Displaystyle t).

Modele bir sabit dahil edilmişse (her zamanki gibi), o zaman x t 1 \u003d 1 (\\ displaystyle x_ {t1) \u003d 1) hepsiyle t (\\ Displaystyle t)bu nedenle, denklem sisteminin matrisinin sol üst köşesinde, gözlemlerin sayısı var n (\\ displaystyle n)ve ilk satırın ve ilk sütunun kalan öğelerinde - yalnızca değişkenlerin değerlerinin toplamı: ∑ x t j (\\ displaystyle \\ toplamı x_ (tj)) ve sistemin sağ tarafının ilk öğesi ∑ y t (\\ Displaystyle \\ toplamı y_ {t)).

Bu denklem sisteminin çözümü, doğrusal model için OLS tahminlerinin genel formülünü verir:

b ^ OLS \u003d (XTX) - 1 XT y \u003d (1 n XTX) - 1 1 n XT y \u003d V x - 1 C xy (\\ displaystyle (\\ şapka (b)) _ (OLS) \u003d (X ^ (T ) X) ^ (- 1) X ^ (T) y \u003d \\ left ((\\ frac (1) (n)) X ^ (T) X \\ sağ) ^ (- 1) (\\ frac (1) (n )) X ^ (T) y \u003d V_ (x) ^ (- 1) C_ (xy)).

Analitik amaçlar için, bu formülün son gösteriminin yararlı olduğu ortaya çıkar (denklemler sisteminde, n'ye bölündüğünde, toplamlar yerine aritmetik araçlar görünür). Regresyon modelinde veriler merkezli, daha sonra bu gösterimde, birinci matris faktörlerin örnek kovaryans matrisinin anlamını taşır ve ikincisi, bağımlı değişkenle faktörlerin kovaryans vektörüdür. Ek olarak, veriler de normalize SKO'ya (yani nihayetinde standardize), daha sonra birinci matris, faktörlerin seçici bir korelasyon matrisi anlamına gelir, ikinci vektör, bağımlı değişkenle faktörlerin seçici korelasyonlarının bir vektörüdür.

Modeller için OLS tahminlerinin önemli bir özelliği sürekli - inşa edilen regresyon çizgisi, örnek verinin ağırlık merkezinden geçer, yani eşitlik sağlanır:

y ¯ \u003d b 1 ^ + ∑ j \u003d 2 kb ^ jx ¯ j (\\ displaystyle (\\ çubuğu (y)) \u003d (\\ şapka (b_ (1))) + \\ toplamı _ (j \u003d 2) ^ (k) (\\ şapka (b)) _ {j) (\\ bar (x)) _ (j)).

Özellikle, uç durumda, tek regresör sabit olduğunda, tek parametrenin (sabitin kendisi) OLS tahmininin açıklanan değişkenin ortalama değerine eşit olduğunu buluruz. Yani, büyük sayılar yasalarından iyi özellikleriyle bilinen aritmetik ortalama, aynı zamanda bir OLS tahminidir - ondan minimum sapma kareleri toplamı kriterini karşılar.

En basit özel durumlar

Eşleştirilmiş doğrusal regresyon durumunda y t \u003d bir + b x t + ε t (\\ displaystyle y_ {t) \u003d a + bx_ (t) + \\ varepsilon _ (t)), bir değişkenin diğerine doğrusal bağımlılığı tahmin edildiğinde, hesaplama formülleri basitleştirilir (matris cebiri olmadan yapabilirsiniz). Denklem sistemi aşağıdaki gibidir:

(1 x ¯ x ¯ x 2 ¯) (ab) \u003d (y ¯ xy ¯) (\\ displaystyle (\\ başlar (pmatrix) 1 ve (\\ çubuğu (x)) \\\\ (\\ çubuğu (x)) ve (\\ çubuğu (x ^ (2))) \\\\\\ end (pmatrix)) (\\ begin (pmatrix) a \\\\ b \\\\\\ end (pmatrix)) \u003d (\\ begin (pmatrix) (\\ bar (y)) \\\\ Bu nedenle, katsayıların tahminlerini bulmak kolaydır:.

{!LANG-39438bb0f6ae59d897f4fa6865fdf1bc!}

(b ^ \u003d Cov \u2061 (x, y) Var \u2061 (x) \u003d xy ¯ - x ¯ y ¯ x 2 ¯ - x ¯ 2, a ^ \u003d y ¯ - bx ¯. (\\ displaystyle (\\ başlar (vakalar) (\\ hat (b)) \u003d (\\ frac (\\ mathop (\\ textrm (Cov)) (x, y)) (\\ mathop (\\ textrm (Var)) (x))) \u003d (\\ frac ((\\ overline (xy)) - (\\ bar (x)) (\\ bar (y))) ((\\ overline (x ^ (2))) - (\\ overline (x)) ^ (2))), \\\\ ( \\ hat (a)) \u003d (\\ bar (y)) - b (\\ bar (x)). \\ end (durumlar)))

Genel durumda sabit olan modelin tercih edilebilir olmasına rağmen, bazı durumlarda teorik değerlendirmelerden sabitin sabit olduğu bilinmektedir. bir (\\ displaystyle a) sıfır olmalıdır. Örneğin fizikte gerilim ve akım arasındaki ilişki formdadır. U \u003d I ⋅ R (\\ displaystyle U \u003d I \\ cdot R); voltaj ve akımı ölçmek için direnci tahmin etmek gerekir. Bu durumda modelden bahsediyoruz y \u003d b x (\\ displaystyle y \u003d bx)... Bu durumda, denklem sistemi yerine tek denklemimiz var

(∑ x t 2) b \u003d ∑ x t y t (\\ Displaystyle \\ sol (\\ toplamı x_ (t) ^ (2) \\ sağ) b \u003d \\ toplamı x_ (t) y_ (t)).

Sonuç olarak, tek katsayıyı tahmin etme formülü şu şekildedir:

B ^ \u003d ∑ t \u003d 1 nxtyt ∑ t \u003d 1 nxt 2 \u003d xy ¯ x 2 ¯ (\\ displaystyle (\\ şapka (b)) \u003d (\\ frac (\\ toplamı _ (t \u003d 1) ^ (n) x_ (t ) y_ (t)) (\\ toplam _ (t \u003d 1) ^ (n) x_ (t) ^ (2))) \u003d (\\ frac (\\ overline (xy)) (\\ overline (x ^ (2)) ))).

Polinom model durum

Veriler, tek değişkenli bir polinom regresyon fonksiyonu ile donatılmışsa f (x) \u003d b 0 + ∑ ben \u003d 1 k b ben x ben (\\ Displaystyle f (x) \u003d b_ (0) + \\ toplamı \\ sınırları _ (i \u003d 1) ^ (k) b_ (i) x ^ (i)), sonra, dereceyi algılamak x ben (\\ Displaystyle x ^ (i)) herkes için bağımsız faktörler olarak ben (\\ Displaystyle ı) Doğrusal bir modelin parametrelerini tahmin etmek için genel formüle dayalı olarak modelin parametrelerini tahmin edebilirsiniz. Bunun için genel formülde böyle bir yorumla dikkate alınması yeterlidir. x t ben x t j \u003d x t ben x t j \u003d x t ben + j (\\ displaystyle x_ (ti) x_ (tj) \u003d x_ (t) ^ (i) x_ (t) ^ (j) \u003d x_ (t) ^ (i + j)) ve x t j y t \u003d x t j y t (\\ displaystyle x_ (tj) y_ (t) \u003d x_ (t) ^ (j) y_ (t))... Bu nedenle, bu durumda matris denklemleri şu şekilde olacaktır:

(n ∑ nxt… ∑ nxtk ∑ nxt ∑ nxi 2… ∑ mxik + 1 ⋮ ⋮ ⋱ ⋮ ∑ nxtk ∑ nxtk + 1… ∑ nxt 2 k) [b 0 b 1 ⋮ bk] \u003d [∑ nyt ∑ nxtyt ⋮ ∑ nxtkyt ]. (\\ displaystyle (\\ başlar (pmatrix) n & \\ toplamı \\ sınırları _ (n) x_ (t) ve \\ ldots & \\ toplamı \\ sınırları _ (n) x_ (t) ^ (k) \\\\\\ toplamı \\ sınırları _ ( n) x_ (t) & \\ toplam \\ limitler _ (n) x_ (i) ^ (2) & \\ ldots & \\ sum \\ limits _ (m) x_ (i) ^ (k + 1) \\\\\\ vdots & \\ vdots & \\ ddots & \\ vdots \\\\\\ toplam \\ limitler _ (n) x_ (t) ^ (k) & \\ toplam \\ limitler _ (n) x_ (t) ^ (k + 1) & \\ ldots & \\ bmatrix)) \u003d (\\ begin (bmatrix) \\ sum \\ limits _ (n) y_ (t) \\\\\\ sum \\ limits _ (n) x_ (t) y_ (t) \\\\\\ vdots \\\\\\ sum \\ limits _ (n) x_ (t) ^ (k) y_ (t) \\ end (bmatrix)).)

OLS tahminlerinin istatistiksel özellikleri

Her şeyden önce, doğrusal modeller için OLS tahminlerinin, yukarıdaki formülden aşağıdaki gibi doğrusal tahminler olduğunu not ediyoruz. OLS tahminlerinin tarafsızlığı için, regresyon analizinin en önemli koşulunun yerine getirilmesi gerekli ve yeterlidir: faktörler açısından koşullu olan rastgele bir hatanın matematiksel beklentisi sıfıra eşit olmalıdır. Bu durum, özellikle, eğer

rastgele hataların matematiksel beklentisi sıfırdır ve
faktörler ve rastgele hatalar bağımsız rastgele değişkenlerdir.

İkinci koşul - dışsal faktörlerin durumu - esastır. Bu özellik karşılanmazsa, hemen hemen her tahminin son derece yetersiz olacağını varsayabiliriz: tutarlı olmayacaklar bile (yani, çok büyük miktarda veri bile bu durumda nitel tahminlerin elde edilmesine izin vermez). Klasik durumda, otomatik olarak dışsal koşulun yerine getirilmesi anlamına gelen rastgele bir hatanın aksine faktörlerin determinizmi hakkında daha güçlü bir varsayım yapılır. Genel durumda, tahminlerin tutarlılığı için, matrisin yakınsaması ile birlikte dışsallık koşulunun sağlanması yeterlidir. V x (\\ Displaystyle V_ {x)) örneklem boyutunu sonsuza yükselten bazı dejenere olmayan matrislere.

Tutarlılık ve tarafsızlığa ek olarak, (sıradan) en küçük kareler tahminlerinin etkili olması için (doğrusal tarafsız tahminler sınıfının en iyisi), rastgele bir hatanın ek özelliklerini yerine getirmek gerekir:

Bu varsayımlar, rastgele hatalar vektörünün kovaryans matrisi için formüle edilebilir. V (ε) \u003d σ 2 I (\\ Displaystyle V (\\ varepsilon) \u003d \\ sigma ^ (2) I).

Bu koşulları sağlayan doğrusal bir model denir klasik... Klasik doğrusal regresyon için OLS tahminleri tarafsızdır, tutarlıdır ve tüm doğrusal yansız tahminler sınıfındaki en etkili tahminlerdir (İngiliz literatüründe, kısaltma MAVİ (En İyi Doğrusal Tarafsız Tahmincisi) en iyi doğrusal tarafsız tahmindir; yerli literatürde, Gauss - Markov teoremine sıklıkla atıfta bulunulur). Katsayı tahminleri vektörünün kovaryans matrisinin şuna eşit olacağını göstermek kolaydır:

V (b ^ OLS) \u003d σ 2 (XTX) - 1 (\\ Displaystyle V ((\\ şapka (b)) _ (OLS)) \u003d \\ sigma ^ (2) (X ^ (T) X) ^ (- 1 )).

Verimlilik, bu kovaryans matrisinin "minimum" olduğu anlamına gelir (katsayıların herhangi bir doğrusal kombinasyonu ve özellikle katsayıların kendileri, minimum varyansa sahiptir), yani doğrusal tarafsız tahminler sınıfında, OLS tahminleri en iyisidir. Bu matrisin köşegen elemanları - katsayı tahminlerinin varyansları - elde edilen tahminlerin kalitesinin önemli parametreleridir. Bununla birlikte, rastgele hataların varyansı bilinmediğinden kovaryans matrisini hesaplamak imkansızdır. Rastgele hataların varyansının tarafsız ve tutarlı (klasik doğrusal model için) tahmininin değer olduğu kanıtlanabilir:

S 2 \u003d R S S / (n - k) (\\ Displaystyle s ^ (2) \u003d RSS / (n-k)).

Kovaryans matrisinin formülünde bu değeri değiştirerek kovaryans matrisinin bir tahminini elde ederiz. Elde edilen tahminler de tarafsız ve tutarlıdır. Hataların varyansının tahmininin (ve dolayısıyla katsayıların varyanslarının) ve model parametrelerinin tahminlerinin bağımsız rastgele değişkenler olması da önemlidir, bu da modelin katsayıları hakkındaki hipotezleri test etmek için test istatistiklerinin elde edilmesini sağlar.

Klasik varsayımların karşılanmaması durumunda, parametrelerin OLS tahminlerinin en verimli olmadığı ve W (\\ Displaystyle W) - bazı simetrik pozitif belirli ağırlık matrisi. Sıradan OLS, ağırlık matrisi özdeşlik matrisi ile orantılı olduğunda bu yaklaşımın özel bir durumudur. Bilindiği gibi, simetrik matrisler (veya operatörler) için bir ayrıştırma vardır W \u003d P T P (\\ Displaystyle W \u003d P ^ (T) P)... Bu nedenle, belirtilen fonksiyonel aşağıdaki gibi temsil edilebilir e TPTP e \u003d (P e) TP e \u003d e ∗ T e ∗ (\\ displaystyle e ^ (T) P ^ (T) Pe \u003d (Pe) ^ (T) Pe \u003d e _ (*) \u200b\u200b^ (T) e_ ( *))yani, bu işlevsel, bazı dönüştürülmüş "artıkların" karelerinin toplamı olarak temsil edilebilir. Böylece, en küçük kareler yöntemlerinden oluşan bir sınıfı ayırt edebiliriz - LS yöntemleri (En Küçük Kareler).

(Aitken teoremi) genelleştirilmiş bir doğrusal regresyon modeli için (rasgele hataların kovaryans matrisine herhangi bir kısıtlama getirilmediği), en etkili olanın (doğrusal tarafsız tahminler sınıfında) sözde tahminler olduğu kanıtlanmıştır (Aitken teoremi) genelleştirilmiş OLS (OLS, GLS - Genelleştirilmiş En Küçük Kareler) - Rastgele hataların ters kovaryans matrisine eşit ağırlık matrisine sahip LS yöntemi: W \u003d V ε - 1 (\\ Displaystyle W \u003d V _ (\\ varepsilon) ^ (- 1)).

Doğrusal bir modelin parametreleri için OLS tahminleri formülünün şu şekle sahip olduğu gösterilebilir:

B ^ GLS \u003d (XTV - 1 X) - 1 XTV - 1 y (\\ displaystyle (\\ şapka (b)) _ (GLS) \u003d (X ^ (T) V ^ (- 1) X) ^ (- 1) X ^ (T) V ^ (- 1) y).

Bu tahminlerin kovaryans matrisi buna göre eşit olacaktır

V (b ^ GLS) \u003d (XTV - 1 X) - 1 (\\ displaystyle V ((\\ şapka (b)) _ (GLS)) \u003d (X ^ (T) V ^ (- 1) X) ^ (- 1)).

Aslında, OLS'nin özü, orijinal verilerin belirli bir (doğrusal) dönüşümü (P) ve olağan OLS'nin dönüştürülmüş verilere uygulanmasıdır. Bu dönüşümün amacı, dönüştürülmüş veriler için rastgele hataların zaten klasik varsayımları karşılamasıdır.

Ağırlıklı OLS

Köşegen ağırlık matrisi (ve dolayısıyla rastgele hatalardan oluşan bir kovaryans matrisi) söz konusu olduğunda, Ağırlıklı En Küçük Kareler (WLS) olarak adlandırılır. Bu durumda, modelin artıklarının karelerinin ağırlıklı toplamı en aza indirilir, yani her gözlem, bu gözlemdeki rastgele hatanın varyansı ile ters orantılı bir "ağırlık" alır: e TW e \u003d ∑ t \u003d 1 net 2 σ t 2 (\\ Displaystyle e ^ (T) Biz \u003d \\ toplamı _ (t \u003d 1) ^ (n) (\\ frac (e_ (t) ^ (2)) (\\ ... Aslında, veriler, gözlemlerin ağırlıklandırılmasıyla (rastgele hataların tahmini standart sapmasıyla orantılı bir değere bölünerek) dönüştürülür ve ağırlıklı verilere normal OLS uygulanır.Mayıs ISBN 978-5-7749-0473-0.

Ekonometri. Ders Kitabı / Ed. Eliseeva I.I. - 2. baskı. - M .: Finans ve istatistik, 2006. - 576 s. - ISBN 5-279-02786-3.

Alexandrova N.V.

Matematiksel terimlerin, kavramların, tanımların tarihi: referans sözlüğü. - 3. baskı .. - M .: LKI, 2008. - 248 s. - ISBN 978-5-382-00839-4. I.V. Mitin, Rusakov V.S. Deneysel verilerin analizi ve işlenmesi - 5. baskı - 24s.En küçük kareler yöntemi

En küçük kareler yöntemi (

OLS, OLS, Sıradan En Küçük Kareler - Örnek verilere dayalı olarak regresyon modellerinin bilinmeyen parametrelerini tahmin etmek için temel regresyon analizi yöntemlerinden biri. Yöntem, regresyon artıklarının karelerinin toplamını en aza indirmeye dayanmaktadır.) {!LANG-a119d7d4de9defff384d74a43f2a67c2!}

Çözüm, istenen değişkenlerin bazı fonksiyonlarının karelerinin toplamını en aza indirgemek için bazı kriterlerden oluşuyorsa veya bazı kriterleri karşılıyorsa, gerçek en küçük kareler yönteminin herhangi bir alandaki bir problemi çözmek için bir yöntem olarak adlandırılabileceği unutulmamalıdır. Bu nedenle, en küçük kareler yöntemi, sayıları bu miktarların sayısını aşan, denklemleri veya kısıtlamaları karşılayan bir miktarlar kümesi bulurken, belirli bir işlevin diğer (daha basit) işlevler tarafından yaklaşık bir gösterimi (yaklaşık gösterimi) için de kullanılabilir.

OLS'nin Özü

(Açıklanan) değişken arasındaki olasılıksal (regresyon) bağımlılığın bir (parametrik) modeli verilsin y ve birçok faktör (açıklayıcı değişkenler) x

modelin bilinmeyen parametrelerinin vektörü nerede

- modelin rastgele hatası.

Bu değişkenlerin değerlerine ilişkin örnek gözlemler de olsun. Izin numarası () olsun. Sonra gözlemdeki değişkenlerin değerleri. Daha sonra, b parametrelerinin verilen değerleri için, açıklanan y değişkeninin teorik (model) değerleri hesaplanabilir:

Kalan miktar, parametrelerin değerlerine bağlıdır b.

OLS'nin (sıradan, klasik) özü, artıkların karelerinin toplamının (eng. Artık kareler toplamı ) minimum olacaktır:

Genel olarak bu sorun sayısal optimizasyon (minimizasyon) yöntemleriyle çözülebilir. Bu durumda hakkında konuşurlar doğrusal olmayan en küçük kareler (NLS veya NLLS - eng. Doğrusal Olmayan En Küçük Kareler). Çoğu durumda, analitik bir çözüm elde edilebilir. Minimizasyon problemini çözmek için, fonksiyonun durağan noktalarını bulmak, onu bilinmeyen parametrelere göre farklılaştırmak b, türevleri sıfıra eşitlemek ve ortaya çıkan denklem sistemini çözmek gerekir:

Modelin rastgele hataları normal bir dağılıma sahipse, aynı varyansa sahipse ve birbiriyle ilişkili değilse, parametrelerin OLS tahminleri maksimum olabilirlik yönteminin (MLM) tahminleri ile çakışır.

Doğrusal model durumunda OLS

Regresyon bağımlılığı doğrusal olsun:

İzin vermek y açıklanmış değişkenin gözlemlerinin sütun vektörüdür ve faktörlerin gözlem matrisidir (matrisin satırları, bu gözlemdeki faktörlerin değerlerinin sütunlara göre vektörleridir - tüm gözlemlerde verilen faktörün değerlerinin vektörü). Doğrusal modelin matris gösterimi şöyledir:

Daha sonra açıklanan değişkenin tahmin vektörü ve regresyon kalıntılarının vektörü eşit olacaktır.

buna göre, regresyon artıklarının karelerinin toplamı

Bu fonksiyonu parametre vektörüne göre farklılaştırarak ve türevleri sıfıra eşitleyerek, bir denklem sistemi elde ederiz (matris formunda):

Bu denklem sisteminin çözümü, doğrusal model için OLS tahminlerinin genel formülünü verir:

Analitik amaçlar için, bu formülün ikinci temsili yararlıdır. Regresyon modelinde veriler merkezli, daha sonra bu gösterimde, birinci matris faktörlerin örnek kovaryans matrisinin anlamını taşır ve ikincisi, bağımlı değişkenle faktörlerin kovaryans vektörüdür. Ek olarak, veriler de normalize SKO'ya (yani nihayetinde standardize), daha sonra birinci matris, faktörlerin seçici bir korelasyon matrisi anlamına gelir, ikinci vektör, bağımlı değişkenle faktörlerin seçici korelasyonlarının bir vektörüdür.

Modeller için OLS tahminlerinin önemli bir özelliği sürekli - inşa edilen regresyon çizgisi, örnek verinin ağırlık merkezinden geçer, yani eşitlik sağlanır:

Örnek: En Basit (İkili) Regresyon

Eşleştirilmiş doğrusal regresyon durumunda, hesaplama formülleri basitleştirilmiştir (matris cebiri olmadan yapabilirsiniz):

OLS Tahminlerinin Özellikleri

rastgele hataların matematiksel beklentisi sıfırdır ve
faktörler ve rastgele hatalar bağımsız rastgele değişkenlerdir.

İkinci koşul - dışsal faktörlerin durumu - esastır. Bu özellik karşılanmazsa, hemen hemen her tahminin son derece yetersiz olacağını varsayabiliriz: tutarlı olmayacaklar bile (yani, çok büyük miktarda veri bile bu durumda nitel tahminlerin elde edilmesine izin vermez). Klasik durumda, otomatik olarak dışsal koşulun yerine getirilmesi anlamına gelen rastgele bir hatanın aksine faktörlerin determinizmi hakkında daha güçlü bir varsayım yapılır. Genel durumda, tahminlerin tutarlılığı için, örnek boyutu sonsuza yükseldikçe, matrisin bazı dejenere olmayan matrise yakınsaması ile birlikte dışsallık koşulunun karşılanması yeterlidir.

Bu varsayımlar, rastgele hatalar vektörünün kovaryans matrisi için formüle edilebilir.

Bu koşulları sağlayan doğrusal bir model denir klasik... Klasik doğrusal regresyon için OLS tahminleri tarafsızdır, tutarlıdır ve tüm doğrusal yansız tahminler sınıfındaki en etkili tahminlerdir (İngiliz literatüründe, kısaltma MAVİ (En İyi Doğrusal Olmayan Tahmincisi) en iyi doğrusal tarafsız tahmindir; yerli literatürde, Gauss - Markov teoremine sıklıkla atıfta bulunulur). Katsayı tahminleri vektörünün kovaryans matrisinin şuna eşit olacağını göstermek kolaydır:

Genelleştirilmiş OLS

En küçük kareler yöntemi genel olarak genelleştirilebilir. Artıkların karelerinin toplamını en aza indirmek yerine, artık vektörün bazı pozitif belirli ikinci dereceden formunu en aza indirebilir, burada bazı simetrik pozitif belirli ağırlık matrisidir. Sıradan OLS, ağırlık matrisi özdeşlik matrisi ile orantılı olduğunda bu yaklaşımın özel bir durumudur. Simetrik matrisler (veya operatörler) teorisinden bilindiği gibi, bu tür matrisler için bir ayrıştırma vardır. Bu nedenle, belirtilen fonksiyonel aşağıdaki gibi temsil edilebilir, yani bu fonksiyonel bazı dönüştürülmüş "artıkların" karelerinin toplamı olarak temsil edilebilir. Böylece, en küçük kareler yöntemlerinden oluşan bir sınıfı ayırt edebiliriz - LS yöntemleri (En Küçük Kareler).

Doğrusal bir modelin parametreleri için OLS tahminleri formülünün şu şekle sahip olduğu gösterilebilir:

Bu tahminlerin kovaryans matrisi buna göre eşit olacaktır

Ağırlıklı OLS

Köşegen ağırlık matrisi (ve dolayısıyla rastgele hatalardan oluşan bir kovaryans matrisi) söz konusu olduğunda, Ağırlıklı En Küçük Kareler (WLS) olarak adlandırılır. Bu durumda, modelin artıklarının karelerinin ağırlıklı toplamı en aza indirilir, yani, her gözlem, bu gözlemdeki rastgele hatanın varyansıyla ters orantılı bir "ağırlık" alır: Gerçekte, veriler, gözlemlerin ağırlıklandırılmasıyla (rastgele hataların tahmini standart sapmasıyla orantılı bir değere bölünerek) dönüştürülür ve ağırlıklı verilere normal OLS uygulanır.

Uygulamada OLS kullanmanın bazı özel durumları

Doğrusal bağımlılık yaklaşımı

Belirli bir skaler miktarın belirli bir skaler miktara bağımlılığını incelemenin bir sonucu olarak (Bu, örneğin, gerilimin akım gücüne bağımlılığı olabilir: sabit bir değer nerede, iletkenin direnci), bu miktarların ölçümlerinin yapıldığı ve bunun sonucu olarak değerleri ve karşılık gelen değerleri. Ölçüm verileri bir tabloya kaydedilmelidir.

Tablo. Ölçüm sonuçları.

Ölçüm No.
1
2
3
4
5
6

Soru şöyle geliyor: Bağımlılığı en iyi açıklamak için katsayının hangi değeri seçilebilir? LSM'ye göre, bu değer, miktarların niceliklerden sapmalarının karelerinin toplamı olacak şekilde olmalıdır.

minimaldi

Kare sapmaların toplamının bir uç noktası vardır - minimum, bu formülü kullanmamıza izin verir. Bu formülden katsayının değerini bulalım. Bunu yapmak için sol tarafını aşağıdaki gibi dönüştürün:

Son formül, problemde gerekli olan katsayı değerini bulmamızı sağlar.

Tarih

19. yüzyılın başına kadar. Bilim adamlarının, bilinmeyenlerin sayısının denklem sayısından daha az olduğu bir denklem sistemini çözmek için kesin kuralları yoktu; O zamana kadar, denklem tipine ve hesap makinelerinin zekasına bağlı olarak belirli yöntemler kullanıldı ve bu nedenle aynı gözlemsel verilere dayanan farklı hesap makineleri farklı sonuçlara ulaştı. Gauss (1795), yöntemin ilk uygulamasının yazarıydı ve Legendre (1805), bağımsız olarak keşfetti ve modern adıyla (fr. Méthode des moindres kavgaları ). Laplace yöntemi olasılık teorisi ile ilişkilendirdi ve Amerikalı matematikçi Edrain (1808) onun olasılıksal uygulamalarını değerlendirdi. Yöntem, Encke, Bessel, Hansen ve diğerleri tarafından yapılan ileri araştırmalarla yaygınlaştırıldı ve geliştirildi.

OLS'nin alternatif kullanımı

En küçük kareler yöntemi fikri, doğrudan regresyon analizi ile ilgili olmayan diğer durumlarda da kullanılabilir. Mesele şu ki, kareler toplamı, vektörler için en yaygın yakınlık ölçülerinden biridir (sonlu boyutlu uzaylarda Öklid metriği).

Uygulamalardan biri, denklem sayısının değişken sayısından daha büyük olduğu doğrusal denklem sistemlerinin "çözümü" dür.

burada matris kare değil dikdörtgen boyuttadır.

Genel durumda, böyle bir denklem sisteminin bir çözümü yoktur (eğer sıra aslında değişkenlerin sayısından büyükse). Bu nedenle, bu sistem ancak vektörler arasındaki "mesafeyi" en aza indirmek için böyle bir vektör seçilmesi anlamında "çözülebilir". Bunu yapmak için, sistemin denklemlerinin sol ve sağ tarafları arasındaki farkların karelerinin toplamını en aza indirgeme ölçütü uygulayabilirsiniz. Bu küçültme problemini çözmenin aşağıdaki denklem sisteminin çözülmesine yol açtığını göstermek kolaydır.

En küçük kareler, düz bir çizginin denklemindeki katsayılar olan a ve b'nin değerlerini bularak bir dizi sıralı çiftle en iyi eşleşen doğrusal bir denklem oluşturmak için matematiksel bir prosedürdür. En küçük kareler yönteminin amacı, y ve ŷ değerleri arasındaki toplam kare hatasını en aza indirmektir. Her nokta için ŷ hatasını belirlersek, en küçük kareler yöntemi en aza indirir:

burada n \u003d hat etrafındaki sıralı çiftlerin sayısı. verilere mümkün olduğunca yakın.

Bu kavram şekilde gösterilmektedir.

Şekle bakıldığında, verilerle en yakın eşleşen çizgi olan regresyon doğrusu, grafikteki dört noktanın toplam kare hatasını en aza indirir. Aşağıdaki örnekte en küçük kareler yöntemini kullanarak bunu nasıl belirleyeceğinizi göstereceğim.

Yakın zamanda birlikte yaşayan ve banyo makyaj masasını paylaşan genç bir çift düşünün. Genç adam, masasının yarısının amansız bir şekilde küçüldüğünü, saç köpüklerine ve soya komplekslerine zemin kaybettiğini fark etmeye başladı. Adam, son birkaç aydır, masanın kendi kısmındaki öğelerin sayısının artma oranını yakından izliyor. Aşağıdaki tablo, bir kızın son birkaç ayda bir banyo masasında biriktirdiği öğelerin sayısını göstermektedir.

Amacımız zaman içinde öğe sayısının artıp artmadığını öğrenmek olduğundan, "Ay" bağımsız değişken, "Öğe sayısı" ise bağımlı olacaktır.

En küçük kareler yöntemini kullanarak, çizginin eğimi olan a, y ekseni ve b için değerleri hesaplayarak verilere en uygun denklemi belirleyin:

a \u003d y av - bx av

burada x av, x'in ortalama değeri, bağımsız değişken, y av, y'nin ortalama değeri, bağımsız değişken.

Aşağıdaki tablo, bu denklemler için gerekli hesaplamaları özetlemektedir.

Küvet örneğimizin etki eğrisi aşağıdaki denklemle belirlenecektir:

Denklemimiz 0,976 pozitif eğime sahip olduğundan, adam masadaki öğelerin sayısının zamanla ayda ortalama 1 öğe oranında arttığına dair kanıtı var. Grafik, sıralı çiftlerle etki eğrisini gösterir.

Önümüzdeki altı ay (16 ay) için ürün sayısı beklentisi şu şekilde hesaplanacaktır:

ŷ \u003d 5,13 + 0,976x \u003d 5,13 + 0,976 (16) ~ 20,7 \u003d 21 öğe

Bu yüzden kahramanımızın biraz harekete geçme zamanı.

Excel'de TREND işlevi

Muhtemelen zaten tahmin ettiğiniz gibi, Excel'in değeri hesaplama işlevi vardır. en küçük kareler yöntemi.Bu özelliğe TREND denir. Sözdizimi aşağıdaki gibidir:

TREND (bilinen Y değerleri; bilinen X değerleri; yeni X değerleri; sabit)

y'nin bilinen değerleri - bir bağımlı değişken dizisi, bizim durumumuzda, tablodaki öğe sayısı

bilinen X değerleri - bağımsız değişkenler dizisi, bizim durumumuzda bir aydır

yeni X değerleri - yeni X (ay) değerleri tREND işlevi bağımlı değişkenlerin beklenen değerini döndürür (öğe sayısı)

const isteğe bağlıdır. Sabit b'nin 0 olması gerekip gerekmediğini gösteren bir Boolean değeri.

Örneğin, resim 16. ay için banyo masasında beklenen öğe sayısını belirlemek için kullanılan TREND işlevini göstermektedir.