Нелінійний спосіб найменших квадратів приклад. Лінійний парний регресійний аналіз. Список використаних джерел

Метод найменших квадратівє одним з найбільш поширених та найбільш розроблених внаслідок своєї простоти та ефективності методів оцінки параметрів лінійних. Разом з тим, при його застосуванні слід дотримуватись певної обережності, оскільки побудовані з його використанням моделі можуть не задовольняти цілий ряд вимог до якості їх параметрів і, внаслідок цього, недостатньо добре відображати закономірності розвитку процесу.

Розглянемо процедуру оцінки параметрів лінійної економетричної моделі за допомогою методу найменших квадратів докладніше. Така модель у загальному виглядіможе бути представлена ​​рівнянням (1.2):

y t = a 0 + a 1 х 1 t +...+ a n х nt + ε t.

Вихідними даними в оцінці параметрів a 0 , a 1 ,..., a n є вектор значень залежної змінної y= (y 1 , y 2 , ... , y T)" і матриця значень незалежних змінних

у якій перший стовпець, що складається з одиниць, відповідає коефіцієнту моделі .

Назву свій метод найменших квадратів отримав, виходячи з основного принципу, якому повинні задовольняти отримані на його основі оцінки параметрів: сума квадратів помилки моделі має бути мінімальною.

Приклади розв'язання задач методом найменших квадратів

приклад 2.1.Торговельне підприємство має мережу, що складається з 12 магазинів, інформацію про діяльність яких представлено у табл. 2.1.

Керівництво підприємства хотіло б знати, як залежить розмір річного від торгової площімагазину.

Таблиця 2.1

Номер магазину

Річний товарообіг, млн руб.

Торгова площа, тис. м2

Рішення шляхом найменших квадратів.Позначимо - річний товарообіг -го магазину, млн руб.; - Торгова площа магазину, тис. м 2 .

Рис.2.1. Діаграма розсіювання для прикладу 2.1

Для визначення форми функціональної залежностіміж змінними та побудуємо діаграму розсіювання (рис. 2.1).

З діаграми розсіювання можна дійти невтішного висновку про позитивну залежність річного товарообігу від торгової площі (тобто. зростатиме зі зростанням ). Найбільш підходяща форма функціонального зв'язку лінійна.

Інформація щодо подальших розрахунків подана у табл. 2.2. За допомогою методу найменших квадратів оцінимо параметри лінійної однофакторної економетричної моделі

Таблиця 2.2

Таким чином,

Отже, зі збільшенням торгової площі на 1 тис. м 2 за інших рівних умов середньорічний товарообіг збільшується на 67,8871 млн руб.

приклад 2.2.Керівництво підприємства помітило, що річний товарообіг залежить тільки від торгової площі магазину (див. приклад 2.1), а й від середнього числа відвідувачів. Відповідна інформація представлена ​​у табл. 2.3.

Таблиця 2.3

Рішення.Позначимо - середня кількість відвідувачів-го магазину на день, тис. чол.

Для визначення форми функціональної залежності між змінними та побудуємо діаграму розсіювання (рис. 2.2).

З діаграми розсіяння можна дійти невтішного висновку про позитивну залежність річного товарообігу від середньої кількості відвідувачів щодня (тобто. зростатиме зі зростанням ). Форма функціональної залежності – лінійна.

Мал. 2.2. Діаграма розсіювання для прикладу 2.2

Таблиця 2.4

Загалом необхідно визначити параметри двофакторної економетричної моделі

у t = a 0 + a 1 х 1 t + a 2 х 2 t + ε t

Інформація, потрібна для подальших розрахунків, подана у табл. 2.4.

Оцінимо параметри лінійної двофакторної економетричної моделі за допомогою методу найменших квадратів.

Таким чином,

Оцінка коефіцієнта = 61,6583 показує, що за інших рівних умов зі збільшенням торгової площі на 1 тис. м 2 річний товарообіг збільшиться в середньому на 61,6583 млн руб.

Наблизимо функцію многочленом 2-го ступеня. Для цього обчислимо коефіцієнти нормальної системи рівнянь:

, ,

Складемо нормальну систему найменших квадратів, яка має вигляд:

Рішення системи легко перебуває: , .

Таким чином, многочлен другого ступеня виявлено: .

Теоретична довідка

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

Приклад 2. Знаходження оптимального ступеня багаточлена.

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

Приклад 3. Виведення нормальної системи рівнянь знаходження параметрів емпіричної залежності.

Виведемо систему рівнянь для визначення коефіцієнтів та функції , що здійснює середньоквадратичну апроксимацію заданої функції за точками. Складемо функцію і запишемо для неї необхідну умову екстремуму:

Тоді нормальна система набуде вигляду:

Отримали лінійну системурівнянь щодо невідомих параметрів та, яка легко вирішується.

Теоретична довідка

Повернутися на сторінку<Введение в вычислительную математику. Примеры>

приклад.

Експериментальні дані про значення змінних хі унаведено у таблиці.

В результаті їх вирівнювання отримано функцію

Використовуючи метод найменших квадратів, апроксимувати ці дані лінійною залежністю y=ax+b(Знайти параметри аі b). З'ясувати, яка з двох ліній краще (у сенсі способу менших квадратів) вирівнює експериментальні дані. Зробити креслення.

Суть методу найменших квадратів (МНК).

Завдання полягає у знаходженні коефіцієнтів лінійної залежності, при яких функція двох змінних аі bнабуває найменшого значення. Тобто, за даними аі bсума квадратів відхилень експериментальних даних від знайденої прямої буде найменшою. У цьому суть методу найменших квадратів.

Таким чином, рішення прикладу зводиться до знаходження екстремуму функції двох змінних.

Висновок формул знаходження коефіцієнтів.

Складається та вирішується система із двох рівнянь із двома невідомими. Знаходимо приватні похідні функції за змінними аі b, Прирівнюємо ці похідні до нуля.

Вирішуємо отриману систему рівнянь будь-яким методом (наприклад методом підстановкиабо методом Крамера) і отримуємо формули для знаходження коефіцієнтів методом найменших квадратів (МНК).

За даними аі bфункція набуває найменшого значення. Доказ цього факту наведено нижче в кінці сторінки.

Ось і весь спосіб найменших квадратів. Формула для знаходження параметра aмістить суми , , , та параметр n- Кількість експериментальних даних. Значення цих сум рекомендуємо обчислювати окремо.

Коефіцієнт bзнаходиться після обчислення a.

Настав час згадати про вихідний приклад.

Рішення.

У нашому прикладі n=5. Заповнюємо таблицю для зручності обчислення сум, що входять до формул шуканих коефіцієнтів.

Значення у четвертому рядку таблиці отримані множенням значень 2-го рядка на значення 3-го рядка для кожного номера i.

Значення у п'ятому рядку таблиці отримані зведенням у квадрат значень другого рядка для кожного номера i.

Значення останнього стовпця таблиці – це суми значень рядків.

Використовуємо формули методу найменших квадратів для знаходження коефіцієнтів аі b. Підставляємо у них відповідні значення з останнього стовпця таблиці:

Отже, y = 0.165x+2.184- Шукана апроксимуюча пряма.

Залишилося з'ясувати, яка з ліній y = 0.165x+2.184або краще апроксимує вихідні дані, тобто провести оцінку шляхом найменших квадратів.

Оцінка похибки способу менших квадратів.

Для цього потрібно обчислити суми квадратів відхилень вихідних даних від цих ліній і менше значення відповідає лінії, яка краще в сенсі методу найменших квадратів апроксимує вихідні дані.

Оскільки , то пряма y = 0.165x+2.184краще наближає вихідні дані.

Графічна ілюстрація методу найменших квадратів (МНК).

На графіках все чудово видно. Червона лінія – це знайдена пряма y = 0.165x+2.184, синя лінія – це , Рожеві точки - це вихідні дані.

Навіщо це потрібно, до чого всі ці апроксимації?

Я особисто використовую для вирішення завдань згладжування даних, задач інтерполяції та екстраполяції (у вихідному прикладі могли б попросити знайти значення спостережуваної величини yпри x=3або при x=6методом МНК). Але докладніше поговоримо про це пізніше в іншому розділі сайту.

На початок сторінки

Доведення.

Щоб при знайдених аі bфункція приймала найменше значення, необхідно, щоб у цій точці матриця квадратичної форми диференціала другого порядку для функції була позитивно визначеною. Покажемо це.

Диференціал другого порядку має вигляд:

Тобто

Отже, матриця квадратичної форми має вигляд

причому значення елементів не залежать від аі b.

Покажемо, що матриця є позитивно визначеною. Для цього потрібно, щоб кутові мінори були позитивними.

Кутовий мінор першого порядку . Нерівність сувора, оскільки точки несупадні. Надалі це матимемо на увазі.

Кутовий мінор другого порядку

Доведемо, що методом математичної індукції.

Висновок: знайдені значення аі bвідповідають найменшому значенню функції , отже, є параметрами для методу найменших квадратів.

Нема коли розбиратися?
Замовте рішення

На початок сторінки

Розробка прогнозу з допомогою методу найменших квадратів. Приклад розв'язання задачі

Екстраполяція - це метод наукового дослідження, який ґрунтується на поширенні минулих та реальних тенденцій, закономірностей, зв'язків на майбутній розвиток об'єкта прогнозування. До методів екстраполяції відносяться метод ковзної середньої, метод експоненційного згладжування, метод найменших квадратів.

Сутність методу найменших квадратів полягає у мінімізації суми квадратичних відхиленьміж спостережуваними та розрахунковими величинами. Розрахункові величини перебувають за підібраним рівнянням – рівнянням регресії. Чим менша відстань між фактичними значеннями та розрахунковими, тим точніший прогноз, побудований на основі рівняння регресії.

Теоретичний аналіз сутності явища, що вивчається, зміна якого відображається тимчасовим рядом, служить основою для вибору кривої. Іноді беруться до уваги міркування характері зростання рівнів ряду. Так, якщо зростання випуску продукції очікується в арифметичній прогресії, згладжування проводиться по прямій. Якщо ж виявляється, що зростання йде в геометричній прогресії, то згладжування треба проводити за показовою функцією.

Робоча формула методу найменших квадратів : У t+1 = а * Х + b, де t + 1 – прогнозний період; Уt+1 – прогнозований показник; a та b - коефіцієнти; Х - умовне позначеннячасу.

Розрахунок коефіцієнтів a і b здійснюється за такими формулами:

де, УФ - фактичні значення низки динаміки; n – число рівнів часового ряду;

Згладжування часових рядів шляхом найменших квадратів служить відображення закономірності розвитку досліджуваного явища. В аналітичному вираженні тренда час сприймається як незалежна змінна, а рівні низки виступають як функція цієї незалежної змінної.

Розвиток явища залежить немає від цього, скільки років минуло з відправного моменту, як від того, які чинники впливали його розвиток, у напрямі і з якою інтенсивністю. Звідси ясно, що розвиток явища у часі постає як наслідок цих чинників.

Правильно встановити тип кривої, тип аналітичної залежності від часу – одне з найскладніших завдань передпрогнозного аналізу .

Підбір виду функції, що описує тренд, параметри якої визначаються методом найменших квадратів, проводиться в більшості випадків емпірично шляхом побудови ряду функцій і порівняння їх між собою за величиною середньоквадратичної помилки, що обчислюється за формулою:

де УФ - фактичні значення низки динаміки; Ур - розрахункові (згладжені) значення низки динаміки; n – число рівнів часового ряду; р - Число параметрів, що визначаються у формулах, що описують тренд (тенденцію розвитку).

Недоліки методу найменших квадратів :

  • при спробі описати економічне явище, що вивчається, за допомогою математичного рівняння, прогноз буде точний для невеликого періоду часу і рівняння регресії слід перераховувати в міру надходження нової інформації;
  • складність підбору рівняння регресії, яка можна розв'язати при використанні типових комп'ютерних програм.

Приклад застосування методу найменших квадратів для розробки прогнозу

Завдання . Є дані, що характеризують рівень безробіття у регіоні, %

  • Побудуйте прогноз рівня безробіття в регіоні на листопад, грудень, січень місяці, використовуючи методи: ковзного середнього, експоненційного згладжування, найменших квадратів.
  • Розрахуйте помилки отриманих прогнозів під час використання кожного методу.
  • Порівняйте отримані результати, зробіть висновки.

Рішення методом найменших квадратів

Для рішення складемо таблицю, в якій вироблятимемо необхідні розрахунки:

ε = 28,63/10 = 2,86% точність прогнозувисока.

Висновок : Порівнюючи результати, отримані при розрахунках методом ковзної середньої , методом експоненційного згладжування і методом найменших квадратів, можна сказати, що відносна середня помилка при розрахунках методом експоненційного згладжування потрапляє в межі 20-50%. Це означає, що точність прогнозу у разі є лише задовільною.

У першому та третьому випадку точність прогнозу є високою, оскільки середня відносна помилка менша за 10%. Але метод ковзних середніх дозволив отримати більш достовірні результати (прогноз на листопад – 1,52%, прогноз на грудень – 1,53%, прогноз на січень – 1,49%), оскільки середня відносна помилка під час використання цього найменша – 1 13%.

Метод найменших квадратів

Інші статті на цю тему:

Список використаних джерел

  1. Науково-методичні рекомендації з питань діагностики соціальних ризиків та прогнозування викликів, загроз та соціальних наслідків. Російський національний соціальний університет. Москва. 2010;
  2. Володимирова Л.П. Прогнозування та планування в умовах ринку: Навч. допомога. М: Видавничий Дім «Дашков і Ко», 2001;
  3. Новікова Н.В., Поздєєва О.Г. Прогнозування національної економіки: Навчально-методичний посібник. Єкатеринбург: Вид-во Урал. держ. екон. ун-ту, 2007;
  4. Слуцкін Л.М. Курс МБА з прогнозування у бізнесі. М: Альпіна Бізнес Букс, 2006.

Програма МНК

Введіть дані

Дані та апроксимація y = a + b x

i- Номер експериментальної точки;
x i- значення фіксованого параметра у точці i;
y i- значення параметра, що вимірюється в точці i;
ω i- вага виміру в точці i;
y i, розрах.- різниця між виміряним та обчисленим за регресією значенням yу точці i;
S x i (x i)- Оцінка похибки x iпри вимірі yу точці i.

Дані та апроксимація y = k x

i x i y i ω i y i, розрах. Δy i S x i (x i)

Клацніть за графіком,

Інструкція користувача онлайн-програми МНК.

У полі даних введіть на кожному окремому рядку значення `x` та `y` в одній експериментальній точці. Значення повинні відокремлюватися символом пробілу (пробілом або знаком табуляції).

Третім значенням може бути вага точки `w`. Якщо вага точки не вказана, то вона дорівнює одиниці. У переважній більшості випадків ваги експериментальних точок невідомі чи обчислюються, тобто. всі експериментальні дані вважаються рівнозначними. Іноді ваги в досліджуваному інтервалі значень точно не рівнозначні і навіть можуть бути обчислені теоретично. Наприклад, у спектрофотометрії ваги можна обчислити за простим формулам, Щоправда переважно цим усе нехтують зменшення трудовитрат.

Дані можна вставити через буфер обміну з електронної таблиці офісних пакетів, наприклад Excel з Microsoft Офісу або Calc з Оупен Офісу. Для цього в електронній таблиці виділіть діапазон даних, що копіюються, скопіюйте в буфер обміну і вставте дані в поле даних на цій сторінці.

Для розрахунку за методом найменших квадратів необхідно не менше двох точок для визначення двох коефіцієнтів `b` - тангенса кута нахилу прямої та `a` - значення, що відсікається прямою на осі `y`.

Для оцінки похибки коефіцієнтів регресії, що розраховуються, потрібно задати кількість експериментальних точок більше двох.

Метод найменших квадратів (МНК).

Чим більше кількістьекспериментальних точок, тим паче точна статистична оцінка коэффицинетов (з допомогою зниження коэффицинета Стьюдента) і більше близька оцінка до оцінки генеральної вибірки.

Отримання значень у кожній експериментальній точці часто пов'язане зі значними трудовитратами, тому часто проводять компромісне число експериментів, які дає зручну оцінку і не призведе до надмірних витрат праці. Як правило, кількість експериментів точок для лінійної МНК залежності з двома коефіцієнтами вибирає в районі 5-7 точок.

Коротка теорія методу найменших квадратів для лінійної залежності

Допустимо у нас є набір експериментальних даних у вигляді пар значень [`y_i`, `x_i`], де `i` - номер одного експериментального виміру від 1 до `n`; `y_i` - значення виміряної величини в точці `i`; `x_i` - значення параметра, що задається в точці `i`.

Як приклад можна розглянути дію закону Ома. Змінюючи напругу (різницю потенціалів) між ділянками електричного ланцюга, ми заміряємо величину струму, що проходить цією ділянкою. Фізика нам дає залежність, знайдену експериментально:

`I = U/R`,
де `I` - сила струму; `R` - опір; `U` - напруга.

У цьому випадку `y_i` у нас вимірювана величина струму, а `x_i` - значення напруги.

Як інший приклад розглянемо поглинання світла розчином речовини у розчині. Хімія дає нам формулу:

`A = ε l C`,
де `A` - оптична щільність розчину; `ε` - коефіцієнт пропускання розчиненої речовини; `l` – довжина шляху при проходженні світла через кювету з розчином; `C` - концентрація розчиненої речовини.

У цьому випадку `y_i` у нас вимірюється величина відптичної щільності `A`, а `x_i` - значення концентрації речовини, яку ми задаємо.

Ми розглядатимемо випадок, коли відносна похибка в завданні `x_i` значно менша, відносної похибки вимірювання `y_i`. Також ми будемо припускати, що це виміряні величини `y_i` випадкові і нормально розподілені, тобто. підкоряються нормальному закону розподілу.

У разі лінійної залежності `y` від `x`, ми можемо написати теоретичну залежність:
`y = a + b x`.

З геометричної точки зору, коефіцієнт `b` позначає тангенс кута нахилу лінії до осі `x`, а коефіцієнт `a` - значення `y` у точці перетину лінії з віссю `y` (при `x = 0`).

Знаходження параметрів лінії регресії.

В експерименті виміряні значення `y_i` не можуть точно лягти на теоретичну пряму через помилки виміру, що завжди властиві реального життя. Тому лінійне рівняння потрібно представити системою рівнянь:
`y_i = a + b x_i + ε_i` (1),
де `ε_i` - невідома помилка вимірювання `y` в `i`-ому експерименті.

Залежність (1) також називають регресією, тобто. залежністю двох величин одна від одної зі статистичною значимістю.

Завданням відновлення залежності є знаходження коефіцієнтів `a` та `b` по експериментальних точках [`y_i`, `x_i`].

Для знаходження коефіцієнтів `a` та `b` зазвичай використовується метод найменших квадратів(МНК). Він є окремим випадком принципу максимальної правдоподібності.

Перепишемо (1) у вигляді `ε_i = y_i - a - b x_i`.

Тоді сума квадратів помилок буде
`Φ = sum_(i=1)^(n) ε_i^2 = sum_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

Принципом МНК (методу найменших квадратів) є мінімізація суми (2) щодо параметрів `a` та `b`.

Мінімум досягається, коли приватні похідні від суми (2) за коефіцієнтами `a` та `b` дорівнюють нулю:
`frac(partial Φ)(partial a) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial a) = 0`
`frac(partial Φ)(partial b) = frac(partial sum_(i=1)^(n) (y_i - a - b x_i)^2)(partial b) = 0`

Розкриваючи похідні, отримуємо систему із двох рівнянь із двома невідомими:
`sum_(i=1)^(n) (2a + 2bx_i - 2y_i) = sum_(i=1)^(n) (a + bx_i - y_i) = 0`
`sum_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = sum_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

Розкриваємо дужки та переносимо незалежні від шуканих коефіцієнтів суми в іншу половину, отримаємо систему лінійних рівнянь:
`sum_(i=1)^(n) y_i = a n + b sum_(i=1)^(n) bx_i`
`sum_(i=1)^(n) x_iy_i = a sum_(i=1)^(n) x_i + b sum_(i=1)^(n) x_i^2`

Вирішуючи, отриману систему, знаходимо формули для коефіцієнтів `a` та `b`:

a = frac(sum_(i=1)^(n) y_i sum_(i=1)^(n) x_i^2 — sum_(i=1)^(n) x_i sum_(i=1)^(n ) x_iy_i) (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)` (3.1)

b = frac(n sum_(i=1)^(n) x_iy_i — sum_(i=1)^(n) x_i sum_(i=1)^(n) y_i) (n sum_(i=1)^ (n) x_i^2 - (sum_(i=1)^(n) x_i)^2)` (3.2)

Ці формули мають рішення, коли `n > 1` (лінію можна побудувати не менш ніж за 2-ма точками) і коли детермінант `D = n sum_(i=1)^(n) x_i^2 - (sum_(i= 1) ^ (n) x_i) ^ 2! = 0 `, тобто. коли точки `x_i` в експерименті розрізняються (тобто коли лінія не вертикальна).

Оцінка похибок коефіцієнтів лінії регресії

Для більш точної оцінки похибки обчислення коефіцієнтів `a` та `b` бажано велика кількість експериментальних точок. При `n = 2` оцінити похибку коефіцієнтів неможливо, т.к. апроксимуюча лінія однозначно проходитиме через дві точки.

Похибка випадкової величини`V` визначається законом накопичення помилок
`S_V^2 = sum_(i=1)^p (frac(partial f)(partial z_i))^2 S_(z_i)^2`,
де `p` - число параметрів `z_i` з похибкою `S_(z_i)`, які впливають на похибку `S_V`;
`f` - функція залежності `V` від `z_i`.

Розпишемо закон накопичення помилок для похибки коефіцієнтів `a` та `b`
`S_a^2 = sum_(i=1)^(n)(frac(partial a)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial a )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial a)(partial y_i))^2`,
`S_b^2 = sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(partial b) )(partial x_i))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(partial b)(partial y_i))^2 `,
т.к. `S_(x_i)^2 = 0` (ми раніше зробили застереження, що похибка `x` зневажливо мала).

`S_y^2 = S_(y_i)^2` - похибка (дисперсія, квадрат стандартного відхилення) у вимірі `y` у припущенні, що похибка однорідна для всіх значень `y`.

Підставляючи в отримані вирази формули для розрахунку `a` та `b` отримаємо

`S_a^2 = S_y^2 frac(sum_(i=1)^(n) (sum_(i=1)^(n) x_i^2 — x_i sum_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

`S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n sum_(i=1)^(n) x_i^2 — (sum_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) `(4.2)

У більшості реальних експериментів значення Sy не вимірюється. Для цього потрібно проводити кілька паралельних вимірів (дослідів) в одній або кількох точках плану, що збільшує час (і, можливо, вартість) експерименту. Тому зазвичай вважають, що відхилення 'y' від лінії регресії вважатимуться випадковим. Оцінку дисперсії `y` у цьому випадку вважають за формулою.

`S_y^2 = S_(y, ост)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

Дільник `n-2` з'являється тому, що у нас знизилося число ступенів свободи через розрахунок двох коефіцієнтів з цієї ж вибірки експериментальних даних.

Таку оцінку ще називають залишковою дисперсією щодо лінії регресії `S_(y, ост)^2`.

Оцінка значущості коефіцієнтів проводиться за критерієм Стьюдента

`t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

Якщо розраховані критерії `t_a`, `t_b` менше табличних критеріїв `t(P, n-2)`, то вважається, що відповідний коефіцієнт незначно відрізняється від нуля із заданою ймовірністю `P`.

Для оцінки якості опису лінійної залежності, можна порівняти `S_(y, ост)^2` та `S_(bar y)` щодо середнього з використанням критерію Фішера.

`S_(bar y) = frac(sum_(i=1)^n (y_i - bar y)^2) (n-1) = frac(sum_(i=1)^n (y_i - (sum_(i=) 1)^n y_i) /n)^2) (n-1)` - вибіркова оцінка дисперсії `y` щодо середнього.

Для оцінки ефективності рівняння регресії для опису залежності розраховують коефіцієнт Фішера
`F = S_(bar y) / S_(y, ост)^2`,
який порівнюють з табличним коефіцієнтом Фішера `F(p, n-1, n-2)`.

Якщо `F > F(P, n-1, n-2)`, вважається статистично значущим з ймовірністю `P` різницю між описом залежності `y = f(x)` за допомогою урівняння регресії та описом за допомогою середнього. Тобто. регресія краще описує залежність, ніж розкид `y` щодо середнього.

Клацніть за графіком,
щоб додати значення до таблиці

Метод найменших квадратів. Під методом найменших квадратів розуміється визначення невідомих параметрів a, b, c, прийнятої функціональної залежності

Під методом найменших квадратів розуміється визначення невідомих параметрів a, b, c,…прийнятої функціональної залежності

y = f(x, a, b, c, …),

які б забезпечували мінімум середнього квадрата (дисперсії) помилки

, (24)

де x i, y i - Сукупність пар чисел, отриманих з експерименту.

Оскільки умовою екстремуму функції кількох змінних є умова рівності нулю її похідних, то параметри a, b, c,…визначаються із системи рівнянь:

; ; ; … (25)

Необхідно пам'ятати, що метод найменших квадратів застосовується для вибору параметрів після того, як вид функції y = f(x)визначено.

Якщо з теоретичних міркувань не можна зробити жодних висновків про те, якою має бути емпірична формула, то доводиться керуватися наочними уявленнями, насамперед графічним зображенням спостережених даних.

Насправді найчастіше обмежуються такими видами функций:

1) лінійна ;

2) квадратична a.

Екстраполяція - це метод наукового дослідження, який ґрунтується на поширенні минулих та реальних тенденцій, закономірностей, зв'язків на майбутній розвиток об'єкта прогнозування. До методів екстраполяції відносяться метод ковзної середньої, метод експоненційного згладжування, метод найменших квадратів.

Сутність методу найменших квадратів полягає в мінімізації суми квадратичних відхилень між спостережуваними та розрахунковими величинами. Розрахункові величини перебувають за підібраним рівнянням – рівнянням регресії. Чим менша відстань між фактичними значеннями та розрахунковими, тим точніший прогноз, побудований на основі рівняння регресії.

Теоретичний аналіз сутності явища, що вивчається, зміна якого відображається тимчасовим рядом, служить основою для вибору кривої. Іноді беруться до уваги міркування характері зростання рівнів ряду. Так, якщо зростання випуску продукції очікується в арифметичній прогресії, згладжування проводиться по прямій. Якщо ж виявляється, що зростання йде в геометричній прогресії, то згладжування треба проводити за показовою функцією.

Робоча формула методу найменших квадратів : У t+1 = а * Х + b, де t + 1 – прогнозний період; Уt+1 – прогнозований показник; a та b - коефіцієнти; Х – умовне позначення часу.

Розрахунок коефіцієнтів a і b здійснюється за такими формулами:

де, УФ - фактичні значення низки динаміки; n – число рівнів часового ряду;

Згладжування часових рядів шляхом найменших квадратів служить відображення закономірності розвитку досліджуваного явища.

В аналітичному вираженні тренда час сприймається як незалежна змінна, а рівні низки виступають як функція цієї незалежної змінної.

Розвиток явища залежить немає від цього, скільки років минуло з відправного моменту, як від того, які чинники впливали його розвиток, у напрямі і з якою інтенсивністю. Звідси ясно, що розвиток явища у часі постає як наслідок цих чинників. .

Правильно встановити тип кривої, тип аналітичної залежності від часу – одне з найскладніших завдань передпрогнозного аналізу

де УФ - фактичні значення низки динаміки; Ур - розрахункові (згладжені) значення низки динаміки; n – число рівнів часового ряду; р - Число параметрів, що визначаються у формулах, що описують тренд (тенденцію розвитку).

Недоліки методу найменших квадратів :

  • при спробі описати економічне явище, що вивчається, за допомогою математичного рівняння, прогноз буде точний для невеликого періоду часу і рівняння регресії слід перераховувати в міру надходження нової інформації;
  • складність підбору рівняння регресії, яка можна розв'язати при використанні типових комп'ютерних програм.

Приклад застосування методу найменших квадратів для розробки прогнозу

Завдання . Є дані, що характеризують рівень безробіття у регіоні, %

  • Побудуйте прогноз рівня безробіття в регіоні на листопад, грудень, січень місяці, використовуючи методи: ковзного середнього, експоненційного згладжування, найменших квадратів.
  • Розрахуйте помилки отриманих прогнозів під час використання кожного методу.
  • Порівняйте отримані результати, зробіть висновки.

Рішення методом найменших квадратів

Для вирішення складемо таблицю, в якій будемо проводити необхідні розрахунки:

Визначимо умовну позначку часу як послідовну нумерацію періодів бази прогнозу (графа 3).

Розрахуємо графи 4 та 5. Розрахункові значення ряду Ур визначимо за формулою У t+1 = а*Х + b, де t + 1 – прогнозний період;

Уt+1 – прогнозований показник; a та b - коефіцієнти; Х – умовне позначення часу.
Коефіцієнти a та b визначимо за такими формулами:
де, УФ - фактичні значення низки динаміки; n – число рівнів часового ряду.

а = / = - 0,17

ε = 28,63/10 = 2,86% точність прогнозувисока.

Висновок b = 22,13/10 - (-0,17) * 55/10 = 3,15 методом ковзної середньої , методом експоненційного згладжування і методом найменших квадратів, можна сказати, що відносна середня помилка при розрахунках методом експоненційного згладжування потрапляє в межі 20-50%. Це означає, що точність прогнозу у разі є лише задовільною.

Розраховуємо середню відносну помилку за такою формулою:

: Порівнюючи результати, отримані при розрахунках У першому та третьому випадку точність прогнозу є високою, оскільки середня відносна помилка менша за 10%. Але метод ковзних середніх дозволив отримати більш достовірні результати (прогноз на листопад – 1,52%, прогноз на грудень – 1,53%, прогноз на січень – 1,49%), оскільки середня відносна помилка під час використання цього найменша – 1 13%.Якщо деяка фізична величина залежить від іншої величини, то цю залежність можна досліджувати, вимірюючи y при

різних значеннях

x. В результаті вимірів виходить ряд значень:

x 1, x 2, ..., x i, ..., x n;

y 1 , y 2 , ..., y i , ... , y n .

y = kxабо y = a + bx.

Лінійна залежність дуже поширена у фізиці. І навіть коли нелінійна залежність, зазвичай намагаються будувати графік так, щоб отримати пряму лінію. Наприклад, якщо припускають, що показник заломлення скла n пов'язаний з довжиною λ світлової хвилі співвідношенням n = a + b/λ 2 то на графіку будують залежність n від λ -2 .

Розглянемо залежність y = kx(Пряма, що проходить через початок координат). Складемо величину φ суму квадратів відхилень наших точок від прямої

Величина φ завжди позитивна і виявляється тим меншою, чим ближче до прямої лежать наші точки. Метод найменших квадратів стверджує, що для k слід вибирати таке значення, при якому має мінімум


або
(19)

Обчислення показує, що середньоквадратична помилка визначення величини k дорівнює при цьому

, (20)
де n число вимірювань.

Розглянемо тепер трохи складніший випадок, коли точки повинні задовольнити формулу y = a + bx(Пряма, що не проходить через початок координат).

Завдання полягає в тому, щоб за наявним набором значень x i і y знайти найкращі значення a і b.

Знову складемо квадратичну форму φ , рівну суміквадратів відхилень точок x i , y i від прямої

і знайдемо значення a і b , при яких має мінімум

;

.

.

Спільне рішення цих рівнянь дає

(21)

Середньоквадратичні помилки визначення a та b рівні

(23)

.  (24)

При обробці результатів вимірювання цим методом зручно всі дані зводити в таблицю, в якій попередньо підраховуються всі суми, що входять до формул (19) (24). Форми цих таблиць наведені в наведених нижче прикладах.

приклад 1.Досліджувалося основне рівняння динаміки обертального руху ε = M/J (пряма, яка проходить через початок координат). При різних значеннях моменту M вимірювалося кутове прискорення деякого тіла ε. Потрібно визначити момент інерції цього тіла. Результати вимірювань моменту сили та кутового прискорення занесені до другого та третього стовпців таблиці 5.

Таблиця 5
n M, Н · м ε, c -1 M 2 M · ε ε - kM (ε - kM) 2
1 1.44 0.52 2.0736 0.7488 0.039432 0.001555
2 3.12 1.06 9.7344 3.3072 0.018768 0.000352
3 4.59 1.45 21.0681 6.6555 -0.08181 0.006693
4 5.90 1.92 34.81 11.328 -0.049 0.002401
5 7.45 2.56 55.5025 19.072 0.073725 0.005435
– – 123.1886 41.1115 – 0.016436

За формулою (19) визначаємо:

.

Для визначення середньоквадратичної помилки скористаємося формулою (20)

0.005775кг-1 · м -2 .

За формулою (18) маємо

; .

S J = (2.996 · 0.005775) / 0.3337 = 0.05185 кг · м 2.

Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 5, знаходимо t = 2.78 і визначаємо абсолютну помилку ΔJ = 2.78 · 0.05185 = 0.1441 ≈ 0.2 кг · м 2.

Результати запишемо у вигляді:

J = (3.0 ± 0.2) кг · м 2;


приклад 2.Обчислимо температурний коефіцієнт опору металу методом найменших квадратів. Опір залежить від температури за лінійним законом

R t = R 0 (1 + α t °) = R 0 + R 0 α t °.

Вільний член визначає опір R 0 при температурі 0° C , а кутовий коефіцієнт твір температурного коефіцієнта α на опір R 0 .

Результати вимірювань та розрахунків наведені в таблиці ( див. таблицю 6).

Таблиця 6
n t°, c r, Ом t-¯ t (t-¯ t) 2 (t-¯ t)r r - bt - a (r - bt - a) 2,10 -6
1 23 1.242 -62.8333 3948.028 -78.039 0.007673 58.8722
2 59 1.326 -26.8333 720.0278 -35.581 -0.00353 12.4959
3 84 1.386 -1.83333 3.361111 -2.541 -0.00965 93.1506
4 96 1.417 10.16667 103.3611 14.40617 -0.01039 107.898
5 120 1.512 34.16667 1167.361 51.66 0.021141 446.932
6 133 1.520 47.16667 2224.694 71.69333 -0.00524 27.4556
515 8.403 – 8166.833 21.5985 – 746.804
∑/n 85.83333 1.4005 – – – – –

За формулами (21), (22) визначаємо

R 0 = ? R - α R 0 ? Ом.

Знайдемо помилку у визначенні α. Оскільки , то за формулою (18) маємо:

.

Користуючись формулами (23), (24) маємо

;

0.014126 Ом.

Задавшись надійністю P = 0.95, за таблицею коефіцієнтів Стьюдента для n = 6, знаходимо t = 2.57 та визначаємо абсолютну помилку Δα = 2.57 · 0.000132 = 0.000338 град -1.

α = (23 ± 4) · 10 -4 град-1 за P = 0.95.


приклад 3.Потрібно визначити радіус кривизни лінзи по кільцях Ньютона. Вимірювалися радіуси кілець Ньютона r m та визначалися номери цих кілець m. Радіуси кілець Ньютона пов'язані з радіусом кривизни лінзи R і номером кільця рівнянням

r 2 m = mλR - 2d 0 R,

де d 0 товщина зазору між лінзою і плоскопаралельною пластинкою (або деформація лінзи),

λ | довжина хвилі падаючого світла.

λ = (600 ± 6) нм;
r 2 m = y;
m = x;
λR = b;
-2d 0 R = a,

тоді рівняння набуде вигляду y = a + bx.

.

Результати вимірювань та обчислень занесені до таблицю 7.

Таблиця 7
n x = m y = r 2 10 -2 мм 2 m - m (m - m) 2 (m - m)y y - bx - a, 10 -4 (y - bx - a) 2 , 10 -6
1 1 6.101 -2.5 6.25 -0.152525 12.01 1.44229
2 2 11.834 -1.5 2.25 -0.17751 -9.6 0.930766
3 3 17.808 -0.5 0.25 -0.08904 -7.2 0.519086
4 4 23.814 0.5 0.25 0.11907 -1.6 0.0243955
5 5 29.812 1.5 2.25 0.44718 3.28 0.107646
6 6 35.760 2.5 6.25 0.894 3.12 0.0975819
21 125.129 – 17.5 1.041175 – 3.12176
∑/n 3.5 20.8548333 – – – – –

Апроксимація дослідних даних - це метод, заснований на заміні експериментально отриманих даних аналітичною функцією, що найбільш близько проходить або збігається в вузлових точках з вихідними значеннями (даними отриманими в ході досвіду або експерименту). В даний час існує два способи визначення аналітичної функції:

За допомогою побудови інтерполяційного багаточлена n-ступеня, що проходить безпосередньо через усі точкизаданого масиву даних. У даному випадку апроксимуюча функція подається у вигляді: інтерполяційного багаточлена у формі Лагранжа або інтерполяційного багаточлена у формі Ньютона.

За допомогою побудови апроксимуючого багаточлена n-ступеня, що проходить в найближчій близькості від точокіз заданого масиву даних. Таким чином, апроксимуюча функція згладжує всі випадкові перешкоди (або похибки), які можуть виникати при виконанні експерименту: значення, що вимірюються в ході досвіду, залежать від випадкових факторів, які коливаються за своїми власними випадковими законами (похибки вимірювань або приладів, неточність або помилки досвіду). У разі апроксимуюча функція визначається методом найменших квадратів.

Метод найменших квадратів(В англомовній літературі Ordinary Least Squares, OLS) - математичний метод, заснований на визначенні апроксимуючої функції, яка будується в найближчій близькості від точок із заданого масиву експериментальних даних. Близькість вихідної та апроксимуючої функції F(x) визначається числовою мірою, а саме: сума квадратів відхилень експериментальних даних від апроксимуючої кривої F(x) має бути найменшою.

Апроксимуюча крива, побудована за методом найменших квадратів

Метод найменших квадратів використовується:

Для вирішення перевизначених систем рівнянь коли кількість рівнянь перевищує кількість невідомих;

Для пошуку рішення у разі звичайних (не перевизначених) нелінійних систем рівнянь;

Для апроксимації точкових значень деякою апроксимуючою функцією.

Апроксимуюча функція методом найменших квадратів визначається з умови мінімуму суми квадратів відхилень розрахункової апроксимуючої функції від заданого масиву експериментальних даних. Цей критерій методу найменших квадратів записується у вигляді наступного виразу:

Значення розрахункової апроксимуючої функції у вузлових точках

Заданий масив експериментальних даних у вузлових точках.

Квадратичний критерій має низку "хороших" властивостей, таких, як диференційність, забезпечення єдиного розв'язання задачі апроксимації при поліноміальних апроксимуючих функціях.

Залежно від умов завдання апроксимуюча функція є багаточленом ступеня m

Ступінь апроксимуючої функції не залежить від числа вузлових точок, але її розмірність повинна бути завжди меншою за розмірність (кількість точок) заданого масиву експериментальних даних.

∙ Якщо ступінь апроксимуючої функції m=1, то ми апроксимуємо табличну функцію прямою лінією (лінійна регресія).

∙ Якщо ступінь апроксимуючої функції m=2, то ми апроксимуємо табличну функцію квадратичною параболою (квадратична апроксимація).

∙ Якщо ступінь апроксимуючої функції m=3, то ми апроксимуємо табличну функцію кубічною параболою (кубічна апроксимація).

У випадку, коли потрібно побудувати апроксимуючий многочлен ступеня m для заданих табличних значень, умова мінімуму суми квадратів відхилень за всіма вузловими точками переписується у такому виде:

- невідомі коефіцієнти апроксимуючого багаточлена ступеня m;

Кількість заданих табличних значень.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними . В результаті отримаємо наступну систему рівнянь:

Перетворимо отриману лінійну систему рівнянь: розкриємо дужки і перенесемо вільні доданки в праву частину виразу. В результаті отримана система лінійних виразів алгебри буде записуватися в наступному вигляді:

Дана система лінійних виразів алгебри може бути переписана в матричному вигляді:

В результаті було отримано систему лінійних рівнянь розмірністю m+1, що складається з m+1 невідомих. Дана система може бути вирішена за допомогою будь-якого методу розв'язання лінійних рівнянь алгебри (наприклад, методом Гаусса). Через війну рішення знайдено невідомі параметри апроксимуючої функції, які забезпечують мінімальну суму квадратів відхилень апроксимуючої функції від вихідних даних, тобто. найкраще можливе квадратичне наближення. Слід пам'ятати, що при зміні навіть одного значення вихідних даних усі коефіцієнти змінять свої значення, оскільки вони повністю визначаються вихідними даними.

Апроксимація вихідних даних лінійною залежністю

(лінійна регресія)

Як приклад розглянемо методику визначення апроксимуючої функції, яка задана у вигляді лінійної залежності. Відповідно до методу найменших квадратів умова мінімуму суми квадратів відхилень записується у такому вигляді:

Координати вузлових точок таблиці;

Невідомі коефіцієнти апроксимуючої функції, заданої у вигляді лінійної залежності.

Необхідною умовою існування мінімуму функції є рівність нуля її приватних похідних за невідомими змінними. В результаті отримуємо таку систему рівнянь:

Перетворимо отриману лінійну систему рівнянь.

Вирішуємо отриману систему лінійних рівнянь. Коефіцієнти апроксимуючої функції в аналітичному вигляді визначаються в такий спосіб (метод Крамера):

Дані коефіцієнти забезпечують побудову лінійної апроксимуючої функції відповідно до критерію мінімізації суми квадратів апроксимуючої функції від заданих табличних значень (експериментальні дані).

Алгоритм реалізації методу найменших квадратів

1. Початкові дані:

Задано масив експериментальних даних із кількістю вимірювань N

Задано ступінь апроксимуючого багаточлена (m)

2. Алгоритм обчислення:

2.1. Визначаються коефіцієнти для побудови системи рівнянь розмірністю

Коефіцієнти системи рівнянь (ліва частина рівняння)

- Індекс номера стовпця квадратної матриці системи рівнянь

Вільні члени системи лінійних рівнянь (права частина рівняння)

- індекс номера рядка квадратної матриці системи рівнянь

2.2. Формування системи лінійних рівнянь розмірністю.

2.3. Розв'язання системи лінійних рівнянь з метою визначення невідомих коефіцієнтів апроксимуючого багаточлена ступеня m.

2.4.Визначення суми квадратів відхилень апроксимуючого багаточлена від вихідних значень по всіх вузлових точках

Знайдене значення суми квадратів відхилень є мінімально можливим.

Апроксимація за допомогою інших функцій

Слід зазначити, що при апроксимації вихідних даних відповідно до методу найменших квадратів як апроксимуючу функцію іноді використовують логарифмічну функцію, експоненційну функцію і статечну функцію.

Логарифмічна апроксимація

Розглянемо випадок, коли апроксимуюча функція задана логарифмічною функцієювиду: