Знайти середнє арифметичне кількості. Як знайти середнє арифметичне число в Excel. Середнє квадратичне відхилення: формула в Excel

У більшості випадків дані концентруються навколо якоїсь центральної точки. Таким чином, щоб описати будь-який набір даних, досить вказати середньо значення. Розглянемо послідовно три числові характеристики, які використовуються для оцінки середнього значення розподілу: середнє арифметичне, медіана і мода.

Середнє арифметичне

Середнє арифметичне (часто зване просто середнім) - найбільш поширена оцінка середнього значення розподілу. Вона є результатом ділення суми всіх спостережуваних числових величин на їх кількість. Для вибірки, що складається з чисел Х 1, Х 2, ..., Хn, Вибіркове середнє (позначається символом ) одно = (Х 1 + Х 2 + ... + Хn) / n, або

де - вибіркове середнє, n- обсяг вибірки, Xi- i-й елемент вибірки.

Завантажити замітку в форматі або, приклади в форматі

Розглянемо обчислення середнього арифметичного значення п'ятирічної середньорічної прибутковості 15 взаємних фондів з дуже високим рівнем ризику (рис. 1).

Мал. 1. Середньорічна доходність 15 взаємних фондів з дуже високим рівнем ризику

Вибіркове середнє обчислюється таким чином:

Це хороший дохід, особливо в порівнянні з 3-4% доходу, який отримали вкладники банків або кредитних спілок за той же період часу. Якщо впорядкувати значення прибутковості, то легко помітити, що вісім фондів мають прибутковість вище, а сім - нижче середнього значення. Середнє арифметичне грає роль точки рівноваги, так що фонди з низькими доходами врівноважують фонди з високими доходами. В обчисленні середнього задіяні всі елементи вибірки. Жодна з інших оцінок середнього значення розподілу не володіє цією властивістю.

Коли слід обчислювати середнє арифметичне.Оскільки середнє арифметичне залежить від усіх елементів вибірки, наявність екстремальних значень значно впливає на результат. У таких ситуаціях середнє арифметичне може спотворити зміст числових даних. Отже, описуючи набір даних, що містить екстремальні значення, необхідно вказувати медіану або середнє арифметичне і медіану. Наприклад, якщо видалити з вибірки прибутковість фонду RS Emerging Growth, вибіркове середнє прибутковості 14 фондів зменшиться майже на 1% і складе 5,19%.

медіана

Медіана являє собою серединне значення упорядкованого масиву чисел. Якщо масив не містить повторюваних чисел, то половина його елементів виявиться менше, а половина - більше медіани. Якщо вибірка містить екстремальні значення, для оцінки середнього значення краще використовувати не середнє арифметичне, а медіану. Щоб обчислити медіану вибірки, її спочатку необхідно впорядкувати.

Ця формула неоднозначна. Її результат залежить від парності або непарності числа n:

  • Якщо вибірка містить непарну кількість елементів, медіана дорівнює (N + 1) / 2-му елементу.
  • Якщо вибірка містить парну кількість елементів, медіана лежить між двома середніми елементами вибірки і дорівнює середньому арифметичному, обчисленому за цим двом елементам.

Щоб обчислити медіану вибірки, що містить дані про прибутковість 15 взаємних фондів з дуже високий рівнем ризику, спочатку необхідно впорядкувати вихідні дані (рис. 2). Тоді медіана буде навпроти номера середнього елемента вибірки; в нашому прикладі №8. В Excel є спеціальна функція = МЕДИАНА (), яка працює і з неврегульованими масивами теж.

Мал. 2. Медіана 15 фондів

Таким чином, медіана дорівнює 6,5. Це означає, що дохідність однієї половини фондів з дуже високим рівнем ризику не перевищує 6,5, а прибутковість другої половини - перевищує її. Зверніть увагу на те, що медіана, рівна 6,5, ненабагато більше середнього значення, рівного 6,08.

Якщо видалити з вибірки прибутковість фонду RS Emerging Growth, то медіана залишилися 14 фондів зменшиться до 6,2%, тобто не так значно, як середнє арифметичне (рис. 3).

Мал. 3. Медіана 14 фондів

Мода

Термін був вперше введений Пирсоном в 1894 р Мода - це число, яке частіше за інших зустрічається у вибірці (найбільш модне). Мода добре описує, наприклад, типову реакцію водіїв на сигнал світлофора про припинення руху. Класичний приклад використання моди - вибір розміру партії, що випускається взуття або кольору шпалер. Якщо розподіл має кілька мод, то кажуть, що воно мультимодальних або многомодальним (має два або більше «піку»). Мультимодальних розподілу дає важливу інформацію про природу досліджуваної змінної. Наприклад, в соціологічних опитуваннях, якщо змінна представляє собою перевагу або ставлення до чогось, то мультимодальних може означати, що існують кілька виразно різних думок. Мультимодальних також служить індикатором того, що вибірка не є однорідною і спостереження, можливо, породжені двома або більше «накладеними» розподілами. На відміну від середнього арифметичного, викиди на моду не впливають. Для безперервно розподілених випадкових величин, наприклад, для показників середньорічної прибутковості взаємних фондів, мода іноді взагалі не існує (або не має сенсу). Оскільки ці показники можуть приймати самі різні значення, що повторюються величини зустрічаються вкрай рідко.

квартили

Квартили - це показники, які найчастіше використовуються для оцінки розподілу даних при описі властивостей великих числових вибірок. У той час як медіана поділяє упорядкований масив навпіл (50% елементів масиву менше медіани і 50% - більше), квартили розбивають упорядкований набір даних на чотири частини. Величини Q 1, медіана і Q 3 є 25-м, 50-м і 75-м перцентилем відповідно. Перший квартиль Q 1 - це число, що розділяє вибірку на дві частини: 25% елементів менше, а 75% - більше першого квартиля.

Третій квартиль Q 3 - це число, що розділяє вибірку також на дві частини: 75% елементів менше, а 25% - більше третього квартиля.

Для розрахунку квартилей в версіях Excel до 2007 р використовувалася функція = Квартиль (масив; частина). Починаючи з версії Excel2010 застосовуються дві функції:

  • = КВАРТІЛЬ.ВКЛ (масив; частина)
  • = КВАРТІЛЬ.ІСКЛ (масив; частина)

Ці дві функції дають трохи різні значення (рис. 4). Наприклад, при обчисленні квартилей вибірки, що містить дані про середньорічної прибутковості 15 взаємних фондів з дуже високим рівнем ризику Q 1 = 1,8 або -0,7 для КВАРТІЛЬ.ВКЛ і КВАРТІЛЬ.ІСКЛ, відповідно. До речі функція Квартиль, що використовувалась раніше відповідає сучасній функції КВАРТІЛЬ.ВКЛ. Для розрахунку квартилей в Excel за допомогою вищенаведених формул масив даних годі й упорядковувати.

Мал. 4. Обчислення квартилей в Excel

Підкреслимо ще раз. Excel вміє розраховувати квартили для одновимірного дискретного ряду, Що містить значення випадкової величини. Розрахунок квартилей для розподілу на основі частот наведено нижче в розділі.

середнє геометричне

На відміну від середнього арифметичного середнє геометричне дозволяє оцінити ступінь зміни змінної з плином часу. Середнє геометричне - це корінь n-го ступеня з добутку nвеличин (в Excel використовується функція = СРГЕОМ):

G= (X 1 * X 2 * ... * X n) 1 / n

Схожий параметр - середнє геометричне значення норми прибутку - визначається формулою:

G = [(1 + R 1) * (1 + R 2) * ... * (1 + R n)] 1 / n - 1,

де R i- норма прибутку за i-й період часу.

Наприклад, припустимо, що обсяг вкладених коштів у вихідний момент часу дорівнює 100 000 дол. До кінця першого року він падає до рівня 50 000 дол., А до кінця другого року відновлюється до вихідної позначки 100 000 дол. Норма прибутку цієї інвестиції за дворічний період дорівнює 0, оскільки початковий і фінальний обсяг коштів рівні між собою. Однак середнє арифметичне річних норм прибутку одно = (-0,5 + 1) / 2 = 0,25 або 25%, оскільки норма прибутку в перший рік R 1 = (50 000 - 100 000) / 100 000 = -0,5 , а в другій R 2 = (100 000 - 50 000) / 50 000 = 1. У той же час, середнє геометричне значення норми прибутку за два роки так само: G = [(1-0,5) * (1 + 1 )] 1/2 - 1 = ½ - 1 = 1 - 1 = 0. Таким чином, середнє геометричне точніше відображає зміну (точніше, відсутність змін) обсягу інвестицій за дворічний період, ніж середнє арифметичне.

Цікаві факти.По-перше, середнє геометричне завжди буде менше середнього арифметичного тих же чисел. За винятком випадку, коли всі взяті числа дорівнюють один одному. По-друге, розглянувши властивості прямокутного трикутника, можна зрозуміти, чому середнє називається геометричним. Висота прямокутного трикутника, опущена на гіпотенузу, є середнім пропорційним між проекціями катетів на гіпотенузу, а кожен катет є середнім пропорційним між гіпотенузою і його проекцією на гіпотенузу (рис. 5). Це дає геометричний спосіб побудови середнього геометричного двох (довжин) відрізків: потрібно побудувати окружність на сумі цих двох відрізків як на діаметрі, тоді висота, восставленний з точки їх з'єднання до перетину з колом, дасть шукану величину:

Мал. 5. Геометрична природа середнього геометричного (малюнок з Вікіпедії)

Друга важлива властивість числових даних - їх варіація, Що характеризує ступінь дисперсії даних. Дві різні вибірки можуть відрізнятися як середніми значеннями, так і варіаціями. Однак, як показано на рис. 6 і 7, дві вибірки можуть мати однакові варіації, але різні середні значення, або однакові середні значення і абсолютно різні варіації. Дані, яким відповідає полігон В на рис. 7, змінюються набагато менше, ніж дані, за якими побудований полігон А.

Мал. 6. Два симетричних розподілу колоколообразной форми з однаковим розкидом і різними середніми значеннями

Мал. 7. Два симетричних розподілу колоколообразной форми з однаковими середніми значеннями і різним розкидом

Існує п'ять оцінок варіації даних:

  • розмах,
  • межквартільний розмах,
  • дисперсія,
  • стандартне відхилення,
  • коефіцієнт варіації.

розмах

Розмахом називається різниця між найбільшим і найменшим елементами вибірки:

Розмах = ХMax - ХMin

Розмах вибірки, що містить дані про середньорічної прибутковості 15 взаємних фондів з дуже високим рівнем ризику, можна обчислити, використовуючи упорядкований масив (див. Рис. 4): розмах = 18,5 - (-6,1) = 24,6. Це означає, що різниця між найбільшою і найменшою середньорічною прибутковістю фондів з дуже високим рівнем ризику дорівнює 24,6%.

Розмах дозволяє виміряти загальний розкид даних. Хоча розмах вибірки є вельми простий оцінкою загального розкиду даних, його слабкість полягає в тому, що він ніяк не враховує, як саме розподілені дані між мінімальним і максимальним елементами. Цей ефект добре простежується на рис. 8, який ілюструє вибірки, що мають однаковий розмах. Шкала В демонструє, що якщо вибірка містить хоча б одне екстремальне значення, розмах вибірки виявляється вельми неточною оцінкою розкиду даних.

Мал. 8. Порівняння трьох вибірок, що мають однаковий розмах; трикутник символізує опору ваг, і його розташування відповідає середньому значенню вибірки

Межквартільний розмах

Межквартільний, або середній, розмах - це різниця між третім і першим квартилями вибірки:

Межквартільний розмах = Q 3 - Q 1

Ця величина дозволяє оцінити розкид 50% елементів і не враховувати вплив екстремальних елементів. Межквартільний розмах вибірки, що містить дані про середньорічної прибутковості 15 взаємних фондів з дуже високим рівнем ризику, можна обчислити, використовуючи дані на рис. 4 (наприклад, для функції КВАРТІЛЬ.ІСКЛ): Межквартільний розмах = 9,8 - (-0,7) = 10,5. Інтервал, обмежений числами 9,8 і -0,7, часто називають середньої половиною.

Слід зазначити, що величини Q 1 і Q 3, а значить, і межквартільний розмах, що не залежать від наявності викидів, оскільки при їх обчисленні не враховується ні одна величина, яка була б менше Q 1 або більше Q 3. Сумарні кількісні характеристики, такі як медіана, перший і третій квартили, а також межквартільний розмах, на які не впливають викиди, називаються стійкими показниками.

Хоча розмах і межквартільний розмах дозволяють оцінити загальний і середній розкид вибірки відповідно, жодна з цих оцінок не враховує, як саме розподілені дані. Дисперсія і стандартне відхиленняпозбавлені цього недоліку. Ці показники дозволяють оцінити ступінь коливання даних навколо середнього значення. вибіркова дисперсіяє наближенням середнього арифметичного, обчисленого на основі квадратів різниць між кожним елементом вибірки і вибірковим середнім. Для вибірки Х 1, Х 2, ... Х n вибіркова дисперсія (позначається символом S 2 задається наступною формулою:

У загальному випадку вибіркова дисперсія - це сума квадратів різниць між елементами вибірки і вибірковим середнім, поділена на величину, що дорівнює обсягу вибірки мінус один:

де - арифметичне середнє, n- обсяг вибірки, X i - i-й елемент вибірки X. В Excel до версії 2007 для розрахунку вибіркової дисперсії використовувалася функція = ДИСП (), з версії 2010 використовується функція = ДІСП.В ().

Найбільш практичною і широко поширеною оцінкою розкиду даних є стандартне вибіркове відхилення. Цей показник позначається символом S і дорівнює квадратному кореню з вибіркової дисперсії:

В Excel до версії 2007 для розрахунку стандартного вибіркового відхилення використовувалася функція = СТАНДОТКЛОН (), з версії 2010 використовується функція = СТАНДОТКЛОН.В (). Для розрахунку цих функцій масив даних може бути неврегульованим.

Ні вибіркова дисперсія, ні стандартне вибіркове відхилення не можуть бути негативними. Єдина ситуація, в якій показники S 2 і S можуть бути нульовими, - якщо всі елементи вибірки рівні між собою. У цьому абсолютно неймовірному випадку розмах і межквартільний розмах також дорівнюють нулю.

Числові дані за своєю природою мінливі. Будь-яка змінна може приймати безліч різних значень. Наприклад, різні взаємні фонди мають різні показники прибутковості і збитків. Внаслідок мінливості числових даних дуже важливо вивчати не тільки оцінки середнього значення, які за своєю природою є сумарними, а й оцінки дисперсії, що характеризують розкид даних.

Дисперсія і стандартне відхилення дозволяють оцінити розкид даних навколо середнього значення, інакше кажучи, визначити, скільки елементів вибірки менше середнього, а скільки - більше. Дисперсія має деякі цінними математичними властивостями. Однак її величина є квадрат одиниці виміру - квадратний відсоток, квадратний долар, квадратний дюйм і т.п. Отже, природною оцінкою дисперсії є стандартне відхилення, яке виражається в звичайних одиницях вимірювань - відсотках доходу, доларах або дюймах.

Стандартне відхилення дозволяє оцінити величину коливань елементів вибірки навколо середнього значення. Практично у всіх ситуаціях основна кількість спостережуваних величин лежить в інтервалі плюс-мінус одне стандартне відхилення від середнього значення. Отже, знаючи середнє арифметичне елементів вибірки і стандартне вибіркове відхилення, можна визначити інтервал, якому належить основна маса даних.

Стандартне відхилення дохідності 15 взаємних фондів з дуже високим рівнем ризику одно 6,6 (рис. 9). Це означає, що прибутковість основної маси фондів відрізняється від середнього значення не більше ніж на 6,6% (тобто коливається в інтервалі від - S= 6,2 - 6,6 = -0,4 до + S= 12,8). Фактично в цьому інтервалі лежить п'ятирічна середньорічна дохідність 53,3% (8 з 15) фондів.

Мал. 9. Стандартне вибіркове відхилення

Зверніть увагу на те, що в процесі підсумовування квадратів різниць елементи вибірки, що лежать далі від середнього значення, набувають більшої ваги, ніж елементи, що лежать ближче. Ця властивість є основною причиною того, що для оцінки середнього значення розподілу найчастіше використовується середнє арифметичне значення.

Коефіцієнт варіації

На відміну від попередніх оцінок розкиду, коефіцієнт варіації є відносною оцінкою. Він завжди вимірюється у відсотках, а не в одиницях виміру вихідних даних. Коефіцієнт варіації, що позначається символами CV, вимірює розсіювання даних щодо середнього значення. Коефіцієнт варіації дорівнює стандартному відхиленню, поділеній на середнє арифметичне і помноженому на 100%:

де S- стандартне вибіркове відхилення, - вибіркове середнє.

Коефіцієнт варіації дозволяє порівняти дві вибірки, елементи яких виражаються в різних одиницях виміру. Наприклад, керуючий служби доставки кореспонденції має намір оновити парк вантажівок. Під час навантаження пакетів слід враховувати два види обмежень: вага (в фунтах) і обсяг (в кубічних футів) кожного пакета. Припустимо, що у вибірці, що містить 200 пакетів, середня вага дорівнює 26,0 фунтів, стандартне відхилення ваги 3,9 фунтів, середній обсяг пакета 8,8 кубічних футів, а стандартне відхилення обсягу 2,2 кубічних фута. Як порівняти розкид ваги і обсягу пакетів?

Оскільки одиниці виміру ваги і обсягу відрізняються один від одного, керуючий повинен порівняти відносний розкид цих величин. Коефіцієнт варіації ваги дорівнює CV W = 3,9 / 26,0 * 100% = 15%, а коефіцієнт варіації обсягу CV V = 2,2 / 8,8 * 100% = 25%. Таким чином, відносний розкид обсягу пакетів набагато більше відносного розкиду їх ваги.

форма розподілу

Третя важлива властивість вибірки - форма її розподілу. Цей розподіл може бути симетричним або асиметричним. Щоб описати форму розподілу, необхідно обчислити його середнє значення і медіану. Якщо ці два показники збігаються, змінна вважається симетрично розподіленої. Якщо середнє значення змінної більше медіани, її розподіл має позитивну асиметрію (рис. 10). Якщо медіана більше середнього значення, розподіл змінної має негативну асиметрію. Позитивна асиметрія виникає, коли середнє значення збільшується до надзвичайно високих значень. Негативна асиметрія виникає, коли середнє значення зменшується до надзвичайно малих значень. Змінна є симетрично розподіленої, якщо вона не приймає ніяких екстремальних значень ні в одному з напрямків, так що великі і малі значення змінної врівноважують один одного.

Мал. 10. Три види розподілів

Дані, зображені на шкалі А, мають негативну асиметрію. На цьому малюнку видно довгий хвіст і перекіс вліво, викликані наявністю незвично малих значень. Ці вкрай малі величини зміщують середнє значення вліво, і воно стає менше медіани. Дані, зображені на шкалі Б, розподілені симетрично. Права та ліва половини розподілу є своїми дзеркальними відображеннями. Великі і малі величини врівноважують один одного, а середнє значення і медіана рівні між собою. Дані, зображені на шкалі В, мають позитивну асиметрію. На цьому малюнку видно довгий хвіст і перекіс вправо, викликані наявністю надзвичайно високих значень. Ці занадто великі величини зміщують середнє значення вправо, і воно стає більше медіани.

В Excel описові статистики можна отримати за допомогою надбудови пакет аналізу. Пройдіть по меню даніаналіз даних, У вікні, виберіть рядок описова статистикаі натисніть Ok. У вікні описова статистикаобов'язково вкажіть вхідний інтервал(Рис. 11). Якщо ви хочете побачити описові статистики на тому ж аркуші, що і вихідні дані, виберіть перемикач вихідний інтервалі вкажіть клітинку, куди слід помістити лівий верхній кут виведених статистик (в нашому прикладі $ C $ 1). Якщо ви хочете вивести дані на новий лист або в нову книгу, досить просто вибрати відповідний перемикач. Поставте галочку навпроти Підсумкова статистика. За бажанням також можна вибрати Рівень складності,k-й найменший іk-й найбільший.

Якщо на вкладі данів області аналізу вас не відображається піктограма аналіз даних, Потрібно попередньо встановити надбудову пакет аналізу(Див., Наприклад,).

Мал. 11. Описові статистики п'ятирічної середньорічної прибутковості фондів з дуже високим рівнями ризику, обчислені за допомогою надбудови аналіз данихпрограми Excel

Excel обчислює цілий ряд статистик, розглянутих вище: середня, медіану, моду, стандартне відхилення, дисперсію, розмах ( інтервал), Мінімум, максимум і обсяг вибірки ( рахунок). Крім того, Excel обчислює деякі нові для нас статистики: стандартну помилку, ексцес і асиметричність. стандартна помилкадорівнює стандартному відхиленню, поділеній на квадратний корінь обсягу вибірки. асиметричністьхарактеризує відхилення від симетричності розподілу і є функцією, яка залежить від куба різниць між елементами вибірки і середнім значенням. Ексцес являє собою міру відносної концентрації даних навколо середнього значення в порівнянні з хвостами розподілу і залежить від різниць між елементами вибірки і середнім значенням, зведених в четверту ступінь.

Обчислення описових статистик для генеральної сукупності

Середнє значення, розкид і форма розподілу, розглянуті вище, являють собою характеристики, що визначаються за вибіркою. Однак, якщо набір даних містить числові вимірювання всієї генеральної сукупності, можна обчислити її параметри. До числа таких параметрів відносяться математичне очікування, дисперсія і стандартне відхилення генеральної сукупності.

Математичне очікуваннядорівнює сумі всіх значень генеральної сукупності, поділеній на обсяг генеральної сукупності:

де µ - математичне очікування, Xi- i-е спостереження змінної X, N- обсяг генеральної сукупності. В Excel для обчислення математичного очікування використовується та ж функція, що і для середнього арифметичного: = СРЗНАЧ ().

Дисперсія генеральної сукупностідорівнює сумі квадратів різниць між елементами генеральної сукупності і мат. очікуванням, поділеній на обсяг генеральної сукупності:

де σ 2- дисперсія генеральної сукупності. В Excel до версії 2007 для обчислення дисперсії генеральної сукупності використовується функція = ДІСПР (), починаючи з версії 2010 = ДІСП.Г ().

Стандартне відхилення генеральної сукупностіодно квадратному кореню, витягнутої з дисперсії генеральної сукупності:

В Excel до версії 2007 для обчислення стандартного відхилення генеральної сукупності використовується функція = СТАНДОТКЛОНП (), починаючи з версії 2010 = СТАНДОТКЛОН.Г (). Зверніть увагу на те, що формули для дисперсії і стандартного відхилення генеральної сукупності відрізняються від формул для обчислення вибіркової дисперсії і стандартного відхилення. При обчисленні вибіркових статистик S 2і Sзнаменник дробу дорівнює n - 1, А при обчисленні параметрів σ 2і σ - обсягом генеральної сукупності N.

емпіричне правило

У більшості ситуацій велика частка спостережень концентрується навколо медіани, утворюючи кластер. У наборах даних, що мають позитивну асиметрію, цей кластер розташований лівіше (тобто нижче) математичного очікування, а в наборах, що мають негативну асиметрію, цей кластер розташований правіше (тобто вище) математичного очікування. У симетричних даних математичне очікування і медіана збігаються, а спостереження концентруються навколо математичного очікування, формуючи дзвіноподібний розподіл. Якщо розподіл не має яскраво вираженої асиметрії, а дані концентруються навколо якогось центру ваги, для оцінки мінливості можна застосовувати емпіричне правило, яке свідчить: якщо дані мають дзвіноподібний розподіл, то приблизно 68% спостережень відстоять від математичного очікування не більше ніж на одне стандартне відхилення, приблизно 95% спостережень відстоять від математичного очікування не більше ніж на два стандартних відхилення і 99,7% спостережень відстоять від математичного очікування не більше ніж на три стандартних відхилення.

Таким чином, стандартне відхилення, що представляє собою оцінку середнього коливання навколо математичного очікування, допомагає зрозуміти, як розподілені спостереження, і ідентифікувати викиди. З емпіричного правила випливає, що для колоколообразний розподілів лише одне значення з двадцяти відрізняється від математичного очікування більше, ніж на два стандартних відхилення. Отже, значення, що лежать за межами інтервалу μ ± 2σ, Можна вважати викидами. Крім того, тільки три з 1000 спостережень відрізняються від математичного очікування більше ніж на три стандартних відхилення. Таким чином, значення, що лежать за межами інтервалу μ ± 3σпрактично завжди є викидами. Для розподілів, що мають сильну асиметрію або не мають колоколообразной форми, можна застосовувати емпіричне правило Бьенаме-Чебишева.

Понад сто років тому математики Бьенаме і Чебишев незалежно один від одного відкрили корисна властивість стандартного відхилення. Вони виявили, що для будь-якого набору даних, незалежно від форми розподілу, відсоток спостережень, що лежать на відстані не перевищує kстандартних відхилень від математичного очікування, що не менше (1 – 1/ k 2) * 100%.

Наприклад, якщо k= 2, правило Бьенаме-Чебишева говорить, що як мінімум (1 - (1/2) 2) х 100% = 75% спостережень має лежати в інтервалі μ ± 2σ. Це правило справедливо для будь-якого k, Що перевищує одиницю. Правило Бьенаме-Чебишева носить досить загальний характер і справедливо для розподілів будь-якого виду. Воно вказує мінімальну кількість спостережень, відстань від яких до математичного очікування не перевищує заданої величини. Однак, якщо розподіл має колоколообразную форму, емпіричне правило більш точно оцінює концентрацію даних навколо математичного очікування.

Обчислення описових статистик для розподілу на основі частот

Якщо вихідні дані недоступні, єдиним джерелом інформації стає розподіл частот. У таких ситуаціях можна обчислити наближені значення кількісних показників розподілу, таких як середнє арифметичне, стандартне відхилення, квартили.

Якщо вибіркові дані представлені в вигляді розподілу частот, наближене значення середнього арифметичного можна обчислити, припускаючи, що всі значення всередині кожного класу зосереджені в середній точці класу:

де - вибіркове середнє, n- кількість спостережень, або обсяг вибірки, з- кількість класів у розподілі частот, m j- середня точка j-гo класу, fj- частота, відповідна j-му класу.

Для обчислення стандартного відхилення за розподілом частот також передбачається, що всі значення всередині кожного класу зосереджені в середній точці класу.

Щоб зрозуміти, як визначаються квартили ряду на основі частот, розглянемо розрахунок нижнього квартиля на основі даних за 2013 року про розподіл населення Росії за величиною середньодушових грошових доходів (рис. 12).

Мал. 12. Частка населення Росії із середньодушовими грошовими доходами в середньому за місяць, рублів

Для розрахунку першого квартиля інтервального варіаційного ряду можна скористатися формулою:

де Q1 - величина першого квартиля, хQ1 - нижня межа інтервалу, що містить перший квартиль (інтервал визначається по накопиченої частоті, першої перевищує 25%); i - величина інтервалу; Σf - сума частот всієї вибірки; напевно, завжди дорівнює 100%; SQ1-1 - накопичена частота інтервалу, що передує інтервалу, який містить нижній квартиль; fQ1 - частота інтервалу, що містить нижній квартиль. Формула для третього квартиля відрізняється тим, що у всіх місцях замість Q1 потрібно використовувати Q3, а замість ¼ підставити ¾.

У нашому прикладі (рис. 12) нижній квартиль знаходиться в інтервалі 7000,1 - 10 000, накопичена частота якого дорівнює 26,4%. Нижня межа цього інтервалу - 7000 руб., Величина інтервалу - 3000 руб., Накопичена частота інтервалу, що передує інтервалу, який містить нижній квартиль - 13,4%, частота інтервалу, що містить нижній квартиль - 13,0%. Таким чином: Q1 = 7000 + 3000 * (¼ * 100 - 13,4) / 13 = 9677 руб.

Пастки, пов'язані з описовими статистиками

У цій замітці ми розглянули, як описати набір даних за допомогою різних статистик, які оцінюють його середнє значення, розкид і вид розподілу. Наступним етапом є аналіз і інтерпретація даних. До сих пір ми вивчали об'єктивні властивості даних, а тепер переходимо до їх суб'єктивної трактуванні. Дослідника підстерігають дві помилки: невірно обраний предмет аналізу і неправильна інтерпретація результатів.

Аналіз прибутковості 15 взаємних фондів з дуже високим рівнем ризику є цілком об'єктивним. Він привів до абсолютно об'єктивним висновків: всі взаємні фонди мають різну прибутковість, розкид прибутковості фондів коливається від -6,1 до 18,5, а середня прибутковість дорівнює 6,08. Об'єктивність аналізу даних забезпечується правильним вибором сумарних кількісних показників розподілу. Було розглянуто декілька способів оцінки середнього значення і розкиду даних, вказані їх переваги та недоліки. Як же вибрати правильну статистику, що забезпечує об'єктивний та неупереджений аналіз? Якщо розподіл даних має невелику асиметрію, чи слід вибирати медіану, а не середнє арифметичне? Який показник більш точно характеризує розкид даних: стандартне відхилення або розмах? Чи слід вказувати на позитивну асиметрію розподілу?

З іншого боку, інтерпретація даних є суб'єктивним процесом. Різні люди приходять до різних висновків, витлумачуючи одні і ті ж результати. У кожного своя точка зору. Хтось вважає сумарні показники середньорічної прибутковості 15 фондів з дуже високим рівнем ризику хорошими і цілком задоволений отриманим доходом. Іншим може здатися, що ці фонди мають занадто низьку прибутковість. Таким чином, суб'єктивність слід компенсувати чесністю, нейтральністю і ясністю висновків.

етичні проблеми

Аналіз даних нерозривно пов'язаний з етичними питаннями. Слід критично ставитися до інформації, поширюваної газетами, радіо, телебаченням і інтерент. Згодом ви навчитеся скептично ставитися не тільки до результатів, але і до цілям, предмету і об'єктивності досліджень. Найкраще про це сказав відомий британський політик Бенджамін Дізраелі: «Існують три види брехні: брехня, нахабна брехня і статистика».

Як було відзначено в замітці етичні проблеми виникають при виборі результатів, які слід привести в звіті. Слід публікувати як позитивні, так і негативні результати. Крім того, роблячи доповідь або письмовий звіт, результати необхідно викладати чесно, нейтрально і об'єктивно. Слід розрізняти невдалу і нечесну презентації. Для цього необхідно визначити, які були наміри доповідача. Іноді важливу інформацію доповідач пропускає через невігластво, а іноді - навмисне (наприклад, якщо він застосовує середнє арифметичне для оцінки середнього значення явно асиметричних даних, щоб отримати бажаний результат). Нечесно також замовчувати результати, які не відповідають точці зору дослідника.

Використовуються матеріали книги Левін та ін. Статистика для менеджерів. - М .: Вільямс, 2004. - с. 178-209

Функція Квартиль залишена для суміщення з більш ранніми версіями Excel

Для того щоб знайти середнє значення в Excel (при тому неважливо числове, текстове, процентне або інше значення) існує багато функцій. І кожна з них має свої особливості і перевагами. Адже в цьому завданню можуть бути поставлені певні умови.

Наприклад, середні значення ряду чисел в Excel вважають за допомогою статистичних функцій. Можна також вручну ввести власну формулу. Розглянемо різні варіанти.

Як знайти середнє арифметичне чисел?

Щоб знайти середнє арифметичне, необхідно скласти всі числа в наборі і розділити суму на кількість. Наприклад, оцінки школяра з інформатики: 3, 4, 3, 5, 5. Що виходить за чверть: 4. Ми знайшли середнє арифметичне за формулою: = (3 + 4 + 3 + 5 + 5) / 5.

Як це швидко зробити за допомогою функцій Excel? Візьмемо для прикладу ряд випадкових чисел в рядку:

Або: зробимо активної клітинку і просто вручну впишемо формулу: = СРЗНАЧ (A1: A8).

Тепер подивимося, що ще вміє функція СРЗНАЧ.


Знайдемо середнє арифметичне двох перших і трьох останніх чисел. Формула: = СРЗНАЧ (A1: B1; F1: H1). результат:



Середнє значення за умовою

Умовою для знаходження середнього арифметичного може бути числовий критерій або текстовий. Будемо використовувати функцію: = СРЗНАЧЕСЛІ ().

Знайти середнє арифметичне чисел, які більші або рівні 10.

Функція: = СРЗНАЧЕСЛІ (A1: A8; "> = 10")


Результат використання функції СРЗНАЧЕСЛІ за умовою "> = 10":

Третій аргумент - «Діапазон усереднення» - опущений. По-перше, він не обов'язковий. По-друге, аналізований програмою діапазон містить ТІЛЬКИ числові значення. В осередках, зазначених в першому аргументі, і буде проводитися пошук по прописаному в другому аргументі умові.

Увага! Критерій пошуку можна вказати в осередку. А у формулі зробити на неї посилання.

Знайдемо середнє значення чисел по текстовому критерієм. Наприклад, середні продажу товару «столи».

Функція буде виглядати так: = СРЗНАЧЕСЛІ ($ A $ 2: $ A $ 12; A7; $ B $ 2: $ B $ 12). Діапазон - стовпець з найменуваннями товарів. Критерій пошуку - посилання на осередок зі словом «столи» (можна замість посилання A7 вставити саме слово "столи"). Діапазон усереднення - ті осередки, з яких будуть братися дані для розрахунку середнього значення.

В результаті обчислення функції отримуємо таке значення:

Увага! Для текстового критерію (умови) діапазон усереднення вказувати обов'язково.

Як порахувати середню ціну в Excel?

Як ми дізналися середньозважену ціну?

Формула: = СУММПРОИЗВ (C2: C12; B2: B12) / СУММ (C2: C12).


За допомогою формули СУММПРОИЗВ ми дізнаємося загальну виручку від незаконного продажу усієї кількості товару. А функція СУММ - сумуються количесвто товару. Поділивши загальну виручку від реалізації товару на загальну кількість одиниць товару, ми знайшли середньозважену ціну. Цей показник враховує «вага» кожної ціни. Її частку в загальній масі значень.

Середнє квадратичне відхилення: формула в Excel

Розрізняють середньоквадратичне відхилення по генеральної сукупності і по вибірці. У першому випадку це корінь з генеральної дисперсії. У другому - з вибіркової дисперсії.

Для розрахунку цього статистичного показника складається формула дисперсії. З неї витягується корінь. Але в Excel існує готова функція для знаходження середньоквадратичного відхилення.


Середньоквадратичне відхилення має прив'язку до масштабу вихідних даних. Для образного уявлення про варіації аналізованого діапазону цього недостатньо. Щоб отримати відносний рівень розкиду даних, розраховується коефіцієнт варіації:

середньоквадратичне відхилення / середнє арифметичне значення

Формула в Excel виглядає наступним чином:

СТАНДОТКЛОНП (діапазон значень) / СРЗНАЧ (діапазон значень).

Коефіцієнт варіації вважається у відсотках. Тому в осередку встановлюємо процентний формат.

Середнє арифметичне - статистичний показник, який демонструє середнє значення заданого масиву даних. Такий показник розраховується як дріб, у чисельнику якого стоїть сума всіх значень масиву, а в знаменнику - їх кількість. Середнє арифметичне - важливий коефіцієнт, який застосовується в побутових розрахунках.

сенс коефіцієнта

Середнє арифметичне - елементарний показник для порівняння даних і підрахунку прийнятного значення. Наприклад, в різних магазинах продається банку пива конкретного виробника. Але в одному магазині вона коштує 67 рублів, в іншому - 70 рублів, в третьому - 65 рублів, а в останньому - 62 рубля. Досить великий розбіг цін, тому покупцеві буде цікава середня вартість банки, щоб при купівлі товару він міг порівняти свої витрати. В середньому банку пива по місту має ціну:

Середня ціна = (67 + 70 + 65 + 62) / 4 = 66 рублів.

Знаючи середню ціну, легко визначити де вигідно купувати товар, а де доведеться переплатити.

Середнє арифметичні постійно використовується в статистичних розрахунках у випадках, якщо аналізується однорідний набір даних. В наведеному вище прикладі - це ціна банки пива однієї марки. Однак ми не можемо порівняти ціну на пиво різних виробників або ціни на пиво і лимонад, так як в цьому випадку розкид значень буде більше, середня ціна буде змазана і недостовірна, а сам сенс розрахунків спотвориться до карикатурного «середня температура по лікарні». Для розрахунку різнорідних масивів даних використовується середнє арифметичне зважене, коли кожне значення отримує свій ваговий коефіцієнт.

Підрахунок середнього арифметичного

Формула для обчислень гранично проста:

P = (a1 + a2 + ... an) / n,

де an - значення величини, n - загальна кількість значень.

Для чого може використовуватися даний показник? Перше і очевидне його застосування - це статистика. Практично в кожному статистичному дослідженні використовується показник середнього арифметичного. Це може бути середній вік вступу в шлюб в Росії, середня оцінка по предмету у школяра або середні витрати на продукти в день. Як вже говорилося вище, без урахування ваг підрахунок середніх значень може давати дивні або абсурдні значення.

Наприклад, президент Російської Федерації зробив заяву, що за статистикою, середня зарплата росіянина становить 27 000 рублей. Для більшості жителів Росії такий рівень зарплати здався абсурдним. Не дивно, якщо при розрахунку враховувати розмір доходів олігархів, керівників промислових підприємств, великих банкірів з одного боку і зарплати вчителів, прибиральників і продавців з іншого. Навіть середні зарплати за однією спеціальністю, наприклад, бухгалтера, будуть мати серйозні відмінності в Москві, Костромі і Єкатеринбурзі.

Як рахувати середні для різнорідних даних

У ситуаціях з підрахунком заробітної плати важливо враховувати вагу кожного значення. Це означає, що зарплати олігархів і банкірів отримали б вагу, наприклад, 0,00001, а зарплати продавців - 0,12. Це цифри зі стелі, але вони приблизно ілюструють поширеність олігархів і продавців в російському суспільстві.

Таким чином, для підрахунку середнього середніх або середнього значення в неоднорідному масиві даних, потрібно використовувати середнє арифметичне зважене. Інакше ви отримаєте середню зарплату по Росії на рівні 27 000 рублей. Якщо ж ви хочете дізнатися свою середню оцінку з математики або середня кількість забитих шайб обраного хокеїста, то вам підійде калькулятор середнього арифметичного.

Наша програма являє собою простий і зручний калькулятор для розрахунку середнього арифметичного. Для виконання розрахунків вам знадобиться ввести тільки значення параметрів.

Розглянемо кілька прикладів

Розрахунок середньої оцінки

Багато вчителів використовують метод середнього арифметичного для визначення річної оцінки по предмету. Давайте уявимо, що дитина отримала наступні четвертні позначки з математики: 3, 3, 5, 4. Яку річну оцінку йому поставить вчитель? Скористаємося калькулятором і порахуємо середнє арифметичне. Для початку виберете відповідну кількість полів і введіть значення оцінок в що з'явилися осередки:

(3 + 3 + 5 + 4) / 4 = 3,75

Учитель округлити значення на користь учня, і школяр отримає за рік тверду четвірку.

Розрахунок з'їдених цукерок

Давайте проілюструємо деяку абсурдність середнього арифметичного. Уявімо, що у Маші і Вови було 10 цукерок. Маша з'їла 8 цукерок, а Вова - всього 2. Скільки цукерок у середньому з'їв кожна дитина? За допомогою калькулятора легко обчислити, що в середньому діти з'їли по 5 цукерок, що абсолютно не відповідає дійсності і здоровому глузду. Цей приклад показує, що показник середнього арифметичного важливо вважати для осмислених наборів даних.

висновок

Розрахунок середнього арифметичного широко використовується в багатьох наукових сферах. Цей показник популярний не тільки в статистичних розрахунках, а й у фізиці, механіці, економіці, медицині або фінансах. Використовуйте наші калькулятори в якості помічника для вирішення завдань на обчислення середнього арифметичного.