If you're seeing this message, it means we're having trouble loading external resources on our website.

Якщо у вас увімкнена веб-фільтрація, будь ласка, переконайтеся, що домени *.kastatic.org та *.kasandbox.org розблоковані.

Основний вміст

Встановлення відповідності рядка до даних

Сел створює графік розсіювання, а потім встановлює лінію щодо даних про середні доходи родини з Каліфорнії. Автор: Сал Хан.

Бажаєте доєднатися до обговорення?

Ще немає дописів.
Розумієте англійську мову? Натисніть сюди, щоб побачити більше обговорень на англомовній версії сайту Khan Academy.

Текст відео

У цьому відео я волію надати вам приклад того, що означає побудувати лінійну функцію по відповідних даних. Замість звичайного створення мого відео з використанням маленького планшету, я збираюся зробити це прямісінько у Екселі так, щоб ви могли побачити як робити це власноруч, тобто якщо ви маєте Ексель чи іншу розрахункову програму. Ми не будемо занурюватися у математику цього. Я справді просто бажаю аби ви отримали загальне розуміння того, що ж означає побудувати лінійну функцію по відповідних даних або що таке лінійна регресія. Отож, нумо просто прочитаємо дане завдання. Поточна таблиця зображує медіану прибутків у Каліфорнії... пам’ятаймо що медіана це середня величина, середню величину прибутків Каліфорнії з 1995 року по 2002 рік, що міститься у звіті Бюро Статистики США. Намалюйте графік розсіювання та визначте відповідне рівняння. Чому буде дорівнювати очікувана медіана річного прибутку Каліфорнійської родини у 2010 році? Чому дорівнюють значення відповідного відхилення та у-перетину даної функції? Отож, першою річчю яку вам слід зробити, я просто скопіюю та вставлю це зображення, ми маємо занести ці дані до форми так, щоб дана розрахункова програма їх зрозуміла. Отож, нумо зробимо певну таблицю тут. Скажімо почнемо з 1995 року. Зробимо ось цей стовпчик. Нумо зроблю це трохи ширшим. Тоді запишу середні прибутки. Це середні прибутки родини у Каліфорнії. Отож, ми почнемо з 1 року чи з 0 років від 1995 року, 0, 1, 2, 3, 4. Насправді якщо забажаєте, то я визначу дану схильність просто продовжуючи заповнювати це. Це з’ясується, коли ви просто збільшите на 1. Тоді даний прибуток, я просто скопіюю ці числа ось сюди. Отож це $53807, $55217, $55209, $55415, $63100, $63206, $63761, а ще $65766. Отож, мені не треба ось це тут. Ось, я позбавлюся від них. Я можу просто очистити це. Давайте я переконаюся, що маю достатньо полів вводу. Це 1,2,3,4,5,6,7,8 чисел, а я маю 1,2,3,4,5, 6,7,8 полів вводу. Я хочу пересвідчитися, що маю правильні дані. $53807, $55217, $55209, 415, 100, 206, 761, 766. Гаразд, усе гаразд. Тепер ви з’ясуєте, що у Ексель це усе неймовірно легко, якщо ви звісно знаєте що саме натискати. Перше, накреслити ці дані, створити графік розсіювання, а тоді навіть краще, створити регресію цих даних. Отож усе, що вам потрібно зробити так це обрати ваші дані. Тоді ви робите вставку і я збираюся вставити графік розсіювання. Тоді ви в змозі обрати різні типи графіків розсіювання. Я просто бажаю накреслити ці дані. Ось так. Програма вже накреслила ці дані за мене. Ось так. Якщо ви поглянете на це, то це - справжній прибуток, і це починаючи з 1995 року. Отож це 1995 рік. І для нього маємо $53807. У 1996 році це $55217. Отож, програма накреслить усі ці дані. Тепер, усе що я хочу, це побудувати лінійну функцію. Це не просто лінія. Але погляньмо, якщо ми припустимо що лінія може втілити собою ці дані, я збираюся використати Ексель аби побудувати відповідну лінійну функцію. Отож усе що мені слід зробити так це обрати серед усіх цих налаштувань різноманітні шляхи для побудови лінійної функції, з усіх цих різноманітних налаштувань. Я збираюся обрати ось це. Вам, можливо, не видно цього. Це схоже на лінію поміж цяток. Тут також міститься і fx, що скаже мені про відповідне рівняння даної лінії. Отож, якщо я натисну на це, ось і маємо. І це не лише робить побудову, але й окреслює це для тих же даних на іншому графіці. Нумо зробимо це трохи більшим. Ні, я не бажаю робити цього. Нумо я зроблю це трохи більшим. Ми в змозі покрити усі ці дані тепер, лише тому що я гадаю, що ми знаємо що ж тут коїться. Отож, я покрию це ось таким чином. Це не лише накреслює різні дані значення, але й, насправді, вибудовує лінійну функцію по відповідних даних та надає мені рівняння для цієї лінійної функції. Давайте погляньмо чи зможу я зробити це більшим. Я пересуну це геть так, щоб ви могли, принаймні, прочитати це. Отож, ось тут мені повідомляють, що рівняння для цієї лінійної функції дорівнює 1882,3х плюс 52847. Отож, якщо ви пам’ятаєте, що нам відомо про відхилення та у-перетин, то даний у-перетин дорівнює 52847, що є, якщо ви використаєте цю лінію як ваш вимір, тим де ця лініє перетинає роки на 0 або ж на 1995 році. Зрештою, якщо ви використаєте цю лінію в якості моделі, то у 1995 році ця лінія повідомить вам, що ви заробили $52847. Справжні дані були трошки відмінними від цього. Вони були трохи вищими, а саме $53807. Отож, це було трохи вищим. Але ж ми намагаємося побудувати лінію, яка була якомога ближчою до усіх цих даних. Ми насправді намагаємося мінімізувати цю відстань, цей квадрат відстані, між кожним з цих значень на даній лінії. Ми не прагнемо занурюватися у ґрунтовні математичні розрахунки тут. Але програма надала нам це гарне рівяння. Тепер, ми в змозі використати це гарне рівняння, аби передбачати подальші значення. Якщо ми скажемо, що це гарна модель для цих даних, давайте, перенесу це трошки нижче... нумо спробуємо відповісти на дані питання. Отож, ми накреслили графік розсіювання... насправді Ексель зробив це за нас. Ми з’ясували дане рівняння ось тут. Нас запитують, чому дорівнюватиме очікувана медіана щорічного прибутку Каліфорнійської родини у 2010 році? Отож, ми в змозі просто використати дане рівняння, яке створила програма. Ось тут був 2002 рік. Тож, я можу записати цей рік. Це був 2002 рік. 2010 рік це на 8 років більше. Нумо, зроблю тут невеличкий стовпчик. Отож це роки 1995, 1996. Тоді Ексель зможе з’ясувати це, якщо я оберу ось це і я переходжу до цієї маленької кнопочки у кутку праворуч і гортаю донизу, Ексель насправді з’ясує усе що мені потрібно, просто, збільшуючи це на 1 рік кожного разу. Якщо, ми визначили це від 1995 року, то я можу просто продовжити усе це аж сюди. Отож, 2010 це буде на 15 років далі. Тож, ми в змозі просто застосувати це рівняння. Ми могли б сказати, що це буде дорівнювати, відповідно до цієї лінійної функції, я просто надрукую це всередині, сподіваюся ви можете це прочитати, тож що я кажу - 1882,3 помножити на х. х це рік починаючи з 1995 року. Я міг би просто обрати цю клітинку або міг надрукувати тут число 15. Це означає помножити на цю клітинку, помножити на 15. Тоді плюс 52847, плюс ось це тут. Натиснути ввід та отримаємо $81081,50. Отож, якщо ви просто продовжите цю лінію ще на 8 років або будь-яку кількість років, то з’ясуєте, що дана медіана прибутку для Каліфорнійської родини становитиме $81000. Хай там як, сподіваюся що вам було цікаво. Розрахункові програми - це дуже корисна річ для обробки даних. Це допомагає вам зрозуміти, чому саме лінійні моделі є цікавими, і як вам насправді використати ці знаряддя аби розтлумачити дані та, можливо, навіть узагальнити на майбутнє певні типи передбачення. Ось тут це узагальнення на майбутнє, яке використовує лінійну регресію.