Korelace

Co je to korelace:

Korelace znamená podobnost nebo vztah mezi dvěma věcmi, lidmi nebo nápady . Je to podobnost nebo rovnocennost, která existuje mezi dvěma různými hypotézami, situacemi nebo objekty.

V oblasti statistiky a matematiky se korelace týká míry mezi dvěma nebo více souvisejícími proměnnými.

Termínová korelace je ženské podstatné jméno, které pochází z latinské korelace.

Korelace slova může být nahrazena synonyma jako: vztah, rovnice, spojitost, korespondence, analogie a spojení.

Koeficient korelace

Ve statistice, Pearsonův korelační koeficient (r), který je také nazýván produktovým momentovým korelačním koeficientem, měří vztah mezi dvěma proměnnými ve stejné metrické stupnici.

Funkcí korelačního koeficientu je určit intenzitu vztahu, který existuje mezi známými soubory dat nebo informací.

Hodnota korelačního koeficientu se může pohybovat mezi -1 a 1 a získaný výsledek určuje, zda je korelace negativní nebo pozitivní.

Pro interpretaci koeficientu je nutné vědět, že 1 znamená, že korelace mezi proměnnými je perfektně pozitivní a -1 znamená, že je perfektní negativní . Pokud je koeficient roven 0, znamená to, že proměnné nezávisí na sobě.

Ve statistikách je také Spearmanův korelační koeficient, který nese toto jméno na počest statistika Charlese Spearmana. Funkce tohoto koeficientu je měření intenzity vztahu mezi dvěma proměnnými, ať už lineární nebo ne.

Spearmanova korelace slouží k vyhodnocení, zda intenzita vztahu mezi oběma analyzovanými proměnnými může být měřena monotónní funkcí (matematická funkce, která zachovává nebo invertuje počáteční vztah vztahu).

Výpočet Pearsonova korelačního koeficientu

Metoda 1) Výpočet Pearsonova korelačního koeficientu s použitím kovariancí a standardní odchylky.

Kde

S _XY je kovariance;

S _x a S _y představují směrodatnou odchylku proměnných x a y.

V tomto případě výpočet spočívá v tom, že se nejprve zjistí kovariance mezi proměnnými a směrodatná odchylka každého z nich. Potom se kovarianční koeficient dělí násobením směrodatných odchylek.

Příkaz často poskytuje buď standardní odchylky proměnných, nebo kovarianci mezi nimi, pouhým použitím vzorce.

Metoda 2) Výpočet Pearsonova korelačního koeficientu s nezpracovanými daty (bez kovariance nebo standardní odchylky).

Touto metodou je nejpřímější vzorec následující:

Například za předpokladu, že máme data s n = 6 pozorováním dvou proměnných: hladina glukózy (y) a věk (x), výpočet probíhá podle následujících kroků:

Krok 1) Sestavte tabulku s existujícími daty: i, x, y a přidejte prázdné sloupce pro xy, x² a y²:

Krok 2: Vynásobte x a y a vyplňte sloupec "xy". Například v řádku 1 budeme mít: x1y1 = 43 × 99 = 4257.

Krok 3: Zvyšte hodnoty sloupce x a zaznamenejte výsledky do sloupce x². Například v prvním řádku budeme mít x ₁ 2 = 43 × 43 = 1849.

Krok 4: Proveďte to samé jako v kroku 3, nyní pomocí sloupce y a zaznamenejte čtverec hodnot ve sloupci y². Například v prvním řádku budeme mít: y ₁ 2 = 99 × 99 = 9801.

Krok 5: Získat součet všech čísel sloupců a umístit výsledek do zápatí sloupce. Například součet sloupce Age X je roven 43 + 21 + 25 + 42 + 57 + 59 = 247.

Krok 6: K získání korelačního koeficientu použijte výše uvedený vzorec:

Máme tedy:

Spearmanův korelační koeficient

Výpočet Spearmanova korelačního koeficientu je poněkud odlišný. K tomu potřebujeme uspořádat data v následující tabulce:

1. Po vyjmenování dvou párů dat je musíme uvést do tabulky. Například:

2. Ve sloupci "Ranking A" budeme klasifikovat pozorování, která jsou v "Date A" rostoucím způsobem, přičemž "1" je nejnižší hodnota ve sloupci, en (celkový počet pozorování), nejvyšší hodnota ve sloupci "Date A ". V našem příkladu to je:

3. Uděláme to samé, abychom dostali sloupec „Ranking B“, který nyní používá pozorování ve sloupci „Data B“:

4. Ve sloupci „d“ je uveden rozdíl mezi oběma žebříčky (A - B). Zde na tom nezáleží.

5. Zvyšte každou z hodnot ve sloupci "d" a zapište do sloupce d²:

6. Přidejte všechna data ze sloupce "d²". Tato hodnota je Σd². V našem příkladu Σd² = 0 + 1 + 0 + 1 = 2

7. Nyní používáme Spearmanův vzorec:

V našem případě se n rovná 4, protože se díváme na počet řádků dat (což odpovídá počtu pozorování).

8. Nakonec nahradíme data v předchozím vzorci:

Lineární regrese

Lineární regrese je vzorec používaný k odhadu možné hodnoty proměnné (y), když jsou známy hodnoty jiných proměnných (x). Hodnota "x" je nezávislá nebo vysvětlující proměnná a "y" je závislá proměnná nebo odezva.

Lineární regrese se používá k ověření, jak se hodnota "y" může měnit jako funkce proměnné "x". Řádek obsahující hodnoty kontroly rozptylu se nazývá lineární regresní přímka.

Pokud má vysvětlující proměnná "x" jednu hodnotu, bude regrese označována jako jednoduchá lineární regrese .