Corelatia
Reprezinta o legatura strict liniara intre 2 variabile (x si y)
Arata forta asociatiei intre variabile
Nu implica o relatie cauza – efect !
r = coeficientul de corelatie al lui Pearson
r є [-1,1]; r = 0 → nu exista nici o corelatie; r = +/- 1 → corelatia este perfecta
In general, r > 0.4 → corelatie buna
Se utilizeaza pentru valori normal distribuite (uniforme); pentru cele neuniforme se utilizeaza coeficientul de corelatie Spearman (rs)
Este independenta de unitatea de masura si nu se utilizeaza decat pentru valori normal distribuite
- r = ∑ (x-X) (y-Y) / √ ∑ (x-X)2 ∑ (y-Y)2
- r є [0; 0.2] → corelatie foarte slaba
- r є [0.2; 0.4] → corelatie slaba
- r є [0.4; 0.6] → corelatie rezonabila
- r є [0.6; 0.8] → corelatie inalta
- r є [0.8; 1] → corelatie foarte inalta → relatie foarte strinsa intre variabile sau eroare de calcul !
Regresia
Regresia liniara – cea mai frecvent folosita
- y = ax + b; f(x) = y; f : R → R
- y – variabila dependenta
- x – variabila independenta
- a – coeficientul de interceptare
- b – coeficientul de regresie
Regresia cuantifica asociatia intre variabile si poate implica o relatie cauza - efect
Regresia liniara
- y = a + bx
- r2 = R (coeficientul de determinare) → arata cum se modifica o variabila functie de cealalta
- R2 – coeficientul de determinare in regresia multipla
Regresia exponentiala
- y = a ebx
- e = 2.781 (numarul lui Euler)
- R2 – arata cat de mult se potriveste modelul matematic ideal cu datele experimentale
Regresia logaritmica
y = a + b logx
lgx = log10x
lnx = logex ; e = 2.781
Logaritmul valorii = rangul valorii
ex.: lg1000 = lg103 = 3
Logaritmii pot fi folositi pentru uniformizarea datelor
Regresia polinomiala
y = a1xn + a2xn-1 + … + anx + an+1
n = 3 → y = a1x3 + a2x2 + a3x + a4
n = 2 → y = a1x2 + a2x + a3
Tip particular de regresie multipla : y = a1x1 + a2x2 + … + anxn + b
Binomul lui Newton (a + b)n
Uniformizarea datelor utilizand rangul valorii (log zecimal)