Indice
Correlazione fra variabili
Spesso nell’indagine statistica si eseguono analisi di tipo comparativo, ad esempio si osservano più variabili su un medesimo gruppo di individui.
Un problema tipico consiste nel chiedersi se esiste una correlazione fra le variabili osservate.
Il primo passo utile per indagare qualitativamente l’eventuale dipendenza fra due variabili x e y consiste nel disegnare un grafico, detto diagramma di dispersione o scatterplot.
Si pongono in ascissa i dati relativi a una delle due variabili, in ordinata quelli relativi all’altra variabile e si rappresentano con punti o cerchietti le singole osservazioni. Se esiste una relazione semplice fra le due variabili, il diagramma dovrebbe evidenziarla.
Si osservino ad esempio i due diagrammi seguenti:
Il primo diagramma non suggerisce che vi sia una correlazione fra le due variabili: i punti sono sparsi senza apparenti regolarità. Il secondo diagramma evidenzia invece una certa regolarità: punti con ascissa piccola hanno ordinata piccola e punti con ascissa grande hanno ordinata grande; in questo caso si dice che esiste una correlazione diretta fra le due variabili. Analogamente si parla di correlazione inversa fra le due variabili se al crescere di una di esse l’altra decresce.
Nella figura 2 si può ipotizzare una correlazione tra le due variabili di tipo lineare; in tal caso si può tracciare la retta di regressione, cioè la retta che “più si avvicina” a tutti i punti.
Esaminiamo dapprima il concetto di correlazione fra variabili.
La covarianza
Definizione
Date n osservazioni congiunte di due variabili x e y (x1,y1),(x2,y2),…..,(xn,yn)
si dice covarianza delle due variabili x, y il numero
Il coefficiente di correlazione
Definizione
Si dice coefficiente di correlazione delle due variabili x, y il numero
dove s2x e s2y sono le varianze delle variabili x e y.
Per il calcolo della covarianza si può anche usare la formula seguente:
La covarianza può avere segno positivo o negativo, e il coefficiente di correlazione ha lo stesso segno della covarianza.
Definizione
Si dice che fra le variabili x, y c’è una correlazione diretta o positiva se Sxy > 0; si dice che c’è una correlazione inversa o negativa se Sxy < 0; si dice infine che le variabili sono non correlate se Sxy = 0
Si può dimostrare che il coefficiente di correlazione r varia tra −1 e 1; in particolare r = ±1 se e solo se i punti sono tutti perfettamente allineati sulla stessa retta, ossia esistono due numeri A e B tali che:
yi = Axi + B i = 1,2,…,n
Esempio
I seguenti dati sono i punteggi che 10 studenti hanno conseguito in due esami di Analisi Matematica (punteggio massimo = 100). Calcolare la covarianza e il coefficiente di correlazione.
Per calcolare covarianza e coefficiente di correlazione, se non si dispone di un computer, si dispongono i calcoli in una tabella (nell’ultima riga sono indicate le somme delle colonne):
Si ottengono i seguenti risultati:
I dati sono positivamente correlati; il diagramma di dispersione e il valore di r prossimo al valore 1 indicano una relazione lineare fra i dati.
Widget not in any sidebars
(291)