Forum

Nome Utente:
Password:
Riconoscimi automaticamente
 Tutti i Forum
 MolecularLab
 Bioinformatica
 z-score e regressione lineare
 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
I seguenti utenti stanno leggendo questo Forum Qui c'è:

Aggiungi Tag Aggiungi i tag

Quanto è utile/interessante questa discussione:

Autore Discussione  

Giuliano652
Moderatore

profilo
Prov.: Brescia


6941 Messaggi

Inserito il - 03 novembre 2012 : 10:51:12  Mostra Profilo  Visita l'Homepage di Giuliano652 Invia a Giuliano652 un Messaggio Privato  Rispondi Quotando
Per la serie: non è mai troppo tardi per imparare come si deve un po' di statistica

Sto cercando di capire le logiche che ci stanno dietro, non sono mai stato troppo ferrato, perciò mi sono messo di buzzo buono, ho comprato un libro che mi spieghi i perché più che i percome, mi sono scaricato R e ho cominciato a sperimentare.

Ora, sul libro mi si dice
Citazione:

La R di Pearson dipende dalla media e dal valore standard delle variabili attraverso gli z-score dei loro valori numerici. Preso un particolare valore da una distribuzione gaussiana, il suo z-score ci dice di quante deiazioni standard questo dista dal valore medio. [...] Prendiamo il valore in questione, a questo punto sottraiamo il valore medio, dividiamo quindi per la deviazione standard il risultato di questa differenza: quello che troviamo è lo z-score.


Poi mi mette una tabella di dati che vogliamo verificare che siano correlati tramite il calcolo della R di Pearson


Mesi senza frutta    Casi di scorbuto
       1                     4
       3                     6
       5                     10
       5                     12
       6                     13
media  4                     9
dev.st 2                     3.87
totale 20                    45


e poi mi fa il calcolo, in un'altra tabella, di z-Mesi, z- Casi, z-Mesi x z-Casi, z-Mesi^2, z-Casi^2.
Tutto questo per calcolare Pearson.

I problemi sorgono quando vado a fare i conti, che non mi tornano rispetto alla seconda tabella, ma mi tornano con il Pearson. Ad esempio, quello che mi esce fuori con R (il programma) per lo z score dei mesi è
Citazione:

> (a-mean(a))/sd(a)
[1] -1.5 -0.5 0.5 0.5 1.0


mentre sul libro i valori sono
Citazione:

-3 -1 1 1 2


e così per tutte le colonne della tabella, non mi ci ritrovo. Poi però vado a calcolare la R di Pearson e il risultato
Citazione:

> a = c(1, 3, 5, 5, 6)
> b = c(4, 6, 10, 12, 13)
> cor.test(a, b)

Pearson's product-moment correlation

data: a and b
t = 6.7082, df = 3, p-value = 0.00676
alternative hypothesis: true correlation is not equal to 0
95 percent confidence interval:
0.5899134 0.9979838
sample estimates:
cor
0.9682458


è identico a quello scritto sul libro, dove però per calcolarlo ha preso non gli z-score ma semplicemente "valore - media"

Come si spiega?

PS: sapete come calcolare gli z-score in R senza dover inserire a mano la formula?

Grazie

Uno strumento utile per l'utilizzo del forum: cerca

Se sei nuovo leggi il regolamento e, se vuoi farti conoscere, presentati qui

Link utili alla professione:
FAQ su nutrizione e dietistica
[Raccolta link] cosa bisogna sapere del lavoro del biologo
Burocrazia per lavorare come biologi
Dà più sbocchi biologia delle posidonie o biotech suine?

Giuliano652
Moderatore

profilo

Prov.: Brescia


6941 Messaggi

Inserito il - 03 novembre 2012 : 11:53:28  Mostra Profilo  Visita l'Homepage di Giuliano652 Invia a Giuliano652 un Messaggio Privato  Rispondi Quotando
ho continuato a fare i calcoli, ecco quello che esce fuori con R, i conti tornano


z-mesi:
(a-mean(a))/sd(a)
[1] -1.5 -0.5  0.5  0.5  1.0

z-casi:
(b-mean(b))/sd(b)
[1] -1.2909944 -0.7745967  0.2581989  0.7745967  1.0327956

z-mesi*z-casi:
((a-mean(a))/sd(a))*((b-mean(b))/sd(b))
[1] 1.9364917 0.3872983 0.1290994 0.3872983 1.0327956
c = c( 1.9364917, 0.3872983, 0.1290994, 0.3872983, 1.0327956)

totale z-mesi*z-casi:
 sum(c)
[1] 3.872983

z-mesi^2
((a-mean(a))/sd(a))^2
[1] 2.25 0.25 0.25 0.25 1.00
> d = c(2.25, 0.25, 0.25, 0.25, 1.00)

totale:
sum(d)
[1] 4

z-casi^2
((b-mean(b))/sd(b))^2
[1] 1.66666667 0.60000000 0.06666667 0.60000000 1.06666667
> e = c(1.66666667, 0.60000000, 0.06666667, 0.60000000, 1.06666667)

totale:
sum(e)
[1] 4

Calcolo di R di Pearson
sum(c)/sqrt(sum(d)*sum(e))
[1] 0.9682458


che è anche quello che viene con i numeri del libro. Immagino che, visto che è tutto diviso per una stessa costante (la dev.st), le cose non cambino (come da regole base della matematica). Però sarebbe meglio che usassero le definizioni che danno, invece di semplificare i conti dopo senza avvertire...

Uno strumento utile per l'utilizzo del forum: cerca

Se sei nuovo leggi il regolamento e, se vuoi farti conoscere, presentati qui

Link utili alla professione:
FAQ su nutrizione e dietistica
[Raccolta link] cosa bisogna sapere del lavoro del biologo
Burocrazia per lavorare come biologi
Dà più sbocchi biologia delle posidonie o biotech suine?
Torna all'inizio della Pagina

Giuliano652
Moderatore

profilo

Prov.: Brescia


6941 Messaggi

Inserito il - 03 novembre 2012 : 11:57:31  Mostra Profilo  Visita l'Homepage di Giuliano652 Invia a Giuliano652 un Messaggio Privato  Rispondi Quotando
rimane il ps del primo messaggio :-)

Uno strumento utile per l'utilizzo del forum: cerca

Se sei nuovo leggi il regolamento e, se vuoi farti conoscere, presentati qui

Link utili alla professione:
FAQ su nutrizione e dietistica
[Raccolta link] cosa bisogna sapere del lavoro del biologo
Burocrazia per lavorare come biologi
Dà più sbocchi biologia delle posidonie o biotech suine?
Torna all'inizio della Pagina

chick80
Moderatore

DNA

Città: Edinburgh


11491 Messaggi

Inserito il - 03 novembre 2012 : 13:28:06  Mostra Profilo  Visita l'Homepage di chick80 Invia a chick80 un Messaggio Privato  Rispondi Quotando
Allora, io gli z-scores li ho sempre calcolati come fai tu. Il perchè Pearson dia lo stesso risultato l'hai già capito, quindi non ci ritorno.

Se non ti va di scrivere
mean(x)/sd(x)
puoi sempre usare la funzione
scale


Vedi
?scale
per maggiori info!

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)
Torna all'inizio della Pagina

Giuliano652
Moderatore

profilo

Prov.: Brescia


6941 Messaggi

Inserito il - 03 novembre 2012 : 15:42:35  Mostra Profilo  Visita l'Homepage di Giuliano652 Invia a Giuliano652 un Messaggio Privato  Rispondi Quotando
grazie (e grazie anche per l'hint della guida a R... sto ancora imparando come si usa :-) )

Uno strumento utile per l'utilizzo del forum: cerca

Se sei nuovo leggi il regolamento e, se vuoi farti conoscere, presentati qui

Link utili alla professione:
FAQ su nutrizione e dietistica
[Raccolta link] cosa bisogna sapere del lavoro del biologo
Burocrazia per lavorare come biologi
Dà più sbocchi biologia delle posidonie o biotech suine?
Torna all'inizio della Pagina

chick80
Moderatore

DNA

Città: Edinburgh


11491 Messaggi

Inserito il - 04 novembre 2012 : 08:39:36  Mostra Profilo  Visita l'Homepage di chick80 Invia a chick80 un Messaggio Privato  Rispondi Quotando
Altri comandi molto utili:

?? -> cerca nell'help, molto utile se non conosci il nome della funzione

ad es.
??fisher


Nota che per più parole devi usare le virgolette

??"fisher test"


RSiteSearch -> cerca su r-project.org

RSiteSearch("generalized linear models")

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)
Torna all'inizio della Pagina
  Discussione  

Quanto è utile/interessante questa discussione:

 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
Vai a:
MolecularLab.it © 2003-18 MolecularLab.it Torna all'inizio della Pagina