Quanto è utile/interessante questa discussione:
Autore |
Discussione |
|
serbring
Utente Junior
486 Messaggi |
Inserito il - 17 gennaio 2008 : 00:54:39
|
Ragazzi ho fatto diverse regressioni multiple di uno stesso set di dati, solamente che non sò quali parametri tenere e togliere....Ho capito che ci sono diversi parametri da osservare ma non sò dare un giudizio corretto....Ad esempio tra questi 3 casi voi quali scegliereste? Vi lascio l'output di R
Residuals: Min 1Q Median 3Q Max -1.23183 -0.11577 -0.01969 0.09155 0.78930
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.02946 0.05508 0.535 0.59629 F14 0.74372 0.11896 6.252 4.07e-07 *** F12 0.03904 0.06851 0.570 0.57256 F10 0.07360 0.09229 0.797 0.43075 F8 0.04797 0.06415 0.748 0.45972 F6 0.29521 0.08478 3.482 0.00139 ** F4 -0.03864 0.09858 -0.392 0.69755 F2 0.08622 0.10520 0.820 0.41819 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3561 on 34 degrees of freedom Multiple R-Squared: 0.8989, Adjusted R-squared: 0.8781 F-statistic: 43.19 on 7 and 34 DF, p-value: 4.277e-15
HO TOLTO F4 ED HO RIFATTO LA REGRESSIONE > summary(fmcvp4a1)
Call: lm(formula = F16 ~ F14 + F12 + F10 + F8 + F6 + F2, data = cvp4a)
Residuals: Min 1Q Median 3Q Max -1.25169 -0.12444 -0.01536 0.08302 0.83986
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.02914 0.05440 0.536 0.59560 F14 0.71630 0.09505 7.536 7.88e-09 *** F12 0.04116 0.06746 0.610 0.54573 F10 0.06018 0.08467 0.711 0.48194 F8 0.03968 0.05983 0.663 0.51150 F6 0.28658 0.08087 3.544 0.00114 ** F2 0.06859 0.09395 0.730 0.47019 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3518 on 35 degrees of freedom Multiple R-Squared: 0.8985, Adjusted R-squared: 0.881 F-statistic: 51.61 on 6 and 35 DF, p-value: 6.094e-16
HO TOLTO F12 E F4 ED HO RIFATTO LA REGRESSIONE
> summary(fmcvp4a2)
Call: lm(formula = F16 ~ F14 + F10 + F8 + F6 + F2, data = cvp4a)
Residuals: Min 1Q Median 3Q Max -1.25132 -0.12579 -0.01696 0.10643 0.85569
Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 0.03052 0.05388 0.566 0.57463 F14 0.72292 0.09360 7.723 3.78e-09 *** F10 0.07469 0.08055 0.927 0.35996 F8 0.04083 0.05927 0.689 0.49538 F6 0.28598 0.08016 3.568 0.00104 ** F2 0.06281 0.09265 0.678 0.50217 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.3487 on 36 degrees of freedom Multiple R-Squared: 0.8974, Adjusted R-squared: 0.8831 F-statistic: 62.96 on 5 and 36 DF, p-value: < 2.2e-16
A> anova(fmcvp4a,fmcvp4a1,fmcvp4a2) Analysis of Variance Table
Model 1: F16 ~ F14 + F12 + F10 + F8 + F6 + F4 + F2 Model 2: F16 ~ F14 + F12 + F10 + F8 + F6 + F2 Model 3: F16 ~ F14 + F10 + F8 + F6 + F2 Res.Df RSS Df Sum of Sq F Pr(>F) 1 34 4.3122 2 35 4.3317 -1 -0.0195 0.1536 0.6975 3 36 4.3778 -1 -0.0461 0.3632 0.5507
ho notato che l'ultima regressione ha il più alto R corretto, il più basso scarto quadratico medio dei residui, quindi dite che sarebbe preferibile l'ultima? Ho già fatto un'analisi dei residui ed ho notato che in tutti i tre i casi non hanno una distribuzione normale ed inoltre sono eteroschedastici, per il resto, non sembrano aver manifestato sia presenza di una non linearità. Il mio dubbio è dovuto al fatto che comunque sia i miei p-value non sono nè alti e nè bassi e quindi non sò come trattarli. Poi i parametri che ho tolto hanno dei coefficienti che sono paragonabili ai coefficienti dei parametri che ho tenuto, quindi una certa variabilità della mia variabile dipendente è spiegata anche da questi regressori. Cioè posso capire di poter trascurare un parametro che ha un coefficiente molto più basso degli altri, ma non uno che ce l'ha alto, anche se con un p-value alto. Vi ringrazio...sto uscendo pazzo...scusate per la domanda ma non'ho alcun tipo di supporto, salvo i libri...ma poi fare una scelta dal punto di vista pratico non'è così facile...
|
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 17 gennaio 2008 : 09:57:21
|
ciao, la selezione del modello è sempre una attività complessa... non ci si può basare solo sui valori di p...
devi farti guidare innanzitutto dalla plausibilità biologica del modello, e se una variabile ha senso che sti all'interno del modello allora la devi forzare indipendentemente dai valori di p....
verifica come cambia e quanto cambiano le stime dei coefficienti Beta dopo aver tolto o messo una variabile, la variazione potrebbe indicare un effetto di confondimento della variabile... in questo caso non hai nessun test statistico che ti dice quando una variabile è o meno un confondente... arbitrariamente qualcuno ad esempio stabilisce che variazioni dei coefficienti beta superiori al 30% sono sufficientemente grandi da decidere di 'ritenere' una variabile nel modello...
e poi c'è il problema delle interazioni tra le variabili...
non posso aiutarti più di tanto perchè non conosco la natura dello studio...
il fatto che i residui non sono normali, però mi pare un indicatore su cui lavorare...
a presto TMax |
|
|
serbring
Utente Junior
486 Messaggi |
Inserito il - 17 gennaio 2008 : 10:42:31
|
Ti ringrazio, ho letto che mi basterebbe verificare che i vif siano <5 ed in questo dovrei togliere dall'analisi tutte quelle variabili che non rispettano questa condizione giusto? Poi non'ho capito come devo fare per correggere il problema della non normalità della distribuzione dei residui e della loro schedasticità. Conosci per caso un metodo così da fare una ricerca sul web? In pratica il mio studio è su dei questionari compilati da alcuni tester, e mi interessa sapere quali sono, secondo i tester gli aspetti più importanti nel provare certe cose. Quindi l'importanza di un regressore o meno dipende solamente dalle sensazioni di questi tester. Non sono quindi dei dati che hanno un certo significato scientifico. Comunque mi sono calcolato gli incrementi percentuali e mi è sorto un dubbio, se mi trovo in alcuni casi, in cui ho che togliendo un parametro, due coefficienti della regressione cambiano del 40% e gli altri 3 di meno del 10% in tal caso come mi potrei comportare? Mi basterebbe valutare R e RSS della regressione per valutarne la bontà? Se R non cala di molto implicherebbe che la variabile tolta non avrebbe una certa influeza. |
|
|
serbring
Utente Junior
486 Messaggi |
Inserito il - 17 gennaio 2008 : 11:17:20
|
ah...mi sono dimenticato dire che i risultati dei questionari, li ho standardizzati prima, per fare i modo che i voti dati dai tester avessero la stessa dispersione e voto medio. |
|
|
serbring
Utente Junior
486 Messaggi |
Inserito il - 21 gennaio 2008 : 16:52:02
|
scusate se sono un po' stressante, ma facendo la tesi, devo cercare di capire bene questa cosa e non sò a chi chiedere...Siccome nelle mie regressioni, non sono verificate le assunzioni per poter applicare il metodo dei minimi quadrati, quindi i residui non sono distribuiti in modo normale ecc....ed inoltre siccome se tolgo dei dati influenti, rifaccio la regressione, ritrovo sempre altri dati influenti, può essere dovuto al fatto che i miei campioni non sono molto numerosi? Non vorrei scrivere cavolate nella tesi... |
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 25 gennaio 2008 : 12:11:33
|
ciao, scusa ma sono un pò incasinato e non ho più seguito il topic...
hai provato a trasformare la variabile dipendente...
puoi scrivere l'output della regressione che provo a dargli un occhiata...??
grazie TMAx |
|
|
serbring
Utente Junior
486 Messaggi |
Inserito il - 04 febbraio 2008 : 09:00:30
|
i valori dei questionari li ho standardizzati.....comunque credo di aver risolto. GRAZIE! |
|
|
|
Discussione |
|
|
|
Quanto è utile/interessante questa discussione:
MolecularLab.it |
© 2003-18 MolecularLab.it |
|
|
|