Autore |
Discussione |
|
elisacarli
Nuovo Arrivato
83 Messaggi |
Inserito il - 10 dicembre 2010 : 15:14:20
|
Ciao a tutti
Ho un set di 80 proteiine omologhe. Queste proteine contnegono un dominio strutturale di diveraa lunghezza. Vorrei verificare se esiste una correlazione tra la lunghezza della sequenza, quella del dominio, la percentuale di aa. polari, non polari, idrofobici ed idrofili. Quale test statistico mi consigliate?
Grazie
|
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 10 dicembre 2010 : 16:55:52
|
Io comincerei a fare un'analisi esploratoria dei tuoi dati.
Provare ad es. ad usare tutti quei parametri come classifiers per un'analisi di clustering potrebbe dare informazioni sulla presenza di determinati gruppi di proteine. |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
elisacarli
Nuovo Arrivato
83 Messaggi |
Inserito il - 11 dicembre 2010 : 10:02:12
|
Ti ringrazio per il suggerimento, però questo tipo di analisi, secondo me non differisce molto da un normale analisi filogenetica. Vorrei invece trovare correlazioni dirvers. Ovvero poter rispondere ad es. alla domanda: La percentuale di aa idrofili influenza una diversa lunghezza nella sequenza proteica o in quella del dominio? |
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 11 dicembre 2010 : 10:29:12
|
Beh, cominciare a fare dei plot di tutte le variabili contro tutte le variabili ti dirà già se esistono correlazioni fra i vari parametri. Poi, puoi sempre calcolare la covarianza o l'indice di correlazione di Pearson, ma ricorda sempre che correlazione non implica causalità.
Se poi vuoi usare i risultati di questo tipo di analisi per applicarlo ad altre proteine (es. per fare predizioni) allora servono decisamente metodi più complessi. |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
elisacarli
Nuovo Arrivato
83 Messaggi |
Inserito il - 14 dicembre 2010 : 05:36:29
|
Ti ringrazio per la risposta. In effetti ho provato a fare la correlazione di Pearson. Ma cosa succede se le variabili non seguono una buona distribuzione normale? Inoltre quali sono i metodi "più complessi" usati per predirre?
Saluti |
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 14 dicembre 2010 : 07:25:00
|
Citazione: Inoltre quali sono i metodi "più complessi" usati per predirre?
Beh, il primo metodo che salta in mente è l'analisi delle componenti principali (PCA), che può essere associata ad altre metodiche, quali l'expectation-minimization (EM) clustering, oppure le reti neurali per fare predizioni. Non sono un superesperto di PCA, ma decisamente ti consiglio di leggere questi classici papers se vuoi avvicinartici:
A tutorial on Principal Components Analysis - L. I. Smith
A Tutorial on Principal Component Analysis - J. Shlens
Sicuramente ci saranno altri test, so che i metodi bayesiani sono molto usati per queste cose, ma non mi ci sono mai troppo avvicinato (anche se è decisamente nella pila di cose da fare...) ==
Per quanto riguarda la correlazione di Pearson, che io sappia non fa assunzioni sulla normalità dei parametri. Altri test "alternativi" sono i test di rango di Spearman e Kendall. Nota che questi sono test di associazione più che di correlazione.
Dai una lettura anche a questa pagina: http://en.wikipedia.org/wiki/Correlation_and_dependence in particolare al paragrafo "Common misconceptions". |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 14 dicembre 2010 : 09:43:48
|
però secondo me l'analisi delle componenti principali non è un metodo usato per fare predizione ma piuttosto uno strumento per ridurre la complessità di una dataset quando ci sono numerose variabili dipendenti che molto probabilmente veicolano lo stesso tipo di informazione e quindi risultano correlate tra loro. l'analisi della struttura di correlazione permette di trocare appunto gruppi di variabili (componenti) che a causa della loro correlazione spiegano una certa quota della variabilità del fenomento. è abbastanza complesso però!
|
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 14 dicembre 2010 : 10:28:37
|
In effetti mi sono spiegato male.
E' vero che la PCA serve per diminuire la complessità di un dataset (portando la covarianza dei parametri a 0), ma in generale prima di applicare i vari metodi utilizzati per la predizione si fa un primo "passaggio" di PCA... quindi anche il compito della PCA non è strettamente quello di predizione, essa viene utilizzata quando si fanno delle predizioni! |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
chim2
Utente Attivo
2110 Messaggi |
Inserito il - 14 dicembre 2010 : 10:56:35
|
non sono esperto di statistica ma potrebbe andare una MCT (Monte Carlo Tecnique) trovata su un testo di chemiometria |
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 14 dicembre 2010 : 14:44:34
|
Citazione: Messaggio inserito da chick80
In effetti mi sono spiegato male.
E' vero che la PCA serve per diminuire la complessità di un dataset (portando la covarianza dei parametri a 0), ma in generale prima di applicare i vari metodi utilizzati per la predizione si fa un primo "passaggio" di PCA... quindi anche il compito della PCA non è strettamente quello di predizione, essa viene utilizzata quando si fanno delle predizioni!
ah ok! concordo!
|
|
|
TMax
Utente Junior
Prov.: BG
Città: Capriate
270 Messaggi |
Inserito il - 14 dicembre 2010 : 14:46:10
|
Citazione: Messaggio inserito da chim2
non sono esperto di statistica ma potrebbe andare una MCT (Monte Carlo Tecnique) trovata su un testo di chemiometria
la tecnica di Montecarlo è un siostema per risolvere integrali non risolvibili analiticamente, e la si usa per il calcolo delle distribuzioni a posteriori nell'analisi bayesiana si tratta però di statistica avanzata forse ha bisogno di qualcosa di più friendly!
|
|
|
elisacarli
Nuovo Arrivato
83 Messaggi |
Inserito il - 14 dicembre 2010 : 15:45:55
|
Grazie a tutti per i consigli. Penso che la PCA sia la tecnica migliore, l'unico problem è che come requisito pone la distribuzione normale. I miei dati non hanno distribuzone normale ottimale. Ho provato la trasformazione logaritmica, radice quadrata ed inversa, oltre ad una centratua sulla media, ma la normalità non è migliorata di molto |
|
|
chim2
Utente Attivo
2110 Messaggi |
Inserito il - 14 dicembre 2010 : 15:48:29
|
Citazione: Messaggio inserito da TMax
Citazione: Messaggio inserito da chim2
non sono esperto di statistica ma potrebbe andare una MCT (Monte Carlo Tecnique) trovata su un testo di chemiometria
la tecnica di Montecarlo è un siostema per risolvere integrali non risolvibili analiticamente, e la si usa per il calcolo delle distribuzioni a posteriori nell'analisi bayesiana si tratta però di statistica avanzata forse ha bisogno di qualcosa di più friendly!
il testo dice che la MCT è introdotta come strumento numerico nello studio di variabili in sistemi complessi di equazioni ,ok il mio voleva essere solo un suggerimento (per una proteina solo in un sistema ideale per descriverla ci vorrebbero dalle 3000 alle 4000 dimensioni solo per il conformero più stabile!) Si so cosa fa Monte Carlo non conoscevo questa tecnica numerica,tanto se ha bisogno di confrontare le proteine potrebbe utilizzare anche una Metropolis Monte Carlo,che conosco, per il minimo di Energia e poi far visualizzare l'energie coinvolte o meglio le varie interazioni :calcoli per es. su un sistema acquoso in cui si può considerare la costante dielettrica dell'acqua per interazioni più reali,oppure confrontarli in sistemi di gas(ma sarebbe meno reale),cioè personalmente conosco questi approcci per questo avevo sbirciato su un altro testo tanto ho sempre visto approcci di Monte Carlo oltre a quelli classici di MD sulle proteine...chiudo l'OT
(P.S. ok mi è venuto in mente che confrontando i conformeri ,in un opportuno campo di forza,potresti utilizzare poi algoritmi simili a quelli RMSD,confrontanfo le interazioni di diversi tipi di aa,e tenendo conto delle distanza) |
|
|
chick80
Moderatore
Città: Edinburgh
11491 Messaggi |
Inserito il - 14 dicembre 2010 : 16:34:36
|
Penso (ma potrei sbagliarmi ovviamente) che elisa sia più alla ricerca di un metodo di predizione a partire da quei fattori, piuttosto che di una più o meno accurata simulazione molecolare che sarebbe veramente pesante e complessa.
I metodi che ho citato nella mia risposta non sono stati di per sè creati per questo tipo di analisi (la PCA è stata proposta per la prima volta da Karl Pearson, che probabilmente aveva solo una vaghissima idea di cosa fosse una proteina!!!), sono piuttosto dei generici metodi che ti permettono di prendere una serie di descrittori di una certa serie di misure e di utilizzarli come base per predirre il risultato di altre misure. |
Sei un nuovo arrivato? Leggi il regolamento del forum e presentati qui
My photo portfolio (now on G+!) |
|
|
chim2
Utente Attivo
2110 Messaggi |
Inserito il - 14 dicembre 2010 : 20:21:28
|
be si alla fine ognuno è libero nelle impostazioni |
|
|
|
Discussione |
|