Forum

Nome Utente:
Password:
Riconoscimi automaticamente
 Tutti i Forum
 MolecularLab
 Bioinformatica
 consiglio su test statistico
 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
I seguenti utenti stanno leggendo questo Forum Qui c'è:

Aggiungi Tag Aggiungi i tag

Quanto è utile/interessante questa discussione:

Autore Discussione  

elisacarli
Nuovo Arrivato



83 Messaggi

Inserito il - 10 dicembre 2010 : 15:14:20  Mostra Profilo  Visita l'Homepage di elisacarli Invia a elisacarli un Messaggio Privato  Rispondi Quotando
Ciao a tutti

Ho un set di 80 proteiine omologhe. Queste proteine contnegono un dominio strutturale di diveraa lunghezza.
Vorrei verificare se esiste una correlazione tra la lunghezza della sequenza, quella del dominio, la percentuale di aa. polari, non polari, idrofobici ed idrofili.
Quale test statistico mi consigliate?

Grazie

chick80
Moderatore

DNA

Città: Edinburgh


11491 Messaggi

Inserito il - 10 dicembre 2010 : 16:55:52  Mostra Profilo  Visita l'Homepage di chick80 Invia a chick80 un Messaggio Privato  Rispondi Quotando
Io comincerei a fare un'analisi esploratoria dei tuoi dati.

Provare ad es. ad usare tutti quei parametri come classifiers per un'analisi di clustering potrebbe dare informazioni sulla presenza di determinati gruppi di proteine.

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)
Torna all'inizio della Pagina

elisacarli
Nuovo Arrivato



83 Messaggi

Inserito il - 11 dicembre 2010 : 10:02:12  Mostra Profilo  Visita l'Homepage di elisacarli Invia a elisacarli un Messaggio Privato  Rispondi Quotando
Ti ringrazio per il suggerimento, però questo tipo di analisi, secondo me non differisce molto da un normale analisi filogenetica.
Vorrei invece trovare correlazioni dirvers.
Ovvero poter rispondere ad es. alla domanda: La percentuale di aa idrofili influenza una diversa lunghezza nella sequenza proteica o in quella del dominio?
Torna all'inizio della Pagina

chick80
Moderatore

DNA

Città: Edinburgh


11491 Messaggi

Inserito il - 11 dicembre 2010 : 10:29:12  Mostra Profilo  Visita l'Homepage di chick80 Invia a chick80 un Messaggio Privato  Rispondi Quotando
Beh, cominciare a fare dei plot di tutte le variabili contro tutte le variabili ti dirà già se esistono correlazioni fra i vari parametri. Poi, puoi sempre calcolare la covarianza o l'indice di correlazione di Pearson, ma ricorda sempre che correlazione non implica causalità.

Se poi vuoi usare i risultati di questo tipo di analisi per applicarlo ad altre proteine (es. per fare predizioni) allora servono decisamente metodi più complessi.

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)
Torna all'inizio della Pagina

elisacarli
Nuovo Arrivato



83 Messaggi

Inserito il - 14 dicembre 2010 : 05:36:29  Mostra Profilo  Visita l'Homepage di elisacarli Invia a elisacarli un Messaggio Privato  Rispondi Quotando
Ti ringrazio per la risposta. In effetti ho provato a fare la correlazione di Pearson. Ma cosa succede se le variabili non seguono una buona distribuzione normale?
Inoltre quali sono i metodi "più complessi" usati per predirre?

Saluti
Torna all'inizio della Pagina

chick80
Moderatore

DNA

Città: Edinburgh


11491 Messaggi

Inserito il - 14 dicembre 2010 : 07:25:00  Mostra Profilo  Visita l'Homepage di chick80 Invia a chick80 un Messaggio Privato  Rispondi Quotando
Citazione:
Inoltre quali sono i metodi "più complessi" usati per predirre?


Beh, il primo metodo che salta in mente è l'analisi delle componenti principali (PCA), che può essere associata ad altre metodiche, quali l'expectation-minimization (EM) clustering, oppure le reti neurali per fare predizioni.
Non sono un superesperto di PCA, ma decisamente ti consiglio di leggere questi classici papers se vuoi avvicinartici:

A tutorial on Principal Components Analysis - L. I. Smith

A Tutorial on Principal Component Analysis - J. Shlens

Sicuramente ci saranno altri test, so che i metodi bayesiani sono molto usati per queste cose, ma non mi ci sono mai troppo avvicinato (anche se è decisamente nella pila di cose da fare...)

==

Per quanto riguarda la correlazione di Pearson, che io sappia non fa assunzioni sulla normalità dei parametri. Altri test "alternativi" sono i test di rango di Spearman e Kendall. Nota che questi sono test di associazione più che di correlazione.

Dai una lettura anche a questa pagina: http://en.wikipedia.org/wiki/Correlation_and_dependence in particolare al paragrafo "Common misconceptions".

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)
Torna all'inizio della Pagina

TMax
Utente Junior

TMax

Prov.: BG
Città: Capriate


270 Messaggi

Inserito il - 14 dicembre 2010 : 09:43:48  Mostra Profilo  Visita l'Homepage di TMax Invia a TMax un Messaggio Privato  Rispondi Quotando
però secondo me l'analisi delle componenti principali non è un metodo usato per fare predizione ma piuttosto uno strumento per ridurre la complessità di una dataset quando ci sono numerose variabili dipendenti che molto probabilmente veicolano lo stesso tipo di informazione e quindi risultano correlate tra loro. l'analisi della struttura di correlazione permette di trocare appunto gruppi di variabili (componenti) che a causa della loro correlazione spiegano una certa quota della variabilità del fenomento.
è abbastanza complesso però!
Torna all'inizio della Pagina

chick80
Moderatore

DNA

Città: Edinburgh


11491 Messaggi

Inserito il - 14 dicembre 2010 : 10:28:37  Mostra Profilo  Visita l'Homepage di chick80 Invia a chick80 un Messaggio Privato  Rispondi Quotando
In effetti mi sono spiegato male.

E' vero che la PCA serve per diminuire la complessità di un dataset (portando la covarianza dei parametri a 0), ma in generale prima di applicare i vari metodi utilizzati per la predizione si fa un primo "passaggio" di PCA... quindi anche il compito della PCA non è strettamente quello di predizione, essa viene utilizzata quando si fanno delle predizioni!

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)
Torna all'inizio della Pagina

chim2
Utente Attivo

Death Note



2110 Messaggi

Inserito il - 14 dicembre 2010 : 10:56:35  Mostra Profilo  Visita l'Homepage di chim2 Invia a chim2 un Messaggio Privato  Rispondi Quotando
non sono esperto di statistica ma potrebbe andare una MCT (Monte Carlo Tecnique) trovata su un testo di chemiometria
Torna all'inizio della Pagina

TMax
Utente Junior

TMax

Prov.: BG
Città: Capriate


270 Messaggi

Inserito il - 14 dicembre 2010 : 14:44:34  Mostra Profilo  Visita l'Homepage di TMax Invia a TMax un Messaggio Privato  Rispondi Quotando
Citazione:
Messaggio inserito da chick80

In effetti mi sono spiegato male.

E' vero che la PCA serve per diminuire la complessità di un dataset (portando la covarianza dei parametri a 0), ma in generale prima di applicare i vari metodi utilizzati per la predizione si fa un primo "passaggio" di PCA... quindi anche il compito della PCA non è strettamente quello di predizione, essa viene utilizzata quando si fanno delle predizioni!



ah ok! concordo!
Torna all'inizio della Pagina

TMax
Utente Junior

TMax

Prov.: BG
Città: Capriate


270 Messaggi

Inserito il - 14 dicembre 2010 : 14:46:10  Mostra Profilo  Visita l'Homepage di TMax Invia a TMax un Messaggio Privato  Rispondi Quotando
Citazione:
Messaggio inserito da chim2

non sono esperto di statistica ma potrebbe andare una MCT (Monte Carlo Tecnique) trovata su un testo di chemiometria


la tecnica di Montecarlo è un siostema per risolvere integrali non risolvibili analiticamente, e la si usa per il calcolo delle distribuzioni a posteriori nell'analisi bayesiana
si tratta però di statistica avanzata forse ha bisogno di qualcosa di più friendly!
Torna all'inizio della Pagina

elisacarli
Nuovo Arrivato



83 Messaggi

Inserito il - 14 dicembre 2010 : 15:45:55  Mostra Profilo  Visita l'Homepage di elisacarli Invia a elisacarli un Messaggio Privato  Rispondi Quotando
Grazie a tutti per i consigli.
Penso che la PCA sia la tecnica migliore, l'unico problem è che come requisito pone la distribuzione normale.
I miei dati non hanno distribuzone normale ottimale. Ho provato la trasformazione logaritmica, radice quadrata ed inversa, oltre ad una centratua sulla media, ma la normalità non è migliorata di molto
Torna all'inizio della Pagina

chim2
Utente Attivo

Death Note



2110 Messaggi

Inserito il - 14 dicembre 2010 : 15:48:29  Mostra Profilo  Visita l'Homepage di chim2 Invia a chim2 un Messaggio Privato  Rispondi Quotando
Citazione:
Messaggio inserito da TMax

Citazione:
Messaggio inserito da chim2

non sono esperto di statistica ma potrebbe andare una MCT (Monte Carlo Tecnique) trovata su un testo di chemiometria


la tecnica di Montecarlo è un siostema per risolvere integrali non risolvibili analiticamente, e la si usa per il calcolo delle distribuzioni a posteriori nell'analisi bayesiana
si tratta però di statistica avanzata forse ha bisogno di qualcosa di più friendly!



il testo dice che la MCT è introdotta come strumento numerico nello studio di variabili in sistemi complessi di equazioni ,ok il mio voleva essere solo un suggerimento (per una proteina solo in un sistema ideale per descriverla ci vorrebbero dalle 3000 alle 4000 dimensioni solo per il conformero più stabile!)
Si so cosa fa Monte Carlo non conoscevo questa tecnica numerica,tanto se ha bisogno di confrontare le proteine potrebbe utilizzare anche una Metropolis Monte Carlo,che conosco, per il minimo di Energia e poi far visualizzare l'energie coinvolte o meglio le varie interazioni :calcoli per es. su un sistema acquoso in cui si può considerare la costante dielettrica dell'acqua per interazioni più reali,oppure confrontarli in sistemi di gas(ma sarebbe meno reale),cioè personalmente conosco questi approcci per questo avevo sbirciato su un altro testo tanto ho sempre visto approcci di Monte Carlo oltre a quelli classici di MD sulle proteine...chiudo l'OT


(P.S. ok mi è venuto in mente che confrontando i conformeri ,in un opportuno campo di forza,potresti utilizzare poi algoritmi simili a quelli RMSD,confrontanfo le interazioni di diversi tipi di aa,e tenendo conto delle distanza)
Torna all'inizio della Pagina

chick80
Moderatore

DNA

Città: Edinburgh


11491 Messaggi

Inserito il - 14 dicembre 2010 : 16:34:36  Mostra Profilo  Visita l'Homepage di chick80 Invia a chick80 un Messaggio Privato  Rispondi Quotando
Penso (ma potrei sbagliarmi ovviamente) che elisa sia più alla ricerca di un metodo di predizione a partire da quei fattori, piuttosto che di una più o meno accurata simulazione molecolare che sarebbe veramente pesante e complessa.

I metodi che ho citato nella mia risposta non sono stati di per sè creati per questo tipo di analisi (la PCA è stata proposta per la prima volta da Karl Pearson, che probabilmente aveva solo una vaghissima idea di cosa fosse una proteina!!!), sono piuttosto dei generici metodi che ti permettono di prendere una serie di descrittori di una certa serie di misure e di utilizzarli come base per predirre il risultato di altre misure.

Sei un nuovo arrivato?
Leggi il regolamento del forum e presentati qui

My photo portfolio (now on G+!)
Torna all'inizio della Pagina

chim2
Utente Attivo

Death Note



2110 Messaggi

Inserito il - 14 dicembre 2010 : 20:21:28  Mostra Profilo  Visita l'Homepage di chim2 Invia a chim2 un Messaggio Privato  Rispondi Quotando
be si alla fine ognuno è libero nelle impostazioni
Torna all'inizio della Pagina
  Discussione  

Quanto è utile/interessante questa discussione:

 Nuova Discussione  Nuovo Sondaggio Nuovo Sondaggio
 Rispondi Aggiungi ai Preferiti Aggiungi ai Preferiti
Cerca nelle discussioni
Vai a:
MolecularLab.it © 2003-18 MolecularLab.it Torna all'inizio della Pagina