Aspetti genetici del B. mendax

Metodologie di studio e discussioni varie
Rispondi
DanieleU
Novizio
Messaggi: 541
Iscritto il: lun 3 mag 2010, 11:22
Cognome: Uboldi
Nome: Daniele
Provenienza: Milano

Aspetti genetici del B. mendax

Messaggio da DanieleU »

In altro topic si è parlato della recente introduzione del Boletus mendax, nuova specie del genere Boletales vicina ma sostanzialmente diversa da B. luridus.
Diversa per alcuni caratteri macroscopici e microscopici ma anche per differente struttura del DNA.
In questo topic, con le mie scarse conoscenze genetiche, vorrei ripercorrere il lavoro di Vizzini, Ercole, Simonini ed alt. che ha condotto alla determinazione di questa nuova specie.
Gli AA hanno preso in considerazione 5 sequenze di DNA relative alla nuova specie e due di B. luridus come controllo; oltre ad altri Boletus già precedentemente sequenziati come B. comptus, B. erythropus ( luridiformis) , B. edulis, B. aereus ed altri.
Questi ultimi sono stati presi in considerazioni in quanto servono per il confronto delle distanze nella costruzione del cladogramma.

E' opportuno, prima di addentrarci nell'argomento, delineare i
MATERIALI E METODI.
Sono state analizzate le sequenze depositate in GenBank identificate come: KF306030.1, AF205695.1,KC734543,KC734545,KC734540 ( relative a B. mendax); KC734542,KC734544 ( relative a B. luridus)
Le sequenze sono state da me importate nel software statistico R, con le librerie "annotate" e "Biostrings"
Queste due librerie sono state costruite per indagare le frequenze dei singoli nucleotidi ma anche quelle dei dinucleotidi, trinucleotidi o oligonucleotidi.
I trinucleotidi ( o codoni, se trascritti in mRNA) costituiscono l'unità di lettura del codice genetico.
Dato che l'alfabeto degli acidi nucleici è composto da 4 nucleotidi, esistono 4^3 = 64 codoni differenti.
A essi, al termine della fase di traduzione, corrisponde un amminoacido, con tre sole ececzioni; infatti esistono tre codoni (UAG,UGA,UAA) che non codificano per nessun amminoacido e sono perciò detti codoni di stop.
Il metodo di analisi consiste nel verificare se le sequenze osservate delle triplette dei nucleotidi del genoma ( nel nostro caso di B. mendax), siano descritte correttamente da un modello probabilistico che, stimate le frequenze dei singoli nucleotidi sul genoma, ipotizzi che le disposizione dei nucleotidi siano indipendenti tra loro.
La funzione di lettura accetta tre argomenti: il nome del file da leggere, il formato dei dati ( è stato scelto il formato "fasta") e la classe dei dati: "DNAString", per il DNA; "RNAString" per RNA e "AAString" per amminoacidi.
Di seguito è postato un esempio delle istruzioni impartite al programma di cui richiamo le principali istruzioni:
- mg.seq= restituisce l'output circa la stringa del DNA indagata
- o1, o3,o3 = comandi che forniscono il conteggio, rispettivamente, dei singoli nucleotidi, delle coppie di nucleotidi e delle triplette.

Il modello teorico ipotizzato permette il calcolo delle frequenze dei codoni in modo diretto.
Sia Ni (i=1,.,3) la i-esima posizione nella tripletta e sia ni(i=1..,3) il nucleotide in posizione i-esima. La probabilità del trinucleotide considerato sarà semplicemente:
P(N1=n1,N2=n2,N3=n3)=P(N1=n1)P(N2=n2)P(N3=n3)=P(n1)P(n2)P(n3)
Il codice per effetuare il calcolo è elementare. Si calcolano prima le frequenze relative dei singoli nucleotidi:
P1<-o1/sum(o1)
Quindi si costruisce il vettore delle frequenze (relative) teoriche res1 sfruttando tre cicli annidati:
> res1 <- vector()
> for(i in 1:4) for(j in 1:4) for(k in 1:4)
+ res1[16*(i-1)+4*(j-1)+k] <- P1*P1[j]*P1[k]
> res1
Le frequenze assolute si otengono normalizzando al totale delle triplette:
> e3 <- res1*sum(o3)
> e3
Dopo di che si applica il test chi-quadrato per saggiare l'ipotesi che la disposizione dei nucleotidi all'interno dei trinucleotidi siano indipendenti.
Per finire è possibile confrontare graficamente le frequenze osservate e quelle attese.
===============================
Fatto tutto ciò è possibile costruire una tabella di riepilogo, nella quale vengano riportate le sequenze dei trinucleotidi, relative a ogni soggetto analizzato.
La prima fase del lavoro porta al seguente output:
(continua)
Allegati
sequenza.png
sequenza.png (107.8 KiB) Visto 7862 volte
DanieleU
Novizio
Messaggi: 541
Iscritto il: lun 3 mag 2010, 11:22
Cognome: Uboldi
Nome: Daniele
Provenienza: Milano

Re: Aspetti genetici del B. mendax

Messaggio da DanieleU »

Ottenuto questo, e composta la tabella che segue, è possibile ragionare sulla distanza tra le entità B. mendax e B. luridus, ricorrendo all'analisi fattoriale; in modo particolare all'Analisi delle Corrispondenze ( Correspondence Analysis).
In pratica ho tradotto le combinazioni delle triplette dei nucleotidi in "oggetti" AAT,AAC,AAG ecc. di cui il programma valuta le distanze euclidee.
Il primo report che segue riguarda la struttura della tabella generale da me elaborata, che contiene diverse specie del genere Boletus. La tabella è grande e non posso riprodurla tutta; per cui, quella che si vede, è solo una parte che posto a solo titolo indicativo per evidenziare l'impostazione della tabella.

(continua)
Allegati
tabella_triplette.png
tabella_triplette.png (150.6 KiB) Visto 7861 volte
DanieleU
Novizio
Messaggi: 541
Iscritto il: lun 3 mag 2010, 11:22
Cognome: Uboldi
Nome: Daniele
Provenienza: Milano

Re: Aspetti genetici del B. mendax

Messaggio da DanieleU »

A questo punto si può passare all'analisi fattoriale, utilizzando la libreria di R "FactoMineR" GUI di RCommander.
L'analisi fattoriale riguarda solo le cinque sequenze di B. mendax e le due di B. luridus.
Anche senza troppi calcoli e senza specifiche conoscenze di analisi fattoriale è possibile apprezzare le distanze tra le sequenze di B. mendax e quelle di B. luridus.
Si noti come il primo e secondo asse spieghino oltre l'88% della varianza.

CONCLUSIONI
Anche con questo semplice metodo di analisi fattoriale, ben lungi da analisi piu' complesse utilizzate in genere per valutare le differenze nell'allineamento delle sequenze, quali UPGMA, NJ, maximum likelihood, massma parsimonia, bootstrap ecc., evidenzia come la distanza tra B. mendax e B. luridus sia consistente.
Peraltro, tale differenza, è riscontrabile anche dal confronto dei chi-quadrato delle prime cinque sequenze e quello delle due di B. luridus.

BIBLIOGRAFIA e software impiegati:
-Alfredo Vizzini & Giampaolo Simonini & Enrico Ercole & Samuele Voyron : "Boletus mendax, a new species of Boletus sect. Luridi from Italy and insights on the B. luridus complex"
-Matteo Dell'Omodarme : " alcune note su R" cap. "Analisi Genomica"
-Francois Husson, Julie Josse, Sebastien Le, Jeremy Mazet:"FactoMineR: Multivariate Exploratory Data Analysis and Data Mining with R"
-John Fox [aut, cre], Milan Bouchet-Valat [aut], Liviu Andronic [ctb], Michael Ash [ctb], Theophilius Boye ed alt. : "RCmdr A platform-independent basic-statistics GUI (graphical user interface) for R, based on the tcltk package"
- R version 2.15.2 (2012-10-26) -- "Trick or Treat"
R Core Team (2012). R: A language and environment for statistical computing. R
Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL
http://www.R-project.org/.

A BibTeX entry for LaTeX users is

@Manual{,
title = {R: A Language and Environment for Statistical Computing},
author = {{R Core Team}},
organization = {R Foundation for Statistical Computing},
address = {Vienna, Austria},
year = {2012},
note = {{ISBN} 3-900051-07-0},
url = {http://www.R-project.org/},
}
- Daniele Uboldi - metodi statistici applicati alla micologia - M.T. Basso, Manuale di Microscopia dei Funghi primo vol.
Allegati
factormap_mendax.png
factormap_mendax.png (72.2 KiB) Visto 7851 volte
DanieleU
Novizio
Messaggi: 541
Iscritto il: lun 3 mag 2010, 11:22
Cognome: Uboldi
Nome: Daniele
Provenienza: Milano

Re: Aspetti genetici del B. mendax

Messaggio da DanieleU »

.....E relativo cladogramma
Allegati
dendrogramma_mendax.png
dendrogramma_mendax.png (6.71 KiB) Visto 7851 volte
Rispondi