Aspetti genetici del B. mendax
Inviato: ven 8 nov 2013, 12:16
In altro topic si è parlato della recente introduzione del Boletus mendax, nuova specie del genere Boletales vicina ma sostanzialmente diversa da B. luridus.
Diversa per alcuni caratteri macroscopici e microscopici ma anche per differente struttura del DNA.
In questo topic, con le mie scarse conoscenze genetiche, vorrei ripercorrere il lavoro di Vizzini, Ercole, Simonini ed alt. che ha condotto alla determinazione di questa nuova specie.
Gli AA hanno preso in considerazione 5 sequenze di DNA relative alla nuova specie e due di B. luridus come controllo; oltre ad altri Boletus già precedentemente sequenziati come B. comptus, B. erythropus ( luridiformis) , B. edulis, B. aereus ed altri.
Questi ultimi sono stati presi in considerazioni in quanto servono per il confronto delle distanze nella costruzione del cladogramma.
E' opportuno, prima di addentrarci nell'argomento, delineare i
MATERIALI E METODI.
Sono state analizzate le sequenze depositate in GenBank identificate come: KF306030.1, AF205695.1,KC734543,KC734545,KC734540 ( relative a B. mendax); KC734542,KC734544 ( relative a B. luridus)
Le sequenze sono state da me importate nel software statistico R, con le librerie "annotate" e "Biostrings"
Queste due librerie sono state costruite per indagare le frequenze dei singoli nucleotidi ma anche quelle dei dinucleotidi, trinucleotidi o oligonucleotidi.
I trinucleotidi ( o codoni, se trascritti in mRNA) costituiscono l'unità di lettura del codice genetico.
Dato che l'alfabeto degli acidi nucleici è composto da 4 nucleotidi, esistono 4^3 = 64 codoni differenti.
A essi, al termine della fase di traduzione, corrisponde un amminoacido, con tre sole ececzioni; infatti esistono tre codoni (UAG,UGA,UAA) che non codificano per nessun amminoacido e sono perciò detti codoni di stop.
Il metodo di analisi consiste nel verificare se le sequenze osservate delle triplette dei nucleotidi del genoma ( nel nostro caso di B. mendax), siano descritte correttamente da un modello probabilistico che, stimate le frequenze dei singoli nucleotidi sul genoma, ipotizzi che le disposizione dei nucleotidi siano indipendenti tra loro.
La funzione di lettura accetta tre argomenti: il nome del file da leggere, il formato dei dati ( è stato scelto il formato "fasta") e la classe dei dati: "DNAString", per il DNA; "RNAString" per RNA e "AAString" per amminoacidi.
Di seguito è postato un esempio delle istruzioni impartite al programma di cui richiamo le principali istruzioni:
- mg.seq= restituisce l'output circa la stringa del DNA indagata
- o1, o3,o3 = comandi che forniscono il conteggio, rispettivamente, dei singoli nucleotidi, delle coppie di nucleotidi e delle triplette.
Il modello teorico ipotizzato permette il calcolo delle frequenze dei codoni in modo diretto.
Sia Ni (i=1,.,3) la i-esima posizione nella tripletta e sia ni(i=1..,3) il nucleotide in posizione i-esima. La probabilità del trinucleotide considerato sarà semplicemente:
P(N1=n1,N2=n2,N3=n3)=P(N1=n1)P(N2=n2)P(N3=n3)=P(n1)P(n2)P(n3)
Il codice per effetuare il calcolo è elementare. Si calcolano prima le frequenze relative dei singoli nucleotidi:
P1<-o1/sum(o1)
Quindi si costruisce il vettore delle frequenze (relative) teoriche res1 sfruttando tre cicli annidati:
> res1 <- vector()
> for(i in 1:4) for(j in 1:4) for(k in 1:4)
+ res1[16*(i-1)+4*(j-1)+k] <- P1*P1[j]*P1[k]
> res1
Le frequenze assolute si otengono normalizzando al totale delle triplette:
> e3 <- res1*sum(o3)
> e3
Dopo di che si applica il test chi-quadrato per saggiare l'ipotesi che la disposizione dei nucleotidi all'interno dei trinucleotidi siano indipendenti.
Per finire è possibile confrontare graficamente le frequenze osservate e quelle attese.
===============================
Fatto tutto ciò è possibile costruire una tabella di riepilogo, nella quale vengano riportate le sequenze dei trinucleotidi, relative a ogni soggetto analizzato.
La prima fase del lavoro porta al seguente output:
(continua)
Diversa per alcuni caratteri macroscopici e microscopici ma anche per differente struttura del DNA.
In questo topic, con le mie scarse conoscenze genetiche, vorrei ripercorrere il lavoro di Vizzini, Ercole, Simonini ed alt. che ha condotto alla determinazione di questa nuova specie.
Gli AA hanno preso in considerazione 5 sequenze di DNA relative alla nuova specie e due di B. luridus come controllo; oltre ad altri Boletus già precedentemente sequenziati come B. comptus, B. erythropus ( luridiformis) , B. edulis, B. aereus ed altri.
Questi ultimi sono stati presi in considerazioni in quanto servono per il confronto delle distanze nella costruzione del cladogramma.
E' opportuno, prima di addentrarci nell'argomento, delineare i
MATERIALI E METODI.
Sono state analizzate le sequenze depositate in GenBank identificate come: KF306030.1, AF205695.1,KC734543,KC734545,KC734540 ( relative a B. mendax); KC734542,KC734544 ( relative a B. luridus)
Le sequenze sono state da me importate nel software statistico R, con le librerie "annotate" e "Biostrings"
Queste due librerie sono state costruite per indagare le frequenze dei singoli nucleotidi ma anche quelle dei dinucleotidi, trinucleotidi o oligonucleotidi.
I trinucleotidi ( o codoni, se trascritti in mRNA) costituiscono l'unità di lettura del codice genetico.
Dato che l'alfabeto degli acidi nucleici è composto da 4 nucleotidi, esistono 4^3 = 64 codoni differenti.
A essi, al termine della fase di traduzione, corrisponde un amminoacido, con tre sole ececzioni; infatti esistono tre codoni (UAG,UGA,UAA) che non codificano per nessun amminoacido e sono perciò detti codoni di stop.
Il metodo di analisi consiste nel verificare se le sequenze osservate delle triplette dei nucleotidi del genoma ( nel nostro caso di B. mendax), siano descritte correttamente da un modello probabilistico che, stimate le frequenze dei singoli nucleotidi sul genoma, ipotizzi che le disposizione dei nucleotidi siano indipendenti tra loro.
La funzione di lettura accetta tre argomenti: il nome del file da leggere, il formato dei dati ( è stato scelto il formato "fasta") e la classe dei dati: "DNAString", per il DNA; "RNAString" per RNA e "AAString" per amminoacidi.
Di seguito è postato un esempio delle istruzioni impartite al programma di cui richiamo le principali istruzioni:
- mg.seq= restituisce l'output circa la stringa del DNA indagata
- o1, o3,o3 = comandi che forniscono il conteggio, rispettivamente, dei singoli nucleotidi, delle coppie di nucleotidi e delle triplette.
Il modello teorico ipotizzato permette il calcolo delle frequenze dei codoni in modo diretto.
Sia Ni (i=1,.,3) la i-esima posizione nella tripletta e sia ni(i=1..,3) il nucleotide in posizione i-esima. La probabilità del trinucleotide considerato sarà semplicemente:
P(N1=n1,N2=n2,N3=n3)=P(N1=n1)P(N2=n2)P(N3=n3)=P(n1)P(n2)P(n3)
Il codice per effetuare il calcolo è elementare. Si calcolano prima le frequenze relative dei singoli nucleotidi:
P1<-o1/sum(o1)
Quindi si costruisce il vettore delle frequenze (relative) teoriche res1 sfruttando tre cicli annidati:
> res1 <- vector()
> for(i in 1:4) for(j in 1:4) for(k in 1:4)
+ res1[16*(i-1)+4*(j-1)+k] <- P1*P1[j]*P1[k]
> res1
Le frequenze assolute si otengono normalizzando al totale delle triplette:
> e3 <- res1*sum(o3)
> e3
Dopo di che si applica il test chi-quadrato per saggiare l'ipotesi che la disposizione dei nucleotidi all'interno dei trinucleotidi siano indipendenti.
Per finire è possibile confrontare graficamente le frequenze osservate e quelle attese.
===============================
Fatto tutto ciò è possibile costruire una tabella di riepilogo, nella quale vengano riportate le sequenze dei trinucleotidi, relative a ogni soggetto analizzato.
La prima fase del lavoro porta al seguente output:
(continua)