C A P I TO L O
1
1
Introduzione
1.1 Introduzione A partire dal batterio Haemophilus influenzae nel 1995, nel corso degli ultimi 15 anni è stato annunciato il sequenziamento completo di centinaia di genomi, appartenenti a organismi viventi distribuiti nei tre domini della vita (Eucarioti, Batteri e Archaea). Tra questi, è compreso anche l’uomo: l’acquisizione di una prima, quasi completa mappatura del genoma umano è stata annunciata il 26 giugno 2000, in una conferenza stampa tenuta dall’allora presidente degli Stati Uniti Bill Clinton e dall’ex primo ministro inglese Tony Blair. La genomica, la disciplina interessata al sequenziamento e allo studio dei genomi, continua a produrre costantemente un’enorme mole di dati di sequenza, contribuendo in tal modo ad aprire prospettive nuove ed incoraggianti nella comprensione dei processi alla base della diversità strutturale e funzionale degli organismi viventi. Alla genomica si sono affiancate in seguito altre discipline «-omiche» (trascrittomica, proteomica, metabolomica e così via), caratterizzate da un approccio fortemente automatizzato e «su larga scala», diretto all’analisi complessiva dei costituenti di un sistema, ed accomunate dalla capacità di produrre notevoli quantità di dati (high-throughput). L’affermazione di queste discipline ha certamente rivoluzionato l’approccio allo studio del mondo biologico, modificando sensibilmente la prospettiva d’indagine, prima focalizzata sul dettaglio, fino ad estenderla a una visione unificata della vita. Al metodo analitico, che ha contraddistinto da sempre lo studio degli organismi viventi, si è affiancato recentemente un approccio olistico, paradigma del quale è la nascente biologia dei sistemi (system biology), disciplina focalizzata sull’organizzazione della conoscenza acquisita in ambito biologico attraverso le scienze –omiche e sull’indagine di proprietà complesse del vivente, emergenti dalle singole parti. Una delle principali sfide alle quali la comunità scientifica è chiamata a rispondere consiste quindi nell’integrare e nel dare significato a un volume di dati che, giorno dopo giorno, si espande esponenzialmente. Il conseguimento di un tale obiettivo ha reso e rende tuttora necessario lo sviluppo e l’utilizzo di metodologie e strumenti computazionali, in grado di organizzare il dato grezzo per estrarre l’informazio-
ne contenuta in esso e permetterne la fruibilità. La bioinformatica, la disciplina che applica alla biologia i principi della scienza dell’informazione per rendere maggiormente comprensibile il complesso mondo delle scienze della vita, è preposta a svolgere tale compito. Sono tre, essenzialmente, gli ambiti all’interno dei quali opera la bioinformatica: conservazione, organizzazione e distribuzione di dati relativi agli esseri viventi; sviluppo di metodologie e implementazione di algoritmi per l’indagine in campo biomedico; utilizzo di tali strumenti per estrapolare informazione dai dati. Il connubio tra biologia ed informatica potrebbe apparire, in un primo momento, curioso. In realtà, la vita stessa può essere interpretata come un flusso continuo d’informazione, conservata attraverso il codice genetico e capace di plasmare la materia biologica nelle funzioni e nelle forme più svariate che popolano e hanno popolato questo pianeta. Nonostante l’informazione riguardante i sistemi viventi possa essere rappresentata e descritta gerarchicamente, da semplici interazioni molecolari fino a livelli di organizzazione via via più complessi (cellule, organismi, popolazioni), ognuno oggetto di studio di diverse branche della bioinformatica, l’evoluzione costituisce un fondamentale elemento unificatore nel flusso di tale informazione. Nell’accezione più ampia del termine, l’evoluzione può essere intesa come cambiamento: tale interpretazione del processo evolutivo ne giustifica l’utilizzo negli ambiti più diversi (galassie, lingue o società possono in tal senso «evolvere»). In ambito biologico, comunque, il termine «evoluzione» si arricchisce di connotati peculiari, riferendosi a un processo di adattamento progressivo, che si esplica a tutti i livelli della vita, all’ambiente nel quale le unità biologiche sussistono, attraverso meccanismi di variabilità genetica casuale e selezione naturale. I meccanismi correlati al processo evolutivo degli organismi viventi furono oggetto di studio di numerosi scienziati nei secoli passati, ma fu Charles Darwin il primo a proporre, nel 1859, che la selezione naturale costituisse il motore primo dell’evoluzione. In seguito, allorché le mutazioni spontanee e casuali del patrimonio genetico di un organismo furono identificate come la fonte principale di variazione, la teoria di Darwin venne riformulata ed inglobata nel neodarwinismo, o teoria sintetica dell’evoluzione.
2
1 Introduzione
© 978-88-08-06219-2
La comprensione del processo evolutivo costituisce un presupposto fondamentale per lo studio della bioinformatica. Scopo di questo primo capitolo è di introdurre al lettore gli elementi biologici alla base del contenuto d’informazione necessario a codificare il Bauplan (l’organizzazione delle forme e delle funzioni) di ciascun essere vivente e i meccanismi del processo evolutivo che agisce su tali elementi.
1.2 Il flusso d’informazione genetica Dal termine greco φαíνoμαι (pr. fainomai, manifestarsi, apparire) deriva il sostantivo fenotipo, che si riferisce all’insieme dei tratti e dei caratteri somatici di un individuo. Il fenotipo di ciascun organismo è codificato principalmente dal suo genotipo, in altre parole dal suo patrimonio genetico. Genotipo e fenotipo costituiscono rispettivamente la sorgente primaria di variazione casuale e il bersaglio ultimo della selezione naturale. Il genotipo di un organismo è conservato nel genoma, costituito nella stragrande maggioranza dei casi da acido deossiribonucleico (DNA); fanno eccezione solo alcuni virus, il cui genoma è costituito da una molecola di acido ribonucleico, o RNA. Parte del DNA presente nel genoma viene utilizzata come stampo per la sintesi di mRNA, un RNA «messaggero» il cui scopo è agire, a sua volta, da stampo per la sintesi di proteine, a partire dalle unità monomeriche di queste ultime, gli amminoacidi. Il genoma è inoltre costituito da porzioni non codificanti ma che esplicano funzioni regolative, per esempio promotori e enhancers, e costitutive, come introni e sequenze ripetute. Le proteine sintetizzate attraverso la trascrizione di DNA genico in mRNA e la successiva traduzione di quest’ultimo, codificando i tratti e i caratteri somatici di un individuo, rappresentano in ultima analisi i principali determinanti del fenotipo.
1.2.1 Gli acidi nucleici: DNA e RNA Da un punto di vista chimico, DNA e RNA sono poliesteri composti da nucleotidi, molecole costituite da una base azotata, uno zucchero (2’-deossi-ribosio nel DNA e ribosio nell’RNA; la posizione si riferisce all’atomo di carbonio dello zucchero nucleotidico) e un gruppo fosforico. Un legame fosfodiesterico, mediato dal fosfato, collega l’atomo di carbonio in posizione 3’ di un nucleotide con l’atomo di carbonio in posizione 5’ del nucleotide successivo (Figura 1.1). Esistono due classi differenti di basi azotate nei sistemi biologici, le purine (adenina, guanina) e le pirimidine (timina, citosina, uracile; Figura 1.1). La timina è presente esclusivamente nel DNA, ed è sostituita dall’uracile nell’RNA. Purine e pirimidine vengono spesso indicate utilizzando un alfabeto a singola lettera, costituito dalle iniziali delle basi stesse (A, C, G, T, U). Le estremità dei nucleotidi sono spesso definite 5’-fosfato e 3’-ossidrile (o, più semplicemente, 5’ e 3’); gli acidi nucleici sono quindi caratterizzati da un orientamento, che corre dall’estremità 5’ a quella 3’. Il DNA è formato da due filamenti polinucleotidici, disposti in orientamento antiparallelo (5’ → 3’ l’uno e 3’ ← 5’ l’altro), a formare una doppia elica (Figura 1.2). La complementarietà dei due filamenti si realizza attraverso la forma-
1.1 Rappresentazione schematica di una molecola di DNA a doppio filamento. Sono evidenziate, in particolare, le quattro basi azotate che costituiscono il DNA e la formazione di legami idrogeno specifici tra coppie di basi provenienti da ciascun filamento. La timina è presente esclusivamente nel DNA, ed è sostituita dall’uracile nell’RNA. La struttura dell’uracile è simile a quella della timina, fatta eccezione per il gruppo metilico in posizione 5, assente nell’uracile. zione di legami idrogeno specifici tra coppie di basi azotate provenienti ciascuna da un filamento: G-C e A-T/U. La complementarietà assicura il corretto espletamento dei processi di trascrizione e duplicazione del materiale genetico. L’RNA è un polinucleotide a singolo filamento, meno stabile ma più versatile rispetto al DNA, la cui scarsa reattività facilita il mantenimento del contenuto d’informazione. Al contrario, l’RNA può assumere strutture tridimensionali complesse che rendono conto dell’esistenza di diverse forme di questa molecola: oltre all’mRNA, infatti, tRNA, rRNA e piccoli RNA partecipano ai processi di conservazione e trasmissione dell’informazione genetica (Figura 1.3). Nella traduzione di mRNA in sequenze proteiche, che avviene sui ribosomi grazie a un complesso formato da rRNA e proteine ribosomiali, ogni tripletta di basi azotate viene letta ed interpretata da molecole di tRNA; queste molecole presentano a un’estremità una tripletta (anticodone) complementare alla tripletta di mRNA (codone) e all’altra l’amminoacido corrispondente. La lettura dell’mRNA avviene in direzione 5’ → 3’. La corretta corrispondenza tra tripletta nucleotidica e amminoacido è assicurata dall’esistenza di un codice genetico (Tabella 1.1). Esso è spesso definito degenerato, poiché ogni amminoacido, eccezion fatta per la metionina e il triptofano, può essere codificato da più di una tripletta nucleotidica. Infatti, se è possibile osservare uno qualsiasi
© 978-88-08-06219-2
3
1 Introduzione
1.2 Rappresentazione della struttura tridimensionale di una molecola di DNA a doppio filamento in conformazione B (codice PDB: 1BNA). dei 4 nucleotidi in ciascuna posizione della tripletta, allora si avranno 43 = 64 triplette diverse, codificanti per i 20 amminoacidi (3 di queste triplette segnalano in realtà il termine del processo di traduzione, e sono perciò definite codoni di stop).
1.2.2 Geni e mutazioni Una sequenza nucleotidica codificante per una proteina è delimitata da un codone d’inizio (codone codificante per una metionina) e da un codone di stop. Tale sequenza è spesso definita ORF (Open Reading Frame). Una ORF, insieme alle sequenze nucleotidiche necessarie alla sua regolazione trascrizionale (promotori, terminatori e enhancer) costituisce un gene. Un gene è quindi un frammento di DNA presente in una porzione fisica del genoma (locus genico) che può essere trascritto in mRNA e tradotto in una sequenza proteica. Sebbene i geni di cellule procariotiche ed eucariotiche siano sostanzialmente simili, esistono alcune differenze degne di nota, prima tra tutte la frammentazione delle ORF eucariotiche in porzioni codificanti (esoni), intervallate da lunghe regioni nucleotidiche non codificanti (introni; Figura 1.4). Sebbene l’origine e il ruolo degli introni negli eucarioti non sia ancora completamente chiarito, la presenza di regioni introniche a fianco degli esoni permette di ottenere diverse proteine a partire da un singolo gene, attraverso un meccanismo detto splicing. Grazie a esso, un pre-mRNA può essere maturato a mRNA grazie alla rimozione dei suoi introni, per opera di un complesso siste-
1.3 Rappresentazione schematica dei differenti tipi di RNA che partecipano al processo di trasmissione dell’informazione genetica in una cellula eucariotica. Le proteine sono sintetizzate a livello del ribosoma, attraverso la traduzione dell’mRNA. Quest’ultimo è trascritto a partire dal DNA. Al processo di traduzione partecipano anche l’rRNA e il tRNA. I piccoli RNA nucleari sono coinvolti nella maturazione del pre-mRNA. I piccoli RNA nucleolari sono coinvolti nella maturazione e modificazione degli rRNA. I piccoli RNA citoplasmatici sono coinvolti in diversi processi, tra i quali la selezione e il trasporto nel reticolo endoplasmatico di proteine destinate alla secrezione. I microRNA sono coinvolti nella regolazione post-trascrizionale dell’espressione genica. Tabella
1.1
Il codice genetico.
4
1 Introduzione
© 978-88-08-06219-2
1.4 Rappresentazione schematica semplificata di un gene eucariotico. È mostrato il promotore della trascrizione del gene; le regioni non tradotte (UTR) alle estremità 5’ e 3’ del primo e dell’ultimo esone, rispettivamente; le regioni codificanti (esoni), intervallate da regioni non codificanti (introni). ma molecolare detto spliceosome. Occasionalmente, questo processo può rimuovere sequenze esoniche comprese tra due introni, generando isoforme di una proteina. Lo splicing, o più in generale la ricombinazione di materiale genetico, costituisce solo una delle possibili forme di alterazione cui può andare incontro l’informazione genetica. Una forma comune di modificazione genica è la mutazione genica puntiforme. Questa si verifica ogniqualvolta una singola base nucleotidica viene sostituita da una base differente. Si parla di transizioni quando una purina o una pirimidina sono sostituite dalla medesima classe di base azotata. Si definiscono invece trasversioni le sostituzioni di purine con pirimidine, o viceversa. Le mutazioni puntiformi possono essere il risultato di un errore occasionale nella duplicazione del materiale genetico, o possono derivare da fattori ambientali, quali le radiazioni ultraviolette o sostanze chimiche mutagene. Se la mutazione puntiforme non modifica la natura dell’amminoacido codificato dalla tripletta nucleotidica, si parla di mutazioni silenti o sinonime (conservative); in caso contrario, si assiste a mutazioni non-sinonime (non conservative). La possibilità o meno che una mutazione puntiforme, che interessa una porzione esonica di un gene, sia «accettata» nel corso dell’evoluzione di un organismo dipende
in gran parte dalle conseguenze che tale mutazione provoca nella struttura tridimensionale della proteina codificata dal gene interessato dalla mutazione. La mutazione può alterare drasticamente la natura chimico-fisica dell’amminoacido interessato, destabilizzando plausibilmente l’intera struttura proteica, con conseguenze negative sulla fitness (la capacità di un organismo di sopravvivere e riprodursi) dell’individuo. Con probabilità assai minore, la mutazione può sortire un effetto contrario sulla fitness ed avere la possibilità di diffondersi ed essere fissata nelle generazioni successive; infine, la mutazione può non sortire alcun effetto (si parla allora di mutazioni neutrali). Una seconda forma di mutazione genica, sempre legata a errori nella duplicazione del DNA, è costituita da inserzioni o delezioni, all’interno del gene, di uno o più nucleotidi. L’inserzione o la delezione di tre (o multipli di tre) nucleotidi non altera la fase di lettura di una ORF, e risulta quindi essere maggiormente tollerabile nel corso dell’evoluzione. Se, al contrario, si verifica l’inserzione o la delezione di un numero diverso di nucleotidi, allora il codice di lettura risulterà sfasato, generando probabilmente una proteina non funzionale. Tuttavia, sono stati osservati casi nei quali lo slittamento della fase di lettura può generare proteine comunque fun-
1.5 I 20 amminoacidi. È mostrata in alto la generica struttura di un amminoacido. I simboli * e *” si riferiscono alle estremità di un’ipotetica catena polipeptidica che ospita l’amminoacido. Sono mostrati tra parentesi i codici a tre lettere e a singola lettera dell’amminoacido.
© 978-88-08-06219-2
5
1 Introduzione
1.6 Formazione di un legame peptidico attraverso la condensazione di due amminoacidi.
zionali, anche se dotate naturalmente di sequenza, struttura e funzione diverse rispetto alla proteina originale. È il caso, per esempio, di alcuni virus, i cui genomi contengono geni codificanti per diverse proteine, grazie a ORF sovrapposte su diverse fasi di lettura. Come nel caso delle mutazioni puntiformi, anche le inserzioni e le delezioni che perturbano in maniera maggiore la struttura tridimensionale della proteina presentano minore o nessuna probabilità di essere accettate nel corso dell’evoluzione. Attraverso il confronto di strutture tridimensionali di proteine che, l’una rispetto all’altra, presentino inserzioni e delezioni (giacché non è possibile discernere, in tal caso, se nella storia evolutiva dei due geni un evento si sia verificato rispetto all’altro, si può adottare il termine indel per riferirsi all’inserzione/delezione), è possibile notare per esempio che la maggioranza di queste modifiche genetiche si osservano principalmente sulla superficie della struttura, dove non perturbano il corretto ripiegamento della proteina.
1.2.3 Proteine Il risultato ultimo nel flusso d’informazione genetica di una cellula è la sintesi di una nuova proteina. Tra le macromolecole biologiche, le proteine occupano certamente un ruolo di primaria importanza: non esiste fenomeno cellulare in cui esse non siano in qualche modo coinvolte. Come già accennato, le proteine sono polimeri assemblati, in natura, a partire da 20 unità monomeriche, gli amminoacidi (Figura 1.5). Questi ultimi rappresentano una classe di molecole accomunate dalla presenza di un gruppo amminico e uno carbossilico, legati covalentemente al medesimo atomo di carbonio (carbonio α): nell’insieme tale porzione dell’amminoacido è definita catena principale. A partire dallo stesso atomo di carbonio si dirama una catena laterale, che caratterizza l’identità di ciascun amminoacido. La catena laterale, inoltre, in base alla sua struttura, carica elettrica e idrofobicità, determina la natura e il comportamento chimico dell’amminoacido corrispondente. Come nel caso dei nucleotidi, anche gli amminoacidi vengono annotati utilizzando un codice a tre o a una singola lettera dell’alfabeto (Figura 1.5). Durante la traduzione dell’informazione contenuta nell’mRNA in una sequenza proteica, il gruppo carbossilico e quello amminico di due amminoacidi subiscono una condensazione, generando così un legame covalente rigido, il cosiddetto legame peptidico (Figura 1.6). Questa operazione, reiterata durante il processo di traduzione finché l’apparato ribosomiale non incontra un codone di stop, permette la formazione e l’allungamento di una catena polipeptidica. La catena neo-sintetizzata va quindi incontro a un processo di ripiegamento (folding), durante il quale la struttura ottimizza le interazioni tra le catene laterali dei residui amminoacidici dai quali è costituita, pervenendo così a uno stato a basso
contenuto di energia potenziale, corrispondente alla forma fisiologicamente attiva della proteina, o struttura nativa. In base alla struttura e al processo di ripiegamento di una proteina, è possibile identificare in queste macromolecole quattro livelli gerarchici di organizzazione: struttura primaria, struttura secondaria, struttura terziaria e struttura quaternaria (Figura 1.7). La struttura primaria è rappresentata dalla catena polipeptidica completamente distesa e viene identificata con la sequenza amminoacidica della proteina stessa. La struttura secondaria descrive il ripiegamento e l’organizzazione locale di parte della catena polipeptidica (Figura 1.8). Tra le strutture secondarie regolari più comunemente osservate, possono essere annoverate le α-eliche, i filamenti-β e le anse a gomito (turn). La formazione di queste strutture secondarie regolari è dettata di volta in volta dalla necessità di massimizzare il numero di legami idrogeno da parte della catena principale, dalla natura degli amminoacidi presenti e dalle interazioni che si vengono a generare tra la porzione della catena polipeptidica coinvolta e il resto della proteina. Le strutture secondarie prive di forma regolare vengono invece genericamente definite anse (loop). Mentre le strutture secondarie regolari partecipano solitamente al mantenimento dell’integrità strutturale della proteina, le
1.7 Rappresentazione schematica della struttura primaria, secondaria, terziaria e quaternaria di una proteina.
6
1 Introduzione
© 978-88-08-06219-2
ansa
filamenti-b turn
a-eliche
1.8 Rappresentazione schematica di strutture secondarie. Tra le strutture secondarie regolari più comunemente osservate, possono essere annoverate le α-eliche, i filamenti-β, i turn e le anse. anse, data la loro flessibilità e adattabilità, presentano generalmente un ruolo funzionale. La descrizione delle strutture secondarie sarà ripresa e approfondita nel capitolo 9, relativo alla predizione, a partire dalla sequenza, della presenza di questi elementi. Le strutture secondarie si organizzano spesso a formare strutture super-secondarie comuni, dette motivi, caratterizzate da uno specifico arrangiamento di strutture secondarie e da un particolare ruolo funzionale. Per esempio, costituisce un motivo la cosiddetta struttura elica-giro-elica (helixturn-helix), comunemente rinvenuta nei fattori di trascrizione (proteine aventi ruolo di regolatori dell’espressione genica), dove media l’interazione della proteina con il filamento di DNA (Figura 1.8). In altri casi, i motivi sono utilizzati per stabilizzare l’interazione con i cofattori, molecole organiche o metalli che coadiuvano la proteina nell’espletamento della sua funzione biologica. Una singola catena polipeptidica, attraverso l’interazione delle sue strutture secondarie, raggiunge infine una struttura terziaria, caratterizzata tipicamente dalla presenza di uno o più domini, unità strutturali e funzionali della proteina. La struttura secondaria è stabilizzata per lo più da un’estesa rete di interazioni idrofobiche che si instaurano tra le catene laterali di residui amminoacidici. Durante il folding della proteina, il nucleo (core) della struttura assume quindi un carattere idrofobico, mentre la superficie della proteina, che interagisce con l’ambiente acquoso, risulta idrofilica. In molti casi, due o più catene polipeptidiche ripiegate si associano insieme in maniera generalmente non covalente, generando una struttura quaternaria caratterizzata dalla presenza di subunità distinte.
1.9 Rappresentazione schematica di una reazione chimica che coinvolge i reagenti A e B e i prodotti C e D. La velocità della reazione dipende dalla grandezza del ΔGa di attivazione (la differenza di energia libera tra lo stato dei reagenti e il complesso attivato), mentre il verso della reazione è legato al ΔG di reazione. La capacità catalitica di un enzima si espleta attraverso l’abbassamento dell’energia di attivazione ΔGa, a livello dello stato di transizione, di un valore pari a ΔΔGa. Tra le numerosissime funzioni che possono essere espletate dalle proteine, va necessariamente menzionata la capacità di catalizzare reazioni chimiche. Le proteine preposte a tale scopo vengono chiamate enzimi. La capacità catalitica si realizza negli enzimi, come in altri catalizzatori inorganici, attraverso l’abbassamento dell’energia di attivazione, la «barriera» energetica che si frappone nel tragitto che, a partire dai reagenti, porta ai prodotti della reazione (Figura 1.9). Gli enzimi, infatti, sono in grado di legare in maniera specifica i reagenti (substrati), e di stabilizzare energeticamente il complesso attivato, l’intermedio ad alto contenuto energetico che si genera durante la reazione. Generalmente, gli enzimi si avvalgono della presenza di cofattori nel loro sito funzionale (sito attivo) per facilitare la catalisi.
1.2.4 La determinazione della struttura tridimensionale delle proteine
Sono due le tecniche che consentono di ottenere informazioni strutturali a risoluzione atomica sulle proteine e, in generale, sulle macromolecole biologiche: la cristallografia a raggi X e la risonanza magnetica nucleare (NMR). Sebbene una descrizione approfondita dei princìpi teorici alla base di queste metodologie esuli dagli scopi del testo, nel presente paragrafo verranno forniti, in maniera semplificata, elementi utili alla comprensione di alcuni aspetti di bioinformatica strutturale che saranno trattati nei capitoli successivi. Per un approfondimento delle basi teoriche e dei dettagli metodologici della cristallografia a raggi X e dell’NMR, si rimanda alla sezione bibliografica del presente capitolo. I raggi X sono radiazioni elettromagnetiche con lunghezza d’onda estremamente breve, compresa approssimativamente tra 10-8 e 10-11 metri. Questa importante caratteristica dei raggi X li rende adatti a «vedere» gli atomi delle molecole. Infatti, il limite inferiore alla capacità di risoluzione tra due corpi (per esempio, due atomi) è data proprio dalla lunghezza d’onda della sorgente di radiazione elettromagnetica uti-
© 978-88-08-06219-2
1 Introduzione
A
B
1.10 A) Fotografia della diffrazione dei raggi X da parte di un cristallo di mioglobina (John Kendrew, Cambridge University). B) Particolare della mappa di densità elettronica della proteina CDK2 complessata con un inibitore (tratta da http://www.biop.ox.ac.uk/www/ lab_journal_1998/Endicott.html)
1.11
lizzata, che deve essere minore della distanza tra i due corpi. La lunghezza d’onda della luce visibile, che varia indicativamente tra i 400 ed i 750 nanometri (1 nm = 1 × 10-9 metri), è quindi del tutto inadeguata per distinguere gli atomi di una molecola, che in un legame covalente sono posti a distanze nell’ordine degli angstrom (1 Å = 1 × 10-10 metri). Quando i raggi X «colpiscono» una molecola, l’energia di parte di essi è assorbita dagli elettroni, che a loro volta, restituendo l’energia sotto forma di radiazione elettromagnetica, si comportano come piccoli generatori di raggi X. Il risultato di tale interazione sarà, apparentemente, una deviazione della traiettoria dell’onda incidente, nota come diffrazione. Esistono numerose analogie tra questo processo e quello che avviene nella microscopia ottica. In un microscopio ottico, un oggetto viene irradiato dalla luce proveniente da una sorgente luminosa. Le onde riflesse permettono di avere un’immagine ingrandita dell’oggetto, attraverso l’utilizzo di una serie di lenti. A differenza della microscopia ottica, però, non esistono lenti che permettano di ricostruire l’immagine dell’oggetto attraverso i raggi X diffratti. Questi ultimi possono invece impressionare una lastra sensibile (o un sensore elettronico), producendo uno schema o pattern (diffrattogramma) di «macchie» (dette riflessioni), grazie al quale è possibile ottenere una mappa della distribuzione degli elettroni (mappa di densità elettronica) della molecola indagata (Figura 1.10). Il segnale emesso da una singola molecola in soluzione, che interagisce con i raggi X, è molto debole e non è distinguibile dal rumore di fondo provocato dalla diffrazione dell’ambiente esterno alla molecola. Per ovviare a questo problema, si utilizza un cristallo (da cui il termine «cristallografia») della molecola, che funziona da «amplificatore» del segnale, poiché le unità molecolari di cui è composto (unità asimmetriche della cella cristallografica) sono tutte disposte e orientate in maniera ordinata (Figura 1.11).
Rappresentazione schematica di un cristallo proteico. Il cristallo presenta unità molecolari disposte a formare un reticolo (lattice) tridimensionale regolare. Nel caso delle proteine, il cristallo è costituito da una notevole frazione di molecole d’acqua, necessarie all’idratazione e all’integrità strutturale della proteina. La solvatazione fa sì che la proteina, inoltre, mantenga generalmente la conformazione attiva da un punto di vista fisiologico. A causa del notevole grado di idratazione, le molecole presenti nel cristallo non sono rigidamente ordinate, ma la loro posizione relativa può variare anche di alcuni Å. Questo «disordine» nel cristallo diminuisce la risoluzione della mappa di densità elettronica, e quindi la confidenza nella posizione degli atomi nella struttura finale. Una misura della bontà della struttura cristallografica è data dalla risoluzione, espressa in Å. Maggiore è questo valore, minore è l’accuratezza relativa alla posizione degli atomi della molecola. In una struttura cristallografica risolta a 1,5 Å, l’errore medio nelle posizioni atomiche è ± 0,1 Å. In una struttura risolta a 2,5 Å, l’errore medio sale a circa ± 0,4 Å. Sopra i 3 Å di risoluzione è difficile determinare chiaramente dalla mappa la posizione di molte catene laterali e di parti della catena principale di una proteina (fonte: Alan Fersht, Enyzme Structure and Mechanism, 2nd edition, Freeman & Co., New York, 1985).
7
1 Introduzione
© 978-88-08-06219-2
Quando il fascio colpisce il cristallo, molti raggi X diffratti si annulleranno a vicenda per interferenza distruttiva, mentre i pochi altri che soddisfano particolari condizioni geometriche dovute all’orientamento del cristallo rispetto al fascio di raggi X (descritte dalla legge di Bragg; Figura 1.12) si amplificheranno per interferenza costruttiva e riusciranno a impressionare la lastra. Variando sistematicamente la posizione reciproca tra cristallo e fascio di raggi incidente, è possibile raccogliere le informazioni relative a tutti i raggi X diffratti dal cristallo, sotto forma di macchie di intensità variabile. Dal momento che l’intensità della macchia è proporzionale alla densità degli elettroni nella molecola, attraverso complesse procedure matematiche (trasformata inversa di Fourier) si può ottenere dall’insieme di queste macchie la mappa tridimensionale della densità elettronica della molecola (la procedura, in realtà, richiede anche la determinazione della fase del raggio riflesso, che viene persa nell’esperimento. Questo ulteriore ostacolo è detto «problema delle fasi»). Grazie a questa mappa, e conoscendo la struttura primaria della proteina, il cristallografo può ricostruire all’interno della mappa stessa un primo modello tridimensionale della proteina indagata. Questo modello viene poi affinato, attraverso un’ottimizzazione geometrica, al fine di minimizzare le differenze tra i dati di diffrazione ottenuti sperimentalmente e quelli calcolati sulla base del modello. Un indice dell’accordo tra questi valori è dato da una grandezza, detta R-value, che varia da 0 (perfetto accordo) a 0,6 circa (valore atteso confrontando valori sperimentali con valori casuali). A una risoluzione di 2,5 Å (Figura 1.11), l’R-value atteso è circa 0,2.
Infine, le coordinate tridimensionali della struttura ottenuta sono scritte in un file, (che può essere utilizzato, tramite programmi di grafica molecolare, per visualizzare la struttura stessa) e depositate in banche dati pubbliche, ad esempio PDB (Capitolo 2). La disponibilità della struttura tridimensionale di una proteina permette di ottenere informazioni molto importanti da un punto di vista biologico e biomedico; per esempio consente di razionalizzare su basi strutturali il suo funzionamento, di spiegare a livello molecolare una patologia causata da sue forme mutate, o di procedere al disegno, su basi razionali, di suoi inibitori (Capitolo 13). Poiché le unità presenti nel cristallo hanno tutte, approssimativamente, la medesima conformazione, risulta evidente che la cristallografia a raggi X non è in grado di fornire un quadro dinamico della molecola studiata. In realtà, una misura di quanto gli atomi oscillano e vibrano rispetto alla posizione definita nel modello finale è data da una grandezza, detta fattore di temperatura (o B-factor), che viene solitamente riportata in una colonna apposita dei file PDB. In ogni caso, per acquisire, da un punto di vista strutturale, maggiori informazioni sulla dinamica di una proteina è necessario ricorrere a simulazioni (Capitolo 12) o, quando possibile, a tecniche di NMR. Un ulteriore limite intrinseco della cristallografia a raggi X è rappresentato dalla difficoltà (in alcuni casi, come le proteine di membrana, difficoltà estrema) di ottenere cristalli proteici sufficientemente grandi ed ordinati, per poter disporre di dati di diffrazione adeguati alla risoluzione della struttura tridimensionale della proteina indagata. La risonanza magnetica nucleare (NMR) si basa sull’assorbimento, per risonanza (trasferimento di energia a mas-
1.12 Rappresentazione schematica di un cristallo proteico, visto in sezione. Le unità asimmetriche della cella cristallografica formano piani immaginari (piani reticolari, rappresentati come linee), attraverso i quali il fascio di raggi X sembra essere «riflesso». Nell’immagine, due raggi X incidenti hanno la medesima fase. Affinché, dopo la riflessione, essi rimangano in fase, è necessario che la differenza di tragitto compiuta dai due, pari a 2d senθ, sia un multiplo intero della lunghezza d’onda λ dei raggi X. Questa condizione è espressa dalla legge di Bragg: nλ = 2d sen θ, dove n è un numero intero diverso da zero.
1.13
campo magnetico esterno
8
Quando un nucleo dotato di momento magnetico interagisce con un campo magnetico esterno, il suo spin si dispone parallelamente alle linee di forza del campo, e inizia a ruotare (precessione) attorno alla direzione delle linee di forza del campo magnetico esterno. La frequenza di precessione è detta frequenza di Larmor.