Proyecto de genómica: Análisis de secuencias genéticas
Laura Ramos García Paula Ramos González Daniel Sandín Inés Ibarra Lecue
Introducción
El presente trabajo tiene como objetivo analizar las secuencias genéticas obtenidas a partir de una muestra de sangre procedente de un mosquito, el cual se ha encontrado fosilizado en ámbar. Expertos en la materia han realizado la extracción del DNA del mosquito y han llevado a cabo la secuenciación del mismo facilitándonos el siguiente documento: Información de la secuenciación, el cual constituye el punto de partida de nuestra investigación.
Ensamblaje de secuencias de DNA En primer lugar se procedió al ensamblaje de las secuencias que nos fueron facilitadas mediante el programa: CAP3 Sequence Assembly
Al realizar el ensamblaje, se obtuvieron 5 fragmentos o cóntigos independientes, los cuales no se ensamblaban entre sí. A continuación se puede acceder a la información de la secuencia de cada cóntigo:
Cóntigo1
Cóntigo 2
Cóntigo 3
Cóntigo 4
Cóntigo 5
El siguiente paso consistió en realizar un análisis de la información que contenía cada cóntigo por separado. El procedimiento a seguir es similar en los 5 cóntigos y por este motivo se muestran a continuación seis tutoriales que recogen distintos aspectos referentes al análisis de la información presente en los cóntigos. Más adelante se detallan los resultados obtenidos del análisis.
2
Tutoriales
Tutorial 1: Búsqueda de genes
Tutorial 2: Descripción del gen
Tutorial 3: Análisis del cóntigo
Tutorial 4: Búsqueda de variantes génicas
Tutorial 5: Ortólogos
Tutorial 6: Diseño de primers
3
Análisis del cóntigo 1
Descripción del gen Gen: UDP- glicosyltransferase(AGAP007028) AgaP:NCBI AgaP:EnsemblMetazoa Localización: Cromosoma 2, posiciones 4,047,893 -41,049,603 Función: Este gen codifica para un enzima con actividad glicosiltransferasa. Este tipo de enzimas catalizan la transferencia de un grupo glicosilo desde un donador a un aceptor tanto durante la degradación como durante la biosíntesis de polisacáridos, glicoproteínas y glicolípidos. Estructura: La estructura de esta proteína no está descrita. Transcritos: Para este gen se ha anotado un transcrito, que codifica para proteína. En este caso, no se ha establecido una secuencia consenso, ya que las anotaciones sobre este gen no están revisadas, de forma que no son totalmente fiables. AgaP El transcrito posee 1620 pares de bases y codifica para una proteína de 539aa.
Análisis del cóntigo Predicción con FGenesh: En el caso de esta proteína, obtenemos la misma predicción del gen utilizando los parámetros tanto de Anopheles como de humano. Se predice un único gen de 1587 pares de bases que posee 1 único exón. Pincha en la imagen para ver la predicción .
Exón 1: 528 aminoácidos.
Comparación de la proteína predicha con el consenso:
Con la proteína predicha realizamos un BLAST y determinamos que existe una mayor similitud con la UDP-glicosiltransferasa de Anopheles gambiae. La similitud entre las dos secuencias de DNA se estima que es del 95,99%. A diferencia de la predicción de Fgenesh que constaba de un gen monoexónico, el gen que codifica para la UDPglicosiltransferasa en Anopheles posee 2 exones y codifica para una
4
Análisis del cóntigo 1 proteína más grande, de 539aa. Una vez hecha esta observación, concluimos que la predicción de Fgenesh no ha sido exacta, ya que ha predicho una proteína más corta de la real, además de no precedir el intrón. Esquema visual del cóntigo: Pinchando aquí podremos obtener información sobre todas las secuencias relevantes del cóntigo. (Regiones UTR, exones, intrones…)
Variantes genéticas Debido a que la predicción de la proteína por Fgenesh no fue buena, y una vez extraída toda la información del cóntigo, realizamos una traducción de los dos exones de nuestra secuencia en la página web http://www.fr33.net/translator.php. De esta manera, comparamos la secuencias tanto a nivel de DNA como de proteína, con las secuencias descritas para Anopheles gambiae. No se observo variación alguna entre la secuencia de nuestro cóntigo y la de la proteína AgaP de Ensembl. Alineamiento a nivel de DNA Alineamiento a nivel proteico
Ortólogos Entre los ortólogos descritos para el gen AgaP, debido a que se trata de un gen de mosquito, se han escogido la mosca de la fruta y otra especie de mosquito para determinar el porcentaje de identidad entre las secuencias a nivel de DNA y proteína de éstos y las secuencias predichas a partir de nuestro cóntigo. Ortólogo
% Identidad DNA
% Identidad proteína
Anopheles darlingui Drosophila melanogaster
72,727 43,721
74,067 37,132
5
Accede a los alineamientos pinchando en cada %
Análisis del cóntigo 1
Diseño de primers Para amplificar el gen de nuestro cóntigo se utilizó la herramienta Primer-BLAST de NCBI con la cual se diseñaron los siguientes primers a mano: Forward primer: ATGGAGCACACACGGCTA Reverse primer: TCACCAGCCCACTTCCTCT
En la imagen podemos observar que se amplifica un producto de 1711 pb. También observamos una Tm similar en ambos primers, característica muy importante en el diseño de éstos.
6
Análisis del cóntigo 2
Descripción del gen Gen: HBB (Human beta-globin) HBB:NCBI HBB:Ensembl Localización: Brazo corto del cromosoma 11, posición 15.5 (11p15.5) Función: Es una de las subunidades que conforman la hemoglobina que se encuentra dentro de las células rojas (eritrocitos) de la sangre. La hemoglobina normalmente consta de cuatro subunidades de proteínas: dos subunidades de beta-globina y dos subunidades de otra proteína llamada alfa-globina. Cada una de estas subunidades posee un grupo hemo que le permite la unión de oxígeno, para poder transportarlo así de los pulmones al resto de tejidos del organismo. Estructura: El 77% de la estructura de la proteína está en forma de alfa hélice. No posee estructura beta. Transcritos: Para este gen se han anotado 4 transcritos, de los cuales solo 2 codifican para proteínas. HBB001: Transcrito consenso. 147aa. HBB004: 90aa.
Análisis del cóntigo Predicción con FGenesh: En el caso de esta proteína, obtenemos la misma predicción del gen utilizando los parámetros tanto de Anopheles como de humano. Se predice un único gen de 44 pares de bases que posee 3 exones. Las características de dicho gen son las siguientes. Exón 1: 142 pares de bases. Posiciones desde la 677 hasta la 818. Intrón 1: 130 pares de bases. Posiciones desde la 819 hasta la 948. Exón 2: 223 pares de bases. Posiciones desde la 949 hasta 1172. Intrón 2: 850 pares de bases. Posiciones desde la 1173 hasta la 2023. Exón 3: 263 pares de bases. Posiciones desde la 2024 hasta la 2287.
7
Pincha en la imagen para ver la predicción .
Análisis del cóntigo 2
Comparación de la proteína predicha con el consenso: La similitud entre las dos secuencias se estima que es del 100%. Podemos concluir por tanto que el fragmento de DNA del cóntigo 2 pertenece a humano. Esquema visual del cóntigo: Pinchando aquí podremos obtener información sobre todas las secuencias relevantes del cóntigo. (Regiones UTR, exones, intrones…)
Variantes genéticas La similitud entre las dos secuencias como hemos mencionado es del 100%, de forma que no se encuentra ni a nivel de DNA ni a nivel de proteína ninguna variación entre el gen/proteína predichos a partir de nuestro cóntigo y el consenso para el mismo.
Ortólogos Entre los ortólogos descritos para el gen HBB, se han escogido el cerdo y el chimpancé para determinar el porcentaje de identidad entre las secuencias a nivel de DNA y proteína de éstos y las secuencias predichas a partir de nuestro cóntigo.
Pan troglodites
% Identidad DNA 100
% Identidad proteína 100
Sus scrofa
84,685
85,034
Ortólogo
Accede a los alineamientos pinchando en cada %
Diseño de primers Con la herramienta Primer-BLAST de NCBI, se diseñaron los siguientes primers, hechos anteriormente a mano: Forward primer: ATGGTGCATACTGACT Reverse primer: TTAGTGATACTTGTGG
8
Análisis del cóntigo 3
Descripción del gen Este cóntigo, a diferencia de los demás, presenta 2 genes.
DDX53 Gen1: DDX53 (DEAD (Asp-Glu-Ala-Asp) box polypeptide 53). DDX53 NCBI; DDX53 Ensembl. Localización: Brazo corto del cromosoma X (p22.11). Función: Se trata de una helicasa de RNA. Esta proteína se encarga del procesado y plegamiento de RNA, remodelación de ribonucleoproteínas, exportación nuclear de RNA, regulación de su transcripción y traducción y su degradación. Está relacionada con muchos cánceres e infecciones virales. Estructura: Pinchar en la imagen. Transcritos: Sólo hay un transcrito descrito hasta la fecha. DDX53-001 Transcrito consenso. 631 aa.
DUSP21 Gen2: DUSP21 (Dual specificity phosphatase 21). DUSP21 NCBI; DUSP21 Ensembl. Localización: Brazo corto del cromosoma X (p11.4-p11.23). Función: Se trata de una fosfatasa de bajo peso molecular con especificidad dual. Son capaces de desfosforilar residuos reguladores de fosfotirosina y fosfoserina o fosfotreonina de kinasas. Son importantes en la regulación del crecimiento celular, diferenciación y transformación. Pertenece al grupo de las PTP (proteín-tirosin fosfatasas). Estructura: No hay una imagen disponible de la estructura. Transcritos: Sólo hay un transcrito descrito hasta la fecha. DUSP21-001 Transcrito consenso. 190 aa.
9
Análisis del cóntigo 3
Análisis del cóntigo Predicción con FGENESH: Realizando la predicción de genes en este sistema en Anopheles y humano salen 2 genes idénticos (el primero y el tercero), mientras que el otro, el segundo, da una predicción diferente para ambos, lo cual no es importante ya que en el BLAST no se obtiene ninguna identidad. -
DDX53:
Exón: 1 único exón de 1896 pares de bases (2589 – 4484). Intrón: No presenta intrones. Proteína predicha: 631 aminoácidos.
Pincha en la imagen para ver la predicción .
Comparación de la proteína predicha con la consenso: La similitud entre las 2 secuencias proteicas es del 100%. Podemos concluir de esta forma que nuestra proteína predicha se corresponde con el gen DDX53 de humanos. -
DUSP21:
Exón: 1 único exón de 573 pares de bases (9875 – 10447). Intrón: No presenta intrones. Proteína predicha: 190 aminoácidos. Comparación de la proteína predicha con el consenso: La similitud entre las 2 secuencias proteicas es del 100%. Podemos concluir de esta forma que nuestra proteína predicha se corresponde con el gen DUSP21 de humanos. Esquema visual del cóntigo: Pinchando aquí podrás obtener la información más relevante que presenta el cóntigo (localización de exones, regiones 3’UTR y 5’UTR, regiones promotoras…).
Fig.2. Esquema del transcrito consenso (DSUP21)
10
Análisis del cóntigo 3
Variantes genéticas Tras realizar el alineamiento tanto de secuencias del DNA como de proteína se observa que ninguno de los genes que contiene el cóntigo presenta ningún tipo de variación. Ver el alineamiento de secuencias de DNA (DDX53, DUSP21) Ver el alineamiento de la secuencia proteica (DDX53, DUSP21)
Ortólogos Se seleccionaron 3 ortólogos y se realizó el alineamiento tanto a nivel de cDNA como de la proteína, obteniéndose los siguientes resultados de similitud de la secuencia:
DDX53 Pan troglodytes Pongo abelii Sus scrofa
Alineamiento cDNA 99% 98% 80%
Alineamiento proteína 97% 95% 71%
DUSP21
Alineamiento cDNA
Alineamiento proteína
Pan troglodytes Pongo abelii Sus scrofa
99% 99% 70%
98% 97% 70%
Accede a los alineamientos pinchando en cada %
Diseño de primers Para amplificar los genes DDX53 y DUSP21 de nuestro cóntigo, se diseñaron los siguientes primers. DDX53 FF primer: ATGTCCCACTGGGCCC R primer: TCAACTTAAAAAATAAAACTCCTTG
11
Análisis del cóntigo 3
Se observó la amplificación de una secuencia nucleótidos que corresponde a nuestro gen.
de
1896
DUSP21 FF primer: ATGACAGCATCCGCGT R primer: TTACATTGATATCATCATACGTAG
Se observó la amplificación de una secuencia de 573 nucleótidos que corresponde al gen.
12
Análisis del cóntigo 4
Descripción del gen Gen: GPR 146 (G-protein coupled receptor 146). GPR146 NCBI ; GPR146Ensembl Localización: Brazo corto del cromosoma 7 (p22.3) Función: Se trata de una proteína transmembrana encargada de la transducción de señales en la célula. El proceso de transducción comienza con la unión de un ligando que produce un cambio conformacional en la proteína, permitiendo así la unión y activación de una proteína G. Estructura: Se compone de 7 dominios transmembrana. Transcritos: Se han encontrado 6 transcritos de este gen. Dos de ellos, el 002 y el 004, no dan lugar a producto proteico alguno. Los transcritos 001 y 201 dan lugar a la secuencia consenso. GPR146-001- Transcrito consenso. 333 aa. GPR146-002- Sin producto. GPR146-003- 315 aa.
GPR146-004- Sin producto. GPR146-005- 39 aa. GPR146-201- Transcrito consenso. 333 aa.
Análisis del cóntigo Predicción con FGenesh: Se realiza la búsqueda utilizando los parámetros de humano y de Anopheles, siendo el resultado en la predicción del gen: Anopheles
Ser humano
Exón: 2 exones. (1–270 y 289-1002) 984 pb. Exón: 2 exones. (1-222 y 286-1002) 939 pb. Intrón: 1 intrón. (271-288) Intrón: 1 intrón. (223-285) Proteína predicha: 328 aminoácidos Proteína predicha: 312 aminoácidos
13
Análisis del cóntigo 4 Comparación de la proteína predicha con el consenso: La identidad con la secuencia proteica predicha para Anopheles se estima que es del 97%. Siendo de un 92% para la predicha para el ser humano. Comparando la secuencia de nuestro propio cóntigo con la secuencia nucleotídica de la secuencia consenso obtenemos una identidad del 98%, valor mayor que ambos anteriores. Podemos concluir por tanto que la predicción de genes no ha sido la más adecuada. A pesar de todo, el gen predicho corresponde definitivamente al gen GPR146 de humanos. Esquema visual del cóntigo: Pinchando aquí podrás obtener la información más relevante que presenta el contigo (localización de exones, regiones 3’UTR y 5´UTR, regiones promotoras…)
Fig.1. Esquema del transcrito consenso de GPR146.
Variantes genéticas Tras realizar el alineamiento tanto de secuencias del DNA como de proteína se observa que nuestro cóntigo presenta las siguientes variaciones con respecto a la secuencia consenso:
SNP.001 SNP.002 SNP.003 SNP.004 SNP.005 SNP.006 SNP.007
Codón CCDS
Codón Cóntigo
aa de CCDS
aa de cóntigo
Tipo de polimorfismo
Nº aa
AAG TGG GGC GCC CTC ATC TCC
ACG TAG GCC GCA ATC CTC GCC
K W G A L I S
T STOP A A I L A
replacement stop gained replacement synonimous replacement replacement replacement
56 95 99 202 245 260 287
Ver el alineamiento de secuencias de DNA pinchando aquí. Ver el alineamiento de la secuencia proteica pinchando aquí.
14
Análisis del cóntigo 4
Ortólogos De los 45 ortólogos recogidos en Ensembl, se seleccionaron 2 y se realizó el alineamiento tanto a nivel de cDNA como de proteína obteniéndose los siguientes resultados de similitud de secuencia:
Gorilla gorilla gorilla Sus scrofa
Alineamiento cDNA 56% 58%
Alineamiento proteína 97% 52%
Accede a los alineamientos pinchando en cada %
Diseño de primers Para amplificar el gen GPR146 de nuestro cóntigo se diseñaron los siguientes primers a través de la herramienta Primer-BLAST de NCBI:
Forward primer: ATGTGGAGCTGCAGCTGG Reverse primer: CTACGCCAGCACCTGCTG
Se observó una amplificación de una secuencia de 1002 pb, correspondiente a nuestro gen.
15
Análisis del cóntigo 5
Descripción del gen Gen: SRY (Sex determining Region Y). SRY NCBI ; SRY Ensembl Localización: Brazo corto del cromosoma Y (p11.3) Función: Codifica para un factor de transcripción cuya función es determinar que las células germinales de los órganos genitales del embrión empiecen a formar los testículos. Se transcribe sólo en el desarrollo embrionario. Estructura: Pincha en la imagen Transcritos: 3 transcritos descritos. Todos ellos codifican para proteínas. SRY001- Transcrito consenso. 204 aa SRY201-197aa SRY202-165 aa
Análisis del cóntigo Predicción con FGenesh: Independientemente de si se realiza la búsqueda utilizando los parámetros de humano o de Anopheles, el resultado en la predicción del gen es el mismo. Exón: 1 único exón de 615 pares de bases (3097 – 3711) Intrón: No presenta intrones. Proteína predicha: 204 aminoácidos
Pincha en la imagen para ver la predicción .
Comparación de la proteína predicha con el consenso: La similitud entre las dos secuencias proteicas se estima que es del 99,02%. Podemos concluir por tanto que el gen predicho corresponde con el gen SRY de humanos. Esquema visual del cóntigo: Pinchando aquí podrás obtener la información más relevante que presenta el cóntigo (localización de exón, regiones 3’UTR y 5´UTR, regiones promotoras…)
Fig.1. Esquema del transcrito consenso.
16
Análisis del cóntigo 5
Variantes genéticas Tras realizar el alineamiento tanto de secuencias del DNA como de proteína se observa que nuestro cóntigo presenta las siguientes variaciones con respecto a la secuencia consenso:
SNP.001 SNP.002 SNP.003 SNP.004
Codón CCDS
Codón contigo
aa de CCDS
aa de contigo
Tipo de poliforfismo
Nº aa
GAG GT G CGG AAC
AAG GCG CGA AAT
E V R N
K A R N
replacement replacement synonimous synonimous
89 157 29 187
Ver el alineamiento de secuencias de DNA pinchando aquí. Ver el alineamiento de la secuencia proteica pinchando aquí.
Ortólogos Se seleccionaron 2 ortólogos y se realizó el alineamiento tanto a nivel de cDNA como de proteína obteniéndose los siguientes resultados de similitud de secuencia: Alineamiento cDNA
Alineamiento proteína
98 % 96%
76% 57%
Pan troglodytes
Sus scrofa
Accede a los alineamientos pinchando en cada %
Diseño de primers Para amplificar el gen SRY de nuestro cóntigo se diseñaron los siguientes primers:
Forward primer: ATGCAATCATATGCTTCTGCT Reverse primer: CTACAGCTTTGTCCAGTGGCT
17
Materiales y métodos
CAP3. http://doua.prabi.fr/software/cap3 Fgenes.http://linux1.softberry.com/berry.phtml?topic=fgenes&grou p=help&subgroup=gfind Ensemble. http://www.ensembl.org/index.html Uniprot. http://www.uniprot.org/ NCBI. http://www.ncbi.nlm.nih.gov/ UCSC. http://genome.ucsc.edu/ Issue. http://issuu.com/ Fr33 translator. http://www.fr33.net/translator.php
Conclusiones
El ensamblaje de las secuencias mediante el programa CAP 3 resultó ser bastante eficaz ya que fácilmente se pudieron obtener los 5 cóntigos. Por otro lado, la predicción de genes con mediante Fgenes nos ayudó a encontrar, tras un posterior BLAST, los genes: UDPglicosyltransferase, HBB (Human beta-globin) GPR 146, SRY, DDX53 y DUSP21, estando estos dos últimos localizados en el mismo cóntigo. No obstante, la predicción de los genes UDP-glicosyltransferase y GPR 146 presentó algunos problemas, no siendo del todo correcta tal y como se ha expresado anteriormente. Durante la búsqueda de variaciones génicas cabe destacar que en lo que se refiere a la proteína GPR146, se observó, además de SNPs synonimous y replacement, un SNP STOP gained, esto es, una mutación génica que da lugar a un codón STOP y, por lo tanto, interrumpe la traducción de la proteína, dando lugar a un péptido de menor tamaño. En la proteína SRY se observaron variaciones de tipo tanto synonimous como replacement. Por último, en las proteínas UDP- glicosyltranferase, DDX53, DUSP21 y HBB no se observó variación alguna. En cuanto a la búsqueda de ortólogos, pudimos comprobar la existencia de una mayor identidad entre las secuencias cuando comparábamos con las especies más cercanas en la evolución. Es decir, en el caso de los genes pertenecientes a humano, todos excepto la UDP-glicosiltransferasa, el mayor porcentaje de identidad lo encontramos con los primates, ya que el proceso de especiación entre
18
ambas especies es menor que con los otros ortólogos seleccionados, como es por ejemplo el cerdo. En cuanto a los ortólogos seleccionados para la UDP-glicosiltransferasa perteneciente a Anopheles, ninguno de los ortólogos presento un porcentaje de identidad destacable, lo cual podría significar que las especies seleccionadas están alejadas en la evolución o peor caracterizadas. A la hora de diseñar los primers, el mayor problema fue conseguir que ambos tuvieran una temperatura de fusión semejante, ya que esta depende sobre todo de la proporción de GC y en algunos casos la diferencia es notable. Para compensarlo, se han realizado primers de distintas longitudes. En definitiva, gracias a todas estas herramientas, se ha podido realizar la anotación de los genes en los distintos cóntigos, así como obtener una gran cantidad de información acerca de los mismos. Por último, destacar el hecho de que, a pesar de provenir la muestra de un mosquito, se ha conseguido discernir entre aquellos genes propios de humano y los pertenecientes a mosquito.
19