Características genéticas en lineas doble haploides de maíz

Page 1

INSTITUTO POLITÉCNICO NACIONAL CENTRO INTERDISCIPLINARIO DE INVESTIGACIÓN PARA EL DESARROLLO INTEGRAL REGIONAL UNIDAD SINALOA

Caracterización genética de líneas dobles haploides de maíz para el desarrollo de híbridos con potencial agronómico en Sinaloa

TESIS QUE PARA OBTENER EL GRADO DE MAESTRÍA EN RECURSOS NATURALES Y MEDIO AMBIENTE

PRESENTA: CARLOS ALBERTO RÍOS SANDOVAL

GUASAVE, SINALOA; MÉXICO DICIEMBRE 2017


I


II


III


Agradecimiento a proyectos El trabajo de tesis se desarrolló en el Departamento de Biotecnología Agrícola del Centro Interdisciplinario de Investigación para el Desarrollo Integral Regional (CIIDIR) Unidad Sinaloa del Instituto Politécnico Nacional (IPN). El presente trabajo fue apoyado económicamente a través de los proyectos Sustentabilidad del maíz: Búsqueda de bacterias solubilizadoras de fosfato en maíz, análisis de la diversidad genética de maíces criollos y diversidad de hongos micorrízicos arbusculares asociados al cultivo de maíz (Con número de registro 20161778), Propagación de aguacate no comercial y obtención de extractos crudos con potencial

actividad

biológica

(Con

número

de

registro

20170317),

Microorganismos asociados a maíz, tomate y otros cultivos de importancia económica para el desarrollo agrícola sustentable en Sinaloa (Con número de registro 20170939) y Selección asistida por genotipificación por secuenciación de líneas dobles haploide duplicados de maíz blanco y amarillo con alto contenido de aceite para el subtrópico Mexicano perteneciente al proyecto de investigación de recursos fiscales 2015 de INIFAP. El alumno Carlos Alberto Ríos Sandoval fue apoyado con una beca CONACYT con clave: 425092.

IV


Dedicatoria y Agradecimientos Este trabajo va dedicado a todas las personas que han sido parte de mi formación, pero especialmente a mi familia, principalmente a mis padres quienes siempre me han guiado por un camino donde siempre busqué superarme, a mi hija por ser mi mayor inspiración, mi motivo, mi motor de mejorar cada día, a mis directores de tesis, y a mis amigos del laboratorio de Genómica Funcional. ¡Con su ayuda este logro fue posible! Agradezco al Centro Interdisciplinario de Investigación para el Desarrollo Integral Regional (CIIDIR) Unidad Sinaloa, por abrirme sus puertas y proveerme la oportunidad de realizar una maestría. A mis directores de tesis el Dr. Eduardo Sandoval Castro y el Dr. Ignacio Eduardo Maldonado Mendoza, por todo su tiempo, paciencia y conocimientos compartidos durante mi estancia en este centro de investigación, quedando completamente agradecido por que hayan sido parte de mi crecimiento profesional. A mi comité tutorial Dr. Carlos Ligne Calderón Vázquez, Dra. Ana Laura Domínguez Orozco, M.C. Luis Alberto Peinado Fuentes por sus consejos, siempre buscando enriquecer este proyecto. Al Dr. Abraham Cruz Mendivil por su apoyo, ayuda y asesoramiento en el aprendizaje de principios básicos de bioinformática. Al M.C Eric Gerardo González Segovia por la capacitación en análisis bioinformáticos para la identificación de SNPs en datos crudos de secuenciación masiva. A mis compañeros de laboratorio: Carolina Valdez, Nadia Douriet, Priscila Gaytan, Mireya Higuera, Juan Pablo Valenzuela, María Fernanda Dávila, María Fernanda Medina, y a los demás compañeros de prácticas profesionales por su apoyo, amistad incondicional y por hacerme sentir parte del laboratorio de Genómica Funcional. Un agradecimiento más al Departamento de Servicio de Análisis Genético para la Agricultura (SAGA) perteneciente al Centro Internacional de Mejoramiento de Maíz y Trigo por el servicio de secuenciación y genotipado de las líneas de maíz utilizadas en este trabajo por medio de la tecnología DArT-GBS por parte del programa MasAgro Biodiversidad.

V


ÍNDICE GLOSARIO............................................................................................................. IX ÍNDICE DE FIGURAS .......................................................................................... XIII ÍNDICE DE CUADROS ........................................................................................ XV RESUMEN .......................................................................................................... XVI ABSTRACT ....................................................................................................... XVIII 1. INTRODUCCIÓN .............................................................................................. 1 2. ANTECEDENTES ............................................................................................. 3 2.1

Maíz ........................................................................................................... 3

2.1.1

Descripción botánica. ................................................................................. 3

2.1.2

Tipos de maíz. ............................................................................................ 4

2.1.3

Importancia nutrimental. ............................................................................. 5

2.1.4

Importancia económica. ............................................................................. 7

2.1.5

Principales usos del maíz. .......................................................................... 8

2.2

Diversidad genética del maíz. .................................................................... 9

2.2.1

Marcadores moleculares para el estudio de la diversidad genética. ........ 11

2.3

Genética de poblaciones .......................................................................... 13

2.4

Nuevas tecnologías de secuenciación masiva. ........................................ 14

2.4.1

Plataformas de secuenciación. ................................................................ 14

2.4.1.1 Illumina HiSeq. ......................................................................................... 16 2.5

Genotipado por Secuenciación. ............................................................... 18

2.6

DArTSeq. ................................................................................................. 21

2.7

Genes candidatos para la biosíntesis de lípidos. ..................................... 21

2.8

Uso de líneas Dobles Haploides como estrategia para el fitomejoramiento.22

2.9

Programa de fitomejoramiento de maíz de INIFAP. ................................ 24

3. JUSTIFICACIÓN ............................................................................................. 26 VI


4. HIPÓTESIS..................................................................................................... 27 5. OBJETIVOS.................................................................................................... 28 5.1

Objetivo General. ..................................................................................... 28

5.2

Objetivos específicos. .............................................................................. 28

6

MATERIAL Y MÉTODOS ............................................................................... 29

6.1

Genotipado y determinación de los índices de diversidad genética para

las poblaciones de maíz blanco y amarillo del Noroeste y el Bajío. ...................... 29 6.1.1

Material genético a utilizar. ....................................................................... 29

6.1.2

Composición genética de líneas DH de maíz blanco y amarillo. .............. 29

6.1.3

Extracción de ADN genómico. ................................................................. 30

6.1.4

Preparación de bibliotecas por el método de DArTSeq............................ 30

6.1.5

Secuenciación por síntesis. ...................................................................... 31

6.1.6

Búsqueda de SNPs. ................................................................................. 31

6.1.7

Índices de diversidad genética. ................................................................ 32

6.1.8

Número de SNPs. .................................................................................... 32

6.1.9

Determinación del porcentaje de datos perdidos. .................................... 33

6.1.10 Heterocigosidad observada y esperada. .................................................. 33 6.1.11 Índice de contenido polimórfico (PIC)....................................................... 33 6.2

Estructura poblacional de maíces del Bajío y Noroeste de México. ......... 34

6.2.1

Distancia genética. ................................................................................... 34

6.2.2

Análisis de estructura. .............................................................................. 35

6.2.3

Construcción de dendograma. ................................................................. 36

6.2.4

Análisis de escalamiento multidimensional. ............................................. 36

7

RESULTADOS ............................................................................................... 37

7.1

Caracterización genética. ......................................................................... 37

7.2

Análisis de estructura poblacional. ........................................................... 39 VII


7.2.1

Agrupamiento mediante MDS. ................................................................. 44

7.2.2

Agrupamiento de las 120 líneas de maíz. ................................................ 47

8 8.1

DISCUSIÓN .................................................................................................... 50 Objetivo 1. Determinar índices de diversidad genética para las

poblaciones y los individuos de maíz blanco y amarillo del Noroeste y el Bajío. .. 50 8.2

Objetivo 2. Obtener la estructura genética de las poblaciones de maíz

blanco y amarillo del Noroeste y Bajío de México. ................................................ 57 9

CONCLUSIONES ........................................................................................... 63

10 BIBLIOGRAFÍA ............................................................................................... 64 ANEXOS ............................................................................................................... 75

VIII


GLOSARIO Ácidos grasos: Biomolécula de naturaleza lipídica formada por una larga cadena hidrocarbonada lineal de longitud variable, la cual contiene en uno de sus extremos un grupo carboxílico (-COOH). Son ácidos orgánicos de más de seis átomos de carbono. Pueden ser saturados, mono-insaturados, di-insaturados y poli-insaturados. Son los principales componentes de las grasas y aceites. Aceite de maíz: Líquido graso de color ambarino obtenido por extrusión, extracción física o ambos proveniente del germen de la semilla de maíz (embriones de Zea mays L.). Aceite vegetal: Compuesto orgánico líquido obtenido a partir de semillas u otras partes de las plantas. Este se acumula en los tejidos de las plantas como fuente de energía. Tienen diversos usos, principalmente para consumo humano y también para la producción de biocombustibles. Alelo homocigoto mayor: Alelo que se presentó un mayor número de veces en un determinado locus dentro del genoma. Alelo homocigoto menor: Alelo que se presentó un menor número de veces en un locus en particular dentro del genoma. Se encuentra en menor proporción que el alelo homocigoto mayor. Diploide: Genotipo formado por dos series de cromosomas, es decir, pares de cromosomas homólogos y se representa como 2n. Dístico: Se aplica a cualquier órgano dispuesto en dos filas, como las hojas de las gramíneas. Diversidad genética: Variaciones heredables que ocurren en cada organismo, entre los individuos de una población y entre las poblaciones dentro de una especie. Es el resultado de las diferencias que existen entre las distintas versiones (alelos) de las unidades de herencia (genes) de los individuos de una especie. Doble haploide: Genotipo que se forma a partir de células haploides (n) que experimentan una duplicación cromosómica (2n), debido a un proceso espontáneo o inducido artificialmente.

IX


Escutelo:

Cotiledón

transformado

en

órgano

absorbente,

adosado

al

endospermo. Fitomejoramiento: Conjunto de actividades destinadas a mejorar las cualidades genéticas de un cultivo, como mayor rendimiento, mejor calidad de grano, resistencia a plagas o enfermedades, tolerancia a factores ambientales adversos (sequía, inundación, salinidad), entre otros. Frecuencia del alelo menos común: Filtrado en que se determina la frecuencia a la que ocurre el alelo menos común en un locus determinado de una población dada, eliminando aquellos loci que se encuentren pocamente representativos. Gen: Unidad de material genético que, junto con otras, está dispuesta en un orden fijo a lo largo de un cromosoma, y determina la aparición de los caracteres hereditarios en los seres vivos. Gen candidato: Gen al que se hace responsable de un rasgo de importancia, tanto por la posición que ocupa en el mapa genómico (candidato posicional) como por las propiedades de la proteína que codifica (candidato funcional). Genoma: Totalidad del material genético que posee un organismo en particular. Genotipado: Proceso de determinación del genotipo o contenido genómico, en forma de ADN, específico de un organismo biológico, mediante un procedimiento de laboratorio. Grupo heterótico: Agrupamiento de la diversidad genética, caracterizándose por la distancia genética y el diferente origen geográfico de los materiales. Haploide: Genotipo formado sólo por una serie de cromosomas y se representa con la letra n. Heterocigosidad observada: Medida de la variación genética de una población respecto a un locus particular. Se define como la frecuencia de heterocigotos para ese locus. Heterocigosidad

esperada:

Fracción estimada

de

todos

los

individuos

que podrían ser heterocigóticos para cualquier locus tomado al azar. Heterocigosis: Condición en la que los cromosomas homólogos presentan dos alelos diferentes. X


Heterosis: Fenómeno que ocurre cuando se cruzan dos líneas totalmente homocigotas y el producto o híbrido resultante, presenta un valor agronómico mayor que el promedio. También es llamado vigor híbrido. Híbrido: Descendencia individual de cualquier cruzamiento entre parentales de distinto genotipo. Homocigosis: Condición en la que los cromosomas homólogos presentan alelos idénticos. Indel: Es una contracción de "inserción o deleción", en referencia a los dos tipos de mutaciones genéticas que se consideran a menudo juntas a causa de su efecto similar y la incapacidad de distinguir entre ellas en una comparación de dos secuencias. Índice de contenido polimórfico: Medida de la informatividad de un marcador genético, que depende del número de alelos para ese locus y de sus frecuencias relativas. Marcador molecular: Segmento de ADN con una ubicación física identificable (locus) en un cromosoma y cuya herencia genética se puede rastrear. Un marcador puede ser un gen, o puede ser alguna sección del ADN sin función conocida. Mestizo: Es la cruza de un organismo con un genotipo dominante desconocido con organismos que son homocigóticos recesivos para ese rasgo. Nucleótido: Compuesto químico orgánico fundamental de los ácidos nucleicos, constituido por una base nitrogenada, un azúcar y una molécula de ácido fosfórico. Parental: Progenitor o progenitores de una progenie, esto es, el individuo o los individuos cuya reproducción, ya sea sexual o asexual, provoca la transmisión de una herencia genética. Población: Grupo de individuos que se aparean entre sí para dar lugar a la siguiente generación. Polimorfismo: Variación en la secuencia de un lugar determinado del ADN entre los individuos de una población.

XI


Polimorfismo de nucleótido simple (SNP). Variación natural en un único par de nucleótidos en una situación determinada del genoma de dos o más individuos. Polística: Dícese de lo que está dispuesto en varias filas. Secuenciación de ADN: Conjunto de métodos y técnicas bioquímicas cuya finalidad es la determinación del orden de los nucleótidos (A, C, G y T) en un oligonucleótido de ADN. Transposón: Secuencias de ADN con capacidad de mudarse de un sitio a otro de los genomas de los organismos eucariontes y procariontes. UPGMA (Unweighted Pair Group Method with Arithmetic Mean): Es un método de agrupamiento jerárquico aglomerativo simple (de abajo hacia arriba), utilizado para agrupar a aquellos individuos que tengan mayor similitud entre si.

XII


ÍNDICE DE FIGURAS

Figura 1

Principales estructuras que conforman a la semilla de

4

maíz. Figura 2

Producción nacional de grano de maíz en México.

8

Figura 3

Representación esquemática de la secuenciación por

18

Illumina HiSeq 2500. Figura 4

Preparación de bibliotecas mediante la metodología de

20

Genotipado por Secuenciación para diferentes individuos y descubrimiento de SNPs. Figura 5

Diagrama de flujo de los análisis bioinformáticos

32

realizados a partir de los 35,770 SNPs. Figura 6

Gráfico de barra representativo del número de SNPs

37

identificados en las cuatro poblaciones de maíz. Figura 7

Gráfico de barra representativo del número de SNPs

38

identificados según el tipo de línea de maíz. Figura 8

Estructura poblacional de 120 líneas de maíz estimada

42

con 35,770 SNPs. Valores de Ln (P) para un rango de K de 1 a 5. Figura 9

Estructura poblacional de 120 líneas de maíz estimada

42

con 35770 SNPs. Valores de ΔK para un rango de K de 2 a 4. Figura 10

Estructura poblacional de 120 líneas de maíz cuando K =

43

2 Figura 11

Gráfico de Escalamiento Multidimensional (MDS) de las

44

líneas parentales de maíz blanco y amarillo del Bajío y Noroeste de México. Figura 12

Gráfico de Escalamiento Multidimensional (MDS) de los

45

61 parentales y las 40 cruzas simples. Figura 13

Gráfico de Escalamiento Multidimensional (MDS) del

46

panel completo de individuos. Figura 14

Dendograma construido por el método UPGMA de 120

48

líneas de maíz blanco y amarillo del Noroeste y Bajío de XIII


México. Figura 15

Dendograma construido por el método UPGMA de las 61

49

líneas parentales de maíz blanco y amarillo del Noroeste y Bajío de México.

XIV


ÍNDICE DE CUADROS

Cuadro 1

Clasificación de los tipos de maíz

5

Cuadro 2

Peso y composición de las distintas partes del grano de

6

maíz. Cuadro 3

Composición nutricional de los granos de maíz.

7

Cuadro 4

Comparación de genomas de maíz reportados.

11

Cuadro 5

Comparación de plataformas de secuenciación masiva y

16

capilar. Cuadro 6

Clasificación de 120 líneas de maíz por tipo de línea,

29

color de grano y región de origen. Cuadro 7

Índices de diversidad genética para las 120 líneas de

38

maíz. Cuadro 8

Índices de diversidad genética de las 61 líneas

39

parentales. Cuadro 9

Predicción de cruzas simples de maíz amarillo.

40

Cuadro 10

Predicción de cruzas simples de maíz blanco.

41

Cuadro 11

Total de predicciones para cruzas simples de maíz amarillo.

74

Cuadro 12

Total de predicciones para cruzas simples de maíz blanco.

75

XV


RESUMEN El cultivo de maíz representa una de las actividades de mayor importancia económica en la región noroeste de México, y su rentabilidad se basa en el uso de variedades hibridas para alcanzar altos rendimientos. La tecnología doble haploide (DH) es usada en los programas modernos de fitomejoramiento para el desarrollo rápido de líneas homocigotas, y en combinación con tecnologías de genotipificación, permiten la identificación de patrones heteróticos de una manera más eficiente. Recientemente, el INIFAP ha generado líneas DH a partir de cuatro poblaciones de maíz subtropical con alto contenido de aceite, pero estas aún no han sido genotipificadas. En la presente investigación analizó la diversidad y estructura genética poblacional de dichas líneas DH con alto contenido de aceite mediante la tecnología de Genotipificación por Secuenciación (GBS) para identificar líneas parentales potencialmente viables para la producción de híbridos con alto contenido de aceite. Se analizaron 120 materiales pertenecientes a las regiones del Bajío y el Noroeste de México. En total se identificaron 35,770 SNPs, posteriormente a un filtrado del alelo menos frecuente (MAF) al 0.05 restaron solo 26,596 SNPs. A partir de estos SNPs se determinaron los índices de diversidad genética (PIC, Ho y He) y la distancia genética entre los 120 genotipos. El número de SNPs por cada línea varió de 25,238 a 34,829. El PIC para las cuatro poblaciones estuvo entre 0.487 y 0.489, sugiriendo que los marcadores presentes son moderadamente informativos, la Ho varió de 0.10 y 0.15 y la He fue de 0.43, indicando una deficiencia de heterocigosidad debido a la presencia de líneas DH en el análisis. La estructura poblacional se analizó a partir de tres diferentes aproximaciones, el Análisis de Escalamiento Multidimensional (MDS), la construcción de un dendrograma por el método UPGMA y el análisis de agrupamiento bayesiano implementado en STRUCTURE. Los resultados muestran tres agrupaciones para MDS y el dendrograma con UPGMA, que separa a la población blanca del Noroeste, la población blanca del Bajío y a las dos poblaciones amarillas. Mientras que el análisis de STRUCTURE muestra dos grupos, uno conformado por parentales, y el otro por cruzas y mestizos. Los XVI


resultados generados permiten analizar y proponer un sistema de cruzas a partir de los parentales genéticamente más contrastantes para asegurar un mayor vigor híbrido en rendimiento y contenido de aceite el cuál es el principal objetivo del programa de mejoramiento establecido por el INIFAP.

XVII


ABSTRACT Maize cultivation is considered one of the activities with major economic importance at northwestern Mexico.The profitability is mostly due to the use of comercial hybrid varieties, achieving high yields. Double haploid (DH) technology have been used in most of the modern plant breeding programs. This tecnology ease the rapid development of homozygous lines, and in combination with genotyping technologies, allow the identification of heterotic patterns efficiently. Recently, INIFAP has generated DH lines arising out of four populations of subtropical maize lines with high oil content, however these have not yet been genotyped. In the present research the diversity and population genetic structure from those DH lines with high oil content was analyzed with Genotyping by Sequencing (GBS) technology. These results could be used to identify viable parental lines with advantageous traits for the production of hybrids with high oil content. A total of 120 materials from the Bajio and Northwest regions of Mexico were analyzed. In total, 35,770 SNPs were identified, after minor allele frequency (MAF) correction at 0.05 only 26,596 SNPs were obtained. Genetic diversity indexes (PIC, Ho and He) and the genetic distance among the 120 genotypes were estimated. The number of SNPs per line varied from 25,238 to 34,829. The PIC varied from 0.487 to 0.489 in the four populations, suggesting that the SNPs identified are reasonably informative. The Ho varied from 0.10 to 0.15 and the He was 0.43, indicating a deficiency of heterozygosity due to the presence of DH lines in the analysis. The population structure was analyzed using three different approaches, the Multidimensional Scaling (MDS) analysis, the construction of a dendrogram by the UPGMA method and the bayesian cluster analysis implemented in STRUCTURE. The results showed three groups for MDS and dendrogram with UPGMA, which clustered the white population from the Northwest, the white population of the Bajio and the two yellow populations. While the analysis of STRUCTURE showed only two groups, one clusterig to parental lines, and the other to crosses and mestizos lines. These results allow to analyze and propose a system of crosses from genetically more contrasting parents to ensure a greater hybrid vigor in terms of yield and oil content for the breeding program established by INIFAP.

XVIII


1. INTRODUCCIÓN El cultivo de maíz representa una de las actividades de mayor importancia económica en la región noroeste de México. El estado de Sinaloa cuenta con grandes extensiones dedicadas para este cultivo. La rentabilidad de esta actividad se basa en su amplia extensión y en el alto rendimiento de producción de grano por hectárea (Fundación Produce Sinaloa, 2008). Esto último se ha logrado gracias a la producción de nuevas variedades híbridas mejoradas que año con año son liberadas por empresas semilleras trasnacionales (Palacios et al., 2008; Ortega et al., 2012). Mientras que en Estados Unidos, las dos principales trasnacionales liberan entre 30 y 40 nuevos híbridos cada año a costos tan elevados que amenazan la rentabilidad de la actividad, en México sólo se liberan entre 2-3 nuevos híbridos por año (Dudley, 2007; González-Estrada et al., 2007; FIRA, 2011). Una de las alternativas que recientemente se han aplicado en el fitomejoramiento para obtener híbridos de una forma más rápida, es la inducción de líneas doble haploide (DH), una técnica que permite obtener líneas endogámicas ~ 100% homocigotas en un corto plazo, las cuales se utilizan como parentales para la producción de híbridos con características de interés agronómico o nutrimental. Por lo anterior mencionado, estas estrategias están siendo utilizadas para la producción de nuevas variedades híbridas nacionales. Hasta ahora, la producción de nuevos híbridos se ha basado fundamentalmente en actividades encaminadas a la selección de características de alta y de baja heredabilidad, medidas a través del fenotipo (Guillen et al., 2009). El uso de la tecnología DH enfocada al mejoramiento del maíz, está basada en la inducción de la haploidía in vivo y la duplicación cromosómica obteneniendo loci duplicados completamente iguales, debido a la inhibición mitótica. Esta tecnología es reconocida ampliamente por su eficiencia en disminuir los ciclos de mejoramiento al obtener líneas endogámicas en un menor tiempo (Prasana et al., 2013). En el Noroeste y Bajío de México, el Instituto Nacional de Investigaciones Forestales y Pecuarias (INIFAP) ha realizado un esquema de mejoramiento de maíz buscando producir maíces hibridos con ACA. Actualmente, el INIFAP cuenta 1


con poblaciones de maíz blanco y amarillo con ACA pertenecientes a ambas regiones, que han sido caracterizadas y mejoradas a partir del año 2002 hasta la actualidad. Dicho germoplasma es la base utilizada para generar líneas doble haploide de maíz con potencial para producir híbridos con ACA (Preciado-Ortiz et al., 2013; Ortega-Corona et al., 2015). En este sentido, el INIFAP está llevando a cabo un importante esfuerzo para la producción de nuevas líneas dobles haploides de maíz blanco y amarillo con alto contenido de aceite y rendimiento de grano para la generación de nuevos híbridos que pudieran competir con aquellos ya colocados en el mercado nacional. Sin embargo, para lograrlo se requiere de un gran esfuerzo interdisciplinario y del empleo de estas nuevas tecnologías que permitan hacer más eficiente el proceso. Por tal motivo, la presente investigación tuvo por objetivo llevar a cabo la caracterización genética de poblaciones de maíz blanco y amarillo producidas por el INIFAP en las regiones del Noroeste y el Bajío a través de

nuevas

tecnologías

de

secuenciación

para

identificar las

variantes

estructurales de cada genotipo y generar información de utilidad para las personas encargadas de realizar mejoramiento genético de maíz en Sinaloa. La información sobre la caracterización molecular de la diversidad genética y su estructura poblacional es de suma importancia para el desarrollo de nuevos híbridos mejorados que puedan competir en el mercado nacional (Wu et al., 2016).

2


2. ANTECEDENTES 2.1 Maíz. El maíz (Zea mays L.) es el cereal más cultivado y con mayor producción en el mundo, seguido por el arroz y el trigo (FAOSTAT, 2017). El maíz es el cereal que logra el mayor rendimiento de grano por hectárea, es una planta de tipo C4 con una alta tasa fotosintética otorgándole un gran potencial de producción de carbohidratos por unidad de superficie (Paliwal et al., 2001). La palabra maíz es de origen prehispánico la cual significa “lo que sustenta la vida”. Este cereal pertenece a la familia de las Poáceas o gramíneas, tribu Maydeas, género Zea y especie mays. Esta especie es considerada de gran importancia económica entre las Poáceas de la tribu de las Maydeas (Sánchez-Ortega, 2014). Existen otras especies pertenecientes al género Zea, de las cuales destacan el teosinte y las del género Tripsicum, siendo formas silvestres cercanas de Zea mays (Acosta, 2009; OECD, 2003). 2.1.1 Descripción botánica. El maíz es una planta monocotiledónea, cuenta con un sistema radical fibroso, conformado por raíces primarias fibrosas las cuales presentan raíces adventicias, que nacen en los primeros nudos por encima de la superficie dando anclaje a la planta en el suelo, tiene un solo tallo erecto de altura variable (1 - 6 m), y hasta 30 hojas de gran tamaño, alternadas y paralelinervias, estas se encuentran abrazadas al tallo y en el haz presentan vellosidades. Es una planta monoica, lo que significa que la misma planta presenta inflorescencias masculinas y femeninas bien diferenciadas. Esta característica facilita las labores de polinización y producción de nuevas cruzas. Es capaz de desarrollar una o dos yemas laterales en la axila de las hojas, esto en la mitad superior de la planta, las cuales terminan en una inflorescencia femenina que pasa a ser una mazorca cubierta en hojas, teniendo la capacidad de almacenar reservas en los granos. En la mazorca se pueden formar alrededor de 400 a 1,000 granos acomodados de 8 a 24 hileras aproximadamente. Los estilos largos que salen de la punta del olote, son conocidos comúnmente como pelos de elote, y cada uno de ellos puede ser equivalente a un grano en caso de ser polinizados. La inflorescencia masculina o panoja se ubica en la parte superior de la planta, es una espiga central con 3


ramificaciones laterales que producen el polen. Estas ramificaciones también llamadas espiguillas se distribuyen a lo largo del eje central o raquis de forma polística y en las ramas con arreglo dístico. Las espiguillas están protegidas por dos glumas, estas contienen tres estambres los cuales producen los granos de polen. La coloración de la panoja puede ser de distintos colores ya sea verde, morada, rojiza o amarilla dependiendo de las glumas y anteras. (Paliwal et al., 2001; Kato et al., 2009). La mazorca siendo indehiscente mantiene en ella cada uno de sus granos cubiertos por varias hojas, cada grano o semilla denominado cariópside está formado principalmente por tres estructuras diferentes: el pericarpio, el endospermo y el germen (Fig. 1), los cuales pueden variar de proporción según rasgos genéticos y ambientales. El fruto maduro consta del pericarpio, el germen el cual es diploide y el endospermo que es triploide. Los granos se desarrollan a partir de la acumulación de productos que obtiene la planta durante la fotosíntesis, la absorción de nutrientes a través de las raíces y del metabolismo de la planta (Paliwal, 2001; Sánchez-Ortega, 2014).

Figura 1. Principales estructuras que conforman a la semilla de maíz (Figura tomada del URL: http://www.dacsa.com).

2.1.2 Tipos de maíz. El maíz al tener una gran variabilidad en cuanto a color, textura, composición y apariencia en sus granos, puede ser clasificado en distintos tipos

4


según: a) la constitución del endospermo y del grano; b) el color del grano; c) el ambiente en que es cultivado; d) la madurez, y e) su uso (Cuadro 1). Cuadro 1. Clasificación de los tipos de maíz (Paliwal et al., 2001).

Clasificación

Tipo

Constitución del endospermo Duro, dentado, reventón, dulce, harinoso, ceroso y y del grano

tunicado dentro de los más importantes.

Color del grano Ambiente en que es cultivado

Amarillo, anaranjado, blanco, verde, púrpura, rojo, azul y negro. Tropical, subtropical y templado. Extra temprana (80-90 días a la madurez), temprana

Madurez

(90-100 días a la madurez), intermedia (100-110 días a la madurez), tardía (100-130 días a la madurez). Consumo humano, alimento forrajero, con proteína

Uso

de calidad, con alto contenido de aceite, para producción de harinas y nixtamalización.

En cuanto a su uso se pueden clasificar como maíces de especialidad, los cuales han sido mejorados para proporcionar una característica en especial, como los maíces con proteína de alta calidad, con alto contenido de aceite, cerosos con alta amilosa, dulces, reventones entre otros. Por otra parte están los maíces comunes los cuales no han sido mejorados para dar alguna característica en específico a los granos (Paliwal et al., 2001). 2.1.3 Importancia nutrimental. El maíz es uno de los cultivos con mayor importancia en el mundo por su aporte calórico a la dieta humana, aportando al menos un 30% de las calorías que consumen millones de personas en países en desarrollo. La importancia de la producción del grano va más allá del consumo humano y también es utilizado como alimento para el ganado y para la obtención de aceites, de igual forma, los subproductos de este cultivo sirven como materia prima para muchos otros productos industriales (Semagn et al., 2012). El maíz amarillo presenta un importante valor nutrimental por ello es cultivado alrededor del mundo. Algunos reportes indican que el maíz amarillo 5


destinado para alimentar animales al menos triplica al maíz blanco usado para la alimentación humana. Aunque en algunas regiones del mundo la demanda de maíz forrajero aumenta con rapidez, el maíz sigue siendo una fuente importante de alimento para el hombre. A pesar de que los maíces amarillos presentan un mayor aporte nutrimental, normalmente para consumo humano, el cultivo de maíz blanco es preferido sobre las variedades amarillas (FAO y CIMMYT, 1997). El grano de maíz a partir de sus tres diferentes estructuras proporciona distintos tipos de nutrimentos. En los tipos de maíces comunes, el endospermo constituye cerca del 84% del peso seco total del grano, el embrión abarca el 10%, y el pericarpio y el escutelo comprenden el 6% restante. El pericarpio se caracteriza por tener alto contenido de fibra cruda, el endospermo está compuesto por un alto contenido de almidón y un menor porcentaje de proteína, por último el embrión o germen posee un alto contenido de lípidos y en menor proporción proteínas y minerales. El maíz es considerado nutricionalmente superior a muchos otros cereales excepto en su contenido de proteínas. El cuadro 2 muestra los distintos componentes del grano de acuerdo a su análisis proximal y en el cuadro 3 la composición nutricional del grano en 100 g de harina de maíz. Cuadro 2. Peso y composición de las distintas partes del grano de maíz (Paliwal et al., 2001).

Composición (%)

Endospermo

Embrión

Pericarpio

Escutelo

Almidón

87.6

8.3

7.3

5.3

Grasas

0.8

33.2

1.0

3.8

Proteínas

8.0

18.4

3.7

9.1

Cenizas

0.3

10.5

0.8

1.6

Azúcares

0.6

10.8

0.3

1.6

Resto

2.7

18.8

86.9

78.6

Materia seca

83.0

11.0

5.2

0.8

6


Cuadro 3. Composición nutricional de los granos de maíz (Miracle, 1966).

Contenido

100 g de harina de maíz

Agua (%)

12

Calorías

362

Proteínas (g)

9.0

Grasas (g)

3.4

Carbohidratos (g)

74.5

Fibra (g)

1

Cenizas (g)

1.10

Calcio (mg)

6

Hierro (mg)

1.8

Fósforo (mg)

178

Tiamina (mg)

0.3

Riboflavina (mg)

0.08

Niacina (mg)

1.9

2.1.4 Importancia económica. El maíz es el cereal más importante en producción a nivel mundial, seguido por el arroz y el trigo. En el año 2014 su producción fue de 1,038,281,036 ton, siendo los principales países productores: Estados Unidos (361,091,140 ton), China (215,646,300 ton) y Brasil (79,877,714 ton), los cuales contribuyen con el 63% de la producción mundial de maíz. En el caso de México se encuentra en el séptimo lugar en producción de maíz a nivel mundial, contribuyendo con el 2.2% de la producción mundial, equivalente a 23,273,257 ton (FAOSTAT, 2017). En México, el cultivo de maíz representó el 17% del valor de producción del sector agrícola en el año 2014 con una producción que representó un ingreso de 72,000 millones de pesos (mdp), en el año 2015 representó el 19% del valor del sector agrícola con un valor de 84,500 mdp, y en el año 2016 presentó un valor de producción de 85,000 mdp (SIAP, 2016). El estado de Sinaloa se encuentra entre los siete principales productores de maíz. Su producción representa el 29% de la 7


producción nacional (Fig. 2), siendo el principal productor con una derrama económica de al menos 24,000 mdp según registros recientes del Servicio de Información Agroalimentaria y Pesquera de México (SIAP, 2016) indican que la superficie de cultivo cosechada en Sinaloa es de 541,654 ha con una producción de 5, 380,042 toneladas equivalente a un rendimiento de 9.95 ton/ha de maíz.

Figura 2. Producción nacional de grano de maíz en México (SIAP, 2016).

Debido a su importancia económica, en Sinaloa la producción de maíz como monocultivo se ha convertido en una práctica común. Esto ha provocado la modificación gradual de las condiciones ambientales; haciendo dependiente al sistema de la continua intervención humana para su funcionamiento, con una gran dependencia a los agroinsumos. Estas modificaciones han desencadenado una serie de problemas fitosanitarios que deben ser tratados con agentes químicos o biológicos, incrementando con ello los costos de producción y comprometiendo la rentabilidad de esta actividad (Fundación Produce Sinaloa, 2008). 2.1.5 Principales usos del maíz. El maíz al ser de gran importancia económica y nutrimental en nuestro país presenta una gran variedad de usos, de los cuales no solo destaca el uso para alimentación humana. Una de las bondades de utilizar el maíz como alimento, es que puede ser utilizado tanto fresco como procesado, como fuente de materia prima para la industria ya sea de forma directa o a partir de subproductos de este mismo. En el ámbito agropecuario, el maíz se utiliza para la alimentación de aves 8


y ganado lo que proporciona mayor valor nutricional a sus carnes y derivados (Espinoza et al., 2004; Domínguez-Mercado, 2012). Generalmente el uso que se hace del maíz está en función del tipo de grano, ya que maíces duros y dentados son utilizados principalmente para la alimentación humana, e incluso hay algunos tipos de maíces que han sido obtenidos con propósitos específicos como los maíces harineros que se producen para la producción de alimentos, maíces reventones que se consumen principalmente como palomitas. La planta de maíz es un magnífico alimento forrajero para el ganado, en especial para las vacas lecheras. Es utilizada como forraje en varias etapas del crecimiento de la planta, en especial al momento de la emisión de la panoja o posterior. Cerca del 40% del maíz producido en los países tropicales es usado para la alimentación animal; el maíz proporciona la más alta tasa de conversión a carne, leche y huevo comparado con otros granos que se usan con el mismo propósito. Su alto contenido de almidón y bajo contenido de fibra hace que sea una alta fuente de concentración de energía para la producción de ganado (López-Pereira, 1992). Existe una gran cantidad de productos alimenticios a base de maíz que pasan por procesos industriales y que son manufacturados y comercializados a gran escala. Estos productos incluyen tortillas, harinas de maíz, masa, variedad de bocadillos, cereales para el desayuno, espesantes, pastas, jarabes, endulzantes, aceite de maíz, bebidas sin alcohol, cerveza y whiskey, alimentos varios para consumo humano o para los animales domésticos y productos industriales. El almidón de maíz es el producto más importante del procesamiento húmedo y es usado en numerosas aplicaciones alimenticias e industriales (Watson, 1988). La extracción de almidón y aceite comprenden cerca del 70% de los productos; el 30% restante está principalmente en la forma de fibras sobre todo celulosa y hemicelulosa las cuales son en su mayoría convertidas en alimento para animales o para la producción de biocombustibles como el bioetanol (Paliwal et al., 2001; Zamora-Hernández et al., 2014). 2.2 Diversidad genética del maíz. La diversidad genética se define como el conjunto de variaciones heredables que ocurren en cada organismo, entre los individuos de una población 9


y entre las poblaciones de una especie, en un sentido amplio es el componente más básico de la biodiversidad (Piñero et al., 2008). Teóricamente, las especies que contienen una alta diversidad genética tendrán una alta capacidad de adaptación a diferentes condiciones ambientales y de resistencia a enfermedades y patógenos (Paliwal et al., 2001). El maíz es originario de América, particularmente de la región sur de México. Su domesticación inició hace alrededor de 8,000 años a partir del teosinte (Zea mays sp. mexicana), el cual es su progenitor silvestre, e incluso se ha reportado que aún son compatibles reproductivamente (Karn et al., 2017). Desde su domesticación, el maíz ha sido cultivado en una gran variedad de condiciones geográficas y ambientales. Esta amplia diversidad ecológica ha conducido a la acumulación de una alta diversidad genética en su genoma (Rocandio-Rodríguez et al., 2014). Esta alta diversidad genética ha dado origen a una gran variedad de razas. Tan sólo en México se han encontrado 59 razas, 6 centros de diversidad y 11 regiones biogeográficas del maíz, de los cuales 6 están vinculados con los centros de diversidad entre los que se encuentran las regiones del Noroeste y el Bajío. En la región del Bajío se encuentran las razas: Ancho, Bofo, Complejo Serrano de Jalisco, Conejo, Elotero de Sinaloa, Mushito, Pepitilla, Vandeño y Zamorano Amarillo. En la región del Noroeste se encuentran las razas: Chapalote, Dulcillo del Noroeste, Elotero de Sinaloa, Jala, Maíz Blando de Sonora, Onaveño, Reventador, Tablilla de Ocho, Tabloncillo y Tabloncillo Perla. Siendo estos los más característicos de cada región (Perales y Golicher, 2014). El genoma del maíz es muy complejo y presenta una amplia diversidad en relación al de otras especies cultivables. Actualmente están reportados los genomas de la variedad B73, PH207 y del maíz palomero toluqueño (Schnable et al., 2009; Vielle-Calzada et al., 2009, Hirsch et al., 2016). En el cuadro 4 se muestra una comparación entre los genomas reportados de maíz. Se ha reportado que el maíz contiene casi un 60% de transposones en su genoma (Schnable et al., 2009) lo cual hace difícil su análisis debido a la alta repetibilidad de secuencias que presentan estos elementos genéticos transponibles.

10


Cuadro 4. Comparación de genomas de maíz reportados.

Variedad

Longitud

(pares

de Número de genes

Autor

bases) B73

2,300,000,000

32,000

Schnable

et

al.,

2009 Palomero

2,900,000,000

44,000

de Toluca PH207

Vielle-Calzada

et

al., 2009 2,450,000,000

39,300

Hirsch et al., 2016

2.2.1 Marcadores moleculares para el estudio de la diversidad genética. Un marcador genético o marcador molecular es un segmento del ADN que tiene una ubicación física identificable (locus) en un cromosoma, y que además se puede rastrear su herencia genética a través de distintas técnicas de genotipado en su progenie. Los marcadores idóneos son los de ADN, siendo válido cualquier fragmento que se encuentre muy cerca del gen o de la secuencia de interés y que lógicamente afecte al carácter en estudio. Los marcadores de ADN se basan fundamentalmente en el análisis de las diferencias en pequeñas secuencias del ADN entre individuos. Las técnicas empleadas para ello son muy diversas y dan el nombre a los distintos tipos de marcadores, los cuales pueden ser de carácter dominante o codominante (Azofeifa-Delgado, 2006). Para la caracterización molecular pueden ser utilizados diversos tipos de marcadores genéticos, incluyendo polimorfismos de longitud de fragmentos de restricción (RFLPs), polimorfismos en la longitud de fragmentos amplificados (AFLP), repeticiones de secuencia simple o microsatélites (SSR) o polimorfismos de nucleótido simple (SNPs) (Dillman et al., 1997; Warburton et al., 2002; Reif et al., 2003; Xia et al., 2004, 2005). Recientemente, los SNPs se han convertido en los marcadores moleculares más utilizados en análisis de caracterización genética debido a que se encuentran abundantemente en el genoma de la planta, proporcionan grandes 11


cantidades de información, además de ser flexibles ya que a la misma información obtenida se le pueden realizar diversos análisis con aplicaciones diferentes, teniendo una buena relación en cuanto a costo y eficiencia. Los SNPs son un tipo de polimorfismo simple, el cual se basa en el cambio de un nucleótido por otro. Básicamente, este tipo de polimorfismo es generado por errores en la incorporación de nucleótidos durante la replicación, o por mutagénesis causada por la modificación química de las bases o por daños producidos por radiación ionizante o ultravioleta. Muchos de los SNPs se encuentran en regiones intergénicas, pero miles de estos se han localizado dentro de los genes. Aunque algunos de estos SNPs no realizan un daño aparente o no cambian alguna característica del individuo, otros pueden tener diferentes implicaciones funcionales dependiendo de la región en la que sean localizados dentro de un gen (Oliva y Vidal, 2006). Los marcadores moleculares han mostrado un alto potencial en el desarrollo de programas de mejoramiento genético. Uno de los principales objetivos del uso de marcadores moleculares en los programas de mejoramiento genético es seleccionar rasgos de importancia agronómica a partir de datos genotípicos que se encuentran a lo largo de todo el genoma que permitan predecir con una precisión suficiente la selección de un rasgo agronómico definido (Lorenz et al., 2011). Los análisis con marcadores moleculares proporcionan un enfoque alternativo importante para caracterizar la diversidad genética, la estructura de la población y las relaciones genéticas entre poblaciones o materiales de mejoramiento de líneas élite dentro de una colección de germoplasma de maíz determinado. La implementación de programas de mejoramiento asistido por marcadores moleculares ha sido de gran utilidad para hacer más eficiente al programa mismo, ya que permite seleccionar apropiadamente las líneas parentales para la producción de cruzas, asignar grupos heteróticos y a la conformación de un conjunto básico de germoplasma (Wu et al., 2016). La diversidad genética que puede ser obtenida a través de marcadores moleculares es cuantificada a través de índices de diversidad, siendo los más utilizados el número de alelos, polimorfismos y la heterocigosidad. Debido a que la diversidad genética de una especie está determinada por componentes tanto intra- como 12


inter-poblacionales, es necesario analizar cómo se distribuye entre y dentro de las poblaciones (Sosa et al., 2010). 2.3 Genética de poblaciones La genética ha tenido varias aplicaciones que han ayudado a solucionar problemas en la historia de la humanidad, entre ellas la domesticación de animales y plantas de cultivo. Esta actividad ayudó al desarrollo de varias civilizaciones tanto en el viejo como en el nuevo mundo, quienes domesticaron diversos

cultivos

para

su

alimentación

básica

como

el

maíz

hace

aproximadamente 10 mil años. El cambio genético bajo la domesticación se fue acelerando a través de los miles de años de selección en los cultivos para obtener mayor producción o para destinarlos a usos particulares que entonces eran una necesidad (Allendorf y Luikart, 2009). La estructura genética de una población, está definida como una comunidad de individuos que comparten un grupo genético común y que difiere de otros grupos. El conocer esta información puede ayudar a determinar su capacidad para ser mejorada o modificada por selección. La comprensión de este proceso es de gran importancia para decidir el rumbo de la selección de las plantas y las estrategias de selección que pueden ser implementadas (Hayward y Breese, 1993). En especies que exhiben heterosis, como el maíz, la información de la estructura poblacional de los individuos pertenecientes a ciertas poblaciones es de gran importancia para determinar la capacidad de combinación de líneas que son utilizadas como probadores genéticamente divergentes, siendo útil para clasificar a los individuos en grupos heteróticos. La clasificación de los grupos heteróticos se basa en la asociación positiva entre el rendimiento de grano y la divergencia genética que existe entre las líneas parentales utilizadas en la cruza estando dentro de cierto rango de diversidad (Olmos et al., 2014). Las tecnologías modernas de mejoramiento genético prometen promover el uso de la diversidad genética existente en las poblaciones, siendo inherente en cualquier programa de mejoramiento el conocimiento básico de la diversidad genética y la estructura de la población del material de mejoramiento. Lo anterior 13


permite predecir el grado de herencia, la variación genética y los niveles de heterosis (Romay et al., 2013). 2.4 Nuevas tecnologías de secuenciación masiva. El desarrollo de las nuevas tecnologías de secuenciación, NGS (Next Generation Sequencing) han tenido éxito debido a sus sistemas de detección tan sensibles y la mejora a la par de la bioinformática para el análisis de una gran cantidad de datos que son producidos por medio de estas técnicas, permitiendo la secuenciación y re-secuenciación del genoma de varios individuos dentro de una población, además han tenido un papel de gran importancia en la comprensión de la biología de plantas y en el desarrollo de estrategias que le permite a las plantas responder a diversos estreses abióticos y bióticos (Elshire et al., 2011; Yadav et al., 2016). Con el rápido desarrollo de las tecnologías de secuenciación y de la bioinformática, han surgido herramientas muy poderosas que permiten detectar variaciones naturales que se encuentran en rasgos complejos en los cultivos a través de tecnologías de alta resolución, tal es el caso del Análisis de Asociación Genómica (GWAS, por sus siglas en ingles Genome-wide association study) (Huang y Han, 2014). El objetivo principal del GWAS es encontrar variaciones o SNPs que se encuentren significativamente asociadas a algún rasgo fenotípico de importancia agronómica. En maíz el GWAS ha permitido la detección de SNPs asociados con rasgos fenotípicos como la altura de la planta, contenido de aceite y almidón en la semilla, e incluso la presencia de resistencia a algunas enfermedades como el carbón de la espiga provocada por Sporisorium reilianum (Weng et al., 2011; Wang et al., 2012; Li et al., 2013; Liu et al., 2016) 2.4.1 Plataformas de secuenciación. Actualmente, el método de secuenciación tipo Sanger está siendo reemplazado parcialmente por diferentes tecnologías o plataformas NGS. La tecnología de secuenciación Sanger permite obtener secuencias de entre 400 y 900 pares de bases (pb) en un tiempo aproximado de dos horas teniendo bajos rendimientos, en cambio las tecnologías NGS permiten la producción de millones de secuencias con una buena relación costo-productividad en un tiempo corto 14


(Chiu y Miller, 2016). Existe una variedad de plataformas que generan un gran número de secuencias cortas también llamadas lecturas (comúnmente llamadas reads, por su traducción del ingles), que pueden ser ensambladas de novo en secuencias contiguas o ser alineadas a un genoma de referencia en la búsqueda de variaciones. Estas lecturas son producidas a partir de fragmentos de bibliotecas sin que sea necesario realizar clonaciones in vivo de vectores para realizar la secuenciación, aunque presentan la desventaja de producir lecturas de menor longitud en comparación del método Sanger (Zhang et al., 2011). Sin embargo, el alto número de lecturas y la posibilidad de alinearlas con un genoma de referencia hacen de NGS una tecnología bastante informativa y confiable. En el Cuadro 5 se muestra una comparación de cinco de las principales plataformas de secuenciación masiva (Roche 454, SOLiD, Illumina, PacBio, Oxford Nanopore), y el sistema de secuenciación capilar (Sanger). Algunos de estos sistemas de secuenciación masiva se encuentran en desarrollo o incluso emergiendo al mercado, como Pacific Biosciences (PacBio) secuenciación en tiempo real de molécula única (SMRT), Illumina Tru-seq con la tecnología de lecturas sintéticas largas y la plataforma de secuenciación Oxford Nanopore (Lee et al., 2016). En la actualidad, la tecnología de Illumina es la plataforma NGS mas utilizada, aunque las nuevas plataformas de "tercera generación", como las basadas en la secuenciación nanopore, están ganando confiabilidad y cada vez son más utilizadas (Chiu y Miller, 2016). Las tecnologías NGS emplean la amplificación clonal de moléculas sencillas, separadas espacialmente y pudiendo utilizar fragmentos sintéticos de ADN llamados adaptadores, los cuales son ligados a los fragmentos de ADN de cada muestra, y la secuenciación se lleva a cabo mediante PCR en emulsión (pirosecuenciación Roche 454, ABI SOLiD) o amplificación en puente (Illumina HiSeq), según cada plataforma (Morozova y Marra, 2008; Mardis, 2008).

15


Cuadro 5. Comparación de plataformas de secuenciación masiva y capilar.

Plataforma

Roche 454

Illumina

AB SOLiD

Sanger

Equipo

GS FLX+

HiSeq 2500

5500 SOLiD

3730xl

Secuenciación por síntesis

Secuenciación por ligación

Terminación de cadena

Método de Pirosecuenciación secuenciación Longitud típica de la lectura

700 pb

50-300 pb

35-50 pb

400-900 pb

Precisión

99.9%

98%

99.9%

99.9%

> de 1 millón

600-4000 millones

1000 - 1500 millones

N/A

20 h

6 h-11 díasa

1-2 semanas

2h

++

++++

++++

++

+++

+

+

++++

Lecturas largas, tiempos de ejecución rápidos

Altos rendimientos, bajo costo por base

Bajo costo por base

Lecturas largas, tiempos de ejecución rápidos

Bajo rendimiento

Instrumentación costosa

Muchas lecturas cortas

Rendimientos bajos

Rendimiento (lecturas por corrida) Tiempo corrida

de

Costo equipo

del

Costo de la secuenciación

Ventajas clave

Desventajas clave aDepende

del modo de corrida, modo rápido o modo estándar (Chiu y Miller, 2016).

2.4.1.1 Illumina HiSeq. En el año 2006, la compañía Solexa lanza al mercado el sistema GA (Genome Analyzer), para el año 2007 la compañía es comprada por Illumina adoptando esta tecnología. Inicialmente el sistema GA lograba un rendimiento de 1 Gb por corrida, el cual se incrementó gradualmente hasta 85 Gb en la serie GAIIx a finales del 2009. En el año 2010 Illumina lanza el sistema Hiseq 2000, el cual adopta la misma tecnología de secuenciación por síntesis, pero optimizada para obtener hasta 600 Gb por corrida en 8 días (Liu et al., 2012). El secuenciador utiliza

fragmentos de

ADN

con

adaptadores

previamente

ligados,

que

desnaturalizados a hebras sencillas, e insertados en la celda de flujo, seguido de 16


una amplificación en puente para crear grupos (clusters), que contienen fragmentos de ADN clonal. La amplificación de puente mediante PCR se realiza en la superficie de la celda de flujo desnaturalizando el extremo 3' del fragmento de ADN y replicando la hebra complementaria. Las sucesivas rondas de replicación y desnaturalización mediante amplificación por PCR resultan en la generación de miles de copias de fragmentos clonalmente amplificados en un grupo estrechamente circunscrito. Los reactivos de secuenciación, incluyendo la ADN polimerasa y un oligonucleótido para secuenciación, se pasan entonces a través de la celda de flujo. Para cada ciclo, un único nucleótido marcado fluorescentemente que contiene un terminador reversible se añade a la cadena complementaria dentro de cada grupo individual en un enfoque de secuenciación por síntesis. Después de la obtención de imágenes del dispositivo de carga acoplada, la división del marcador fluorescente permite añadir el siguiente nucleótido. El número de ciclos que producen la longitud de lectura final se especifica de antemano, y la secuenciación también se puede hacer desde ambos extremos (secuenciación pareada) usando un segundo cebador a la hebra de ADN recién sintetizada (Chiu y Miller, 2016). En comparación con las plataformas 454 y SOLID, HiSeq 2000 es el más barato en secuenciación con un costo de $ 0,02 dólares por un millón de bases (en el Instituto de Genómica de Beijing, en China). Con la multiplexación incorporada con los adaptadores código de barra, podría manejar miles de muestras simultáneamente. HiSeq 2000 necesita el Software Controlador HiSeq (HCS) para el control de programa, el cual es un Software Analizador en Tiempo Real (RTA) útil para realizar el llamado de base en el equipo (Es decir identificar los nucleótidos correspondientes en cada fragmento secuenciado). Con un disco duro de 3 TB en HiSeq 2000 y con la ayuda de los reactivos Truseq v3 y los softwares asociados, HiSeq 2000 ha elevado sustancialmente el rendimiento de la secuenciación (Liu et al., 2012). En la figura 3 se muestra una descripción gráfica de cómo se lleva a cabo la preparación de la biblioteca y la secuenciación por síntesis.

17


Figura 3. Representación esquemática de la secuenciación por Illumina HiSeq 2500. A: La librería para la NGS es preparada mediante la fragmentación de ADN genómico y ligando adaptadores específicos en los extremos de los fragmentos. B: La librería es cargada en la celda de flujo y los fragmentos se unen a la superficie de la misma, cada fragmento unido es amplificado en agrupamientos clonales mediante amplificación de puente. C: Se añaden reactivos de secuenciación, incluyendo nucleótidos marcados fluorescentemente, y se incorpora la primera base. Se visualiza la celda de flujo y se registra la emisión de cada grupo. La longitud de onda de la emisión y su intensidad se utilizan para identificar los nucleótidos. Este ciclo se repite n veces para crear una lectura con una longitud de “n” bases (normalmente 100 bases, figura tomada de Illumina Inc., 2016).

2.5 Genotipado por Secuenciación. Existen nuevas tecnologías de secuenciación masiva que han desarrollado nuevos enfoques para el genotipado (Batley, 2015). Uno de ellos es el Genotipado por Secuenciación (GBS, genotyping-by-sequencing), basado en la reducción de la complejidad del genoma por medio de enzimas de restricción, y en la utilización de adaptadores tipo código de barras que permiten el genotipado de múltiples muestras en paralelo obteniendo marcadores moleculares de alta 18


densidad (Fig. 4). Hasta un millón de SNPs en cada muestra de ADN pueden ser generados usando GBS, lo que hace posible reducir el sesgo de evaluación y mejorar la resolución de la caracterización molecular en una colección de muestras (Elshire et al., 2011; Poland et al., 2012; Poland y Rife, 2012). En la actualidad la aplicación de NGS ha dado lugar a notables avances en la secuenciación de genomas completos. El GBS ha surgido como una poderosa herramienta que puede ser utilizada para diferentes aplicaciones genéticas, tales como el análisis de la diversidad genética y la selección genómica (Poland y Rife, 2012; Crossa et al., 2013; Zhang et al., 2015). La tecnología del GBS ha tenido aplicaciones importantes en la caracterización genética y en el mejoramiento de cultivos de maíz, soya, arroz, sorgo y algodón, indicando que el GBS es una herramienta metodológica factible para el mejoramiento en este tipo de cultivos, teniendo una mayor resolución y con una disminución del trabajo intensivo en el laboratorio en comparación con otras tecnologías de genotipado (Semagn et al., 2012; Jarquín et al., 2014; Zhang et al., 2015). Previo a GBS, se han utilizado plataformas para la identificación de SNPs en Maíz basadas en chips de Illumina (GoldenGate que contiene 1,536 SNPs, MaizeSNP50 BeadChip, que contiene 56,110 SNPs y MaizeSNP3072 que contiene 3072 SNPs) y en secuenciación masiva para su caracterización molecular (Lu et al., 2009; Semagn et al., 2012; Li et al., 2013; Tian et al., 2015 Wu et al., 2016). Pero estos chips contienen un número finito de SNPs y esta limitado a los SNPS presentes en la variedad B73, lo que puede producir una baja resolución en los análisis de caracterización molecular, sobre todo en aquellos en los que se analizan líneas de origen trópical. Además de que estos chips no permiten la detección de nuevos SNPs que se encuentren en las líneas que no han sido previamente caracterizadas. Por tales motivos existe una tendencia de reemplazo de los chips de genotipado por el uso de secuenciación masiva y nuevas tecnologías de genotipificación.

19


Figura 4. Preparación de bibliotecas mediante la metodología de Genotipado por Secuenciación para diferentes individuos y descubrimiento de SNPs. Los círculos de colores rojo, naranja amarillo y azul representan los diferentes adaptadores código de barras utilizados, el círculo de color verde representa el adaptador común para todos los individuos. Una combinación de dos enzimas de restricción puede ser utilizada para la digestión del ADN genómico (Figura tomada de Singh y Singh, 2015).

Actualmente existen estudios donde se ha utilizado infinidad de veces el GBS como método de genotipado, pero además existen otras tecnologías como RNA-seq que pueden ser utilizadas para realizar el genotipado de accesiones. El uso de RNA-seq permite buscar marcadores tipo SNP exclusivamente en regiones codificantes, al realizar la comparación de la secuencia de los genes

20


mensajeros con regiones que contienen marcadores ya reportados, e incluso con genomas de referencia para la búsqueda de nuevos marcadores. 2.6 DArTSeq. La empresa Tecnología de Arreglos para la Diversidad (DArT) de Camberra, Australia, ha desarrollado una plataforma de genotipado basada en GBS llamada DArTSeq, la cual proporciona la oportunidad de seleccionar fracciones del genoma que corresponden predominantemente a regiones codificantes. Las enzimas de restricción utilizadas en este método separan las secuencias con bajo número de copias de las fracciones repetitivas del genoma, siendo las secuencias con bajo número de copias más informativas para el descubrimiento de marcadores, especialmente para el mejoramiento genético. Estos fragmentos representativos son secuenciados a partir de las nuevas tecnologías de secuenciación, específicamente con la plataforma HiSeq de Illumina (Kilian et al., 2012; Li et al., 2015; Pailles et al., 2017). A diferencia del enfoque de GBS en maíz que genera una gran densidad de marcadores pero con un alto contenido de datos perdidos (hasta un 50%), haciendo necesaria la imputación precisa de datos para la detección de heterocigotos, en el enfoque de DArTSeq se generan una menor cantidad de marcadores (50,000 a 350,000 SNPs), pero tiene una cobertura mucho mayor y presenta una menor cantidad de datos perdidos (20% o menor) en comparación con el GBS (Chen et al., 2016; Wu et al., 2016). Además, al utilizar una combinación de enzimas de restricción, DArTSeq ofrece un perfil genómico asequible a través de la generación de SNPs de alta densidad, y permite la identificación de variaciones de presencia y ausencia (PAV), pudiéndose obtener de 40,000 a 200,000 marcadores de este tipo (Sansaloni et al., 2011; Chen et al., 2016). 2.7 Genes candidatos para la biosíntesis de lípidos. La realización de estudios de caracterización genética ha permitido a los investigadores encontrar genes que regulan características con importancia económica entre los cultivos que se producen en la actualidad. Estas características incluyen en plantas la resistencia o tolerancia a enfermedades, mayor productividad, tiempo de floración, estructura de las raíces, producción de 21


algún metabolito como en la biosíntesis de lípidos y otros aspectos favorables que se muestran en la naturaleza. En maíz, se han identificado genes que están relacionados con la biosíntesis de lípidos, específicamente los genes: FAD2 y WRI1a que están asociados con la producción de insaturaciones en los ácidos grasos. Por otro lado ACP, LACS y COPII que están asociados con la cantidad de aceite (Li et al., 2013). Es por ello que ahora con las NGS es posible identificar el locus marcador que está estrechamente asociado a los principales genes involucrados en la biosíntesis de lípidos y estos pueden ser utilizados para una posterior selección en los programas de mejoramiento de líneas de maíz en las que el aceite sea la característica fenotípica que se desea mejorar (Kozik et al., 2013). 2.8 Uso

de

líneas

Dobles

Haploides

como

estrategia

para

el

fitomejoramiento. El mejoramiento genético de plantas puede describirse como un conjunto de actividades destinadas a mejorar las cualidades genéticas de un cultivo. Es por ello que los mejoradores desarrollan nuevas variedades con objetivos específicos: mayor rendimiento, mejor calidad de grano, resistencia a plagas o a enfermedades, tolerancia a factores ambientales adversos (sequía, inundación, salinidad), entre otros. El desarrollo de nuevos hibridos que cumplan con las necesidades de los agricultores, normalmente es un proceso largo en el cual es necesario obtener primeramente líneas que sean endogámicas, y presenten poca variación genética, es decir que sean casi 100% homocigotas. Estas líneas endogámicas seleccionadas con ciertas características definidas se utilizan para realizar cruzas biparentales, buscando que la progenie tenga las características mejoradas de ambos padres. Sin embargo la producción de líneas parentales endogámicas es un poceso demasiado tardío, siendo hasta 7 u 8 ciclos de autofecundaciones al menos en el caso del maíz. Para desarrollar nuevas variedades en un menor tiempo es posible utilizar

la tecnología de Dobles

Haploides (DH), la cual se basa en la duplicación cromosómica de genotipos haploides

disminuyendo

su

variabilidad

genética,

esto

permite

acortar

considerablemente la producción de híbridos mejorados debido a que hace posible un desarrollo más rápido de líneas totalmente homocigotas en 22


aproximadamente 2 ó 3 generaciones. Esto en comparación con el proceso tradicional de mejoramiento genético, donde el desarrollo de líneas endogámicas requiere de 6 a 8 generaciones. (Forster y Thomas, 2005; Geiger y Gordillo, 2009; Chang y Coe, 2009; Prasanna et al., 2013). La tecnología DH consiste en tres fases: 1) inducción de haploidía in vivo o in vitro a partir de una línea inductora, 2) duplicación cromosómica con colchicina, y 3) autofecundación para tener más semilla. En cualquiera de los dos métodos, dobles haploides o mejoramiento tradicional, la fuente de germoplasma heterocigoto son plantas provenientes de cruzas entre dos o múltiples parentales mejorados presentes en grupos heteróticos, constituyendo la base para la creación de nuevas líneas DH. La haploidía es inducida por la polinización de las inflorescencias femeninas del germoplasma fuente con el polen de un genotipo que tiene la capacidad de inducir haploides. Las mazorcas del germoplasma fuente son cosechadas y se realiza una selección de los granos que presentan embriones haploides. La línea inductora tiene el gen R1-nj el cual produce una coloración purpura en el endospermo del grano por producción de antocianinas, utilizándola como marcador de haploidía. Las semillas haploides son tratadas con un inhibidor de la mitosis para duplicar artificialmente sus cromosomas produciendo plantas dobles haploides (Prigge y Melchinger, 2012; Prasanna et al. 2013). La caracterización genética de líneas DH puede proporcionar información de utilidad que puede ayudar a los mejoradores de maíz. Por un lado, dando la ventaja de poder realizar estudios de asociación genética entre el genotipo y las características de interés agronómico (Forster y Thomas, 2005) y por otro lado, a través de un modelo matemático es posible predecir la eficiencia de los nuevos híbridos sin tener que esperar hasta su cosecha (He et al., 2014; Jarquín et al., 2014; Sonah et al., 2015; Zhang et al., 2015). Esta asociación de caracteres agronómicos con los marcadores moleculares ha mostrado que es posible realizar predicciones para diferentes rasgos agronómicos, como los tiempos de floración, contenido de almidón, la altura de la planta, entre otros. En consecuencia, han surgido avances considerables en los sistemas de selección para la producción de híbridos que han ido remplazando a los sistemas tradicionales, basados en la

23


producción de cruzas en base a la observación del fenotipo o al comportamiento de un solo gen (Xu y Crouch, 2008). Debido a que el maíz es uno de los cereales de mayor demanda y representa uno de los principales cultivos con mayor derrama económica en México. En los últimos años se han venido liberando híbridos mejorados de maíz a partir de sistemas de selección tradicionales y se empiezan a incorporar estas nuevas tecnologías de fitomejoramiento como las líneas DH y marcadores moleculares. Sin embargo, la liberación de híbridos mejorados por empresas o instituciones mexicanas no compite con los híbridos liberados por las empresas transnacionales debido a la gran capacidad de estas compañías para liberar nuevas variedades en un periodo corto de tiempo y con rendimientos superiores a los que se observan en líneas mejoradas producidas por empresas nacionales (FIRA, 2011). 2.9 Programa de fitomejoramiento de maíz de INIFAP. Las dos zonas productoras de maíz más importantes que se encuentran en México se localizan en las regiones Noroeste y Bajío del país. Por tal motivo, es necesario diseñar una estrategia para la producción eficiente de semilla nacional para obtener híbridos con potencial agronómico que sean capaces de establecerse en dichas regiones y de obtener rendimientos y valor agregado altos tal como un elevado contenido de aceite que permita competir con las empresas transnacionales. Poblaciones de maíz blanco y amarillo tanto del Noroeste como del Bajío de México se han venido mejorando a partir de un esquema de selección recurrente de medios hermanos, utilizando como unidad de selección al promedio fenotípico de las familias de medios hermanos que han sido evaluadas en ensayos repetidos y como unidad de recombinación a la semilla remanente de las semillas que tengan mejor comportamiento, al polinizar una familia a un solo individuo, se puede decir que se realiza selección en uno solo de los sexos, ya que al germoplasma fuente se le retira la espiga para evitar la producción de polen. En este esquema se ha buscado el aumento del contenido de aceite y el rendimiento de grano. Este programa iniciado en el año 2004 por parte del INIFAP hoy en día cuenta con líneas de maíz blanco y amarillo con mayor contenido de 24


aceite (6%-8%) y un rendimiento de grano comparable al de híbridos comerciales (oscilando entre 8 y 11 toneladas por hectárea). A partir de estas líneas en el año 2013 se obtuvieron líneas DH que servirán en este trabajo como material fuente para la selección de parentales que serán utilizados para realizar las cruzas y obtener híbridos mejorados. Estas poblaciones de maíz blanco y amarillo, anteriormente han sido objeto de estudio. Preciado-Ortiz et al. (2013), analizaron la respuesta de la selección recurrente sobre el desarrollo agronómico, contenido de aceite, perfil de ácidos grasos y capacidad antioxidante lipofílica de las cuatro poblaciones, encontrando que no ocurrió una descompensación del rendimiento de grano al aumentar el contenido de aceite en grano. Además se presentaron un aumento del ácido oleico y linolénico, y una disminución del ácido linoleico conforme aumentaban los ciclos de mejoramiento. Los rendimientos alcanzados por las poblaciones oscilaron entre 8 y 11 ton/ha en el último ciclo en que fueron evaluadas. Por otro lado, Ortega-Corona et al. (2015) analizaron la respuesta del proceso de selección recurrente, el rendimiento de grano y características de interés agronómico en las cuatro poblaciones (PBN, PBB, PAN y PAB) cultivadas en la región del Bajío de México. Ellos observaron una respuesta de selección positiva con un incremento gradual de aceite por ciclo de 0.31, 0.40, 0.27 y 0.30% para PAB, PAN, PBB y PBN respectivamente, sin afectar el rendimiento del grano o las características agronómicas de la planta. Esto fue debido a que la selección del germoplasma que se usó para el siguiente ciclo de mejoramiento, fue seleccionado primordialmente a partir del rendimiento de grano y en segunda instancia, por el contenido de aceite en el grano; de esta manera fue posible lograr un incremento en el porcentaje de aceite del grano de maíz sin afectar el rendimiento. Vázquez-Carrillo et al. (2015) evaluaron el uso de estos maíces con alto contenido de aceite, en relación a la calidad y textura (propiedades físicas, térmicas y reológicas) del grano, masa y tortillas, observando que los maíces con alto contenido de aceite produjeron tortillas más suaves. El alto contenido de aceite en las tortillas redujo su absorción de agua y la capacidad de hinchamiento del almidón, pero inhibió la retrogradación del almidón, por lo que se mantuvo más blanda durante el almacenamiento. 25


El esquema de mejoramiento de maíces con ACA y alto rendimiento se desarrolla actualmente en INIFAP del Valle del Fuerte, realizando selección a partir de líneas parentales DH acoplado con el uso de marcadores moleculares, tecnologías de secuenciación masiva y bioinformatica. El esquema va enfocado a encontrar variaciones genéticas que puedan estar asociados a rasgos que son de importancia para el INIFAP como el ACA, el rendimiento de grano, el contenido de proteína.

3. JUSTIFICACIÓN La producción de maíz en México, es de gran importancia para la agricultura y la economía nacional. Su importancia radica en el rendimiento a partir de semillas provenientes de híbridos mejorados. Sin embargo, la liberación de híbridos mejorados pertenecientes a empresas o instituciones mexicanas no compite con los híbridos comerciales producidos por empresas transnacionales presentes en el mercado nacional. Las líneas producidas por INIFAP no cuentan con la información de su composición genética, por ello, resulta indispensable obtener su perfil genético y evaluar la diversidad de las poblaciones de maíz blanco y amarillo del Bajío y el Noroeste, la cual será de utilidad para los mejoradores genéticos de maíz, facilitando la utilización de las líneas producidas por INIFAP, y promoviendo la generación de nuevos híbridos mejorados con potencial agronómico para cada región. La obtención de los perfiles genéticos mediante GBS de las líneas DH disminuirá los tiempos de los esquemas de mejoramiento genético, permitiendo conocer la diversidad genética y la estructura poblacional existente en las poblaciones de maíz del Bajío y el Noroeste pudiendo separar grupos heteróticos existentes en las líneas DH y proponer cuales líneas de maíz blanco y amarillo del Bajío y el Noroeste pueden generar mejores cruzas.

26


4. HIPÓTESIS El análisis de diversidad genética y de estructura poblacional de líneas dobles haploides de maíz mediante genotipado por secuenciación, permitirá proponer cuales líneas de maíz blanco y amarillo del Bajío y el Noroeste pueden generar mejores cruzas.

27


5. OBJETIVOS 5.1 Objetivo General. Determinar la composición genética de las poblaciones de maíz blanco y amarillo del Noroeste y el Bajío de México mediante la tecnología de genotipado por secuenciación. 5.2 Objetivos específicos. 

Determinar índices de diversidad genética para las poblaciones y los individuos de maíz blanco y amarillo del Noroeste y el Bajío.

Obtener la estructura genética de las poblaciones de maíz blanco y amarillo del Noroeste y Bajío de México.

28


6

MATERIAL Y MÉTODOS 6.1 Genotipado y determinación de los índices de diversidad genética para las poblaciones de maíz blanco y amarillo del Noroeste y el Bajío.

6.1.1 Material genético a utilizar. El material genético se proporcionó por el INIFAP y consistió en un panel de 120 muestras obtenidas de las poblaciones Amarilla del Bajío (PAB) y del Noroeste (PAN), Blanca del Bajío (PBB) y del Noroeste (PBN). Se realizó una clasificación de las líneas en cuanto a su origen geográfico, el tipo de línea (parental, cruza y mestizo) y por el color del grano (Cuadro 6). El análisis se realizó en una muestra de siete parentales PAB, nueve parentales PAN, siete parentales PBB, 38 PBN, 20 cruzas simples de PAB con PAN, 20 cruzas simples de PBB con PBN, nueve mestizos blancos y 10 mestizos amarillos, siendo las 120 líneas de maíz evaluadas en total. Cuadro 6. Clasificación de 120 líneas de maíz por tipo de línea, color de grano y región de origen.

Genotipos Parental Cruza Mestizo aRegión

No. de líneas 61 40 19

Color del grano Blanco Amarillo 45 16 20 20 9 10

B 14

Región de origena N BxN NxB 47 15 25 9 10

de origen: B= Genotipo perteneciente al Bajío, N= Genotipo perteneciente al Noroeste, B

x N= Genotipo creado a partir de una hembra del Bajío y un polinizador del Noroeste y N x B= Genotipo creado a partir de una hembra del Noroeste y un polinizador del Bajío.

6.1.2 Composición genética de líneas DH de maíz blanco y amarillo. Las semillas se germinaron para obtener tejido foliar del cual se hizo la extracción de ADN. La germinación de las semillas se llevó a cabo por medio de la técnica de papel secante enrollado (Warham, 1998). Brevemente, se utilizó una toalla de papel secante realizando un doblez en la parte inferior de 5 cm para crear un receptáculo para la semilla, se colocaron 3 semillas de cada genotipo, se humedeció el papel secante con agua destilada y se enrolló, posteriormente se pasaron los rollos de dos en dos a bolsas de plástico, y se colocaron en condiciones de oscuridad y a temperatura ambiente durante 72 horas. 29


Posteriormente, se sacaron a la luz una vez que el coleóptilo emergió y se realizaron riegos mínimos sólo para mantener la humedad en el papel secante. Las plántulas se mantuvieron por diez días para realizar la colección de aproximadamente 4 cm de tejido foliar para cada extracción de ADN. 6.1.3 Extracción de ADN genómico. Se realizó la extracción de ADN genómico a partir de tejido foliar de maíz mediante el protocolo estándar de CTAB (bromuro de hexa-decil-tri-metil-amonio) al 2% (Stewart y Via, 1993) con algunas modificaciones. Para monitorear la integridad del ADN, se llevó a cabo una electroforesis en gel de agarosa al 1% durante 1 hora, con una carga eléctrica de 90 v y 30 mAmps. Por espectrofotometría se determinó la concentración y calidad del ADN en el rango de absorbancia de 260/280 empleando un equipo NanoDrop 2000c a partir de 1 µL de la muestra. El ADN se aceptó como “puro” cuando las muestras tuvieron una razón 260/280 > 1.8, si la razón es apreciablemente baja se repitió la extracción, debido a que, valores < 1.8 indican contaminación de muestra por proteínas, fenol u otro contaminante que pueda absorber fuertemente a 280 nm. 6.1.4 Preparación de bibliotecas por el método de DArTSeq. Después de la verificación de la calidad e integridad del ADN se realizó una dilución a 60 ng/µL, y se envió una alícuota de 30 µL en placas de 96 pozos para la preparación de las bibliotecas de DArTSeq-GBS. La preparación de las bibliotecas se llevó a cabo en el Servicio de Análisis Genéticos para la Agricultura (SAGA) del Centro Internacional de Mejoramiento de Maíz y Trigo (CIMMYT), Texcoco, México, según la metodología reportada por Sansaloni et al. (2011). Se utilizó un par de enzimas de restricción sensibles a la metilación para reducir la complejidad del genoma (PstI y HpaII). Se ligaron adaptadores tipo código de barras (uno diferente para cada individuo) y adaptadores comunes para todos los individuos, se hizo una combinación de los individuos en un tubo y se realizó una amplificación para enriquecer los fragmentos que posteriormente fueron secuenciados.

30


6.1.5 Secuenciación por síntesis. Posterior a la preparación de las bibliotecas se llevó a cabo la secuenciación tipo “Single end” en los canales de las celdas de flujo de un secuenciador Illumina HiSeq 2500 en SAGA-CIMMYT. Primero los adaptadores de los fragmentos se unieron por complementariedad a los oligonucletidos presentes en la celda de flujo de Illumina. Cada fragmento se amplificó en clones, creando agrupaciones a través de la amplificación por puente. Cuando los agrupamientos estuvieron completos, los templados fueron secuenciados por el extremo en que se encuentra el adaptador código de barras, el cual permite identificar posteriormente por medios bioinformáticos a que individuo pertenecen cada una de las lecturas producidas por el secuenciador. 6.1.6 Búsqueda de SNPs. Previo a la búsqueda de los SNPs se analizó la calidad de las lecturas mediante el software FastQC. Este paso es muy importante ya que permite verificar que las secuencias crudas que se utilizarán para el llamado de SNPs cuenten con suficiente calidad (valores > 30 en la escala de Phred aseguran una exactitud de la secuenciación de 99.9 %). Una vez determinada la calidad de las secuencias se realizó la identificación de SNPs presentes en las líneas evaluadas a través del software propiedad de la compañía DArT. Este proceso fue realizado en el CIMMYT, proporcionando como resultado una matriz de presencia/ausencia de marcadores tipo SNP. El proceso consiste en lo siguiente: las lecturas son filtradas a partir de los sitios de corte de las enzimas PstI (CTGCAG) y HpaII (CCGG) y del código de barras de cada línea. Se tomaron sólo las lecturas que tengan estas características y se seleccionaron las primeras 68-69 pb de las lecturas, ya seleccionadas éstas se unieron creando un solo archivo con todas las lecturas separadas por códigos de barras, este archivo se alineó con un conjunto de datos de genotipado de maíces tropicales y subtropicales, disponibles en una base de datos perteneciente al CIMMYT. Para conocer cuales secuencias pertenecen a cada individuo para poder realizar el llamado de SNPs, el software genera una matriz donde las secuencias se organizan de acuerdo a su código de barras y que 31


corresponde a cada una de las líneas de maíz. Finalmente, ya que se conoce a que individuo pertenece cada lectura, se llevó a cabo la búsqueda de las variantes tomando como un SNP el cambio de un nucleótido comparando cada línea con el conjunto de marcadores identificados en maíz por el CIMMYT como referencia (Chen et al., 2016). 6.1.7 Índices de diversidad genética. En la figura 5 se muestra el procedimiento realizado para la determinación de los índices de diversidad genética de las cuatro poblaciones de maíz.

Figura 5. Diagrama de flujo de los análisis bioinformáticos realizados a partir de los 35,770 SNPs.

6.1.8 Número de SNPs. A partir del archivo de presencia/ausencia generado por SAGA-CIMMYT sin filtrar por MAF a 0.05, el cual contiene todos los genotipos evaluados y los marcadores presentes en cada uno de ellos se realizó un conteo del número total de SNPs identificados en las cuatro poblaciones de maíz. Con el macro de Microsoft Excel “FiRe v2.2” se determinó cuales marcadores pertenecen a cada 32


uno de los 120 genotipos (Garcion y Metraux, 2006). Con Microsoft Excel se obtuvo un promedio del número de marcadores identificados por población (PBB, PBN, PAB y PAN) y por el tipo de línea (parental, cruza, mestizo). 6.1.9 Determinación del porcentaje de datos perdidos. Además del archivo de presencia/ausencia, SAGA-CIMMYT proporcionó un archivo hapmap que contiene los SNPs presentes en los 120 individuos. A partir de este archivo se creó un archivo de entrada con la terminal Bash de Linux, utilizando el comando “sed”, reemplazando los valores presentes en el hapmap por datos bi-alélicos. Posteriormente con la librería adegenet en R se determinó el porcentaje de datos perdidos presente en los SNPs identificados. 6.1.10 Heterocigosidad observada y esperada. Para determinar el porcentaje de heterocigosidad de los SNPs obtenidos de cada línea se utilizó el software Bio-R (Pacheco et al., 2016) para cuantificar la variación genética que existe entre las 120 líneas, y entre las 61 líneas parentales presentes en las cuatro poblaciones. El valor de heterocigosidad observada describe la proporción de loci heterocigotos detectados en cada línea, y el valor de heterocigosidad esperada se refiere a la fracción estimada de todos los individuos que podrían ser heterocigóticos para cualquier locus tomado al azar. Los valores de heterocigosidad van de 0 a 1, siendo 0 totalmente homocigoto y 1 totalmente heterocigoto. El archivo de entrada para este software consiste en una matriz que representa el tipo de alelo presente en cada línea, indicados con valores del 1 al 3; siendo homocigoto mayor con valor de 1, homocigoto menor con valor de 2 y heterocigoto con valor de 3. Los marcadores utilizados fueron filtrados por el software a partir de la frecuencia del alelo menos comun con un valor menor del 5% (MAF = 0.05) y 0% de datos perdidos. 6.1.11 Índice de contenido polimórfico (PIC). Se calculó el PIC para el total de las 120 líneas de maíz, además por separado para las 61 líneas parentales. Este se calculó a partir de los SNPs identificados en cada línea en el software PowerMarker v3.25 empleando la siguiente fórmula (Liu, 2002): 33


𝑛−1

𝑃𝐼𝐶𝐼 = 1 − ∑

𝑛−1

𝑃𝑖𝑗2

𝑗=1

𝑛

2 − ∑ ∑ 2𝑃𝑖𝑗2 𝑃𝑖𝑘 𝑗=1 𝑘=𝑗+1

Donde Pij y Pik son las frecuencias alélicas del j-esimo y el k-esimo alelo del marcador i, respectivamente, y la sumatoria se extiende sobre todos los alelos. Esto se hace para referir al valor de cada marcador respecto con la cantidad de polimorfismos mostrados. Los valores de PIC, también proporcionan una estimación de la probabilidad de encontrar un polimorfismo entre dos muestras aleatorias del germoplasma. Los valores de PIC se representaron para las cuatro poblaciones de maíz y para las líneas parentales, a partir de los valores de PIC de los marcadores presentes en cada individuo. 6.2 Estructura poblacional de maíces del Bajío y Noroeste de México. 6.2.1 Distancia genética. La matriz de distancia genética de Rogers (Rogers, 1972) se determinó para los 120 individuos y para 61 los parentales a partir de los SNPs presentes en cada una de las líneas de maíz, mediante la siguiente formula en R: 𝑀𝑅𝑥𝑦 = √

2 ∑𝐿𝑙=1 ∑𝑛𝑙 𝑎=1(𝑃𝑙𝑎𝑥 − 𝑃𝑙𝑎𝑦) 2𝐿

Dónde: Plax es la frecuencia estimada del alelo a, dentro del locus l, en el genotipo x; L el número de loci, y nl el número de alelos dentro del locus, Play es la frecuencia estimada del alelo a, dentro del locus l, en el genotipo y (Pacheco et al., 2016). Los valores de distancia genética van de 0 a 1, valores cercanos a 0 indican que los individuos son muy parecidos y los valores cercanos a 1 indican que los individuos son muy diferentes. A partir de este valor se realizó una predicción de posibles cruzas simples que se pueden realizar a partir de las líneas parentales que presentan mayor distancia genética entre sí (Pavlov et al., 2016).

34


6.2.2 Análisis de estructura. Pritchard et al. (2000) describe un método de agrupamiento basado en modelos para el uso de datos de genotipos multi locus para inferir la estructura poblacional y asignar cada uno de los individuos a las diferentes poblaciones posibles a inferir. Ellos asumen un modelo en el que hay un cierto número de poblaciones K (donde K puede ser desconocido), cada una de las cuales se caracteriza por un conjunto de frecuencias de alelos en cada locus. Los individuos de la muestra son asignados (probabilísticamente) a las poblaciones, o conjuntamente a dos o más poblaciones si sus genotipos indican que se mezclan. Este modelo no asume un proceso de mutación en particular, y puede aplicarse a la mayoría de los marcadores genéticos comúnmente utilizados como en nuestro caso los SNPs, siempre y cuando no estén estrechamente vinculados. Esto no es posible verificar debido a que nuestros marcadores no se encuentran ubicados con referencia al genoma de B73, por lo que no se pueden seleccionar SNPs distribuidos a lo largo del genoma para realizar el análisis de estructura poblacional. Se realizó un análisis de agrupamiento para conocer la estructura poblacional de las 120 líneas de maíz mediante el software STRUCTURE 2.3.4 a partir del número de SNPs proporcionados por el CIMMYT para un valor de K de 1 a 5 esperando encontrar al menos 4 agrupaciones. Para cada K se corrieron 10 replicas con un periodo de calentamiento previo de 10,000 iteraciones con 10,000 repeticiones (Pritchard et al., 2000; Falush et al., 2003; Hubisz et al., 2009).

El

número de posibles grupos fue determinado de acuerdo a los resultados del STRUCTURE y a la corrección ΔK sugerida por Evanno et al. (2005). En cuanto al número más probable de Evanno se seleccionó el número de poblaciones representado en el gráfico como el punto con un mayor ΔK, en cuanto al gráfico de Ln(P) se tomó como número de poblaciones a partir del punto en que el gráfico alzanzó un estado de “plateau” donde se presentan valores menores de desviación estándar. La estructura poblacional resultante se ilustró con el software CLUMPP (Earl y vonHoldt, 2012). Este análisis nos permitió condensar la información genética de cada una de las líneas. Se realizó una comparación entre las poblaciones de maíz blanco y amarillo del Bajío y el Noroeste, además se realizó una comparación entre cada uno de los individuos en base a esta información permitiéndonos observar los resultados de una forma gráfica. El 35


análisis mostró un conjunto de colores que representan a los “clusters” o agrupamientos de las líneas con información genética más parecida. 6.2.3 Construcción de dendograma. A partir de la matriz de distancia genética de Rogers se tomó la matriz inferior y se crearon dos archivos de texto, uno para las 120 líneas de maíz y otro para los 61 parentales. Estos archivos fueron utilizados para alimentar el software MEGA 7.0 con el que se construyeron los dendrogramas. En MEGA se construyó un dendograma por el método del grupo de pares sin ponderar con media aritmética (UPGMA de las siglas en inglés Unweighted Pair Group Method using Arithmetic averages). Se marcó cada subgrupo que pueda existir entre las líneas de maíz, buscando la separación por color de grano: blanco y amarillo, región a la que pertenecen: Bajío y Noroeste, y al tipo de genotipo al que pertenecen: parentales, cruzas o mestizos (Kumar et al., 1994). 6.2.4 Análisis de escalamiento multidimensional. Se realizó un Análisis de Escalamiento Multidimensional (MDS) a partir de los 35,770 SNPs, con el software Bio-R (Pacheco et al., 2016) creando tres archivos de salida que contienen las coordenadas de cada individuo un gráfico 3D, creado a partir de las similitudes que existen entre los genotipos. Los tres archivos de salida pertenecen a a) las líneas parentales, b) las líneas parentales y las cruzas, y c) al conjunto en total de las líneas de maíz. Estos tres archivos de salida se utilizaron como archivo de entrada para el software Curly Whirly donde se visualizaron los gráficos de MDS clasificando a las líneas parentales por población, y a los demás genotipos por cruzas simples y mestizos (Milne, 2014).

36


7 RESULTADOS 7.1 Caracterización genética. Se genotiparon 120 líneas de maíz blanco y amarillo pertenecientes a las regiones del Bajío y el Noroeste de México. El genotipado mediante la tecnología DArTSeq-GBS permitió identificar un total de 35,770 marcadores tipo SNP. A partir del total de SNPs se identificaron diferente número de marcadores por individuo que oscilan entre 25,238 SNPs y 34,829 SNPs, teniendo un promedio de 29,126 SNPs en el panel completo. Una vez identificados los SNPs que pertenecen a cada línea fue posible determinar el promedio de SNPs que fueron identificados para cada población (PBB: 28,993 SNPs; PBN: 29,885 SNPs; PAB: 27,991 SNPs; PAN: 28,386 SNPs), además se determinó también según el tipo de línea (Cruzas Amarillas 25,796 SNPs; Cruzas Blancas: 26,482 SNPs; Mestizos Amarillos: 29,294 SNPs; Mestizos Blancos: 31,216 SNPs; Parentales Amarillos: 31,216 SNPs; Parentales Blancos: 31,443 SNPs). En las figuras 6 y 7 se muestra el número de SNPs identificados por población y tipo de línea. Después del filtrado con MAF < 0.05 se obtuvieron 26,596 SNPs los cuales fueron utilizados para realizar la determinación de los índices de diversidad genética restantes (PIC, Ho y He), mientras que la estructura genética poblacional de los 120 individuos se obtuvo con el total de SNPs.

Número de SNPs

Promedio del contenido de SNPs por población de maíz 35000 30000 25000 20000 15000 10000 5000 0

PBB

PBN

PAB

PAN

Poblaciones de maíz Figura 6. Gráfico de barra representativo del número de SNPs identificados en las cuatro poblaciones de maíz. PBB: Población blanca del Bajío; PBN: Población blanca del Noroeste; PAB: Población amarilla del Bajío; PAN: Población amarilla del Noroeste.

37


Número de SNPs

Promedio de SNPs identificados por tipo de línea de maíz 35000 30000 25000 20000 15000 10000 5000 0

CA

CB MA MB PA Tipo de línea de maíz

PB

Figura 7. Gráfico de barra representativo del número de SNPs identificados según el tipo de línea de maíz. CA: cruza amarilla; CB: cruza blanca; MA: mestizo amarillo; MB: mestizo blanco; PA: parental amarillo; PB: parental blanco.

El porcentaje de datos perdidos calculado para el set de los 35,770 SNPs fue del 18.57% respectivamente. En cuanto a los índices de diversidad genética, la información detallada de las cuatro poblaciones y el panel completo se encuentra en el cuadro 7. El valor de PIC para los 120 individuos fue de 0.488 indicando que los marcadores presentes en las líneas son muy polimórficos, y que son confiables y representativos de la información proporcionada de los índices de diversidad genética. Cuadro 7. Índices de diversidad genética para las 120 líneas de maíz.

Grupo Población amarilla del Bajío Población amarilla del Noroeste Población blanca del Bajío Población blanca del Noroeste Panel completo

N° de líneas PIC

Ho

He

22

0.489 ± 0.086

0.157 ± 0.094

0.436 ± 0.006

24

0.488 ± 0.086

0.143 ± 0.077

0.435 ± 0.005

19

0.489 ± 0.086

0.134 ± 0.088

0.433 ± 0.005

55

0.487 ± 0.086

0.101 ± 0.095

0.430 ± 0.005

120

0.488 ± 0.086

0.125 ± 0.092

0.433 ± 0.006

38


La tasa de heterocigosidad observada de las 120 líneas fue relativamente baja teniendo un valor de 0.125. Al excluir a las cruzas y los mestizos del análisis disminuyen los valores de heterocigosidad para los maíces parentales de las cuatro poblaciones. Por lo que fue necesario determinar los índices de diversidad genética para las 61 líneas parentales que representan a las cuatro poblaciones. La información respectiva de los índices de diversidad genética de las 61 líneas parentales se encuentra en el cuadro 8. Cuadro 8. Índices de diversidad genética de las 61 líneas parentales.

Grupo

N° de líneas PIC

Población Amarilla del Bajío Población Amarilla del Noroeste Población Blanca del Bajío Población Blanca del Noroeste Panel completo

Ho

He

7

0.480 ± 0.087

0.036 ± 0.024 0.435 ± 0.002

9

0.482 ± 0.087

0.062 ± 0.071 0.438 ± 0.003

7

0.481 ± 0.087

0.022 ± 0.003 0.438 ± 0.005

38

0.484 ± 0.087

0.057 ± 0.072 0.438 ± 0.004

61

0.483 ± 0.087

0.051 ± 0.064 0.438 ± 0.004

Los valores para el PIC de los 61 individuos sugieren que los marcadores presentes en estas líneas son muy polimórficos. En cuanto a la heterocigosidad observada los valores bajos obtenidos para las 61 líneas parentales de las 4 poblaciones son normales para líneas que son endogámicas, estas tuvieron valores por encima del 94% de homocigosis. 7.2 Análisis de estructura poblacional. Los valores de distancia genética de Rogers presentes en las 120 líneas oscilaron entre 0.014 (parental PBN24-DH24-Us / parental PBN23-DH23-Us) y 0.254 (parental PBB178 / mestizo PABXPAN155A), teniendo individuos que son más contrastantes genéticamente unos de otros. La matriz de distancia genética del panel completo de los 120 individuos se encuentra vinculada en la siguiente liga electrónica: https://www.dropbox.com/s/0o5p9pvu2gz433u/DistGenRogersCIMMYT_R.c sv?dl=0. 39


A partir de la matriz de distancia genética se realizaron predicciones de posibles cruzas simples de maíz con las líneas parentales que presentaron mayor distancia genética entre sí (> 0.22), considerando que sean maíces con el mismo color de grano. Las predicciones se muestran en los cuadros 9 y 10, siendo 20 cruzas de maíz amarillo y 20 cruzas de maíz blanco respectivamente. El resto de las predicciones de las líneas parentales se encuentran en los cuadros 11 y 12 del anexo A. Cuadro 9. Predicción de cruzas simples de maíz amarillo Parental A PAN146-DH14-Us PAN144-DH12-Us PAN146-DH14-Us PAN146-DH14-Us PAN146-DH14-Us PAN144-DH12-Us PAN144-DH12-Us PAN144-DH12-Us PAN141-DH9-Us PAN136 PAN146-DH14-Us PAN155A PAN144-DH12-Us PAN139 PAN144-DH12-Us PAB235 PAN136 PAN146-DH14-Us PAN136 PAN146

Parental B PAB226 PAN133 PAB223 PAB218 PAN133 PAB236 PAB226 PAB223 PAB226 PAN133 PAB236 PAN133 PAB218 PAN133 PAB209-DH6-Us PAB223 PAB226 PAB209-DH6-Us PAB209-DH6-Us PAN133

Distancia Genética 0.230667552 0.230262825 0.229438296 0.228721721 0.227943555 0.227652527 0.225996763 0.225975751 0.225943622 0.225887527 0.225629912 0.225384895 0.225379894 0.225325965 0.225140586 0.224664329 0.224570885 0.22454497 0.224410437 0.224160695

40


Cuadro 10. Predicción de cruzas simples de maíz blanco Parental A PBN33-DH32-Us PBN54-DH54-Us PBN33-DH32-Us PBN33-DH32-Us PBN54-DH54-Us PBN32-DH32-Us PBN62-DH62-Us PBN54-DH54-Us PBN54-DH54-Us PBN54-DH54-Us PBN58-DH58-Us PBN22-DH22-Us PBN62-DH62-Us PBN33-DH32-Us PBN62-DH62-Us PBN62-DH62-Us PBN47-DH47-Us PBN54-DH54-Us PBN62-DH62-Us PBN85-DH85-Us

Parental B PBB187 PBB178 PBB183 PBB183-DH6-Us PBB178-DH1-Us PBB187 PBB183 PBB187 PBB198 PBB183 PBB187 PBB187 PBB178 PBN13-DH13-Us PBB187 PBB183-DH6-Us PBB187 PBB180 PBB198 PBB187

Distancia Genética 0.239634755 0.230502973 0.230361306 0.229570423 0.229154928 0.22912937 0.229097422 0.228372132 0.228094774 0.22787383 0.227850441 0.227814089 0.227786527 0.227748579 0.227508602 0.227459558 0.227438174 0.227222565 0.227157294 0.227053931

Los resultados del análisis de estructura poblacional para las 120 líneas de maíz obtenidos con STRUCTURE para un rango de K entre 1 y 5 establecen que los individuos se agrupan en dos poblaciones al mostrar el valor más alto de Ln (P) cuando el número más probable de agrupaciones es dos, además el gráfico de ΔK presenta el pico más alto en el número dos, indicando de igual forma que existen dos poblaciones (Fig. 8 y 9). Tanto los resultados del STRUCTURE como la corrección de Evanno sugiere que las líneas analizadas están organizadas en dos poblaciones (K = 2), un grupo conformado por líneas parentales y el otro grupo conformado por cruzas y mestizos, separando las líneas más homocigotas de las más heterocigotas (Fig. 10).

41


Figura 8. Estructura poblacional de 120 líneas de maíz estimada con 35,770 SNPs. Valores de Ln (P) para un rango de K de 1 a 5.

Figura 9. Estructura poblacional de 120 líneas de maíz estimada con 35770 SNPs. Valores de ΔK para un rango de K de 2 a 4.

42


43

valor de asignación para cada grupo se encuentra en el eje Y.

vertical, que esta particionada en 2 segmentos coloreados, los nombres de cada línea se encuentran en el eje X, mientras que el

Figura 10. Estructura poblacional de 120 líneas de maíz cuando K = 2. Cada una de las 120 líneas es representada por una barra

Grupo 2 (parentales)

Grupo 1 (cruzas y mestizos)


7.2.1 Agrupamiento mediante MDS. A partir de los tres archivos de entrada que se obtuvieron para el software CurlyWhirly se muestran tres gráficos distintos, uno para las 61 líneas parentales, otro de los 61 parentales con 40 cruzas simples, y el último con las 120 líneas. Los resultados del análisis de escalamiento multidimensional para las líneas parentales representadas en la figura 11 nos muestran que primeramente estas se encuentran separadas según el color de la semilla, además se observa otro tipo de agrupación, estando agrupadas en 3 grupos según la posición que estos ocupan en el espacio 3D.

Figura 11. Gráfico de Escalamiento Multidimensional (MDS) de las líneas parentales de maíz blanco y amarillo del Bajío y Noroeste de México. Los individuos pertenecientes a cada población están ilustrados por puntos de color rojo, azul, verde y rosa representando a la Población blanca del Noroeste (PBN), la Población Blanca del Bajío (PBB), la Población Amarilla del Noroeste (PAN) y la Población Amarilla del Bajío (PAB) respectivamente.

44


Los individuos pertenecientes al primero de estos tres grupos se encuentran en la Población Blanca del Noroeste, el segundo grupo corresponde a la Población Blanca del Bajío y el tercer grupo a las Poblaciones Amarillas del Bajío y el Noroeste, las cuales no muestran una agrupación definida por ubicación geográfica al mezclarse los individuos de una población con otra. En la figura 12 se muestra un gráfico en 3D con las líneas parentales y las 40 cruzas simples, los 101 genotipos se separan por el color de grano, las líneas parentales blancas del Bajío se separan en un grupo, las líneas parentales blancas del Noroeste en otro grupo y las líneas parentales tanto del Bajío como del Noroeste permanecen formando un mismo grupo, en cuanto a las cruzas de maíces blancos se agrupan hacia cada una de las poblaciones tanto del Bajío como del Noroeste, mientras que las cruzas de maíces amarillos se encuentran dispersas entre ambas poblaciones.

Figura 12. Gráfico de Escalamiento Multidimensional (MDS) de los 61 parentales y las 40 cruzas simples. Los individuos pertenecientes a cada población están ilustrados por puntos de color rojo, azul, verde, rosa representando a la Población Blanca del Noroeste (PBN), la Población Blanca del Bajío (PBB), la Población Amarilla del Noroeste (PAN), la Población Amarilla del Bajío (PAB), y las cruzas simples respectivamente.

45


En la figura 13 se muestra el total de las 120 líneas conteniendo a los 61 parentales, las 40 cruzas y los 19 mestizos, clasificando por población únicamente a

las

líneas

parentales;

las

líneas

mestizas

se

encuentran

ubicadas

espacialmente entre las líneas parentales separándose por el color del grano, estando separados los maíces amarillos de los blancos, encontrándose los maíces amarillos dispersos y los maíces blancos más cercanos a las poblaciones del Bajío y del Noroeste. La mayoría de las cruzas de maíz y de mestizos se ubicaron cerca de las líneas que se utilizaron como parentales durante la cruza.

Figura 13. Gráfico de Escalamiento Multidimensional (MDS) del panel completo de individuos. Los individuos pertenecientes a cada población están ilustrados por puntos de color rojo, azul, verde, rosa, representando a la Población Blanca del Noroeste (PBN), la Población Blanca del Bajío (PBB), la Población Amarilla del Noroeste (PAN), la Población Amarilla del Bajío (PAB) respectivamente, mientras que las cruzas y los mestizos por puntos de color amarillo y morado.

En todos los gráficos los maíces blancos se encuentran en la región positiva del eje X, mientras que los maíces amarillos se encuentran en la región negativa de este mismo eje, además se observa que la Población Blanca del 46


Noroeste se encuentra en la región positiva del eje Y, mientras que la Población Blanca del Bajío se encuentra en la región negativa de este mismo eje; en cuanto a las poblaciones amarillas, éstas se encuentran dispersas a lo largo de todo el eje Z, ubicándose en la región negativa del eje X y la región positiva del eje Y. 7.2.2 Agrupamiento de las 120 líneas de maíz. Los resultados del análisis de agrupamiento realizado mediante la construcción del dendograma por el método UPGMA a partir de la distancia genética de Rogers para los 120 individuos fueron consistentes con los observados a partir de MDS (Fig. 14). Es posible distinguir claramente dos grupos diferentes entre las 120 líneas de maíz, un grupo está conformado por las poblaciones amarillas del Bajío y el Noroeste, las cuales se encuentran mezclados teniendo varias subpoblaciones; el otro grupo muestra claramente dos subpoblaciones separadas representando a las poblaciones blancas del Bajío y Noroeste de México. Además de lo anterior mencionado, en el dendograma se muestran cada uno de los individuos clasificados según el color del grano y la población de origen, teniendo como tal a las cuatro poblaciones agrupadas en tres grupos fijos, el primero representando a las poblaciones amarillas del Bajío y el Noroeste, el segundo a la población blanca del Bajío y el tercero a la población blanca del Noroeste. Dentro de este mismo se observa que las líneas de maíz que pertenecen a la población amarilla del Bajío y la población amarilla del Noroeste están más estrechamente relacionadas, en cambio la población blanca del Bajío y la población blanca del Noroeste presentan una mayor diferencia entre si estableciendo los dos grupos anteriormente mencionados. En cuanto al dendograma realizado para las 61 líneas parentales se muestra que estas se agrupan en las cuatro principales poblaciones, lográndose distinguir claramente cada una de ellas según el color del grano y la región a la que pertenecen, teniendo más definido que individuos pertenecen a las poblaciones blancas del Bajío y del Noroeste y a las poblaciones amarillas del Bajío y del Noroeste lo cual no es tan consistente con el análisis MDS para las líneas parentales, que aunque se encuentra la separación según el color de la semilla, las poblaciones amarillas se encuentran mezcladas entre sí (Fig. 15).

47


Figura 14. Dendograma construido por el método UPGMA de 120 líneas de maíz blanco y amarillo del Noroeste y Bajío de México. Los individuos pertenecientes a cada población están ilustrados por líneas de color azul, rojo, rosa y verde representando a las Poblaciones Blancas del Bajío y Noroeste (PBB y PBN), y a las Poblaciones Amarillas del Bajío y el Noroeste (PAB y PAN) respectivamente.

48


Figura 15. Dendograma construido por el método UPGMA de las 61 líneas parentales de maíz blanco y amarillo del Noroeste y Bajío de México. Los individuos pertenecientes a cada población están ilustrados por líneas de color azul, rojo, rosa y verde representando a las Poblaciones Blancas del Bajío y Noroeste (PBB y PBN), y a las Poblaciones Amarillas del Bajío y el Noroeste (PAB y PAN) respectivamente.

49


8 DISCUSIÓN 8.1 Objetivo 1. Determinar índices de diversidad genética para las poblaciones y los individuos de maíz blanco y amarillo del Noroeste y el Bajío. El INIFAP ha iniciado un programa de mejoramiento genético de líneas de maíz con alto contenido de aceite. En este momento el programa ya se encuentra en el ciclo 14 de selección recurrente y a partir de estas líneas se generaron los materiales dobles haploides con el que se está trabajando en esta investigación. El programa de mejoramiento genético iniciado por INIFAP está evolucionando con nuevas tecnologías para el fitomejoramiento y pretende incursionar en el tema de selección asistida por marcadores moleculares para su programa de mejoramiento genético. Esta investigación representa la primera fase de evaluación de marcadores moleculares para el programa de mejoramiento genético del INIFAP. Generar información acerca de los perfiles genómicos de líneas parentales que se producen en el estado de Sinaloa por parte del INIFAP es una tarea de gran importancia para el desarrollo de nuevas variedades que puedan resultar en la producción de nuevos híbridos nacionales que puedan competir con los híbridos comerciales en su rendimiento en grano pero con un mayor contenido de aceite. Actualmente existen muchas características de interés agronómico, como el rendimiento de grano, u otras características de especialidad como el alto contenido de aceite o el alto contenido de proteína, entre otras. Las líneas utilizadas en este estudio fueron seleccionadas principalmente con base a estas características para poder producir híbridos mejorados en dichos aspectos. Estás líneas muestran rendimientos hasta de 14 ton/ha en cruzas, un contenido de aceite mayor al 8%, y de proteína mayor al 11% en líneas parentales, considerándose como maíces de especialidad. Estos tiene la oportunidad de generar nuevos nichos de mercado, obteniendo productos derivados del maíz con mayor calidad (Preciado-Ortiz et al., 2013; Vázquez-Carrillo et al., 2014 OrtegaCorona et al., 2015). Para poder caracterizar genéticamente el panel completo de las 120 líneas de maíz del INIFAP se utilizaron marcadores moleculares de tipo SNP. Estos 50


presentan ventajas respecto a otros marcadores, debido a que los SNPs además de estar presentes en todos los organismos vivientes, éstos se encuentran dispersos a lo largo del genoma; proporcionan una gran cantidad de información al permitirnos identificar una mayor cantidad de loci que presentan variación; son flexibles para realizar diferentes análisis como de diversidad genética o introgresión de genomas; permiten inspeccionar regiones génicas e intergenicas; son marcadores co-dominantes lo cual nos permite estimar la heterocigosidad presente en los individuos y además tienen una buena relación costo/efectividad (Reif et al., 2003, Yadav et al., 2016). El DNA fue secuenciado en multiplex con la tecnología de DArTSeq-GBS mediante el uso de adaptadores de código de barras diferente para cada una de las líneas. El uso de esta tecnología permite identificar SNPs en diferentes regiones del genoma del maíz, a diferencia de utilizar SNPChip de Ilumina que se limita a identificar SNPs previamente identificados en la variedad de maíz B73. En este trabajo se identificaron un total de 35,770 SNPs en los 120 individuos. Sin embargo, después de un filtrado para el alelo menos frecuente MAF < 0.05 permanecieron sólo 26,596 SNPs; siendo los marcadores que se encontraron con mayor frecuencia, eliminando todos aquellos alelos raros que se indentifacron con una frecuencia menor al 5%. Cada individuo presentó diferente número de marcadores variando desde 25,238 SNPs para la línea parental amarilla PAB218 hasta 34,829 SNPs para la línea mestiza PABxPAN146. El hecho de que el número de SNPs identificados (35,770) sea mayor a los que presentó la línea con mayor diversidad de SNPs (34,829), es debido a que algunos individuos presentan diferentes SNPs en comparación a esta misma, los 941 SNPs identificados adicionales están presentes en cualquiera de los otros 119 individuos. Los SNPs están ganando importancia en los estudios de diversidad genética, al existir cada vez mas genomas secuenciados a partir de las nuevas tecnologías de secuenciación masiva, y el lograr producir una mayor densidad de marcadores, detectando una gran cantidad de loci variables utilizados para realizar este tipo estudios. Las principales ventajas de estos marcadores son que se producen en los genomas de las plantas a una frecuencia mucho mayor que los SSRs, teniendo una densidad de 6 a 22 SNPs por 1 kb en la secuencia, y que 51


además pueden ser genotipados en sistemas de alto rendimiento con enfoques multiplex como el del presente estudio. Los polimorfismos de SSR y SNP se generan a través de diferentes mecanismos (deslizamiento de replicación para SSR vs. mutación puntual para SNPs) y los dos tipos de marcador pueden proporcionar vistas diferentes de la estructura de una población dada (Singh et al., 2013; Xu et al., 2017). El analizar una mayor densidad de marcadores moleculares permite encontrar un mayor número de sitios que presentan variaciones dentro de los genomas de los individuos a evaluar. Cada una de estas variaciones puede ser específica para cada individuo o estar compartida con otros, este hecho indica que aquellos individuos que presenten la mayor coincidencia de marcadores son agrupados en base a este aspecto, que tiene que ver con la similitud que existe entre cada una de las líneas de maíz. En estudios de diversidad genética y de estructura poblacional es de suma importancia contar con marcadores moleculares que nos permitan identificar los niveles de diversidad, así como la distancia genética entre los individuos. Lo anterior permite determinar la utilidad de los marcadores a utilizar, la pureza genética de las líneas de maíz que se están evaluando, y la similitud o disimilitud que existe entre cada uno de los genotipos. Además el utilizar una mayor densidad de marcadores permite obterner de manera más confiable y representativa la diversidad genética, estructura poblacional, GWAS, huellas genómicas, mapeos de QTLs y selección genómica de las poblaciones analizadas. Idealmente el secuenciar genomas completos puede ayudar a identificar todos los SNPs presentes a lo largo del genoma; sin embargo los altos costos son considerados como una gran barrera, el uso de alternativas de menor costo como la utilizada en el presente estudio permiten identificar hasta 1 millon de SNPs con imputación, siendo una elección prometedora al proveer de una estrategia de genotipado con buena relación costo-efectividad (Glaubitz et al., 2014; Xu et al., 2017). En el trabajo realizado por Chen et al (2016) se analizaron 561 líneas endogámicas de maíz del CIMMYT (CMLs, CIMMYT maize inbred lines) de maíces tropicales de tierras altas y bajas, y subtropicales de distintas partes del mundo, encontrando 88,600 SNPs con la tecnología de DArTSeq-GBS utilizando una combinación de dos enzimas de restricción (PstI y HpaII); despues de un 52


filtrado MAF < 0.05, datos perdidos > 40 % y heterogeneidad > 10%, se retuvo un subconjunto de 18,082 SNPs, los cuales se utilizaron para calcular la diversidad genética y estructura poblacional. Wu et al (2016) analizaron un panel de 538 CMLs que corresponden a líneas en regiones con clima tropical y subtropical, además de 6 líneas de clima templado tratando de determinar la diversidad genética que existe en las líneas del CIMMYT de alrededor del mundo. Ellos reportan 955,690 SNPs crudos con la tecnología de GBS utilizando la enzima ApeKI, pero después de un filtrado MAF < 0.05 permaneció un subconjunto de 362,008 SNPs utilizados posteriormente para el análisis de diversidad y estructura poblacional. La disminución del número de marcadores posteriormente al filtrado de SNPs realizado con MAF < 0.05 se debe principalmente a la gran cantidad de datos perdidos presentes en el conjunto de SNPs identificados en este panel, por lo que el numero de marcadores con baja representabilidad es demasiado alto, haciendolos poco frecuentes, siendo eliminados durante este paso del filtrado. Para los índices de diversidad encontraron valores de Ho, He y PIC de 0.01, 0.31 y 0.25, respectivamente. Los valores de Ho fueron menores a los encontrados en nuestro trabajo. En concordancia con nuestro estudio se presentó un valor de Ho menor a la He. Sugerimos que esto se debe a que las líneas del CIMMYT tienen varios ciclos de autofecundación (> 6) lo que hace que las líneas avancen en endogamia haciéndolas cada vez más puras. Nuestros valores de PIC fueron mayores por lo que se deduce que los marcadores reportados en la publicación mencionada son menos informativos que los SNPs identificados en nuestro trabajo. Mengesha et al., (2017) analizaron 128 líneas endogámicas pertenecientes a un esquema de mejoramiento en África para producir híbridos resistentes a sequía y a Striga hermonthica. En total se encontraron 143,415 SNPs con la tecnología de GBS utilizando la enzima de restricción ApeKI, realizaron un filtrado de MAF < 0.05. Después del filtrado de todos los SNPs, solo 3297 marcadores permanecieron y fueron usados para realizar los posteriores análisis de diversidad genética y estructura poblacional. Durante el proceso de la preparación de las bibliotecas pueden ocurrir errores técnicos como la baja amplificación de ciertas regiones que provoquen una baja cobertura de los genomas durante la secuenciación, provocando que algunas regiones no se encuentren tan 53


representativas dentro del análisis de genotipado por secuenciación, al existir esta baja cobertura las frecuencias alélicas de cada marcador disminuyen, y al estar menos frecuentes estos se pierden durante el filtrado de MAF < 0.05, quedando solo los SNPs mas representativos de la diversidad presente dentro las líneas de maíz evaluadas. Los valores para los índices de diversidad genética reportados fueron de Ho = 0.13, He = 0.40 y PIC ≥ 0.20. Estos valores de Ho son mayores que los reportados en nuestro trabajo. Nuestras líneas son más puras genéticamente al presentar una menor heterocigosidad en los alelos identificados. Los valores de He son menores que los reportados en nuestro trabajo, por lo que se considera que las líneas pertenecientes a este panel de líneas endogámicas de maíz tienen una menor diversidad genética que nuestro panel de estudio. El GBS ha mostrado ser una herramienta muy poderosa en estudios de diversidad y estructura genética poblacional. Sin embargo, tiene la desventaja de obtener una baja cobertura de secuenciación, lo que resulta en una tasa muy alta de datos perdidos. Recientemente han surgido modificaciones a la técnica original de GBS para tratar de mejorar su cobertura en el genoma objetivo. DArTSeq presenta una ventaja en dicho tema, al utilizar dos enzimas de restricción (una de corte raro y otra de corte frecuente) esto permite tener una mejor resolución y cobertura del genoma. En nuestro set de datos el porcentaje de datos perdidos alcanzó el 18.57, siendo menor que lo reportado en otros trabajos como el de Wu et al. (2016) que presentan valores de hasta el 55%, incluso después de filtrar los marcadores con MAF < 0.05. En otros trabajos como el de Chen et al. (2016) el porcentaje de datos perdidos se encontró cerca del 18% al igual que lo encontrado en este trabajo. La diferencia entre ambos trabajos es que en el trabajo realizado por Wu et al. (2016) el genotipado se realizó con GBS convencional encontrando una gran densidad de marcadores pero con un alto contenido de datos perdidos y en el trabajo de Chen et al. (2016) que aunque encontraron una menor cantidad de marcadores tipo SNPs, encontraron una menor proporción de datos perdidos al utilizar DArTSeq-GBS. Los altos niveles de datos perdidos en una base de datos pueden convertirse en un problema con los posteriores análisis y en la interpretación erronea de los mismos, como el realizar análisis de asociación genómica. Para disminuir los niveles de datos perdidos es posible realizar la imputación de datos, aunque por lo general esto no es 54


necesario para los análisis de diversidad genética. La imputación consiste en usar información de otros genotipos para llenar los datos perdidos. En cuanto a los índices de diversidad genética, podemos observar valores para Ho de 0.125 ± 0.092 para el panel completo de 120 individuos. Esta alta variación en nuestro panel de diversidad, es debida a la presencia de cruzas simples, las cuales tienen una mayor heterocigosidad, debido al cruzamiento de los parentales, produciendo diferentes alelos en algunos de los loci. Por tal motivo el análisis se realizó nuevamente, solo para las líneas parentales buscando encontrar valores más cercanos a 0. Las líneas parentales DH son consideradas como líneas puras u homocigotas. Sin embargo en nuestro análsis, las líneas parentales no alcanzaron el 100% de homocigosidad. Lo anterior puede ser explicado por la naturaleza de la técnica de GBS en la que ocurren errores durante el proceso de llamado de SNPs o en el proceso de la secuenciación de DNA. A pesar de que para la aplicación exitosa de tecnologías de secuenciación HiSeq, la calidad de los datos de lectura es crucial. Al comparar las tasas de error esperadas y observadas, los puntajes de calidad asignados por el software de identificación

de

base

son

generalmente

precisos.

Nuestros

datos

de

secuenciación fueron filtrados mediante un estricto control de calidad con base en los valores de calidad de Phred eliminando las partes de los fragmentos que tuvieran baja calidad, no se observó una tasa de error significativamente mayor al final de las lecturas después del filtrado de calidad, la cual es una regíon que normalmente presenta valores bajos de calidad, traduciéndose como errores en la determinación de las bases. Al comparar con secuencias de genomas de referencia, en especial con el genoma de la variedad de maíz B73 que es una línea templada con nuestras líneas que son tropicales, se puede encontrar una acumulación regional de bases de baja calidad y posiciones únicas con tasas de error notablemente elevadas debido a la diferenciación genética que existe entre líneas templadas y líneas tropicales, los cuales son aspectos importantes a considerar al analizar las variaciones de nucleótidos presentes en cada individuo (Minoche et al., 2011). La Heterocigosidad esperada (He) es un índice de diversidad genética y se refiere al número de genotipos heterocigotos que debería haber en una población si esta se encontrara en equilibrio. El término esperado se refiere a que en la 55


población debería haber ciertas proporciones de genotipos homocigotos dominantes,

homocigotos

recesivos

y

heterocigotos

de

acuerdo

a

las

proporciones establecidas en las leyes de Mendel y el número de alelos detectado. Estas proporciones se cumplen solamente en las poblaciones naturales en las que existe entre otras cosas, reproducción aleatoria. Este supuesto no se cumple en las poblaciones sujetas a mejoramiento genético donde la reproducción es dirigida hacia la selección de ciertos caracteres de interés. En nuestra población de estudio, las líneas parentales presentaron una Ho muy cercana a cero lo cual es carácterístico de líneas endogámicas en las que se llevan a cabo autofecundaciones y/o duplicación cromosómica durante el proceso de obtención de líneas DH como es el caso del presente estudio. Las líneas parentales de maíz aquí analizadas pertenecen a un esquema de selección para mejoramiento genético, los cruzamientos no son realizados al azar, sino dirigidos con propósitos específicos para el mejoramiento genético. Por ejemplo se busca cruzar las líneas que muestren los mejores rasgos agronómicos para su selección como el alto contenido de aceite o el alto rendimiento en grano. El valor del PIC nos indica que tan informativo puede ser un marcador, la informatividad para un marcador genético se define como la probabilidad de que un descendiente de una pareja sea informativo, es decir, que se pueda deducir el origen parental de cada uno de los alelos de ese locus. En este trabajo el valor de PIC se mantuvo por encima de 0.483. Botstein et al. (1980) estableció rangos para los valores de PIC con base en las frecuencias alélicas que se presentan en cada locus como altamente informativos (PIC > 0.5), razonablemente informativos (PIC < 0.5 pero > 0.25) y ligeramente informativos (PIC < 0.25). En base a esta publicación, los marcadores estudiados en este trabajo son considerados como razonablemente informativos. La

caracterización

genética

de

las

líneas

de

maíz

contribuye

significativamente al desarrollo positivo del programa de mejoramiento ya que permite seleccionar las líneas parentales que serán utilizadas por el INIFAP para realizar la selección de genotipos para el mejoramiento genético, y generar cruzas simples

que

puedan

establecerse

en

la

región

Noroeste

de

México,

particularmente en Sinaloa. El uso de marcadores moleculares como una estrategia de apoyo para desarrollar nuevas variedades de híbridos nacionales 56


proporciona una gran cantidad de información para los mejoradores. Cuando éstos son razonablemente informativos pueden ayudar a seleccionar genotipos con rasgos de importancia agronómica. Adicionalmente, permite utilizar otras técnicas de mejoramiento como la Selección Asistida por Marcadores (MAS por sus siglas en inglés) o Análisis de Asociación Genómica, para determinar que marcadores están asociados significativamente con rasgos de importancia económica, tales como alto rendimiento, elevado contenido de aceite y de proteína en grano. Esta información es muy util para el mejorador, quien puede utilizarla para seleccionar los genotipos que tengan los rasgos deseados para la producción de cruzas por un menor costo y en un menor tiempo en comparación con esquemas de mejoramiento convencional.

Además le permite realizar

predicciones de las cruzas a realizar entre los genotipos más contrastantes genéticamente, buscando producir semilla en un menor tiempo, a menor precio y con mayor valor nutricional. 8.2 Objetivo 2. Obtener la estructura genética de las poblaciones de maíz blanco y amarillo del Noroeste y Bajío de México. Los resultados de STRUCTURE permitieron separar a las líneas por su grado de heterocigosidad, separando a las líneas parentales de las cruzas y mestizos. Aunque estas líneas parentales pertenecen a dos regiones de adaptación ambiental contrastantes (el Bajío y el Noroeste de México), y con color del grano distinto (blanco y amarillo), los resultados del Structure no mostraron ninguna subagrupación ni por el ambiente de adaptación ni por su color de grano. En el análisis de estructura poblacional de Wu et al. (2016) se definen claramente tres poblaciones, separando a las 538 CMLs según su zona de adaptación, teniendo como tal CMLs tropicales de tierras bajas, subtropicales de tierras medias, y tropicales de tierras altas, con un valor de poblaciones más probables igual a 3 (K = 3). A diferencia de este trabajo, no tenemos esa separación de los individuos por su región de origen, posiblemente se deba a los tipos de líneas analizados, en el trabajo anterior se utilizaron solamente líneas endogámicas que son utilizadas como parentales, teniendo muy baja variabilidad genetcia, en cambio en el panel de INIFAP las líneas utilizados son líneas endogámicas utilizadas como parentales y además cruzas simples que surgen del 57


cruzamiento de estas líneas parentales de forma inter e intra poblacional, por lo que el definir la pertenencia de los 120 individuos tiene una mayor dificultad, el software STRUCTURE agrupa a los individuos que presenten las frecuencias alélicas mas parecidas, por lo que la variabilidad genética existente en las cruzas simples y mestizos propicia una diferenciación en estas frecuencias en contra de las líneas parentales, mostrando estos dos principales grupos. Mengesha et al. (2017) muestran en sus resultados del análisis de Structure que las 128 líneas endogámicas del esquema de mejoramiento del Instituto de Agricultura Tropical de África tienen un número más probable de agrupaciones igual a 4 (K = 4). Los resultados del análisis de estructura de la población en este estudio claramente separaron las líneas endogámicas en cuatro grupos de acuerdo con sus antecedentes genéticos, estableciendo poblaciones biparentales resistentes a S. hermonthica y tolerantes a la sequía. El análisis de estructura poblacional al ser utilizado con líneas endogámicas, puede ser utilizado para determinar la procedencia de cada línea, ya sea por el lugar de adaptación geográfica en que se cultiva, o por el pedigrí que cada una de las líneas presenta, o incluso si un individuo pertenece a una mezcla de ambas poblaciones. La principal desventaja del STRUCTURE es su tiempo de ejecución, llegando a durar hasta un mes utilizando el número de repeticiones recomendado por el autor. Se construyó un dendograma a partir de la matriz de distancia genética de Rogers calculada para el total de 120 líneas de maíz y los 61 parentales. Este dendograma separó a los 120 individuos en tres principales poblaciones, la Población Blanca del Noroeste, la Población Blanca del Bajío, y en un mismo grupo a las Poblaciones Amarillas del Bajío y del Noroeste. Esto se debe a que existen individuos que son progenie de las líneas parentales, e incluso son cruzas interpoblacionales (cruzas de individuos del Noroeste con el Bajío) lo cual dificulta la asignación a alguna población. Cuando se analizó un dendograma creado a partir de las 61 líneas parentales, excluyendo cruzas y mestizos, se marca una clara diferenciación entre los individuos que pertenecen a cada una de las cuatro poblaciones base. La presencia de diferente número de marcadores e incluso marcadores específicos en cada individuo permite su separación en los diferentes grupos, agrupando aquellos que comparten más marcadores entre sí. 58


En el trabajo de Wu et al. (2016) se calculó de igual forma una matriz de distancia genética a partir de los 362,008 SNPs para las 538 CMLs y las 6 líneas templadas como grupo externo. A partir de esta matriz de distancia genética se construyó un dendograma, mostrando una separación de las CMLs por la zona de adaptación geográfica de cada uno de los genotipos, se encontraron tres grupos principales, maíces tropicales de tierras bajas, maíces subtropicales de tierras medias, y los maíces tropicales de tierras altas. El grupo externo correspondiente a los maíces de tierras templadas, se basó principlamente en líneas endogámicas comerciales de Estados Unidos (B37, B73, B84, Mo17, C103, Oh43). Estas se situaron cerca de las líneas tropicales de tierras altas, posiblemente al ser mayor la altura sobre el nivel del mar, las temperaturas en esas localizaciones es baja al igual que en las zonas templadas. Mengesha et al. (2017) calcularon una matriz de distancia genética de 128 líneas endogámicas a partir de 3,297 SNPs. Sus resultados mostraron en el análisis de Structure cuatro grupos principales. La separación de las líneas de acuerdo a la distancia genética entre ellas, permitió definir cuatro grupos heteróticos de líneas endogámicas biparentales resistentes a S. hermonthica y tolerantes a sequía. Chen et al. (2016) realizaron un análisis de MDS para 561 CMLs a partir de 18,082 SNPs identificados para este panel. El análisis permitió definir tres principales agrupaciones según el ambiente de adaptación, logrando definir que líneas pertenecen a maíces de clima tropical adaptadas a tierras bajas, maíces de clima subtropical adaptadas a tierras medias, y maíces de clima tropical adaptadas a tierras altas. En el presente estudio, se realizó un análisis MDS a partir de los 35,770 SNPs identificados en los 120 individuos para poder visualizarlos en un plano de 3D para definir los grupos heteróticos presentes. El análisis de escalamiento multidimensional o MDS se basa en las similitudes que tienen los objetos que se están evaluando para establecer un sistema de coordenadas en 3D, posicionando más cerca a aquellos individuos que presentaron un mayor número de marcadores similares entre sí. Los resultados muestran que al analizar sólo a las líneas parentales, estas se agruparon en tres poblaciones, la primera integrada por maíces blancos del Bajio, la segunda por maíces blancos del noroeste y la 59


tercera agrupando a los maíces amarillos del Bajío y del Noroeste. Al analizar las 61 líneas parentales junto con las 40 cruzas progenie de estos mismos parentales, las líneas parentales se agruparon de forma similar, mientras que las cruzas se posicionaron cerca de las líneas parentales que las conforman. Al analizar el panel completo de 120 individuos conteniendo líneas parentales, cruzas y mestizos; las líneas parentales se agruparon de forma similar a los otros dos análisis, mientras que los mestizos al igual que las cruzas se posicionaron cerca de al menos uno de los parentales que conforman la cruza. El uso de marcadores moleculares de tipo SNP permite definir grupos heteróticos entre las líneas caracterizadas genéticamente. El establecer estos grupos heteróticos ayuda a seleccionar a los individuos que presentan características diferentes entre cada grupo y poder realizar cruzas biparentales esperando características deseables de cada parental en el híbrido. Además de los análisis de estructura, el uso de la matriz de distancia genética permite seleccionar a aquellos genotipos más contrastantes de acuerdo a su composición genética. Por tal motivo se seleccionaron aquellos genotipos que presentaron la mayor distancia genética entre sí, para la realización de las predicciones de cruzas simples, buscando que la cruza de estos genotipos produzca un valor mayor de la heterosis en rendimiento de grano. En el trabajo realizado por Pavlov et al. (2016) reportan que existe una correlación positiva (r = 0.57) entre la distancia genética y la heterosis con respecto de los parentales para el rendimiento de grano. Aunque la correlación no es muy alta, la tendencia indica que a mayor distancia genética, la heterosis tiende a incrementar. Además de la distancia genética existente entre los genotipos se buscó que estos pertenecieran a grupos heteróticos distintos, realizando la predicción para cruzas simples interpoblacionales, es decir cruzar maíces del Bajío con maíces del Noroeste de México. Tanto en el dendograma como en el grafico 3D se muestran claramente 3 principales agrupamientos, la población blanca del Noroeste, la población blanca del Bajío, y las poblaciones amarillas del Noroeste y el Bajío. Tanto la población blanca del Noroeste como la del Bajío presentaron un mayor número de marcadores en comparación con las poblaciones amarillas del Noroeste y Bajío de México, lo que indica que existe una diferencia de marcadores que puede 60


ayudar a diferenciar mejor dichas poblaciones. Si tomamos en cuenta el número de marcadores que pertenecen a cada individuo dentro de las predicciones de cruzas, tenemos que la posible cruza simple de maíz amarillo entre los individuos PAN146-DH14-Us y PAB226 comparten el 68.1 % de los marcadores mientras que cada uno de ellos presentan el 20.2 % y el 11.7% de marcadores únicos para cada línea respectivamente. Estas diferencias en la presencia de marcadores en cada línea hace que la asignación según los loci que presenten cada uno de ellos los haga más similares o más contrastantes genéticamente, lo cual permite separarlos en los diferentes grupos. El uso de marcadores moleculares para la caracterización genética de líneas de maíz pertenecientes al INIFAP ha permitido determinar la pureza genética de cada una de las líneas, así como la diversidad genética que existe entre ellas y el nivel de informatividad que existe en estos mismos. Estos marcadores fueron de utilidad para determinar la estructura poblacional presente en este estudio, determinando grupos heteróticos para las poblaciones de maíces blancos y amarillos del Noroeste y Bajío de México, permitiendo además establecer un sistema de predicción de cruzas en base a la distancia genética que existe entre cada genotipo y la pertenencia a alguna de las poblaciones, buscando la cruza entre los genotipos más contrastantes genéticamente, esperando que la heterosis para el rendimiento en grano aumente. La identificación de estos marcadores moleculares más la medición de valores fenotípicos de importancia agronómica,

serán

de utilidad para realizar

posteriores análisis de asociación genómica entre el genotipo y los rasgos deseables para estas líneas de selección como el alto contenido de aceite, mayor contenido de proteína y mayores rendimientos en producción de grano. Identificar marcadores que están significativamente asociados a alguna de estas características es de suma importancia ya que permitirá aprovechar la tecnología de mejoramiento conocida como selección asistida por marcadores, la cual permite seleccionar rasgos de interés agronómico que estén asociados a estas variaciones puntuales dentro del genoma. En este caso los marcadores moleculares identificados por el CIMMYT por medio de la tecnología de genotipado por DArTSeq-GBS, permitieron solamente determinar la diversidad genética y la estructura poblacional de los individuos 61


pertenecientes a cada población, debido a que en la identificación de SNPs no se proporciona la posición física de cada marcador al compararlo con un genoma de referencia, durante este trabajo se realizo una identificación de SNPs para su posterior imputación (rellenado de datos faltantes) y análisis de asociación genómica en trabajos futuros.

62


9 CONCLUSIONES 

Se identificaron 35,770 SNPs en los 120 individuos, que fueron utilizados para la determinación de los índices de diversidad genética existentes en las cuatro poblaciones de maíz.

Las cuatro poblaciones analizadas presentaron altos índices de diversidad genética.

La distancia genética entre los individuos permitió seleccionar genotipos contrastantes para la predicción de cruzas con mayor potencial de rendimiento en grano.

El análisis de estructura poblacional permitió identificar a las líneas primeramente por el color de grano y después por su origen, teniendo dos poblaciones de maíces blancos y una población mezclada de maíces amarillos de ambas regiones.

El análisis de agrupamiento sólo separó a las líneas parentales de cruzas y mestizos.

El uso de marcadores moleculares para la caracterización genética de las líneas parentales del INIFAP permite establecer diferentes grupos heteróticos definidos por la región de origen y el color de la semilla.

 Estos resultados permitirán a los mejoradores del INIFAP establecer un esquema de mejoramiento asistido por marcadores moleculares eficiente para la producción de hibridos mejorados para el estado de Sinaloa.

63


10 BIBLIOGRAFÍA 

Acosta, R. 2009. El cultivo del maíz, su origen y clasificación. El maíz en Cuba. Cultivos tropicales, vol. 30, no. 2, p. 113-120.

Allendorf, F. W., & Luikart, G. 2009. Conservation and the genetics of populations. John Wiley & Sons.

Azofeifa-Delgado, Á. 2006. Uso de marcadores moleculares en plantas; aplicaciones en frutales del trópico. Agronomía mesoamericana, 172:221242.

Batley, J. 2015. Plant genotyping: Methods and protocols. 2015th Ed.. New York, NY: Springer New York.

Botstein, D., White, R. L., Skolnick, M., & Davis, R. W. 1980. Construction of a genetic linkage map in man using restriction fragment length polymorphisms. American Journal of Human Genetics, 323:314–331.

Chang, M. T., & Coe Jr, E. H. 2009. Double haploids. In Molecular Genetic Approaches

to

Maize

Improvement pp.

127-142.

Springer

Berlin

Heidelberg. 

Chen, J., Zavala, C., Ortega, N., Petroli, C., Franco, J., Burgueño, J., & Hearne, S. J. 2016. The Development of Quality Control Genotyping Approaches: A Case Study Using Elite Maize Lines. PloS one, 116, e0157236.

Chiu, C., & Miller, S. 2016. Next-generation sequencing. Molecular microbiology: diagnostic principles and practice, 3rd ed. ASM Press, Washington, DC.

Crossa, J., Beyene, Y., Kassa, S., Perez, P., Hickey, J. M., Chen, C., de Los Campos, G., Burgueño, J., Windhausen, V. S., Buckler, E. S., Jannink, J., Lopez-Cruz, M. A. & Babu, R. 2013. Genomic prediction in maize breeding populations with genotyping-by-sequencing. G3 3:1903–1926

64


Dillman, C., Bar-Hen, A., Guerin, D., Charcosset, A. & Murigneux, A. 1997. Comparison of RFLP and morphological distances between maize Zea mays L. inbred lines. Consequences for germplasm protection purposes. Theoretical and Applied Genetics. 95:92–102.

Domínguez-Mercado, C.A. 2012. Red de valor para maíz con alta calidad de proteína. Institución de enseñanza e investigación en ciencias Agrícolas. Tesis de Maestría en Ciencias.

Dudley, J. W. 2007. From means to QTL: The Illinois long-term selection experiment as a case study in quantitative genetics. Crop Science 47:522531.

Earl, D. A., & VonHoldt, B. M. 2012. STRUCTURE HARVESTER: a website and program for visualizing STRUCTURE output and implementing the Evanno method. Conservation genetics resources, 42:359-361.

Espinoza, F., Argenti, P., Urdaneta, G., Araque, C., Fuentes, A., Palma, J., & Bello, C. 2004. Uso del forraje de maíz Zea mays hidropónico en la alimentación de toretes mestizos. Zootecnia Trop, 224:303-315.

Elshire, R. J., Glaubitz, J. C., Sun, Q., Poland, J. A., Kawamoto, K., Buckler, E. S., & Mitchell, S. E. 2011. A robust, simple genotyping-bysequencing GBS approach for high diversity species. PloS one, 65, e19379.

Evanno, G., Regnaut, S., & Goudet, J. 2005. Detecting the number of clusters of individuals using the software STRUCTURE: a simulation study. Molecular ecology, 14(8):2611-2620.

Falush, D., Stephens, M., & Pritchard, J. K. 2003. Inference of population structure using multilocus genotype data: linked loci and correlated allele frequencies. Genetics, 1644:1567-1587.

FAOSTAT. 2017. Base de datos estadísticos de la FAO. Disponible en: http://faostat.fao.org/ consultado en abril de 2017.

FIRA. 2011. Resumen de costos para producir maíz de riego en el ciclo OI 2011-12,

en

el

municipio

de

Guasave

Sinaloa.

Disponible

en:

http://www.fira.gob.mx/Nd/SINALOA_MAIZ_PV_2012_P.pdf/ consultado en enero de 2016.

65


Food and Agriculture Organization of the United Nations, FAO. & International Maize and Wheat Improvement Center, CIMMYT. 1997. El maíz blanco: un grano alimentario tradicional en los países en desarrollo. Digitizer.Fao.

Forster, B. P., & Thomas, W. T. 2005. Double haploids in genetics and plant breeding. Plant Breeding Rev, 25:57-88.

Fundación Produce Sinaloa 2008. Memoria II Jornada de transferencia de tecnología de cultivo de maíz. Fundación Produce Sinaloa.

Garcion, C., & Métraux, J. P. 2006. FiRe and microarrays: a fast answer to burning questions. Trends in plant science, 117, 320-322.

Geiger, H. H. & Gordillo, G. A. 2009. Double haploids in hybrid maize breeding. Maydica 54:485-499.

Glaubitz, J. C., Casstevens, T. M., Lu, F., Harriman, J., Elshire, R. J., Sun, Q., Buckler, E. S. 2014. TASSEL-GBS: a high capacity genotyping by sequencing analysis pipeline. PLoS One 9:e90346

González-Estrada, A.; Gutiérrez, I., J; Espinoza, C., A.; Vázquez, C., A.; & Wood, S.. 2007. Impacto económico del maíz en México: Híbrido H-50. INIFAP-SAGARPA. Publicación técnica No. 24. 83 p. México, D.F.

Guillen, C. P., De la Cruz, L. E., Castañón, N. G., Osorio, O. R., Brito, M. N. P., Lozano, R. A., & López, N. U. 2009. Aptitud combinatoria general y específica de germoplasma tropical de maíz. Tropical and Subtropical Agroecosystems, 101:101-107.

Hayward, M. D., & Breese, E. L. 1993. Population structure and variability. In Plant Breeding pp. 16-29. Springer Netherlands.

He, J., Zhao, X., Laroche, A., Lu, Z. X., Liu, H., & Li, Z. 2014. Genotypingby-sequencing GBS, an ultimate marker-assisted selection MAS tool to accelerate plant breeding. Frontiers in plant science, 5.

Huang, X., & Han, B. 2014. Natural variations and genome-wide association studies in crop plants. Annual review of plant biology, 65:531551.

Hirsch, C., Hirsch, C. D., Brohammer, A. B., Bowman, M. J., Soifer, I., Barad, O., & Fields, C. J. 2016. Draft Assembly of Elite Inbred Line PH207 66


Provides Insights into Genomic and Transcriptome Diversity in Maize. The Plant Cell, tpc-00353. 

Hubisz, M. J., Falush, D., Stephens, M. & Pritchard, J. K. 2009. Inferring weak population structure with the assistance of sample group information. Molecular Ecology Resourses 9:1322–1332.

Illumina Inc. 2016. An introduction to Next-Generation Sequencing technology. Disponible en: http://www.illumina.com/content/dam/illuminamarketing/documents/products/illumina_sequencing_introduction.pdf consultado en octubre de 2016.

Jarquín, D., Kocak, K., Posadas, L., Hyma, K., Jedlicka, J., Graef, G., & Lorenz, A. 2014. Genotyping by sequencing for genomic prediction in a soybean breeding population. BMC genomics, 151:740.

Karn, A., Gillman, J. D., & Flint-Garcia, S. A. 2017. Genetic analysis of teosinte alleles for kernel composition traits in maize. G3: Genes, Genomes, Genetics, 74:1157-1164.

Kato, T. A., Mapes, C., Mera, L. M., Serratos, J. A., & Bye, R. A. 2009. Origen y diversificación del maíz: una revisión analítica. Universidad Nacional Autónoma de México, Comisión Nacional para el Conocimiento y Uso de la Biodiversidad. México, DF, 116.

Kilian, A., Wenzl, P., Huttner, E., Carling, J., Xia, L., Blois, H., ... & Aschenbrenner-Kilian, M. 2012. Diversity arrays technology: a generic genome profiling technology on open platforms. Data Production and Analysis in Population Genomics: Methods and Protocols, 888:67-89.

Kozik, E. U., Nowakowska, M., Staniaszek, M., Dyki, B., Stepowska, A., & Nowicki, M. 2013. More than meets the eye: A multi-year expressivity analyses of tomato sterility in ps and ps-2 lines. Australian Journal of Crop Science, 713:2154.

Kumar, S., Tamura, K., & Nei, M. 1994. Mega. Bioinformatics, 102:189-191.

Lee, H., Gurtowski, J., Yoo, S., Nattestad, M., Marcus, S., Goodwin, S. & Schatz, M. 2016. Third-generation sequencing and the future of genomics. bioRxiv, 048603.

67


Li, H., Peng, Z., Yang, X., Wang, W., Fu, J., Wang, J. & Liu, J. 2013. Genome-wide association study dissects the genetic architecture of oil biosynthesis in maize kernels. Nature Genetics, 451:43-50.

Li, H., Vikram, P., Singh, R. P., Kilian, A., Carling, J., Song, J. & Sehgal, D. 2015. A high density GBS map of bread wheat and its application for dissecting complex disease resistance traits. BMC genomics, 161:216.

Liu, J. 2002. POWERMARKER–A powerful software for marker data analysis. Raleigh, NC: North Carolina State University, Bioinformatics Research Center http://www. powermarker.net.

Liu, L., Li, Y., Li, S., Hu, N., He, Y., Pong, R. & Law, M. 2012. Comparison of

next-generation

sequencing

systems. BioMed

Research

International, Vol 2012:1-11. 

Liu, N., Xue, Y., Guo, Z., Li, W., & Tang, J. 2016. Genome-Wide Association Study Identifies Candidate Genes for Starch Content Regulation in Maize Kernels. Frontiers in Plant Science, 7.

López-Pereira, M. A. 1992. The economics of quality protein maize as an animal feed. Case studies of Brazil and El Salvador. CIMMYT Economics Working Paper 92-06. Mexico, DF.

Lorenz, A. J., Chao, S., Asoro, F. G., Heffner, E. L., Hayashi, T., Iwata, H. & Jannink, J. L. 2011. 2 Genomic Selection in Plant Breeding: Knowledge and Prospects. Advances in agronomy, 110:77.

Lu Y., Yan J., Guimaraes C. T., Taba S., Hao Z., Gao S., Chen S., Li J., Zhang S., Vivek B. S., Magorokosho C., Mugo S., Makumbi D., Parentoni S. N., Shah T., Rong T., Crouch J. H. & Xu Y. 2009. Molecular characterization of global maize breeding germplasm based on genomewide single nucleotide polymorphisms. Theor Appl Genet 120:93–115.

Mardis, E. R. 2008. Next-generation sequencing platforms. Annual review of analytical chemistry, 6:287-303.

Mengesha, W. A., Menkir, A., Unakchukwu, N., Meseka, S., Farinola, A., Girma, G., & Gedil, M. 2017. Genetic diversity of tropical maize inbred lines combining resistance to Striga hermonthica with drought tolerance using SNP markers. Plant Breeding, 1363:338-343.

68


Milne, I. 2014. Graphical applications for visualization and analysis of genotype data sets. In Plant and Animal Genome XXII Conference. Plant and Animal Genome.

Minoche, A., Dohm, J., Himmelbauer H. 2011. Evaluation of genomic highthroughput sequencing data generated on Illumina HiSeq and Genome Analyzer systems. Genome Biology 12:R112.

Miracle, M. P. 1966. Maize in tropical Africa. Madison, WI, USA, The University of Wisconsin Press.

Morozova, O., & Marra, M. A. 2008. Applications of next-generation sequencing technologies in functional genomics. Genomics, 925:255-264.

Oliva, R., & Vidal, J. 2006. Genoma Humano Nuevos avances en investigación, diagnóstico y tratamiento. Volumen, 2:215.

Olmos, S. E., Delucchi, C., Ravera, M., Negri, M. E., Mandolino, C., & Eyhérabide, G. H. 2014. Genetic relatedness and population structure within

the

public

argentinean

collection

of

maize

inbred

lines. Maydica, 591:16-31. 

Organisation

for

Economic

Cooperation

and

Development.

2003.

Consensus Document on the Biology of Zea mays subsp. mays Maize. OECD

Environment,

Health

and

Safety,

Publications

Series

on

Harmonisation of Regulatory Oversight in Biotechnology, 27:11-27. Paris, Francia. 

Ortega-Corona, A., R. E. Preciado, O., A. D. Terrón, I., A. S. Cruz, M., H. Vallejo, D., S. García, L., O. Cota, A., M. J. Guerrero, H. y S. O. Serma, Z. 2012. Selección recurrente para incrementar el contenido de aceite en cuatro poblaciones de maíz. Memoria de Resúmenes del XXIV Congreso Nacional y IV Internacional de Fitogenética. Sociedad Mexicana de Fitogenética, A. C. y Universidad Autónoma de Nuevo León. Monterrey, Nuevo León, México. 24 a 28 de septiembre de 2012. p. 66.

Ortega-Corona, A. 2015. Selection response for oil content and agronomic performance in four subtropical maize populations. Maydica, 603, 1-8.

Pacheco, A., Alvarado, G., Rodríguez, F., Crossa, J. & Burgueño, J. 2016. BIO-R Biodiversity Analysis whith R for Windows. Version 1.0, International Maize and Wheat Improvement Center. 69


Pailles, Y., Ho, S., Pires, I. S., Tester, M., Negrão, S. & Schmöckel, S. M. 2017. Genetic Diversity and Population Structure of Two Tomato Species from the Galapagos Islands. Frontiers in Plant Science. 2017;8:138. doi:10.3389/fpls.2017.00138.

Palacios, V. O., Ortega-Corona, A., Guerrero, H., M.J. & Hernández, C., J.M. 2008. Proyecto FZ002. Conocimiento de la diversidad y distribución actual del maíz nativo y sus parientes silvestres en México. Componente 1. Maíces nativos de los estados del norte de México. Informe final de actividades 2007-2008 en el estado de Sinaloa. CONABIO. INIFAP. Documento sin publicar. Culiacán, Sinaloa, México. 81 p.

Paliwal, R. L., Granados, G., Lafitte, H. R., Violic, A. D., & Marathée, J. P. 2001. El maíz en los trópicos: Mejoramiento y producción No. 28. Food & Agriculture Org.

Pavlov, J., Delić, N., Živanović, T., Ristić, D., Čamdžija, Z., Stevanović, M., & Tolimir, M. 2016. Relationship between genetic distance, specific combining abilities and heterosis in maize Zea mays L.. Genetika, 481: 165172.

Perales, H., & Golicher, D. 2014. Mapping the Diversity of Maize Races in Mexico. PloS one, 912:114

Piñero, D., Caballero-Mellado, J., & Cabrera-Toledo, D. 2008. La diversidad genética como instrumento para la conservación y el aprovechamiento de la biodiversidad: estudios en especies mexicanas. Capital natural de México, 1:437-494.

Poland, J. A., & Rife, T. W. 2012. Genotyping-by-sequencing for plant breeding and genetics. The Plant Genome, 53:92-102.

Poland, J., Endelman, J., Dawson, J., Rutkoski, J., Wu, S., Manes, Y., & Jannink, J. L. 2012. Genomic selection in wheat breeding using genotypingby-sequencing. The Plant Genome, 53:103-113. .

Prasanna, B. M., Chaikam, V., & Mahuku, G. 2013. Tecnología de dobles haploides en el mejoramiento de maíz: teoría y práctica. CIMMYT.

Preciado-Ortiz, R. E., García-Lara, S., Ortiz-Islas, S., Ortega-Corona, A., & Serna-Saldivar, S. O. 2013. Response of recurrent selection on yield,

70


kernel oil content and fatty acid composition of subtropical maize populations. Field Crops Research, 142:27–35. 

Prigge, V., & Melchinger, A. E. 2012. Production of haploids and doubled haploids in maize. In Plant cell culture protocols pp. 161-172. Humana Press.

Pritchard, J. K., Stephens, M., & Donnelly, P. 2000. Inference of population structure using multilocus genotype data. Genetics, 1552:945-959.

Reif, J. C., Melchinger, A. E., Xia, X. C., Warburton, M. L., Hoisington, D. A., Vasal, S. K., Beck, D., Bohn, M. & Frisch, M. 2003. Use of SSRs for establishing heterotic groups in subtropical maize. Theoretical and Applied Genetics 107:947–957

Rocandio-Rodríguez, M., Santacruz-Varela, A., Córdova-Téllez, L., LopezSanchez, H., Castillo-González, F., Lobato-Ortiz, R., & García-Zavala, J. J. 2014. Detection of genetic diversity of seven maize races from the high central valleys of Mexico using microsatellites. Maydica, 592014:144-151.

Rogers, J. S. 1972. Measures of genetic similarity and genetic distance. In: Studies genetics VII, no. 7213. University of Texas Publication, Austin.

Romay, M. C., Millard, M. J., Glaubitz, J. C., Peiffer, J. A., Swarts, K. L., Casstevens, T. M. & McMullen, M. D. 2013. Comprehensive genotyping of the USA national maize inbred seed bank. Genome biology, 146, R55.

Sánchez-Ortega, I. 2014. Maíz I Zea mays. Departamento Biología Vegetal I Fisiología Vegetal. Facultad de Biología, Universidad Complutense. Madrid. Reduca Biología. Serie Botánica. 7 2: 151-171.

Sansaloni, C., Petroli, C., Jaccoud, D., Carling, J., Detering, F., Grattapaglia, D., & Kilian, A. 2011. Diversity Arrays Technology DArT and next-generation sequencing combined: genome-wide, high throughput, highly informative genotyping for molecular breeding of Eucalyptus. In BMC Proceedings Vol. 5, No. 7, p. P54. BioMed Central.

Schnable, P. S., Ware, D., Fulton, R. S., Stein, J. C., Wei, F., Pasternak, S.... & Minx, P. 2009. The B73 maize genome: complexity, diversity, and dynamics. Science, 3265956:1112-1115.

Semagn, K., Magorokosho, C., Vivek, B. S., Makumbi, D., Beyene, Y., Mugo, S., & Warburton, M. L. 2012. Molecular characterization of diverse 71


CIMMYT maize inbred lines from eastern and southern Africa using single nucleotide polymorphic markers. BMC genomics, 131:113. 

SIAP.

2016.

Producción

Agropecuaria.

Servicio

de

Información

Agroalimentaria y Pesquera, México. 

Singh, N., Choudhury, D. R., Singh, A. K., Kumar, S., Srinivasan, K., Tyagi, R. K., ... & Singh, R. 2013. Comparison of SSR and SNP markers in estimation of genetic diversity and population structure of Indian rice varieties. PLoS One, 8(12), e84136.

Singh, B. D., y Singh, A. K. 2015. High-Throughput SNP Genotyping. In Marker-Assisted Plant Breeding: Principles and Practices pp. 367-400. Springer India.

Sonah, H., O'Donoughue, L., Cober, E., Rajcan, I., & Belzile, F. 2015. Identification of loci governing eight agronomic traits using a GBS‐GWAS approach and validation by QTL mapping in soya bean. Plant biotechnology journal, 132:211-221.

Sosa, P. A., González-Pérez, M. A., Moreno, C., & Clarke, J. B. 2010. Conservation genetics of the endangered endemic Sambucus palmensis Link

Sambucaceae

from

the

Canary

Islands. Conservation

Genetics, 116:2357-2368. 

Stewart Jr, C. N., y Via, L. E. 1993. A rapid CTAB DNA isolation technique useful for RAPD fingerprinting and other PCR applications. Biotechniques, 145:748-750.

Tian, H. L., Wang, F. G., Zhao, J. R., Yi, H. M., Wang, L., Wang, R., ... & Song, W. 2015. Development of maizeSNP3072, a high-throughput compatible SNP array, for DNA fingerprinting identification of Chinese maize varieties. Molecular Breeding, 356:136.

Vázquez-Carrillo, M. G., Santiago-Ramos, D., Gaytán-Martínez, M., Morales-Sánchez, E., & de Jesús Guerrero-Herrera, M. 2015. High oil content maize: Physical, thermal and rheological properties of grain, masa, and tortillas. LWT-Food Science and Technology, 601:156-161.

Vielle-Calzada, J. P., de la Vega, O. M., Hernández-Guzmán, G., IbarraLaclette, E., Alvarez-Mejía, C., Vega-Arreguín, J. C., ... & Herrera-Estrella,

72


A. 2009. The Palomero genome suggests metal effects on domestication. Science, 3265956:1078-1078. 

Wang, M., Yan, J., Zhao, J., Song, W., Zhang, X., Xiao, Y., & Zheng, Y. 2012. Genome-wide association study GWAS of resistance to head smut in maize. Plant science, 196:125-131.

Warburton, M. L., Xia X. C., Crossa, J., Franco J., Melchinger, A. E., Frisch, M., Bohn, M., Hoisington, D. A. 2002. Genetic characterization of CIMMYT maize inbred lines and open pollinated populations using large scale fingerprinting methods. Crop Science 42:1832–1840.

Warham, E. J. 1998. Ensayos para la semilla de maíz y de trigo: Manual de laboratorio. Cimmyt.

Watson, S.A. 1988. Corn marketing, processing, and utilization. In G.F. Sprague & J.W. Dudley, eds. Corn and corn improvement, p. 882-940. Madison, WI, USA, American Society of Agronomy.

Weng, J., Xie, C., Hao, Z., Wang, J. & Liu, C. 2011. Genome-Wide Association Study Identifies Candidate Genes That Affect Plant Height in Chinese Elite Maize Zea mays L. Inbred Lines. PLoS ONE 612: e29229.

Wu, Y., San Vicente, F., Huang, K., Dhliwayo, T., Costich, D. E., Semagn, K., ... & Babu, R. 2016. Molecular characterization of CIMMYT maize inbred lines with

genotyping-by-sequencing SNPs. Theoretical and Applied

Genetics, 1-13. 

Xia, X. C., Reif, J. C., Hoisington, D. A., Melchinger, A. E., Frisch, M. & Warburton, M. L. 2004. Genetic diversity among CIMMYT maize inbred lines investigated with SSR markers: I. Lowland tropical maize. Crop Science 44:2230–2237

Xia, X. C., Reif, J. C., Melchinger, A. E., Frisch, M., Hoisington, D. A., Beck, D., Pixley, K, Warburton, M. L. 2005. Genetic diversity among CIMMYT maize inbred lines investigated with SSR markers: II. Subtropical, tropical midaltitude, and highland maize inbred lines and their relationships with elite US and European maize. Crop Science 45:2573–2582

Xu, Y., & Crouch, J. H. 2008. Marker-assisted selection in plant breeding: from publications to practice. Crop Science, 482:391-407.

73


Xu, C., Ren, Y., Jian, Y., Guo, Z., Zhang, Y., Xie, C., Fu, J., Wang, H., Wang, G. & Xu, Y., l. 2017. Development of a maize 55 K SNP array with improved genome coverage for molecular breeding. Molecular Breeding. 37:20.

Yadav, P., Vaidya, E., Rani, R., Yadav, N. K., Singh, B. K., Rai, P. K., & Singh, D. 2016. Recent Perspective of Next Generation Sequencing: Applications

in

Molecular

Plant

Biology

and

Crop

Improvement. Proceedings of the National Academy of Sciences, India Section B: Biological Sciences, 1-15. 

Zamora-Hernández, T., Prado-Fuentes, A., Capataz-Tafur, J., BarreraFigueroa, B. E., & Peña-Castro, J. M. 2014. Demostraciones prácticas de los retos y oportunidades de la producción de bioetanol de primera y segunda

generación

a

partir

de

cultivos

tropicales. Educación

química, 252:122-127. 

Zhang, J., Chiodini, R., Badr, A., & Zhang, G. 2011. The impact of nextgeneration

sequencing

on

genomics. Journal

of

genetics

and

genomics, 383:95-109. 

Zhang, X., Pérez-Rodríguez, P., Semagn, K., Beyene, Y., Babu, R., LópezCruz, M. A., San Vicente, F., Olsen, M., Buckler, E., Jannink, J. L., Prasanna, B. M. & Crossa J. 2015. Genomic prediction in biparental tropical maize populations in water-stressed and well-watered environments using low-density and GBS SNPs. Heredity 114:291–299.

74


ANEXOS ANEXO A. Predicción de cruzas simples de maíz blanco y amarillo. Cuadro 11. Total de predicciones para cruzas simples de maíz amarillo. Parental A PAN146-DH14-Us PAN144-DH12-Us PAN146-DH14-Us PAN146-DH14-Us PAN146-DH14-Us PAN144-DH12-Us PAN144-DH12-Us PAN144-DH12-Us PAN141-DH9-Us PAN136 PAN146-DH14-Us PAN155A PAN144-DH12-Us PAN139 PAN144-DH12-Us PAB235 PAN136 PAN146-DH14-Us PAN136 PAN146 PAN142-DH10-Us PAN141-DH9-Us PAN141-DH9-Us PAN146-DH14-Us PAN142-DH10-Us PAN136 PAN139 PAN142-DH10-Us PAN142-DH10-Us PAN136 PAB235 PAN155A PAN155A PAN144-DH12-Us PAN146 PAB235 PAB236 PAN155A PAN146

Parental B PAB226 PAN133 PAB223 PAB218 PAN133 PAB236 PAB226 PAB223 PAB226 PAN133 PAB236 PAN133 PAB218 PAN133 PAB209-DH6-Us PAB223 PAB226 PAB209-DH6-Us PAB209-DH6-Us PAN133 PAB223 PAN133 PAB218 PAB246-DH48-Us PAB209-DH6-Us PAB223 PAB226 PAN133 PAB226 PAB236 PAB226 PAB223 PAB209-DH6-Us PAN139 PAB209-DH6-Us PAB209-DH6-Us PAB235 PAB236 PAB236

Distancia Genética 0.230667552 0.230262825 0.229438296 0.228721721 0.227943555 0.227652527 0.225996763 0.225975751 0.225943622 0.225887527 0.225629912 0.225384895 0.225379894 0.225325965 0.225140586 0.224664329 0.224570885 0.22454497 0.224410437 0.224160695 0.224068594 0.224054637 0.223831936 0.223433571 0.22330766 0.22326106 0.223217786 0.22282455 0.222712755 0.22243001 0.22188718 0.221133293 0.220838527 0.220513821 0.220513272 0.220450725 0.220430951 0.220330113 0.220058263

75


PAB246-DH48-Us

PAB218

0.220010714

Cuadro 12. Total de predicciones para cruzas simples de maíz blanco. Parental A PBN33-DH32-Us PBN54-DH54-Us PBN33-DH32-Us PBN33-DH32-Us PBN54-DH54-Us PBN32-DH32-Us PBN62-DH62-Us PBN54-DH54-Us PBN54-DH54-Us PBN54-DH54-Us PBN58-DH58-Us PBN22-DH22-Us PBN62-DH62-Us PBN33-DH32-Us PBN62-DH62-Us PBN62-DH62-Us PBN47-DH47-Us PBN54-DH54-Us PBN62-DH62-Us PBN85-DH85-Us PBN70-DH70-Us PBN62-DH62-Us PBN54-DH54-Us PBN62-DH62-Us PBB187 PBN22-DH22-Us PBN22-DH22-Us PBN58-DH58-Us PBN32-DH32-Us PBB198 PBB187 PBN41-DH41-Us PBN90-DH90-Us PBN70-DH70-Us PBN22-DH22-Us PBN22-DH22-Us PBN33-DH32-Us PBN119-DH132-Us PBN58-DH58-Us PBB187 PBN33-DH32-Us

Parental B PBB187 PBB178 PBB183 PBB183-DH6-Us PBB178-DH1-Us PBB187 PBB183 PBB187 PBB198 PBB183 PBB187 PBB187 PBB178 PBN13-DH13-Us PBB187 PBB183-DH6-Us PBB187 PBB180 PBB198 PBB187 PBN54-DH54-Us PBB180 PBB183-DH6-Us PBB178-DH1-Us PBB183 PBB180 PBB178 PBN54-DH54-Us PBB180 PBB187 PBB183-DH6-Us PBB187 PBB187 PBB187 PBB178-DH1-Us PBB198 PBB178 PBB187 PBB180 PBB178-DH1-Us PBB178-DH1-Us

Distancia Genética 0.239634755 0.230502973 0.230361306 0.229570423 0.229154928 0.22912937 0.229097422 0.228372132 0.228094774 0.22787383 0.227850441 0.227814089 0.227786527 0.227748579 0.227508602 0.227459558 0.227438174 0.227222565 0.227157294 0.227053931 0.226920838 0.226840662 0.226745102 0.226424821 0.226266604 0.226264125 0.226167449 0.226097643 0.225841831 0.225690409 0.225626403 0.225620353 0.225404956 0.225228416 0.225179876 0.225039221 0.22502961 0.224978376 0.224939202 0.224934062 0.224636127

76


PBN8-DH8Us PBN22-DH22-Us PBN26-DH26-Us PBN56-DH56-Us PBB187 PBN64-DH64-Us PBN22-DH22-Us PBN84-DH84-Us PBN8-DH8Us PBN70-DH70-Us PBN8-DH8Us PBN32-DH32-Us PBN72-DH72-Us PBN54-DH54-Us PBN32-DH32-Us PBN70-DH70-Us PBN8-DH8Us PBN64-DH64-Us PBN41-DH41-Us PBN47-DH47-Us PBN58-DH58-Us PBB187 PBN9 PBN58-DH58-Us PBN127-DH145-Us PBN8-DH8Us PBN64-DH64-Us PBN32-DH32-Us PBN70-DH70-Us PBN90-DH90-Us PBN8-DH8Us PBN72-DH72-Us PBN64-DH64-Us PBN33-DH32-Us PBN58-DH58-Us PBN33-DH32-Us PBN32-DH32-Us PBN72-DH72-Us PBN32-DH32-Us PBN90-DH90-Us PBN9-DH9-Us PBN41-DH41-Us PBN82-DH83-Us PBN47-DH47-Us

PBB183 PBB183 PBB187 PBB198 PBB178 PBB198 PBB183-DH6-Us PBB187 PBB183-DH6-Us PBB198 PBB187 PBB178 PBB187 PBN41-DH41-Us PBB183 PBB178 PBB178 PBB183 PBB180 PBB198 PBB178 PBB180 PBB183 PBN33-DH32-Us PBB198 PBB178-DH1-Us PBB187 PBB198 PBB178-DH1-Us PBB178 PBB198 PBB198 PBB183-DH6-Us PBB198 PBB178-DH1-Us PBB180 PBB183-DH6-Us PBB180 PBB178-DH1-Us PBB198 PBB183 PBN33-DH32-Us PBB187 PBB183

0.224621964 0.224325578 0.224249338 0.224177475 0.224167392 0.223906209 0.223885658 0.223829888 0.223771209 0.223719003 0.223709165 0.223618892 0.223589359 0.223575459 0.223530596 0.223394917 0.223391331 0.22336324 0.223312767 0.223263606 0.223180165 0.22305499 0.223041711 0.223027683 0.22300735 0.222876043 0.222806754 0.222636678 0.222617926 0.222493099 0.22249278 0.222450791 0.222298922 0.222207959 0.222199938 0.222172253 0.22217176 0.222116939 0.222047616 0.221994451 0.221989139 0.221930205 0.221915869 0.221759918

77


PBN90-DH90-Us PBN41-DH41-Us PBN24-DH24-Us PBN62-DH62-Us PBN81-DH81-Us PBN127-DH145-Us PBN58-DH58-Us PBN127-DH145-Us PBN119-DH132-Us PBN70-DH70-Us PBN82-DH82-Us PBN13-DH13-Us PBN31-DH31-Us PBN64-DH64-Us PBN70-DH70-Us PBN9 PBN47-DH47-Us PBN9 PBN58-DH58-Us PBN64-DH64-Us PBN23-DH23-Us PBN8-DH8Us PBN19-DH19-Us PBN13-DH13-Us PBN29-DH29-Us PBN47-DH47-Us PBN54-DH54-Us PBN90-DH90-Us PBN56-DH56-Us PBN41-DH41-Us PBN27-DH27-Us PBN27-DH27-Us PBN56-DH56-Us PBN56-DH56-Us PBN82-DH83-Us PBN56-DH56-Us PBN64-DH64-Us PBN31-DH31-Us PBN9 PBN9 PBN9-DH9-Us PBN41-DH41-Us PBN24-DH24-Us PBN127-DH145-Us PBN9-DH9-Us

PBB178-DH1-Us PBB178 PBB183 PBN33-DH32-Us PBB187 PBB187 PBB183 PBB183 PBB183 PBB183 PBB187 PBB187 PBB183 PBB180 PBB183-DH6-Us PBB183-DH6-Us PBB178 PBB178 PBB183-DH6-Us PBB178 PBB183 PBB180 PBB187 PBB180 PBB178 PBB183-DH6-Us PBN19-DH19-Us PBB183 PBB183-DH6-Us PBB178-DH1-Us PBB187 PBB180 PBB183 PBB187 PBB183 PBB178 PBB178-DH1-Us PBB183-DH6-Us PBB178-DH1-Us PBB198 PBB178 PBB183 PBB183-DH6-Us PBB183-DH6-Us PBB183-DH6-Us

0.221649034 0.221577626 0.221459486 0.221452637 0.221451156 0.221434166 0.221415024 0.221407909 0.221391074 0.221358518 0.221356704 0.221328315 0.221327014 0.221241156 0.221228013 0.221209168 0.221162094 0.221143892 0.221134188 0.221076016 0.221054426 0.2210456 0.220969495 0.22095577 0.220932811 0.220663509 0.220606318 0.220597928 0.22059574 0.220572496 0.220567612 0.220526454 0.220520744 0.22050394 0.220487075 0.220427349 0.220421701 0.22039201 0.220386231 0.220317863 0.220281456 0.220132055 0.220102594 0.220069464 0.220035709

78


79


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.