Revista Computacion y Tecnologia 1ra Edicion

Page 1

Revista Científica y de Divulgación de la Dependencia de Educación Superior Área Ciencias de la Información de la Universidad Autónoma del Carmen Año 1 - Número 1

Septiembre-Diciembre 2010



I

Directorio

UNIVERSIDAD AUTÓNOMA DEL CARMEN Sergio Augusto López Peña Rector Andrés Edgardo Salazar Dzib Secretario General María de los Ángeles Buenabad Arias Coordinadora de la DES-DACI

Juan Manuel Carrillo Coordinador de Extensión Universitaria Melenie Guzmán Ocampo Directora de Difusión Cultural Octubre - Diciembre de 2010

Comité Editorial Benjamín Tass Herrera Editor y Coordinador Editorial

Editores Asociados Ernesto Bautista Thompson Andres Soto Villaverde Gustavo Verduzco Reyes

Any Naholi Dorantes Echevarría Fomento Editorial y Diseño

Elvia Elvira Moralez Turrubiates José Ángel Pérez Rejón Juan Carlos Canto Rodríguez

Leticia Pérez Romero Logística


II

Directorio Consejo Editorial Internacional Organización

País

Jesús Serrano

University of Castilla-La Mancha

Spain

Hermilo Sánchez Cruz

Benemérita Universidad Autónoma de Aguascalientes

México

Abdiel E. Cáceres

Universidad Juárez Autónoma de Tabasco

México

Jesús Ezequiel Molinar Solís

Universidad Autónoma del Estado de México

México

Cristina Puente Águeda

Universidad Pontificia Comillas

Spain

Andrés Díaz Valladares

Universidad de Montemorelos

México

Héctor Jiménez

Universidad Autónoma Metropolitana

México

Miguel-Ángel Sicilia

University of Alcalá

Spain

Octubre - Diciembre de 2010

Nombre

COMPUTACIÓN Y TECNOLOGÍA, Año 1, No. 1, septiembre – diciembre 2010, es una publicación cuatrimestral editada por la Dependencia de Educación Superior Área Ciencias de la Información de la Universidad Autónoma del Carmen, Calle 56 No. 4 por Av. Concordia, Colonia Benito Juárez Ciudad del Carmen, Campeche, México. www.cienciaytecnologia.unacar.mx. Editor responsable: Benjamín Tass Herrera. Reservas de derecho al Uso Exclusivo No. 04-2009-101309494200-203. ISSN (en trámite). Responsable de la última actualización de esta publicación electrónica: DES-DACI, Benjamín Tass Herrera.

La Revista Computación y Tecnología (CYT), se concibe como una revista electrónica cuyo objetivo es el de recopilar y dar a conocer las experiencias y conocimientos científicos de investigadores jóvenes y experimentados en el campo de estudio de las ciencias de la información. En ella se seleccionan los trabajos que abordan temas desde las bases teóricas de la información y la computación, así como su aplicación en sistemas y entornos computacionales. Eso nos compromete a dar a conocer a la comunidad nacional e internacional avances científicos y tecnológicos significativos en áreas como Ingeniería de Software, Bases de Datos, E-learning y Tecnología Educativa, Inteligencia Artificial, Bioinformática, Aprendizaje de Máquina, Robótica y Visión, Sistemas y Tecnologías de la Información, Redes y Sistemas Distribuidos, Procesamiento Distribuido y Paralelo, Interacción Humano Computadora, Multimedia y Realidad Virtual, Arquitectura de Computadoras, Lenguajes y Autómatas, Teoría de la Computación, Graficación, Agentes, Teoría de Sistemas, Ofimática, Agentes, entre otros. El contenido de los trabajos que aquí se presentan es responsabilidad exclusiva de sus autores y no necesariamente refleja la postura del editor de la publicación. Se concede permiso para copiar partes de esta publicación para su uso personal o académico, siempre y cuando se dé crédito a los autores de los trabajos y a la publicación misma. Responsibility for the accuracy of all statements in each paper, rest solely with the authors and do not necessarily reflect the position of editor of the publication. Permission is granted to copy portions of the publication for personal use and for the use of the students providing credit is given to the authors and publication.

Esta obra fue realizada en octubre de 2010, en las instalaciones del Centro de Tecnologías de Información, Dependencia de Educación Superior Área Ciencias de la Información de la Universidad Autónoma del Carmen.


III

Contenido 2. Sección Noticias y Eventos

II Congreso Nacional y I Congreso Internacional de Computación e Informática

1

Artículos de Investigación

Modelo Difuso basado en Sinonimia para Recuperar Información

8

Estudio de variantes de Evolución Diferencial por cruza discreta y aritmética

20

Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales

34

Artículos Resúmen de Tesis

43

Artículos de Divulgación

El daño de los equipos de cómputo al medio ambiente

59

Comentarios a Escritos

Introducción a la computación (Libro de: Jorge Vasconcelos Santillana)

67

Octubre - Diciembre de 2010

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software


IV

Editorial

R

ecientes informes indican que las publicaciones escritas en la categoría de revistas empleadas para diseminar la investigación datan del siglo VII; no obstante, de este periodo a la fecha hemos sido testigos de la aparición de una importante producción de contenidos y productos que representan costos para las bibliotecas, los suscriptores y, al parecer, esto dificulta la distribución o adquisición.

Octubre - Diciembre de 2010

La solución parece ser hallada en las publicaciones electrónicas a través de medios digitales como el Internet. Esta recién aparecida alternativa de difusión ofrece nuevos beneficios tanto a editores como a sus lectores, entre las cuales se encuentran: reducción de costos, en la medida en que ahorran los gastos de impresión; eficiencia, por cuanto disminuye el tiempo destinado a la edición y corrección de pruebas de imprenta, es más fácil de almacenar ya que no requiere de mayor espacio, es decir, en ella se fusionan eficiencia, rapidez e inmediatez, características que se van haciendo cada vez más imprescindibles para garantizar los requerimientos de los procesos de la divulgación del conocimiento. Con la seguridad de continuar con las tendencias que apuntan hacia la informatización de la sociedad, en donde los procesos editoriales están incluidos, hoy ponemos a su disposición una alternativa más para difundir y dar a conocer los avances en el amplio espectro de las ciencias computacionales y las tecnologías que la soportan; esto es posible gracias a la penetración y al uso cada vez mayor de las computadoras personales y de los dispositivos móviles que permiten a los lectores el poder acceder a los artículos científicos desde su escritorio u otro espacio. La publicación de la revista Computación y Tecnología es una realidad. Y nace con el firme propósito de alcanzar tanto a las nueva generaciones de jóvenes que crecieron en contacto directo con los nuevas tecnologías de información y comunicación y a quienes les resulta mucho más familiar emplear un teclado y un mouse y leer en una pantalla, que hojear un libro o una revista sacados de un stand. Por lo tanto, deseamos en este nuevo comienzo, que Ciencia y Tecnología constituya un valioso, eficaz, racional y contemporáneo instrumento de comunicación científica, cuyo origen y propósito radican en propiciar también la consolidación de los cuerpos académicos, para dejar constancia del interés y avance que en materia computacional se abordan en el seno de nuestra Dependencia de Educación Superior-Área Ciencias de la Información (Des-Daci), la Universidas Autónoma del Carmen (Unacar)y el mosaico de Instituciones de Educación Superior e investigación en el país y el extranjero; es decir, hoy nos sumamos de manera firme y duradera mediante este aporte editorial con las comunidades científicas y universitarias en el concierto regional, nacional e internacional.

Los Editores


1

Eventos

Artículo Técnico

Por:AntoniaSelenneJiménezSánchez

II Congreso Nacional y I Congreso Internacional de Computación e Informática

A

iniciativa de maestros y con el impulso de autoridades universitarias, en el 2009 fue posible que se llevara a cabo el Primer Congreso Nacional de Computación e Informática (Conaci). Desde el 2008 iniciaron las gestiones por parte de los maestros y del entonces coordinador de la Dependencia Académica de Ciencias de la Información (Des-Daci), el ingeniero Fidel Franco Cocón Pinto. Se conformó una comisión de trabajo liderada por los profesores Ricardo Barrera Cámara y Benjamín Tass Herrera, reforzada por los maestros Fernando Sánchez Martínez, José Alonso Pérez Cruz, Carlos de la Cruz Dorantes y Gustavo Verduzco Reyes. También es merecido remarcar el apoyo del rector de la Unacar, Sergio Augusto López Peña, quién en ese entonces iniciaba su administración.

Se aceptaron ciertos números de artículos que fueron publicados en un libro con registro Isbn. Fue tal el éxito y participación de alumnos, maestros y comunidad interesada en conocer sobre la tecnología, así como de foráneos, que en el evento de clausura el rector Sergio Augusto López Peña hizo el compromiso de impulsar y apoyar el Conaci para el 2010.

Es así como se tomó la decisión no sólo de ofrecer el Segundo Congreso Nacional en 2010, sino de impulsarlo a Primer Congreso Internacional de Computación e Informática. Aquí se decidió renovar el equipo de trabajo que se encargaría de difundir y dar a conocer el magno evento académico hacia la comunidad universitaria, pero abrirlo también a nivel internacional en las universidades, institutos y centros de estudios. La comisión de trabajo quedó conformada bajo el liderazgo de la maestra Judith Santiago Pérez, y, en apoyo, los maestros Ricardo Barrera Cámara, Fernando Enrique Sánchez Martínez, José Alonso Pérez Cruz, Benjamín Tass Herrera, Gustavo Verduzco Reyes, entre otros. El Segundo Congreso Nacional y Primer Congreso Internacional de Computación e Informática 2010 fue programado para los días 8, 9 y 10 de septiembre. La difusión del evento fue a tal grado motivacional que a pocos meses de acercarse, se tenía un registro de más de ochenta trabajos o artículos de investigación, de los cuáles sólo se aceptaron 50. Esos se incluyeron en un

Octubre - Diciembre de 2010

El Conaci 2009 fue programado para los días 9, 10 y 11 de septiembre. Como parte de él se programaron y desarrollaron conferencias, talleres, cursos. Ponencias magistrales a cargo de reconocidos investigadores de diferentes instituciones del país, como la doctora Excelente Toledo, del Laboratorio Nacional de Informática Avanzada (Lania); Dr. Luis Enrique Sucar, del Instituto Nacional de Astrofísica, Óptica y Electrónica (Inaoe); Dr. Juan Gabriel González Serna, del Centro Nacional de Investigación y Desarrollo Tecnológico (Cenidet), Cuernavaca, Morelos-México; Dr. Ezequiel Molinar Solís, de la Universidad Autónoma del Estado De México.

Fue entonces que la comisión involucrada también admitió el reto de organizar el Segundo Congreso de Computación e Informática. Pero también, dicha comisión de trabajo asumió el desafío de superar la versión 2009.


Eventos

Artículo Técnico

2 II Congreso Nacional y I Congreso Internacional de Computación e Informática

Octubre - Diciembre de 2010

libro electrónico con registro Isbn. La aportación fue de varias universidades del país e incluso del extranjero. De manera general, para este segundo Conaci se programaron cinco conferencias magistrales, tres conferencias técnicas y 26 ponencias con temas diversos de áreas de las ciencias de la información. La coordinación del programa contempló que las conferencias magistrales y técnicas serían dictadas en el Aula Magna, mientras que las ponencias se llevarían a cabo en tres sedes: Sala Audiovisual de la Biblioteca, Sala Interactiva ubicada en la Biblioteca, y la Sala Audiovisual del Campus Principal. Y el día cero llegó. El 8 de septiembre se cumplió el objetivo de reunir a investigadores, académicos, profesionistas, estudiantes y público en general con un mismo interés en los avances científicos y tecnológicos en el ámbito de las ciencias computacionales, al inaugurar el Segundo Congreso Nacional y Primer Congreso Internacional de Computación e Informática. La inauguración de este magno evento de la Des-Daci fue a las 10:00 horas. El presídium se distinguió con la presencia del rector de la Unacar, maestro Sergio Augusto López Peña; en representación del gobernador del estado Fernando Ortega Bernes, estuvo el subsecretario de Innovación Gubernamental, David Puc Ruiz; Carlos Arturo Figueroa Balam, en representación del secretario de Educación del Estado, Francisco Ortiz Betancourt; Manuela Balán Chi, en representación de la presidenta municipal, Araceli Escalante Jasso. Asimismo, la presidenta de la Asociación Nacional de Instituciones de Educación en Tecnologías de la Información (Aniei), María de Lourdes Sánchez Guerrero; el secretario General de la Unacar, Andrés Salazar Dzib; y la coordinadora de la DesDaci, María de los Ángeles Buenabad Arias. Buenabad Arias dio la bienvenida a los presentes. Inició su discurso haciendo alusión al esfuerzo y trabajo en equipo de los organizadores del Conaci 2010. Exhortó a todos los presentes a hacer suyo este evento, a aprovechar la jornada de actividades que seguramente les dejará el enriquecimiento de las nuevas tendencias de tecnología e información.

El maestro López Peña, por su parte se refirió al evento como la oportunidad para los jóvenes estudiantes de estar en contacto con personas expertas en las tecnologías; mencionó que con las nuevas tecnologías es posible estar en contacto, tener acceso a muchos sitios e incluso establecer vínculos con miles de personas de manera instantánea. Hizo un llamado a los jóvenes a usar la tecnología con responsabilidad, a darle un sentido diferente y responsable. En su turno, la presidenta de la Aniei, María de Lourdes Sánchez Guerrero, inauguró oficialmente el evento. En el uso de la palabra, invitó a los estudiantes a aprovechar este espacio ya que en su escenario se presentaban personalidades, investigadores y temas de suma importancia que les darían una visión a su futuro. Después de la inauguración, inició la conferencia magistral titulada Estado actual de los estándares internacionales de ingeniería de software, dictada por el doctor Marcelo Jenkins. Además de compartir con alumnos este tema de interés, también se reunió con profesores de la Des-Daci con el objetivo de entablar una relación entre ambas universidades que beneficien a estudiantes y a catedráticos. En específico indicó que durante este acercamiento se platicó acerca de la posibilidad de establecer un convenio entre


3 II Congreso Nacional y I Congreso Internacional de Computación e Informática

Eventos

Artículo Técnico

la Unacar y la Universidad de Costa Rica, de modo que los alumnos puedan hacer movilidad, servicio social, y los maestros conformen líneas de investigación y redes de colaboración. Jenkins aseguró que en unos meses podría verse concretada una firma del convenio. En el marco del Conaci 2010, la Exposición Tecnológica fue fundamental. Los estudiantes a través de ella tuvieron la oportunidad de informarse y conocer las innovaciones en tecnología que existen en el momento. El maestro de la Des-Daci, José Alonso Pérez Cruz, estuvo encargado de la coordinación de la Exposición Tecnológica. Él explicó que es indispensable que las empresas que prestan servicios informáticos se den a conocer a los estudiantes, y estos a su vez tengan información de las nuevas innovaciones tecnológicas. La Exposición Tecnológica fue instalada en el lobby de la Biblioteca Universitaria. En ella participaron dos empresas que dan

Octubre - Diciembre de 2010


Eventos

4 II Congreso Nacional y I Congreso Internacional de Computación e Informática

Octubre - Diciembre de 2010

Parys Guzmán Sánchez, de México, Sisco en las Telecomunicaciones, los otros dos cursos se titularon: Aseguramiento de la calidad en el desarrollo de software y Programación relacionada a la recuperación de la información en internet, impartidas por Marcelo Jenkins y Jesús Serrano Guerrero, respectivamente. Por último, la maestra Zavaleta Carrillo expresó que el tiempo que los ponentes dedicaron a los cursos fue un espacio valioso, ya que –remarcó- no estaban programados dentro del programa de conferencias magistrales, técnicas y ponencias del Conaci 2010. servicios informáticos en equipos y/o software, y una librería de la localidad. Como parte complementaria se llevaron a cabo cursos en los que participaron maestros y alumnos de la citada dependencia académica interesados en conocer y actualizarse sobre temas diversos de tecnologías, computación e informática. La maestra Patricia Zavaleta Carrillo fue la encargada de coordinar los cursos. Ella explicó que en gran medida se debió a la disposición de los conferencistas magistrales, ya que accedieron a compartir sus conocimientos e impartir los cursos y talleres. Además del curso que ofreció el ponente

El Conaci 2010 fue un éxito. Las cinco conferencias magistrales, las tres conferencias técnicas y las 26 ponencias, contaron con la participación de los estudiantes y de un público externo interesado en conocer las temáticas actuales de la tecnología. Llenó y rebasó las expectativas que de él se tenían. En la clausura estuvieron el rector Sergio Augusto López Peña; el secretario general, Andrés Salazar Dzib; el diputado federal, Oscar Rosas González; la coordinadora de la DesDaci, María de los Ángeles Buenabad Arias; la coordinadora general del Conaci 2010, Judith Santiago Pérez; el excoordinador de la Des-Daci, Fidel Franco Cocón Pinto, quien ocupó un lugar de honor en el presídium, en calidad de invitado, por ser el principal impulsor del nacimiento del congreso. Buenabad Arias expresó que fue un gusto rendir cuentas favorables a tan altas expectativas que la comunidad universitaria depósito en este evento. Se tuvo 792 participantes, destacándose la presencia de instituciones como el Conalep, preparatoria “Ignacio Rodríguez Galván”, Preparatoria Campus II, además de representaciones de los estados de Yucatán, Campeche, Tabasco y Veracruz. Instituciones que participaron con ponencias: Centro de Investigación en Computación Ipn; Escuela Superior de Cómputo; Instituto Tecnológico de Apizaco; Instituto Tecnológico de Ciudad Victoria; Instituto Tecnológico de Celaya; Instituto Tecnológico de Nuevo León; Instituto Tecnológico y de Estudios Superiores de Monterrey; Universidad Autónoma de


5 II Congreso Nacional y I Congreso Internacional de Computación e Informática

Eventos

Artículo Técnico

Baja California Sur; Universidad Autónoma de Yucatán; Universidad Autónoma del Carmen; Universidad de la Sierra Juárez; Universidad del Caribe; Universidad del Papaloapan; Universidad Politécnica de Sinaloa; Universidad Tecnológica de la Mixteca y Universidad Tecnológica del Usumacinta. Los patrocinadores del evento fueron nueve empresas de diversos giros ubicadas en Ciudad del Carmen. La clausura oficial del Conaci 2010 estuvo a cargo del rector de la Unacar.

Octubre - Diciembre de 2010



Sec ci贸n

Art铆culos Arbitrados

Investigaci贸n


8

Investigación

Modelo Difuso basado en Sinonimia para Recuperar Información

IRetrieval Information With a Diffuse Model based in synonymy Javier Daniel Peralta Azuara, Andrés Soto Villaverde, Gustavo Verduzco Reyes. Universidad Autónoma del Carmen, C. 56 No. 4 Esq. Avenida Concordia Col. Benito Juárez C.P. 24180, 01 (938)-3811018 Ext. 1007, Ciudad del Carmen, Campeche, México jaenaz58@hotmail.com, asoto@pampano.unacar.mx, gverduzco@pampano.unacar.mx Artículo recibido el 11 de Junio del 2010

RESUMEN

Octubre - Diciembre de 2010

E

Artículo aceptado el 20 de Agosto del 2010

ABSTRACT

T

n este trabajo se presentan los resultados de la implementación de un método para la Recuperación de Información contenida en documentos en Lenguaje Natural basándose en medir la similitud entre palabras (sinónimos) y dar un peso al concepto asociado, con el fin de representar a los documentos, no por términos sino por el concepto al que se refieren. El trabajo comprendiólaimplementacióndelmétodobasadoenlos sinónimos, así como del método tradicional basado en la conocida métrica TF–IDF. Se muestran los resultados de losexperimentosparcialesrealizadoscon1998documentos de la colección CLEF, indexando un total de 352,640 palabras. Dichos resultados han mostrado hasta el momento que el método basado en los sinónimos permite recuperartodoslosdocumentosrecuperadosmedianteel método basado en términos (TF–IDF), obteniendo, en el 62% de los experimentos, otros documentos relevantes más, no recuperados por el método tradicional.

his paper introduces the results obtained with the implementation of a fuzzy model for Information Retrieval based on synonymy.The model refers to measuring the degree of similarity between synonymous terms and to assign a weight to the concept associated with them. This way, the model tries to measure whether a document refers to a certain concept or not. In this sense the implemented model is compared with the traditional method based on measuring just the presence of terms, and using the well known TF – IDF metric. The method based on TF – IDF metric was also implemented. The experiments were done with 1998 documents from the CLEF corpus, and 352,640 terms were indexed. Results show that the method based on synonymy retrieved in each experiment conducted, all the documents retrieved by the traditional method. Even more, in 62% of the experiments the synonymy based method overtakes the traditional one.

Palabras Clave: Recuperación de Información, TF–IDF, modelos difusos basados en conceptos, sinonimia.

Keywords: Information Retrieval, TF – IDF, fuzzy model based on concepts, synonymy.

1. Introducción

D

eterminar el peso de los términos es un importante tema de investigación en los sistemas de recuperación de información. Diferentes términos tienen diferentes grados de importancia en el documento, un indicador importante por ejemplo es el peso del término (term weight) y se asocia a cada término indexado. Dos componentes principales afectan la importancia de un término, la frecuencia con que aparece el término (tf ) en el documento y la frecuencia inversa del documento (idf ). Sin embargo, estos métodos pueden no ser lo suficiente efectivos desde un punto de vista humano, dado que devuelven muchos documentos poco relevantes. Como resultado, la efectividad de la recuperación no es lo suficientemente buena. En este trabajo se presentan los resultados de la implementación de un método nuevo para la recuperación de in-

formación basado en las técnicas de encontrar similitud entre las palabras (sinónimos) y dar un peso al concepto a las que estas están asociados, con el fin de representar a los documentos, no por términos solamente, sino por el concepto que tienen dentro de él. En el trabajo se parte de la premisa siguiente: si, en un mismo documento, se hace referencia a varias palabras o términos que son sinónimos entre sí, las cuales por tanto comparten un mismosignificadooconcepto,entoncesesprobableque el documento trate o esté relacionado con dicho concepto. Si medimos la presencia de cada una de los términos sinónimos entre sí, el grado de presencia de los mismos nos debe dar una medida del grado de presencia del concepto asociado a dichos sinónimos. El trabajo se basafundamentalmenteenlosmodelosalrespectoplanteados por A. Soto et al (2008). El resto de este escrito está organizado de la siguiente manera. En la sección 2, se remarca la importancia de recuperar información en la Web. En la sección 3, se explica a grandes rasgos como


9

Investigación

Modelos Difusos para la Recuperación de Información

está constituido un sistema de Recuperación de Información. En la sección 4, se explica más a detalle el modelo vectorial. En la sección 5, se habla del modelo difuso propuesto para recuperar información. En la sección 6, se presenta la implementación computacional de estos métodos. En la sección 7, se muestran los resultados obtenidos hasta el momento, y en la sección 8 se ofrecen las conclusiones. 2. Recuperación de Información en la Web

L

a Web (World Wide Web) crece más rápido que su capacidad para detectar sus cambios. Sus conexiones son dinámicas y muchas de ellas quedan obsoletas sin ser nunca actualizadas. Según un informe de la consultora internacional IDC y el fabricante de sistemas de almacenamiento EMC1 , en 2006, la cantidad de información digital creada, capturada y replicada

fue de 1,288 x 1018 bits, esto es 161 exabytes o 161 billones de gigabytes (1 gigabyte = 1000 megabytes). Esto es más de lo generado en los 5000 años anteriores. El contenido de la Web es hoy de varios billones de megabytes de texto, imágenes, audio y video. Para aprovechar esta gran base de datos no estructurada, es importante poder buscar información en ella, adaptándose al crecimiento continuo de la Web. La recuperación de información, (IR: Information Retrieval en inglés), es la rama científica que se ocupa de la búsqueda de información en documentos, ya sea mediante búsqueda directamente dentro de los mismos o sobre los mismos o a través de metadatos que describan dichos documentos. O también la búsqueda en bases de datos relacionales, ya sea a través de internet, intranet, para textos, imágenes, sonido o datos de otras características, de manera pertinente y relevante.

Octubre - Diciembre de 2010

Ilustración 1 Total de sitios activos en la Web desde 1995 hasta el 2009 1

http://www.emc.com/collateral/analyst-reports/expanding-digital-idc-white-paper.pdf


10

Investigación

Modelos Difusos para la Recuperación de Información

Tabla 1 Estadísticas Mundiales sobre Internet

Octubre - Diciembre de 2010

Población total (2010) No. de usuarios de Internet (2000) No. de usuarios de Internet (2010) % (usuarios / población total) Crecimiento 2000-2010

6,845,609,960 360,985,492 1,966,514,816 28.7 % 444.8 %

Buscar información en la Web implica enfrentarse con una serie de problemas [Baeza Yates, 2000] de distinto tipo, los cuales pueden ser intrínsecos a los datos o a los usuarios. Los primeros son: datos distribuidos en muchas computadoras y plataformas distintas. La topología de la red no está predefinida, ni bien definida. Los datos son volátiles y muchas páginas aparecen y desaparecen diariamente. La información en la Web es poco estructurada, heterogénea en formato, contenido y calidad y, en muchos casos, duplicada y redundante. Muchos suponen que una página Web es lógicamente un documento, lo que no es siempre cierto. Hay documentos que pueden estar en muchas páginas y hay páginas con varios documentos (por ejemplo, resúmenes de los artículos de una revista). Con respecto a los usuarios tenemos dos problemas básicos: el problema de expresar y precisar la consulta de forma que esta se correspondaadecuadamenteconloquequeremosrecuperar y el problema de cómo manejar la gran cantidad de documentos (miles, cientos de miles e inclusive millones) recuperados, muchos de los cuales pueden ser a su vez muy grandes, extensos, lo cual complica aún más el recuperar la información deseada, la cual puede estar dispersa a través de todo el documento. Muchos de estos problemas no tienen solución técnica y otros no tienen solución como la diversidad cultural.

U

3. Estructura de los Sistemas de Recuperación de Información

n motor de búsqueda o sencillamente un buscador es un software o sistema informático para buscar información en la Web, el cual busca ficheros almacenados en servidores web gracias a su web crawler o web robot. Dicho robot es un programa que inspecciona las páginas Web de forma metódica. A medida que las inspecciona, crea un descriptor de las páginas visitadas para poderlas indexar y recuperar de una

manera eficiente cuando se pida información sobre algún tema. Para realizar una búsqueda, el usuario realiza una consulta de la información indizada mediante una serie de palabras que caracterizan de alguna forma los documentos que desea recuperar. Las palabras indicadas por el usuario indican la dirección en la cual debe realizarse la búsqueda. El resultado de la búsqueda es un listado de direcciones Web en los que se mencionan temas relacionados con las palabras clave buscadas.

Ilustración 2 Estructura típica de un sistema IR.

La cantidad de documentos que devuelve el buscador es habitualmente muy grande por lo cual resulta conveniente que los documentos estén organizados por prioridades, según estos se correspondan, en mayor o menor grado, con la consulta realizada por el usuario. Para ello el buscador debe asociarle a cada documento una puntuación que refleje de alguna manera el grado de correspondencia con la consulta planteada. En general, la forma habitual de realizar una consulta a través de uno de estos buscadores como Google oYahoo es indicando una lista formada por varios términos o palabras, sin ningún conector (e.g. operador booleano) entre ellas. 4. Modelo Vectorial para la Recuperación de Información

L

os modelos de recuperación de información son considerados el corazón del sistema, ya que, estos determinan como se realizara la representación de los documentos, y que formato tendrá el lenguaje de


11

Investigación

Modelos Difusos para la Recuperación de Información

consulta, además de definir la función de búsqueda. En particular, este modelo se utiliza para capturar la importancia relativa de los términos en un documento. La representación de un conjunto de documentos como un vector es llamado modelo espacial vectorial y es fundamental para las operaciones de recuperar información. El texto es representado con un vector de términos. Los términos son típicamente palabras o frases. Si las palabras son términos, entonces cada palabra en el vocabulario se vuelve una dimensión independiente en el vector espacial. Para asignar un score numérico a un documento en correspondencia a una consulta, el modelo mide la similitud entre el vector de la consulta y el vector del documento. La similitud de los vectores no es inherente del modelo. Típicamente, el ángulo entre los dos vectores es usado como una medida de divergencia entre los vectores y el coseno del ángulo es usado como una similitud numérica.

tf

=

i, j

De acuerdo con este criterio, todos los términos se consideran con la misma importancia para determinar la relevancia en una consulta. Sin embargo, ciertos términos pueden tener poca o ninguna importancia con este objetivo. Por ejemplo, si tenemos una colección de documentos sobre la industria automovilística, la palabra auto debe aparecer en prácticamente todos los documentos, lo cual reduce su importancia en dicha colección. Para resolver dicha situación, se introduce un factor denominado IDF (Inverse Document Frequency), el cual se define como:

idf i = log

D

(2)

{ d : ti � d }

La combinación de ambos factores, denominada tf - idf es la métrica más empleada para determinar el nivel de relevancia de los documentos con respecto a un consulta determinada.

tf � idf i , j = tf i , j � idf i

(3)

ni , j

� k

nk , j

(1)

Teniendo en cuenta que se requiere comparar los documentos entre sí y que no todos los documentos tienen las mismas palabras, se acostumbra utilizar un vocabulario o diccionario base, el cual supuestamente contiene todas las palabras requeridas. Si un término determinado del vocabulario no aparece en un documento dado,

Octubre - Diciembre de 2010

Un mecanismo de puntuación plausible para los documentos sería, por tanto, en función del número de términos que se corresponden entre los términos que aparecen en la consulta (tqi) y los términos que aparecen en cada documento (tdj): a mayor cantidad de correspondencias entre unos y otros términos, mayor será la puntuación que obtenga el documento para dicha consulta. Suponiendo que la consulta consta de un solo término t los documentos recuperados obtendrán mayor puntuación (i.e. serán más relevantes) en la medida que más veces aparezcan en los mismos el término t. Como una forma de determinar dicha puntuación, la métrica más habitual [Manning et al, 2008] se define a través de la frecuencia con que aparece el término ti en el documento dj y se denota como tfi,j (term frequency).

donde ni,j es el número de ocurrencias del término ti en el documento dj y el denominador es la suma del número de ocurrencias de todos los términos en el documento dj.


12

Investigación

Modelos Difusos para la Recuperación de Información

su valor tf – idf se tomará igual a cero (0). Llegados a este punto, podemos representar cada documento mediante un vector de valores tf – idf que indique para cada término en el documento su correspondiente valor según la ecuación 3. Para determinar la puntuación de un documento determinado con respecto a la consulta del usuario, se suma el valor tf – idf de cada uno de los términos de la consulta que aparece en el vector que representa el documento en cuestión.

Octubre - Diciembre de 2010

Para calcular el grado de similitud entre documentos se utilizará la conocida medida de similitud basada en la función coseno:

� X a ×X b � ÷ = cos� sim( Xa, Xb ) � X ×X ÷ b � � a

(4)

ede considerarse una variación del modelo espacio vectorial (VSM Vector Space Model). En el trabajo antes citado de Garcés et al, el diccionario utilizado, desarrollado por S. Fernández [Fernandez, 2001; Fernandez et al, 2002], brindaba el grado de sinonimia entre pares de términos sinónimos utilizando un enfoque borroso (fuzzy). Dicho diccionario se encuentra implementado en Prolog a partir del Diccionario Avanzado de Sinónimos y Antónimos de la Lengua Española de Blecua (1997), el cual incluye alrededor de 27mil términos. Posteriormente, en FASPIR [Soto et al, 2008] se introducen nuevas fórmulas borrosas (fuzzy) para cuantificar el grado de sinonimia y polisemia entre palabras y aprovechar estos valores para medir el grado de presencia en documentos de los conceptos o significados asociados. En dicho trabajo, la relación de sinonimia entre dos términos t1, t2 de un vocabulario determinado V se define como una relación difusa (fuzzy) que expresa el grado relativo de sinonimia entre ambos términos:

5. Modelo Difuso basado en el uso de Sinónimos y Polisemia

M( t1 )( � M t2 ) S( t1 , t 2 ) = M( t1 )

A

utores como Ricarte and Gomide (2001) y Baeza-Yates and Ribeiro Neto (1999) plantean que las búsquedas utilizando métodos basados en aspectos lexicográficos deben incorporar los aspectos conceptuales de los documentos ya que estos reflejan de mejor manera el significado que reside en dichos documentos en correspondencia con la consulta del usuario. Por esta razón, en el presente trabajo se busca medir la presencia de los aspectos conceptuales existentes en los documentos, utilizando para ello, los conjuntos de sinónimos (i.e. synsets) definidos en el diccionario WordNet, teniendo en cuenta que cada synset tiene asociado un significado o concepto determinado. FIS-CRM (Fuzzy Interrelations and Synonymy Conceptual Representation Model) [Garcés et al, 2002; Olivas et al, 2003] es una metodología orientada a medir la utilización de conceptos en documentos en lenguaje natural mediante diccionarios de sinónimos, la cual pu-

(5)

Si tomamos por ejemplo las palabras auto y automobile en inglés, ambas comparten un significado común de acuerdo con el diccionario WordNet [Miller, 1995]: “a motor vehicle with four wheels; usually propelled by an internal combustion engine” Pero automobile tiene aún otro significado; como verbo significa también:

“to travel in an automobile”.

Por tanto, dichas palabras no son términos totalmente equivalentes sino similares, pues no comparten todos sus significados. Desde el punto de vista de la fórmula


13

Investigación

Modelos Difusos para la Recuperación de Información

5,S(auto,automobile)=1yaqueautocompartetodossus significadosconautomobile.Sinembargo,S(automobile, auto) = 0.5, lo cual se debe a que automobile solo comparte con auto un 50% de sus significados, por tanto el grado de sinonimia de automobile con auto es solo de un 50%. Teniendo en cuenta que el número de significados que tiene un término juega un gran papel en este modelo se definen dos índices difusos (fuzzy). Por una parte, se define el índice de polisemia de un término Ip, el cual refleja el grado de polisemia de un término t a partir del número de significados Nm(t) que tiene asociados. Si t es término fuerte (i.e. strong, con un solo significado) entonces Nm(t) = 1 y Ip(t) = 0, es decir que no es polisémico en absoluto. En la medida que t tenga asociados más significados, el índice de polisemia crece, acercándose al valor límite de 1. Por tanto, a mayor fuerza del término el índice da cero (0) y a mayor debilidad da uno (1).

mayor fuerza del término el índice da uno (1) y a mayor debilidad da cero (0). Al igual que en FIS-CRM, aún cuando un cierto término no aparezca en un documento se le puede adjudicar cierto grado de presencia a partir de los sinónimos del mismo que aparezcan en el documento. La idea básica de este enfoque es que, si en un documento aparecen repetidos varios términos que son sinónimos entre sí, el concepto que comparten dichos términos (i.e. mediante el cual son sinónimos) aparece reflejado de la misma manera. Para medir la presencia de un determinado concepto ci en un documento dj se tiene en cuenta el número de veces que aparecen en el documento cada uno de los términos que comparten dicho significado o concepto. La fórmula, según se plantea en [Soto et al, 2008], empleada para medir el grado de presencia de un concepto en un documento es:

M( t1 )( � M t2 ) S( t1 , t 2 ) = M( t1 )

(6)

C f

j

ti�T m

( = m)

ij

(8)

Donde T(m) representa el conjunto de términos que comparten el significado m, Nm(t) indica el número de significados del término t, nij indica el número de Teniendo en cuenta que esta interpretación puede re- ocurrencias del término ti en el documento D , n* es el j j sultar confusa para algunos, se introduce el índice de número total de términos en D . En el caso de los térmifortaleza de un término t como el inverso del índice an- nos polisémicos (i.e. con variosj significados) se elegirá terior: como interpretación del término, aquel significado que reciba un mayor peso, es decir que tenga mayor valor Cfj.

M( t1 )( � M t2 ) S( t1 , t 2 ) = M( t1 )

Definiremos Fi , j según la fórmula que aparece a continuación, el cual representa el factor o peso de la influencia (7) del término ti en función del número de significados o interpretaciones Nm(ti) que tenga.

De forma que si t es término fuerte (i.e. strong, con un solo significado) entonces Nm(t) = 1 y IF(t) = 1, es decir que alcanza la fortaleza máxima. En la medida que t tenga asociados más significados, Nm(t) crece y IF(t) decrece, acercándose al valor límite de 0. Por tanto, a

M( t1 )( � M t2 ) S( t1 , t 2 ) = M( t1 )

(9)

Octubre - Diciembre de 2010

1 � ÷ × ÷ N t ( ) m i � � n* j �

�()��n


14

Investigación

Modelos Difusos para la Recuperación de Información

Octubre - Diciembre de 2010

Por tanto, si en un documento Dj el termino ti no apa- Teniendo en cuenta que se requiere comparar los docurece, entonces ni ,j = 0 => Fij = 0. mentos entre sí y que los documentos hacen referencia a términos diferentes y, por tanto, a conceptos diferentes, Supongamos ahora que se tiene un documento Djdado, se requiere utilizar un vocabulario o diccionario base, el el cual consta de (n*j =) 320 términos, de los cuales cual supuestamente contiene todos los términos y conceptos requeridos. Si un término o concepto determinado del vocabulario no aparece en un documento dado, termino ni ,j Nm Fi , j su valor tf – idf se tomará igual a cero (0). car 20 5 20/5 = 4 automobile

15

2

15/2 = 7.5

auto

10

1

10/1 = 10

Al igual que se hizo con la métrica tf – idf, podemos representar cada documento mediante un vector de valores Cfjpara todos los significados o conceptos referenciados y los demás términos vinculados con car no aparecen en el mismo. Con estas nuevas fórmulas borrosas, el pro=> el Fij correspondiente es cero (0). Por tanto (ver ceso planteado en FIS-CRM se simplifica grandemente. Ilustración 3) Por otro lado, en FASPIR se utiliza el diccionario WordNet [Fellbaum 1998] como base de datos léxica para las Cfj(m3) = 1/n*j (4 + 7.5 + 10) = 1/320 (4 + 7.5 + 10) relaciones de sinonimia en lengua inglesa. = 21.5 / 320 6. Implementación del Modelo Propuesto

Mientras que Cfj(m1) = 1/n*j (4) = 1/320 (4) = 4 / 320 Suponiendo que en la consulta original Q aparece el termino t = car, los significados asociados a dicho término serán priorizados. Dado que los términos auto y automobile que son sinónimos de car según m3 y aparecen en el documento y los otros términos como góndola, railcar, etc no aparecen consideraremos el documento responde a la consulta realizada.

P

ara la implementación del modelo propuesto se partió de los modelos vectoriales anteriormente descritos. Teniendo en cuenta que los vectores que representan los documentos tienen gran cantidad de coeficientes nulos (valor cero), se determinó utilizar una implementación del tipo COO (Coordinate list, lista de coordenadas), la cual es el formato tradicional utilizado por el lenguaje MATLAB para el almacenamiento de matrices dispersas (sparse). El formato COO almacena una lista de triplos (fila, columna, valor) para representar los coeficientes de la matriz. En el caso que nos ocupa dichos triplos estarán formados por (término, documento, valor), los cuales estarán ordenados, primero según el término, lo cual facilita la búsqueda de un término en la lista, y después ordenados de mayor a menor según el valor.

Ilustración 3 Ejemplo relacionando palabras con significados


15

Investigación

Modelos Difusos para la Recuperación de Información

Para poder implementar el modelo basado en sinónimos, se requiere conocer el número de veces que aparece cada término en cada documento de acuerdo con la ecuación 5 vista anteriormente. Para ello se creó una tabla de índices invertida con entradas del tipo COO, como se explicó anteriormente, denominada Indexado1 (ver Ilustración 4). En dicha tabla se almacena para cada término el número de veces que aparece en cada documento y se agrega además un campo con el valor tf – idf correspondiente según la ecuación 3.

numérico que actúa como identificador único del término. La tabla de Palabras almacena todos los términos existentes en el vocabulario de WORDNET. En la versión 3 de este diccionario se ha almacenado un total de 155287 palabras incluyendo sustantivos, verbos, adverbios y adjetivos.

Por otra parte, la tabla de Documentos tiene un formato similar a la de Palabras, solo que se agregan dos campos más: uno que indica el número total de términos que tiene el documento y otro que indica el número total de En lugar de almacenar en la tabla de índices largas ca- conceptos del documento. denas de caracteres con los nombres de los ficheros y de los términos, se utilizaron códigos numéricos que, Para implementar el modelo basado en sinónimos se a manera de identificadores únicos o llaves externas requiere una tabla con los diferentes significados o con(external keywords), permiten identificar de manera ceptos aceptados para cada uno de los términos del vobiunívoca cada término y cada documento. Para ello se cabulario, la cual se denominó Glosario. Dicha tabla alimplementó una tabla de Documentos y una tabla lexi- macenatodoslosconceptosexistentesenelvocabulario cográfica o tabla de Palabras (ver Ilustración 3). WORDNET, para un total de 166422 conceptos difeEn la tabla lexicográfica se tiene una entrada por cada rentes. Igual que en la tabla Palabras, a cada concepto se término aceptado, donde se almacena la cadena de car- le agregó un identificador numérico. acteres que conforma el término, así como un campo 2

MATLAB at MathWorks http://www.mathworks.com/products/matlab/

Octubre - Diciembre de 2010

Ilustración 4 Estructura relacional de la tabla de índice.


16

Octubre - Diciembre de 2010

Investigación

Modelos Difusos para la Recuperación de Información

La siguiente tabla que se requirió para implementar el modelo basado en sinónimos es la tabla de Sinónimos, la cual indica, por medio de los correspondientes identificadores únicos, qué palabra está relacionada con cuál concepto. Lógicamente, una misma palabra puede aparecer repetida varias veces en dicha tabla, tantas como significados diferentes tenga.Y viceversa, un concepto o significado puede aparecer repetido varias veces, tantas como sinónimos compartan dicho significado.

tienden a considerarse como palabras diferentes. Lo mismo sucede con los sustantivos en plural y singular. Si tratamos de simplificar esto extrayendo la raíz de las palabras de acuerdo con el proceso de stemming, entonces las raíces obtenidas no corresponden con las palabras que aparecen en el diccionario. Y peor aún, palabras diferentes con significados diferentes, aunque cercanos, comparten la misma raíz, pero no los mismos conceptos.

La tabla de índices denominada Indexado2 tiene una estructura similar a la tabla Indexado1, solo que en Indexado2 se almacenan conceptos en lugar de palabras, así como el documento en el cual aparecen reflejados dichos conceptos, el número de veces que aparece cada concepto y la frecuencia del mismo.

4. Contabilizar palabras. Una vez hecho lo anterior, ya se puede contabilizar cada una de las palabras del documento, así como saber cuantas palabras tiene el mismo en total.

1. Remover las palabras que no aporten significado. Para ello se investigó qué palabras podían considerarse en estacategoría,encontrandoquelasinterjecciones,preposiciones, pronombres, artículos, etc. debían ser excluidas del tratamiento posterior por su extremado uso. En el algoritmo que se diseño para identificar y contabilizar las palabras en los textos, se hizo un modulo que excluyera dichas palabras, atendiendo así al esquema de TFIDF en cuanto a eliminar las palabras que virtualmente ocurren en todos los documentos y que, por ende, son menos importantes.

6. Calcular la frecuencia de los conceptos Para calcular la frecuencia de cada concepto se requiere, para cada palabra que aparece en el documento, determinar cuáles conceptos tiene asociados. Luego para cada uno de dichos conceptos, se determina cuantas veces se repite en dicho documento, cada uno de los sinónimos asociados. De los múltiples conceptos asociados a una palabra se elije como concepto predominante en el documento, aquel que reciba mayor puntaje y a ese concepto se le asocia todo el grado de presencia del concepto determinado según la ecuación 5.

5. Calcular la frecuencia de las palabras Para calcular la frecuencia de cada palabra se divide el número de veces Para construir la tabla de Indexado1 se realizó un trata- que se repite entre el total de palabras que contenga el miento especial al texto contenido en los documentos, documento. Después de hacer todos estos cálculos, se el cual se describe a continuación: ingresan a la tabla de Indexado1.

2. Normalizar las palabras. Los signos de puntuación y 7. Resultados otros como los acentos pueden constituir un problema para la creación del índice. Muchas veces se encontraron e han implementado las estrategias de búsqueda palabras que parecieran idénticas, pero no lo eran por propuestas para la recuperación de información que unas tenían acentos y otras tenían otros signos que en una PC Pentium 4 utilizando la plataforma eran inservibles para el alcance del proyecto. Por ello el algoritmo, cada vez que se identifica una palabra, la nor- Java. Se procesaron 1998 documentos de la colección de CLEF, indexando un total de 352,640 palabras. Cada armaliza. chivo consta de varias partes, incluyendo identificador 3. Extraer la raíz de las palabras (Stemming): Este ha numérico, titulo, nombres de los autores y resumen. La sido uno de los aspectos más complicados de la imple- creación del indexado se realizó según lo descrito en la mentación, ya que muchas palabras como los verbos sección de implementación, y fue la que se utilizó para aparecen conjugadas en diferentes tiempos, por lo cual extraer las palabras de los documentos señalados.

S


17

Investigación

Modelos Difusos para la Recuperación de Información

En la primera columna de la Tabla 2 se muestran diez consultas de un total de 100, las cuales fueron realizadas con ayuda del sistema, el cual dio como resultado en cada caso una lista de documentos recuperados. Los valores de la columna Búsqueda por Término y Búsqueda por Sinónimo fueron calculados usando los métodos propuestos en la sección de implementación. Tabla 2 Valores recuperados en las pruebas realizadas Consultas América Film

BúsquedaporSinónimo BúsquedaporSinónimo 97 655 74 94 264

609

information

126

156

engineering

47

87

genetic

7

23

economic

101

112

computer

43

44

automobile

2

181

music

110

146

phone

46

110

3. En el 38% restante, Cardinal de CBS(P) = Cardinal de CBT(P) ambos métodos coincidieron 4. Es de destacar que, a. en ningún caso, Cardinal de CBS(P) < Cardinal de CBT(P), el método basado en términos sobre pasó al basado en sinónimos. b. en todos los caso, CBT(P) CBS(P), el método basado en los sinónimos recupera, al menos, los mismos documentos que recupera el método basado en los términos más otros más

8. Conclusiones

Si denotamos

E

n el presente trabajo se presentan los resultados obtenidos hasta el momento en la evaluación de un método que busca medir la presencia de losaspectosconceptualesexistentesenlosdocumentos • CBS(P): conjunto de documentos recuperados medi- mediante la sinonimia, dado que los conjuntos de térante el método de búsqueda por sinónimos a partir de minos sinónimos tienen asociado un significado o concepto determinado. En el trabajo se parte de la premisa una consulta sobre la palabra P siguiente: si, en un mismo documento, se hace referenDel análisis de los resultados obtenidos de los 100 ex- cia a varios términos que son sinónimos entre sí, dichos términos comparten un mismo significado o concepto, perimentos se concluyó que: entonces es probable que el documento trate o esté rela1. Cardinal de CBS(P) ≥ Cardinal de CBT(P) para cionado con dicho concepto. todas las palabras con las que se experimentó, es decir que, la cantidad de documentos recuperados mediante Como parte del trabajo se han implementado tanto el el método de búsqueda por sinónimos (BS) siempre fue método basado en términos tradicional, el cual se basa mayor o igual que la cantidad obtenida por el método en la métrica TF – IDF y el método basado en sinónimos, cuya implementación se describe brevemente en basado en términos (BT). las secciones anteriores. Se llevó a cabo la creación de la tabla de índices por términos y por sinónimos con parte de la colección CLEF, así como la implementación de • CBT(P): conjunto de documentos recuperados mediante el método de búsqueda por término a partir de una consulta sobre la palabra P

Octubre - Diciembre de 2010

businnes

2. En el 62% de los casos, es decir en la mayoría de los casos, Cardinal de CBS(P) > Cardinal de CBT(P), es decir que, la cantidad de documentos recuperados mediante el método de búsqueda por sinónimos (BS) fue mayor que la cantidad obtenida por el método basado en términos (BT).


Investigación

la búsqueda por términos (BT) y por sinónimos (BS). Los resultados obtenidos con el método basado en sinónimos se han comparado con los resultados obtenidos mediante el método basado en la métrica TF – IDF, aplicados ambos a la colección CLEF. Los resultados muestran que, después de aplicar ambos métodos a 1998 documentos de la colección, indexando un total de 352,640 palabras, en todos los experimentos realizados:

Octubre - Diciembre de 2010

1) el método basado en sinónimos recuperó, en todos los experimentos realizados, al menos los mismos documentosquerecuperaelmétodobasadoenfrecuenciade términos y, en general, otros más. 2) en 62% de los casos el método basado en sinónimos recuperó mayor cantidad de documentos que el basado en frecuencia de términos. Aunque el método propuesto aun se encuentra en fase de experimentación los resultados son bastante alentadores y promisorios hasta el momento. En el futuro inmediato se prevé aplicar ambos métodos a toda la colección CLEF y experimentar con otras colecciones como Reuters. Posteriormente se pretende probar otros mecanismos de recuperación basados en conceptos.

18 Modelos Difusos para la Recuperación de Información


19 Modelos Difusos para la Recuperación de Información

Investigación

Referencias

Soto, A., Olivas, J.A. and Prieto, M.E., “Fuzzy Approach of Synonymy and Polysemy for Information Retrieval”, Granular Computing: at the Junction of Rough Sets and Fuzzy Sets, Studies in Fuzziness and Soft Computing, Volume 224/2008, 179-198, 2008.

Octubre - Diciembre de 2010

Baeza Yates, R., “Untangling the Skein” versión actualizada de Desenredando la madeja. NOVATICA, edición Especial 25 aniversario, 145, pags. 72-77, may.-jun. 2000. Baeza-Yates, R., Ribeiro Neto, B., “Modern Information Retrieval”, Addison-Wesley-Longman Publishers, ACM Press, New York, 1999. Blecua, J.M., “Diccionario Avanzado de Sinónimos y Antónimos de la Lengua Española”, Diccionarios de lengua española Vox, Barcelona, pp 647, 1997. Fellbaum, C., “WordNet: An Electronic Lexical Database”. Cambridge, MA: MIT Press, 1998. Fernandez, S., “Una contribución al procesamiento automático de la sinonimia utilizando Prolog”, Ph.D. thesis, Santiago de Compostela University, Spain, pp 358, 2001. Fernandez, S., Grana, J., Sobrino, A., “A Spanish e-dictionary of synonyms as a fuzzy tool for information retrieval”, In Actas de las I Jornadas de Tratamiento y Recuperación de Información, JOTRI 2002, León, Spain, 2002. Garcés, P.J., Olivas, J.A., Romero, F.P., “FIS-CRM: A Representation Model Based on Fuzzy Interrelations for Internet Search”, ICAI-02, pp 219-224, 2002. Manning, C.D., Raghavan, P., and Schütze, H., “Introduction to Information Retrieval”, Cambridge University Press, 2008. Miller, G.A., “WordNet: A Lexical Database for English”. Communications of the ACM Vol. 38, No. 11: 3941, 1995. Ricarte, I., Gomide, F., “A reference model for intelligent information search”. Proceedings of the BISC Int. Workshop on Fuzzy Logic and the Internet, pp 80-85, 2001 Olivas, J.A., Garces, P.J., Romero, F.P., “An application of the FIS-CRM model to the FISS metasearcher: Using fuzzy synonymy and fuzzy generality for representing concepts in documents”. Int. J. Approx. Reasoning 34, (2-3), pp 201-219, 2003.


20

Investigación

Estudio de variantes de Evolución Diferencial por cruza discreta y aritmética Study of differential evolution variants for discrete and arithmetic crossing

1

Pérez Rejón José Ángel1, Gómez Ramón Rubí del Carmen1, Canto Rodríguez Juan Carlos1, Pérez Crúz Damaris1 Universidad Autónoma del Carmen { japerez_73@hotmail.com, rubigomezramon@yahoo.com.mx, jcanto14@hotmail.com, dperez@ pampano.unacar.mx }

Artículo recibido el 11 de Junio del 2010

Octubre - Diciembre de 2010

L

RESUMEN

Artículo aceptado el 20 de Agosto del 2010

E

ABSTRACT

os algoritmos evolutivos se han convertido en una opción viable para resolver problemas complejos de búsqueda, principalmente problemas de optimización. La Evolución Diferencial (ED) es el algoritmo evolutivo mas reciente (propuesto en 1995) y ha demostrado tener un desempeño muy competitivo en problemas de optimización numérica. Con base en una revisión de la literatura especializada se ha notado que no se cuenta con estudios que permitan conocer cual(es) variante(s) de ED, en sus versiones originales, son más adecuadas para resolver problemas de optimización en espacios restringidos. La tendencia actual por parte de los investigadores es tomar una variante (sin un estudio previo) y modificarla agregando otros mecanismos y resolver problemas de prueba. En este trabajo se propone realizar un estudio para analizar el desempeño de variantes de ED en sus versiones originales en problemas de optimización con restricciones. Se contempla analizar cuatro variantes de ED para determinar cuáles proveen el mejor desempeño al resolver un conjunto de funciones de prueba.

volutionary algorithms have become a viable option for solving complex search problems, especially optimization problems. Differential Evolution (DE) is the recent evolutionary algorithm (proposed in 1995) and has demonstrated a very competitive performance in numerical optimization problems. Based on a review of the specialized literature has noted that not counted with studies which show that (s) variant (s) of DE, in their original versions, are more suitable for solving optimization problems constrained spaces.The present tendency by researchers is taking a variant (without a previus study) and modify it by adding other mechanisms and solving problems of test. This paper approach a study to analyze the performance of variants of ED in their original versions in constrained optimization problems. Is intended to analyze four variants of ED to determine which provide the best performance by solving a set of test functions.

Palabras Clave:Evolución Diferencial, variantes, funciones de prueba, parámetros de control y medidas estadísticas.

Keywords: Information Retrieval, TF – IDF, fuzzy model based on concepts, synonymy.

1. Introducción

otras encontradas en [3,9]. ED cuenta con un número de características importantes las cuales lo hacen atractivo para resolver problemas de optimización global, entre ellas se destacan las siguientes: tiene la capacidad de manejar funciones objetivo no diferenciables, no lineales y multimodales, suele converger al óptimo, utiliza pocos parámetros de control, etc. [5].

E

volución Diferencial (ED) es uno de los algoritmos evolutivos más recientes, nació en 1994 de los intentos de Price y Storn por resolver el problema polinomial Chebychev. Al siguiente año estos dos autores propusieron ED en [7] para la optimización de funciones no lineales y no diferenciables sobre espacios continuos. El algoritmo de ED es un método de búsqueda directa y estocástica, que ha demostrado ser efectivo, eficiente y robusto [7] en una gran variedad de aplicaciones como el aprendizaje de una red neuronal [2], diseño de un filtro-IIR [6], la optimización aerodinámica [8] y

2. Descripción del algoritmo de ED

E

l algoritmo de Evolución Diferencial maneja dos poblaciones diferentes dentro del proceso de optimización: la población primaria y una población secundaria. La primera almacena la población actual, que a su vez se genera al inicio de manera aleato-


21

EEstudio de variantes de Evolución Diferencial por cruza discreta y aritmética

ria, y la población secundaria almacena a los individuos que resultan exitosos en el proceso de selección. La representación gráfica de ambas poblaciones se muestra en la figura 1. Como primer paso del algoritmo de ED, se genera aleatoriamente la población inicial, donde los vectores están uniformemente distribuidos en el espacio de búsqueda dentro de los límites definidos. Una vez inicializada la población, ED utiliza la mutación y la recombinación para producir un solo vector hijo (trial) por cada vector de la población. Para la generación del vector hijo se requiere primero llevar a cabo el proceso de mutación, el cual consiste en: a) Seleccionar aleatoriamente tres vectores diferentes entre sí, b) Se restan dos de ellos, a la diferencia se aplica un peso dado por un factor “F” y por último d) Se suma la diferencia escalada al tercer vector; de esta manera se crea un vector llamado vector de mutación.

Investigación

selección es repetido hasta que llegue a un criterio de terminación especificado por el usuario, en este caso nos referimos al número máximo de generaciones (iteraciones) Gmax. 3. Variantes de ED

E

n la literatura especializada encontramos diferentes variantes de ED propuestas por Price y Storn, que dependen del tipo de problema al que se aplique. Entre ellas se destacan las siguientes: rand/1/bin, rand/1/exp, best/1/bin, best/1/exp, current-to-rand/1, current-to-best/1, current-to-rand/1/ bin y current-to-rand/1/exp [5].

Octubre - Diciembre de 2010

Estas variantes se distinguen por la manera que se lleva a cabo el proceso de mutación y de recombinación. Con la intención de brindar una descripción más clara de cada variante, en este trabajo se propone una clasificación de las variantes con respecto al tipo de recombinación La figura 2 muestra gráficamente el proceso de mu- (cruza) que utilizan: tación. El factor escalar FЄ[0,1] es un número real positivo que escala el vector de diferencia. La mutación en a) Recombinación discreta: consiste en copiar directaED es el principal mecanismo para generar nuevas direc- mente al vector hijo las variables de decisión del vector ciones de búsqueda. de mutación o del vector padre. Esta recombinación o cruza es utilizada por las siguientes variantes: rand/1/ Posteriormente, se hace la cruza o recombinación entre bin, rand/1/exp, best/1/bin y best/1/exp. el vector padre y el vector de mutación con el propósito de generar un vector hijo. Cr Є [0,1] controla la canti- La nomenclatura de estas cuatro variantes es la siguiendad de variables de decisión (parámetros) que se copian te DE/x/y/z, donde DE indica que estamos trabajando del vector de mutación al vector hijo. con el Algoritmo de Evolución Diferencial, “x” representa la forma en la que es elegido el vector base, que La cruza intercambia información entre los vectores puede ser aleatoriamente “rand” o aquel vector con el participantes con el propósito de buscar una mejor solu- mejor valor de la función objetivo en la generación acción en el espacio de búsqueda. tual “best”, “y” es el número de pares de vectores para el cálculo de las diferencias y finalmente “z” representa el Todos los vectores de la población serán seleccionados tipo de recombinación. sólo una vez como padre sin depender del valor de la función objetivo (valor de aptitud). Después de obtener A su vez la recombinación discreta se clasifica en dos el vector hijo, éste se evalúa en la función objetivo del tipos: binomial y exponencial. Si se utiliza la cruza binoproblema y se compara con el vector padre con base en mial (“bin”) las variables de decisión del vector de musu valor de la función objetivo, y el mejor pasa a for- tación son copiados en el vector hijo si el valor de randj mar parte a la población de la siguiente generación. Si el es menor al valor “Cr”, en caso contrario, se copian del vector padre todavía es mejor, éste es conservado en la vector padre, esta comparación se realiza para todas las siguiente generación. variables. En la cruza exponencial (“exp”) las variables En ED el proceso de mutación, de recombinación y de del vector de mutación se copian en el vector hijo mien-


Estudio de variantes de Evoluci贸n Diferencial por cruza discreta y aritm茅tica

Octubre - Diciembre de 2010

Investigaci贸n

Figura 1. Diagrama de la versi贸n original de ED.

22


23

EEstudio de variantes de Evolución Diferencial por cruza discreta y aritmética

tras que el valor de randj sea menor al valor del parámetro “Cr”, pero una vez que randj supere al valor de Cr, la variable actual y el resto de las variables se copian del vector padre. La figura 3 ilustra un ejemplo de la manera como opera la cruza binomial y la cruza exponencial.

Investigación

c) Las variantes current-to-rand/p/bin y la currentto-rand/p/exp manejan al mismo tiempo los dos tipos de recombinación descritos anteriormente (recombinación discreta y la aritmética).

De estas cuatro variantes, la rand/1/bin es la versión original del algoritmo de Evolución Diferencial y la más popular. b) Recombinación aritmética: genera al vector hijo mediante una combinación lineal entre el vector padre y el vector base, el cual puede ser elegido aleatoriamente “rand” o bien, aquel con el mejor valor de la función objetivo en la generación actual “best”. Para esta cruza no se usa el parámetro “Cr”. Las variantes current-to-rand y current-to-best utilizan este tipo de cruza. El término current indica que al vector actual también conocido como padre se le va sumar las diferencias escaladas. Además introducen un coeficiente real K Є[0,1] responsable del nivel de combinación que ocurre entre el vector padre (target) y el vector base. F es el responsable de escalar a los vectores de diferencias. Véase la figura 4. Octubre - Diciembre de 2010

Figura 2. Esquema del operador de mutación del algoritmo de Evolución Diferencial


Octubre - Diciembre de 2010

Investigación

Estudio de variantes de Evolución Diferencial por cruza discreta y aritmética

Figura 3. (a)Cruza binomial (b)Cruza exponencial asumiendo jrand=0

Figura 4. Esquema del proceso de mutación y de recombinación de la variante current-to-rand

24


25

4.

EEstudio de variantes de Evolución Diferencial por cruza discreta y aritmética

Estudio

Comparativo de ED

de

las

variantes

E

l estudio propuesto en este trabajo consta de la comparación de cuatro variantes de Evolución Diferencial empleando 24 funciones de pruebas para evaluar el desempeño de cada una de ellas y en términos de resultados estadísticos poder determinar cuáles son las que presenta un mejor desempeño general.

Para llevar a cabo las pruebas se fijó el número total de evaluaciones de la función objetivo a 500,040. También se fijaron los valores de los parámetros NP, Gmax, F, Cr y K, los valores de dichos parámetros son mostrados en la tabla 1, se empleó un conjunto de funciones de prueba estándar encontradas en la literatura especializada (Véase en la siguiente sección) para evaluar el desempeño de las principales variantes de Evolución Diferencial. Por cada variante y función se efectuaron 30 corridas (cada corrida con diferente semilla inicial). Las restricciones de igualdad se transformaron en restricciones de desigualdad con una tolerancia de ε=0.0001 y para el manejo de restricciones se usaron las reglas de factibilidad introducida por Deb [1], las cuales son las siguientes: a) De dos soluciones factibles, se elige a la que tenga mejor valor de la función objetivo, b) De dos soluciones no factibles, se selecciona la que tenga la menor suma de violación de las restricciones, c) De dos soluciones, factible y no factible, se elige la solución factible

Tabla 1. Parámetros de control utilizado por el Algoritmo de ED Parámetros Np = Tamaño de la población Gmax = Número máximo de generaciones

Valor 90 5556

Cr = Probabilidad de Cruza

1.0

F = Factor escalar

0.9

K = Parámetro de la cruza aritmética

0.9

5. Funciones de prueba

L

as 24 funciones de pruebas que se emplearon, propuestas en [4], tienen diferentes características tales como el tipo de función objetivo (lineal, no lineal, cuadrática, etc.), el tipo y número de restricciones (igualdad y desigualdad), así como también el número de variables de decisión del problema. En la tabla 2 se muestran a detalle las características de cada una de las funciones. Octubre - Diciembre de 2010

Las variantes de ED consideradas para la primera fase son: rand/1/bin, best/1/bin, current-to-rand/1 y por último current-to-best/1. Se omitieron las variantes rand/1/exp y best/1/exp porque, para eliminar la influencia de parámetros contemplados en este estudio se decidió fijar el valor de Cr a 1,0 lo que ocasiona que la variante rand/1/exp opere equivalentemente como la rand/1/bin, esto ocurre igual con la best/1/exp. También se eliminaron las dos últimas variantes (currentto-rand/1/bin y current-to-rand/exp), pues se consideró como elemento de comparación a las variantes que manejan un solo tipo de recombinación y ellas combinan los dos tipos de cruza en un solo operador.

Investigación


Investigación

26

Estudio de variantes de Evolución Diferencial por cruza discreta y aritmética

Octubre - Diciembre de 2010

Tabla 2. Funciones encontradas en la literatura especializada, n es el número de variables de decisión, p = |F|/|S| es el radio estimado entre la región factible y el espacio de búsqueda, es DL es el número de restricciones de desigualdad lineal, DN número de restricciones de desigualdad no lineal, IL número de restricciones de igualdad lineal, LN número de restricciones de igualdad no lineal, a es el número de restricciones activas en el valor óptimo global

4 2 10

Tipo de función cuadrática no lineal polinomial cuadrática cúbica cúbica cuadrática

p 0.0111 % 99.9971 % 0.0000 % 52.1230 % 0.0000 % 0.0066 % 0.0003 %

DL 9 0 0 0 2 0 3

DN 0 2 0 6 0 2 5

IL 0 0 0 0 0 0 0

IN 0 0 1 2 3 0 0

α 6 1 1 2 3 2 6

2 7 8 2 3 5 10 3 5 6 9 15 24 7 22 9 2

no lineal polinomial lineal cuadrática cuadrática no lineal no lineal cuadrática no lineal no lineal cuadrática no lineal lineal lineal lineal lineal lineal

0.8560 % 0.5121 % 0.0010 % 0.000 % 4.7713 % 0.0000 % 0.0000 % 0.0000 % 0.0204 % 0.0000 % 0.0000 % 33.4761 % 0.0000 % 0.0000 % 0.0000 % 0.0000 % 79.6556 %

0 0 3 0 0 0 0 0 4 0 0 0 0 0 0 0 0

2 4 3 0 1 0 0 0 34 0 13 5 6 1 1 2 2

0 0 0 0 0 0 3 1 0 0 0 0 2 0 8 3 0

0 0 0 1 0 3 0 1 0 4 0 0 12 5 11 1 0

0 2 6 1 0 3 3 2 4 4 6 0 16 6 19 6 2

Función

n

g01

13

g02

20

g03

10

g04

5

g05 g06 g07 g08 g09 g10 g11 g12 g13 g14 g15 g16 g17 g18 g19 g20 g21 g22 g23 g24

A

6. Resultados y análisis

los resultados obtenidos de las 30 corridas por cada variante-problema se aplicaron medidas estadísticas para determinar cuál variante alcanza de manera consistente el óptimo en la mayor cantidad de problemas.Las medidas estadísticas que se emplearon son: el mejor (indica la mejor solución encontrada), el peor (la peor solución encontrada), la media, la mediana y la desviación estándar. (Véase la tabla 3). En la tabla 3 se observa que para la función g01 las variantes rand/1/bin y current-to-rand llegan al óptimo

global. En la función g02 todas las variantes proporcionan soluciones factibles pero las variantes rand/1/bin y current-to-rand/1 son las únicas que llegan a la solución óptima, en g03 también todas las variantes generan soluciones factibles, pero la que llegó a la solución óptima es la variante best/1/bin, en g04 todas llegaron al valor óptimo, en g05 solo se aproximan a la solución óptima las variantes rand/1/bin y current-to-rand. En g06, la variante current-to-best/1 se aproxima al óptimo en la mayoría de las corridas. Sin embargo, el resto de las variantes llegan a converger al óptimo en las treinta corridas (cuando el valor de la desviación estándar es 0).


27

EEstudio de variantes de Evoluciรณn Diferencial por cruza discreta y aritmรฉtica

Para las funciones g07, g08, g09, g10, g11 y g12 todas las variantes llegan a la soluciรณn รณptima de manera muy consistente y en la funciรณn g07 todas llegan a converger al รณptimo en las 30 corridas (Desviaciรณn estรกndar de 0) se observa en la tabla 4. Se observa en la tabla 5 que para la funciรณn g13 la current-to-rand/1 no llegรณ al รณptimo pero en cambio el resto si logrรณ alcanzarlo, en g14 nada mรกs las variantes rand/1/bin y current-to-rand/1 llegan al รณptimo, en

Investigaciรณn

g15 y g16 todas las variantes llegan alcanzar el รณptimo, en g17 la variante rand/1/bin es la que se aproxima mรกs al รณptimo y por รบltimo en g18 todas llegan a la soluciรณn รณptima. En g19 todas la variantes se aproximan al valor รณptimo, en g21 nada mรกs se aproximan al valor รณptimo las variantes rand/1/bin y current-to-rand/1, en g23 las variantes rand/1/bin y current-to-rand/1 llegan al รณptimo y en g24 todas llegan al รณptimo de manera consistente.

Octubre - Diciembre de 2010


Investigación

Estudio de variantes de Evolución Diferencial por cruza discreta y aritmética

28

Tabla 3. Resultados estadísticos correspondientes a las 30 ejecuciones de cada variante para las funciones g01, g02, g03, g04, g05 y g06. El valor remarcado en negritas indica el valor óptimo global es decir la mejor solución conocida y las celdas que contienen un guión horizontal indican que no se logró obtener soluciones factibles en las 30 corridas.

Funciones

Octubre - Diciembre de 2010

g01

g02

g03

g04

g05

g06

Rand/1/bin

Medidas Best/1/bin

Current-to-rand/1

Current-tobest/1

Óptimo

-15

-15

-15

-15

Mejor

-15

-

15

-

Peor Media

-14.999951 -14.9999946

-

-14.999998 -14.9999996

-

mediana

-14.999998

-

-15

-

Desv. estándar

9.97 E.06

-

7.28 E.07

-

Óptimo

0.803619

0.803619

0.803619

0.803619

Mejor

0.803608

0.751132

0.803618

0.773191

Peor

0.714626

0.28762

0.746902

0.540258

Media

0.77291897

0.61232043

0.79236963

0.6772676

mediana

0.784534

0.612947

0.79274

0.704288

Desv. estándar

0.02861662

0.08491737

0.01252134

0.06767884

Óptimo Mejor

1 0.40623

1 1

1 0.400828

1 1

Peor

0.007327

0.825392

0.000013

0.702469

Media

0.148079

0.99077

0.0547435

0.98630805

mediana

0.121313

1

0.015214

1

Desv. estándar

0.11822676

0.04127291

0.08591928

0.0650357

Óptimo Mejor

-30665.539 -30665.5387

-30665.539 -30665.5387

-30665.539 -30665.5387

-30665.539 -30665.5387

Peor Media

-30665.5387 -30665.5387

-30665.5387 -30665.5387

-30665.5387 -30665.5387

-30665.5387 -30665.5387

mediana

-30665.5387

-30665.5387

-30665.5387

-30665.5387

Desv. estándar

2.22 E-11

2.22 E-11

2.22 E-11

2.22 E-11

Óptimo

5126.4981

5126.4981

5126.4981

5126.4981

Mejor

5126.49671

-

5126.49671

-

Peor

5126.49671

-

5300.25062

-

Media

5126.49671

-

5136.50715

-

mediana

5126.49671

-

5126.49671

-

Desv. estándar

1.85 E-12

-

36.3450352

-

Óptimo Mejor

-6961.81388 -6961.81388

-6961.81388 -6961.81388

-6961.81388 -6961.81388

-6961.81388 -6961.81388

Peor

-6961.81388

-6961.81388

-6961.81388

-4898.64301

Media

-6961.81388

-6961.81388

-6961.81388

-6961.81388

mediana

-6961.81388

-6961.81388

-6961.81388

-6961.81388

Desv. estándar

0

0

0

568.149718


29

EEstudio de variantes de Evolución Diferencial por cruza discreta y aritmética

Investigación

Tabla 4. Resultados estadísticos correspondientes de 30 ejecuciones de cada variante para las funciones g07, g08, g09, g10, g11 y g12. El valor remarcado en negritas indica el valor óptimo global es decir la mejor solución conocida y las celdas que contienen un guión horizontal indican que no se logró obtener soluciones factibles en las 30 corridas.

Funciones

g07

g08

g10

g11

g12

Current-to-rand/1

Current-tobest/1

Óptimo

24.306

24.306

24.306

24.306

Mejor

24.306

24.306

24.306

24.306

Peor Media

24.306 24.306

24.306 24.306

24.306 24.306

24.306 24.306

mediana

24.306

24.306

24.306

24.306

Desv. estándar

0

0

0

0

Óptimo

0.096

0.096

0.096

0.096

Mejor

0.096

0.096

0.096

0.096

Peor

0.096

0.096

0.096

0.096

Media

0.096

0.096

0.096

0.096

mediana

0.096

0.096

0.096

0.096

Desv. estándar

4.230 E-17

4.230 E-17

4.230 E-17

4.230 E-17

Óptimo Mejor

680.630 680.630

680.630 680.630

680.630 680.630

680.630 680.630

Peor

680.630

680.630

680.630

680.630

Media

680.630

680.630

680.630

680.630

mediana

680.630

680.630

680.630

680.630

Desv. estándar

1.160 E-13

1.160 E-13

1.160 E-13

1.160 E-13

Óptimo Mejor

7049.331 7049.331

7049.331 7049.331

7049.331 7049.331

7049.331 7049.331

Peor Media

7049.331 7049.331

7049.331 7049.331

7049.331 7049.331

7049.331 7049.331

mediana

7049.331

7049.331

7049.331

7049.331

Desv. estándar

4.630 E-12

0.000 E+00

4.630 E-12

1.890 E-12

Óptimo

0.750

0.750

0.750

0.750

Mejor

0.750

0.750

0.750

0.750

Peor

0.750

0.750

0.750

0.750

Media

0.750

0.750

0.750

0.750

mediana

0.750

0.750

0.750

0.750

Desv. estándar

1.130 E-16

1.130 E-16

6.573 E-02

8.228 E-02

Óptimo Mejor

1 1

1 1

1 1

1 1

Peor

0.990

1

0.990

0.993

Media

0.995

1

0.998

1

mediana

0.993

1

1

1

Desv. estándar

3.864 E-03

1.580 E-06

3.364 E-03

1.205 E-03

Octubre - Diciembre de 2010

g09

Rand/1/bin

Medidas Best/1/bin


Investigación

Estudio de variantes de Evolución Diferencial por cruza discreta y aritmética

30

Tabla 5. Resultados estadísticos correspondientes de 30 ejecuciones de cada variante para las funciones g13, g14, g15, g16, g17 y g18. El valor remarcado en negritas indica el valor óptimo global es decir la mejor solución conocida y las celdas que contienen un guión horizontal indican que no se logró obtener soluciones factibles en las 30 corridas.

Funciones

Octubre - Diciembre de 2010

g13

g14

g15

g16

g17

g18

Rand/1/bin

Medidas Best/1/bin

Current-to-rand/1

Current-tobest/1

Óptimo Mejor

0.054 0.054

0.054 0.054

0.054 0.441

0.054 0.054

Peor Media

0.439 0.239

0.054 0.054

1 0.929

0.955 0.141

mediana

0.439

0.054

0.980

0.054

Desv. estándar

1.816 E-01

1.331 E-01

1.469 E-01

2.101 E-01

Óptimo

-47.751

-47.751

-47.751

-47.751

Mejor

-17.765

-

-17.765

-

Peor

-17.765

-

-17.765

-

Media

-17.765

-

-17.765

-

mediana

-17.765

-

-17.765

-

Desv. estándar

7.230 E-15

-

7.230 E-15

-

Óptimo Mejor

961.715 961.715

961.715 961.715

961.715 961.715

961.715 961.715

Peor

961.715

961.715

961.715

961.715

Media

961.715

961.715

963.621

961.715

mediana

961.715

961.715

961.876

961.715

Desv. estándar

2.310 E-13

2.310 E-13

4.069 E-01

2.310 E-13

Óptimo Mejor

1.905 1.915

1.905 1.915

1.905 1.915

1.905 1.915

Peor Media

1.915 1.915

1.915 1.915

1.915 1.915

1.915 1.915

mediana

1.915

1.915

1.915

1.915

Desv. estándar

9.030 E-16

9.030 E-16

9.030 E-16

9.030 E-16

Óptimo

8853.539

8853.539

8853.539

8853.539

Mejor

8927.589

8853.540

8927.598

8853.540

Peor

8939.130

8853.540

8942.875

8853.540

Media

8910.085

8853.540

8916.104

8853.540

mediana

8927.598

8853.540

8928.683

8853.540

Desv. estándar

3.475 E+01

5.550 E-12

3.190 E+01

5.550 E-12

Óptimo Mejor

0.866 0.853

0.866 0.851

0.866 0.853

0.866 0.853

Peor

0.853

0.855

0.853

0.853

Media

0.853

0.853

0.853

0.853

mediana

0.853

0.855

0.853

0.853

Desv. estándar

1.830 E-07

2.516 E-04

7.140 E-06

1.710 E-06


31

EEstudio de variantes de Evolución Diferencial por cruza discreta y aritmética

Investigación

Tabla 6. Resultados estadísticos correspondientes de 30 ejecuciones de cada variante para las funciones g19, g20, g21, g22, g23 y g24. El valor remarcado en negritas indica el valor óptimo global es decir la mejor solución conocida y las celdas que contienen un guión horizontal indican que no se logró obtener soluciones factibles en las 30 corridas.

Funciones

g19

g20

g22

g23

g24

Current-to-rand/1

Current-tobest/1

Óptimo Mejor

-32.386 -29.879

-32.386 -29.842

-32.386 -29.850

-32.386 -29.842

Peor Media

-29.846 -29.855

-29.842 -29.842

-29.844 -29.845

-29.842 -29.842

mediana

-29.855

-29.842

-29.845

-29.842

Desv. estándar

6.930 E-03

1.799 E-02

1.476 E-03

3.610 E-15

Óptimo

0.0967

0.0967

0.0967

0.0967

Mejor

-

-

-

-

Peor

-

-

-

-

Media

-

-

-

-

mediana

-

-

-

-

Desv. estándar

-

-

-

-

Óptimo Mejor

193.778 193.725

193.778 -

193.778 193.725

193.778 -

Peor

324.703

-

324.703

-

Media

237.384

-

215.554

-

mediana

193.725

-

193.725

-

Desv. estándar

6.280 E+01

-

4.965 E+01

-

Óptimo Mejor

12812.5 -

12812.5 -

12812.5 -

12812.5 -

Peor Media

-

-

-

-

mediana

-

-

-

-

Desv. estándar

-

-

-

-

Óptimo

-400.055

-400.055

-400.055

-400.055

Mejor

-400.055

-

-400.055

-

Peor

-399.864

-

-364.927

-

Media

-400.047

-

-397.579

-

mediana

-400.054

-

-400.048

-

Desv. estándar

3.474 E-02

-

7.716 E+00

-

Óptimo Mejor

-5.508 -5.508

-5.508 -5.508

-5.508 -5.508

-5.508 -5.508

Peor

-5.508

-5.508

-5.508

-5.508

Media

-5.508

-5.508

-5.508

-5.508

mediana

-5.508

-5.508

-5.508

-5.508

Desv. estándar

2.710 E-15

2.710 E-15

2.710 E-15

2.710 E-15

Octubre - Diciembre de 2010

g21

Rand/1/bin

Medidas Best/1/bin


Investigación

Octubre - Diciembre de 2010

L

Estudio de variantes de Evolución Diferencial por cruza discreta y aritmética

7. Discusión de resultados 6 Resultados y análisis

32

antes a la rotación) y current-to-rand/1 (invariante a la rotación).

a variante rand/1/bin llegó al óptimo en 14 fun- Como trabajos futuros se tienen los siguientes: ciones (Véase la tabla 7). En dos funciones (g06 y g07) obtuvo valor cero en la desviación están- • Analizar el funcionamiento de las variantes que tuvieron en este trabajo un mejor desempeño en probdar. Presentó valores menores de desviaciones estándar lemas con restricciones, con respecto a los parámeten 5 funciones (g03, g05, g11, g18 y g23). La variante ros F y Np. best/1/bin llegó a soluciones óptimas en 12 funciones. • Comparar las variantes de ED en problemas del En las funciones g06 y g07 obtuvo en la desviación esmundo real. tándar un valor de cero. • Estudiar el efecto de incrementar el número de pares de vectores de diferencias en las variantes de ED. Presento en 4 funciones valores menores de desviaciones estándar (g10, g12, g13 y g19). La variante currentto-rand/1 logró en 13 funciones llegar al óptimo. Presentó valores menores en la desviación estándar en 5 funciones (g01, g02, g17, g19 y g21) y en dos funciones obtuvo valor cero en la desviación estándar (g06 y g07). La variante current-to-best/1 en 12 funciones llegó al valor óptimo. Nada más en la función g07 obtuvo valor cero en la desviación estándar. Con base a las discusiones, se concluye que las variantes rand/1/bin (cruza discreta) y current-to-rand/1 con cruza aritmética son las que proporcionan con mayor regularidad en las 30 corridas soluciones factibles, óptimas o cercanas al óptimo a los problemas, excepto en g20 y g22. Esto quiere decir que las variantes “rand” parecen tener mejor desempeño que las “best” en problemas con restricciones.

8. Conclusiones y trabajos futuros 6 Resultados y análisis

C

on base en los resultados obtenidos se concluye lo siguiente: Las variantes “rand” son mejores que las variantes “best”, debido a que las variantes “rand” generan direcciones de búsqueda de individuos escogidos aleatoriamente; entonces los resultadossugieren quees más convenientegenerardiversas direcciones desde diferentes puntos del espacio de búsqueda que desde el mejor individuo para el aso de espacios restringidos. Por lo tanto, resultaron ser mejores las variantes rand/1/bin, rand/1/exp (vari-


33

EEstudio de variantes de Evoluci贸n Diferencial por cruza discreta y aritm茅tica

Investigaci贸n

Referencias

Octubre - Diciembre de 2010

1. Kalyanmoy Deb. An Efficient Constraint Handling Method for Genetic Algorithms. Computer Methods in Applied Mechanics and Engineering, 186(2/4):311338, 2000. 2. Ilonen J., Kamarainen J.K., and Lampinen J. Differential evolution training algorithm for feed-forward neural networks. In: Neural Processing Letters, 7:93-105, 2003. 3. Price K., Storn R., and Lampinen J. Differential Evolution - A Practical Approach to Global Optimization. Springer-Verlag, 2006. 4. J. J. Liang, T. P. Runarsson, E. Mezura Montes, M. Clerc, P. N. Suganthan, C. A. Coello Coello, and K. Deb. Problem definitions and evaluation criteria for the cec 2006 special session on constrained real-parameter optimization. [Online] Available:http://www.ntu.edu. sg/home/EPNsugan,20.8.2007, September 2006. 5. Kenneth V. Price. An Introduction to Differential Evolution. In David Corne, Marco Dorigo, and Fred Glover, editors, New Ideas in Optimization, pages 79108. Mc Graw-Hill, UK, 1999.


34

Investigación

Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales Analysis of Network Traffic Dynamics in Port 110 with Non Linear and Informational Techniques Ernesto Bautista-Thompson1, Carlos De la Cruz-Dorantes1, Gustavo Verduzco-Reyes1 y María Elena Morales-Cuellar1 1 Centro de Tecnologías de la Información, DES-DACI, Universidad Autónoma del Carmen, Avenida 56 Número 4, C.P. 24180 Ciudad del Carmen, Campeche, México {ebautista, cdelacruz, gverduzco}@pampano.unacar.mx, mare_17900@hotmail.com Artículo recibido el 10 de Junio del 2010

Octubre - Diciembre de 2010

L

RESUMEN

Artículo aceptado el 20 de Agosto del 2010

T

ABSTRACT

a aplicación de técnicas de monitoreo en tráfico de redes de computadoras es importante ya que nos permite detectar fallas tales como: el mal funcionamiento de una interfaz de red, la detección de intrusos, virus o software malicioso entre algunas de las problemáticas que pueden presentarse. Para lograr un buen monitoreo del tráfico, es importante entender la dinámica de una red e identificar los patrones característicos de posibles cuellos de botella en el tráfico de datos, fallas por intrusos no deseados en la red, entre otras situaciones que afectan el rendimiento de la misma. En el presente trabajo, mediante la aplicación de técnicas no lineales e informacionales, se caracterizaron las dinámicas para cuatro variables: tiempo de aceptación del servidor a conexión de cliente (ACK), tiempo de recepción y respuesta del servidor a la solicitud del cliente (SYN), tiempo inicial para el procesamiento de un paquete (IT) y longitud temporal de un paquete (DP); que corresponden al tráfico en el puerto 110 de la red LAN en la DESDACI de la UNACAR. Las técnicas aplicadas permitieron realizar un análisis desde una perspectiva de sistemas dinámicos no lineales (Densidad de la Serie y Embebido Constante), así como un análisis desde el punto de vista informacional con las técnicas de Autocorrelación, Entropía Condicional e Información Mutua siendo posible visualizar y analizar comportamientos locales y globales de estas variables características del tráfico en el puerto 110 (servicio de correo electrónico).

he application of techniques for monitoring the traffic in computer networks is important because allows the detection of failures such as: mal functioning of a network interface, intrusion detection, virus or malicious software among others problems that can occur. In order to achieve good traffic monitoring, is important to understand the dynamics of a network and identified the characteristic patterns of possible bottlenecks in data traffic, failures for non desired intruders on the network, among others situations that affect the performance of the network. In the present work, with the application of non linear and informational techniques, we characterized the dynamics of four variables: time of acceptance of server to client connection (ACK), time of reception and response of the server to the client request (SYN), initial time for processing of a package (IT), and temporal length of a package (DP); that corresponds to the traffic in the port 110 from the LAN network of the DES-DACI UNACAR. The applied techniques allowed an analysis from a perspective of non linear dynamical systems (Density of a Series, Constant Embedded), and also as an analysis from the informational point of view with the techniques of Autocorrelation, Conditional Entropy and Mutual Information; in this way was possible to visualize and analyze local and global behaviors for these variables that characterize the traffic in the port 110 (e-mail service).

Palabras Clave: Tráfico de Red, Monitoreo, Sistemas Dinámicos.

Keywords: Network Traffic, Monitoring, Dynamical Systems.

L

1. Introducción

as amplias infraestructuras de red actuales y los grandes volúmenes de información que viajan a través de ellas han propiciado el nacimiento de una nueva área de estudio cuya función primordial es la búsqueda de nuevas formas de gestionar, controlar o identificar hechos o eventos que alteran los patrones normales del funcionamiento de las redes. Por ello se

hace necesario el monitoreo permanente del tráfico de red mediante el uso de técnicas que ayuden a detectar fallas que pueden ser propiciadas por distintos factores tales como intrusos, virus, errores en las interfaces de red de los usuarios o software malicioso por mencionar algunos ejemplos[1]. Nuestro interés es explorar la utilidad de diferentes técnicas de análisis de señales, en particular aquellas utilizadas en el estudio de sistemas dinámicos no lineales, para el análisis, caracterización y


35 Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales

visualización de la dinámica del tráfico de redes. En el presente trabajo se hace un análisis con técnicas no lineales (Densidad de la Serie, Embebido Constante) e informacionales (Autocorrelación, Entropía Condicional, Información Mutua) de segmentos de datos de trafico de red producto del monitoreo del trafico generado para el puerto 110 de la red de la Universidad Autónoma del Carmen (UNACAR). En las siguientes secciones se explica la metodología experimental utilizada para la generación de los datos analizados, se describen los fundamentos y características de las técnicas empleadas para finalmente presentar los resultados y las conclusiones del trabajo. 2. Generación de los Datos sobre el Tráfico de Red

U

El “sniffer” para el puerto 110 estuvo activo durante 3 días para la recolección de los datos. Los datos generados fueron filtrados con un script en Perl (desplega2.pl) diseñado con el fin de eliminar los registros correspondientes a conexiones incompletas [3]. Con los datos filtrados se seleccionaron cuatro variables a las cuales se les aplicaron una serie de técnicas que caracterizan el comportamiento de las variables en base a propiedades de no linealidad e informacionales dichas propiedades se describen en la Tabla 1. De esta forma se obtuvieron

dos conjuntos de datos a partir de las cuatro variables seleccionadas, los datos obtenidos directamente del monitoreo de la red y los datos obtenidos a partir de las propiedades no lineales e informacionales de estas mismas variables [4].

Tabla 1. Descripción de propiedades no lineales e informacionales obtenidas para las variables ACK, SYN, IT y DP.realizadas Consultas BúsquedaporSinónimo Búsqueda por Sinónimo DTS Densidad de la Serie Calcula densidad local en espacio de estado de la serie de tiempo EMB Embebido ConReconstrucción de la dinámistante ca de una serie de tiempo ACF Autocorrelación Búsqueda de patrones repetitivos dentro de una señal CCE Entropía Condicio- Relación funcional entre connal juntos de datos AIM Información Mutua Información compartida entre conjuntos de datos

Del primer conjunto de datos, se seleccionaron los datos correspondientes a la evolución de las variables ACK, SYN, IT y DP, la Fig. 1 muestra un aspecto de uno de los archivos con los datos de entrada que fueron analizados.

Figura 1. Vista de los datos monitoreados correspondientes a las variables ACK y SYN

Octubre - Diciembre de 2010

n conjunto de datos del tráfico de red correspondientes al Puerto 110 (E-mail) fueron generados en base al monitoreo de la red LAN de la DES-DACI de la Universidad Autónoma del Carmen (UNACAR), esta red posee una topología de tipo estrella. El monitoreo del puerto fue realizado con la herramienta de software tcpdump en combinación con un script en Perl llamado gdumps.pl utilizado en la configuración de los parámetros iniciales de cada sesión de monitoreo, las variables que fueron monitoreadas son: dirección IP del servidor, dirección IP del cliente, número de paquetes procesados por el servidor y por el cliente, tamaño de los paquetes procesados por el servidor y por el cliente, tiempo de aceptación del servidor a conexión de cliente (ACK), tiempo de recepción y respuesta del servidor a la solicitud del cliente (SYN), tiempo inicial para el procesamiento de un paquete (IT) y longitud temporal de un paquete (DP) [2].

Investigación


Investigación

Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales

E

señal o paquete de datos posee esto mediante el análisis de diferentes definiciones de entropía e información (técnicas informacionales). Las diferentes técnicas fueron aplicadas a las variables del tráfico de red mediante el software para análisis no lineal de señales NLyzer [9]. A continuación se describen las diferentes técnicas utilizadas en el presente trabajo de investigación.

Octubre - Diciembre de 2010

l segundo conjunto de datos corresponde a la serie de propiedades no lineales e informacionales que caracterizan el comportamiento dinámico de las variables ACK, SYN, IT y DP. Ejemplos de los resultados de la aplicación de estas técnicas se muestran en la Fig. 2.

36

Figura 1. Gráficas correspondientes a la propiedad informacional de Auto correlación (ver definición en tabla 1) obtenida a partir de la variable ACK y SYN.

3. Técnicas no Lineales e Informacionales

L

os sistemas no lineales son mucho más difíciles de analizar y a menudo presentan un fenómeno conocido como caos, con comportamientos totalmente impredecibles. Las técnicas de análisis no lineal consideran a los sistemas no lineales como sistemas caóticos capaces de producir un comportamiento irregular de los datos a partir de un sistema de ecuaciones deterministas. Este comportamiento irregular es interpretado como ruido por los métodos de análisis lineal (por ejemplo técnicas estadísticas). Las técnicas de análisis no lineal se pueden agrupar en las siguientes categorías: reconstrucción del espacio fase, dimensiones, exponentes de Lyapunov, análisis de recurrencia. [5, 6, 7]. La teoría de la información fundada a partir del trabajo de Claude E. Shannon sobre el análisis de errores en paquetes de datos en telecomunicaciones [8], permite cuantificar el contenido de información que una

3.1 Densidad de la Serie Calcula la densidad local en el espacio de estados de la serie de tiempo, al recorrer una trayectoria en dicho espacio. La construcción de atractores en el espacio de estados utilizando valores de retardo temporal (embebido) aplicados a la serie de tiempo, pueden utilizarse para extraer información de la dinámica del sistema que representa dicha serie de tiempo. Es de interés el obtener conocimiento de las dependencias temporales manifestadas en el espacio fase del sistema, una trayectoria del sistema visita regiones de diferente densidad de estados durante su evolución temporal. Estas densidades se aproximan numéricamente y se calculan como una función del tiempo [9]. 3.2 Embebido Constante Una serie de tiempo de múltiples dimensiones se puede construir a partir de una serie de tiempo de una dimensión por el método de los retardos temporales. La construcción de atractores en el espacio de estados es probablemente el método más común de análisis de


37 Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas

Investigación

No Lineales e Informacionales

series temporales no lineales [9]. Con el llamado procedimiento de embebido la dinámica del sistema que genera la serie de tiempo puede ser reconstruido. Los puntos de la trayectoria yacen en el atractor construido de la siguiente manera: (1)

Donde X (t) son los nuevos puntos de vectores, x (t) es un punto de muestreo de datos en el tiempo t, T es una constante de retardo de tiempo y n es la dimensión de embebido

(3)

Que es la probabilidad de un valor y dado el valor x. La dirección de la entropía condicional depende si cambia el sentido de x e y, y el valor calculado será diferente, lo que muestra cual flujo de datos es una función de otro 3.5 Información Mutua La información mutua I(X,Y) es la cantidad de información que se comparte entre dos conjuntos de datos. (4)

3.3 Autocorrelación

(2)

Donde P (X) y P(Y) son las probabilidades de medir un valor de datos X o Y, y P (X, Y) es la probabilidad de conjunto al medir X e Y al mismo tiempo. Un bajo valor de la información mutua muestra que existe muy poca información común entre los conjuntos de datos. Un valor normalizado 1 muestra que los conjuntos de datos son iguales. La auto información mutua (AIM) toma copias con retardo temporal de un conjunto de datos para la misma señal como el segundo conjunto a comparar (se puede ampliar a mayores dimensiones). El primer mínimo de la AIM es el valor preferido para la construcción de un atractor de series de tiempo, cuando uno está interesado en coordenadas independientes [9,10].

Donde X e Y son valores de la serie de tiempo o señal separados por un desplazamiento T, E es el valor esperado y σ es la desviación estándar. 3.4 Entropía Condicional La entropía condicional especifica la cantidad de información que es adquirida por la medición de una variable, (representativa de un conjunto de datos), y a sabiendas de otro conjunto de datos [9, 10]. Es muy útil si uno quiere saber si existe una relación funcional entre dos conjuntos de datos. Puede ser aproximada por conocer el número de vecinos más cercanos dentro de una distancia épsilon, su ecuación es:

4. Resultados e Interpretación

D

espués del análisis de los datos de trafico de red con los técnicas no lineales e informacionales se generaron una serie de graficas donde se encuentran los resultados de aplicar estas técnicas a las señales de ACK, SYN, IT y DP. En las graficas se muestran diferencias y similitudes entre las señales según sea la técnica con la que fue analizada la señal. A continuación se presentan como ejemplo los resultados obtenidos para la variable ACK tras aplicar las técnicas mencionadas.

Octubre - Diciembre de 2010

Podemos señalar que la auto correlación es una herramienta matemática utilizada en el procesamiento de señales, la cual se define como la correlación cruzada de la señal consigo misma. La función de auto correlación resulta de gran utilidad para encontrar patrones repetitivos dentro de una señal. En el procesamiento de señales dicha herramienta proporciona información sobre las periodicidades de la señal y sus frecuencias características [9, 10].


Investigación

Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales

38

4.3 Autocorrelación

En la Fig. 3, se muestra el comportamiento de la densidad de estados de la variable ACK en el espacio de estados de la serie, esto se muestra a lo largo de la evolución de la señal, en este caso se observan regiones de mayor densidad de estados y regiones de mínimos en la densidad de estados, lo anterior permite analizar la dinámica del comportamiento de la variable ACK, por ejemplo asociándolo con cambios en la actividad del tráfico correspondiente a ACK.

En la Autocorrelación se compara la señal con ella misma, es decir que cada dato es relacionado consigo mismo y con los demás datos que conformar la señal, el desplazamiento indica cada cuanto están correlacionados los datos en cuanto a su comportamiento. En la Fig. 5 se muestra un comportamiento similar de máximos de correlación aproximadamente cada 100 datos.

Octubre - Diciembre de 2010

4.1 Densidad de la Serie

Figura 3. Gráfica de Densidad de la Serie (ver definición en tabla 1), datos no muestreados ACK.

Fig. 5. Gráfica de Auto correlación (ver definición en tabla 1), datos no muestreados ACK.

4.2 Embebido Constante

4.4 Entropía Condicional

Muestra una proyección de la dinámica del sistema en el espacio fase, entre más pequeña la separación hay mas estados repetitivos, se dice que una señal es determinista solo cuando hay concentración de estados similares o repetitivos, como el caso que se muestra a continuación en la Fig. 4.

Usada frecuentemente en Telemática, nos dice la cantidad de información que se tiene en la variable, cuanta de la información está en buen estado y cuando fue dañada parte de ella. La interpretación de la gráfica es la siguiente: un valor de entropía condicional de cero indica que toda la información relativa a la señal está disponible, es el caso para un retardo de cero como se muestra en la Fig. 6, a mayor retardo es decir a mayor separación entre los datos, la entropía muestra máximos y mínimos, muy cerca del retardo con valor 10 se observa que la entropía tiene un valor de uno, esto indica que no hay información relacionada entre los datos con un retardo o separación de 10 unidades, y entonces se dice que son independientes entre sí.

Figura 4. Gráfica de Embebido Constante (ver definición en tabla 1) de los datos no muestreados ACK valor 3 en Dimensión y Tiempo.


39 Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales

Investigación

Fig. 6. Gráfica de Entropía Condicional (ver definición tabla 1) de datos ACK no muestreados.

Fig. 7. Gráfica de Información Mutua (ver definición en tabla 1), datos ACK no muestreados.

4.5 Información Mutua

4.6 Comparación de Propiedades de las Variables A lo largo de una señal se pueden presentar máximos y mínimos de información, este comportamiento nos muestra una dinámica compleja en cuanto a la relación de los datos, en la Fig. 7 se muestra un ejemplo de esto, dicha gráfica modela la cantidad de información mutua que comparten los datos, de una señal, espaciados por una escala.

Fig. 8. Comparación de patrones de la propiedad EMB (ver descripción en tabla 1) para las cuatro variables.

Octubre - Diciembre de 2010

A lo largo de una señal se pueden presentar máximos y mínimos de información, este comportamiento nos muestra una dinámica compleja en cuanto a la relación de los datos, en la Fig. 7 se muestra un ejemplo de esto, dicha gráfica modela la cantidad de información mutua que comparten los datos, de una señal, espaciados por una escala.


Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales

Investigación

40

Tabla 2. Comparación de las propiedades no lineales e informacionales obtenidas para las variables ACK, SYN, IT y DP. Propiedad

DTS

EMB

Octubre - Diciembre de 2010

ACF

Variable de Red ACK SYN IT DP Máximos y MínDominan Mínimos de Densidad de Dominan Máximos de Dominan Máximos de Densiimos de DensiEstados, Picos de Máximos de Densidad Densidad de Estados dad de Estados dad Estados de Estados Concentración Trayectorias muy Disper- Trayectorias Agrupadas cubren el Espa- Trayectorias Dispersas: Aleade Estados: Desas: Alta Aleatoriedad cio Fase: Complejidad toriedad terminismo Máximos de Distribución Uniforme de Comportamiento Decreciente de Cor- Máximos de Correlación cada Correlación Máximos de Correlación relación 50 Datos cada 100 Datos

CCE

Retardo 10 Máximo: Máxima Independencia entre Datos

Retardo 7 Máximo: Máxima Independencia entre Datos

Retardo 9 Máximo: Máxima Independencia entre Datos

Retardo 3 Máximo: Máxima Independencia entre Datos

AIM

Oscilación de Máximos y Mínimos de Información

Fuerte Oscilación de Máximos y Mínimos de Información

Comportamiento Oscilatorio Decreciente de Información

Oscilación de Máximos y Mínimos de Información: Cuasi Periódico

5. Conclusiones

E

n este trabajo se analizo la dinámica de cuatro señales correspondientes a variables que caracterizan el trafico de red en el puerto 110 (servicio de correo electrónico), utilizando técnicas no lineales: Densidad de Serie, Embebido Constante; y técnicas informacionales: Autocorrelación, Entropía Condicional e Información Mutua. Estas técnicas además de complementarse nos proporcionan dos perspectivas la de sistemas dinámicos y la informacional. Las técnicas nos permiten identificar patrones dinámicos del tráfico en redes expresados en el comportamiento de las propiedades analizadas para las diferentes variables, en dos vertientes: global (patrones de las propiedades) y local (cambios observables al visualizar la evolución de una propiedad), la visualización de la evolución de las

propiedadespermitedetectarconductasanómalasosingulares que están asociadas a cambios ocurridos en el tráfico de red.


41 Análisis de la Dinámica del Tráfico de Red en el Puerto 110 con Técnicas No Lineales e Informacionales

Investigación

Referencias

Octubre - Diciembre de 2010

1. Bejtlich, R.: The Tao of Network Security Monitoring. Addison-Wesley, U.S.A. (2004) 2. García Avilés, O.: Análisis Comparativo con Técnicas No Lineales y Estadísticas, de Segmentos de Datos de Tráfico de Red, Tesis de Especialidad en Redes. Universidad Autónoma del Carmen, México (2007) 3. De la Cruz Dorantes, C. R.: Detección de Anormalidades en Redes LAN mediante la Implementación de un PCA, Tesis de Maestría en Informática. Universidad Autónoma del Carmen, México (2004) 4. Morales Cuellar, M. E.: Análisis de datos del puerto 110 con descomposición de señales y técnicas no lineales, Tesis de Ingeniería en Computación. Universidad Autónoma del Carmen, México (2010) 5. H. Kantz y T. Schreiber, Nonlinear Time Series Analysis, Cambridge University Press, Cambridge, 2000 6. R.M.A Urbach, Footprints of Chaos in the Markets, Financial Times- Prentice Hall, London, 2000 7. G.P. Williams, Chaos Theory Tamed, Josep Henry Press, Washington, 1997 8. C. E. Shannon, A Mathematical Theory of Communication, Bell System Technical Journal, Vol 27, pp 379423, 623-656, July, October, 1948 9. Institute of Applied Physics, NLyzer, Nonlinear Analysis in Real Time, TU Darmstadt, Germany 10. J.R. Pierce, an Introduction to Information Theory: Symbols, Signals and Noise, Dover Publications, New York, 1980


Sec ci贸n

Art铆culos Arbitrados

Resumen de Tesis


43

Resumen

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software Integration Framework of the Usability to Rational Unified Process Pérez Rejón José Ángel1, { japerez_73@hotmail.com, } Artículo recibido el 23 de Junio del 2010

P

RESUMEN

Artículo aceptado el 27 de Agosto del 2010

P

ABSTRACT

roposal of integration of the Usability in a development process of particular, as it is the Rational Unified Process (RUP). This integration part of the selection of techniques of Human Computer Interaction (HCI) that satisfies the requirements: is directed to a process centered in the user, to consider of form adapted to the users and his tasks, to allow the multidisciplinary knowledge, to contemplate an approach of iterative development, that are characteristics that distinguish to RUP. For the definition of the integration framework one worked in four steps: 1) analysis of the existing techniques of Usability, 2) analyses of the models of the Rational Unified Process, 3) comparison of the coincidences of the techniques of Usability and the models of the Rational Unified Process and 4) selection and classification of the techniques of Usability.

Palabras Clave: Usabilidad, Interacción Humano Computadora, Proceso Unificado de Desarrollo de Software, Ingeniería de Software.

Keywords: Usability, Human Computer Interaction, Rational Unified Process, Software Engineering.

1. Introducción

D

esde finales de los 60’s, la Ingeniería de Software (IS) ha venido cobrando paulatinamete una mayor relevancia dentro del mundo profesional del desarrollo de aplicaciones software. La IS, al igual que otras ingenierías, debe trabajar con elementos gerenciales y humanos, además de los elementos técnicos propios. Sin embargo, a diferencia de otras ingenierías, su producto, “el software”, es inmaterial. El Instituto de Ingenieros Eléctricos y Electrónicos (IEEE) define, el término software“como la suma total de losprogramasdecomputadora,procedimientos,reglas,ladocumentaciónasociadaylosdatosquepertenecenaunsistemade cómputo” [1]. El desarrollo de software no puede, por tanto, ser manejado y controlado como otros procesos

para productos físicos. El desarrollo de software es una actividad compleja por naturaleza. Los sistemas grandes son tan complejos que resulta delicado para cualquier individuo recordar los detalles de cada aspecto del proyecto, es decir, para su realización se debe trabajar en grupo, se necesitan técnicas más formales de especificación y diseño que permitan una comunicación más clara y menos ambigua entre los integrantes del equipo; es por ello, que debe documentarse apropiadamente cada etapa del proyecto y realizar pruebas exhaustivas, y es esencial una cuidadosa administración [2], ya que cada organización cuenta con su propio proceso de software, que puede estar explícitamente definido o no, y que los desarrolladores siguen con mayor o menor grado de constancia. El área de proceso de software sustenta que un proceso definido explícitamente y mejorado de forma continua logrará un mejor producto; es decir, defiende que el empleo de un

Octubre - Diciembre de 2010

ropuesta de integración de la Usabilidad en un proceso de desarrollo particular, como es el Proceso Unificado de Desarrollo de Software (RUP). Esta integración parte de la selección de técnicas de Interacción Humano Computadora (IHC) que cumplen con los requisitos de: estar dirigido a un proceso centrado en el usuario, considerar de forma adecuada a los usuarios y sus tareas, permitir el conocimiento multidisciplinar, contemplar un enfoque de desarrollo iterativo, que son características que distinguen a RUP. Para la definición del marco de integración se trabajó en cuatro pasos: 1) análisis de las técnicas de Usabilidad existentes, 2) análisis de los modelos del Proceso Unificado de Desarrollo Software, 3) comparación de las coincidencias de las técnicas de Usabilidad y los modelos del Proceso Unificado de Desarrollo Software y 4) selección y clasificación de las técnicas de Usabilidad.


Resumen

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Octubre - Diciembre de 2010

buen proceso de desarrollo conlleva a la obtención de un producto software de buena calidad. Si nos planteamos qué significa obtener un producto de buena calidad, podemos tomar la definición de Humphreydecalidaddesoftware:“alcanzarnivelesexcelentesde adecuación para el uso” [3] (según cita en [4]). Así, para evaluar la calidad del software es preciso comprender el propósito para el cual el sistema se va a usar; por tanto, la calidad no es una medida del software aislado, sino que es una medida que tiene en cuenta la relación entre el producto y su dominio de aplicación. En el software, en ocasiones no está definido con precisión el dominio en el que va a ser utilizado, construyéndose de esta forma sistemas software con un nivel de calidad insuficiente para el dominio de aplicación. El usuario es una parte esencial de tal dominio de aplicación, por lo que la Usabilidad es un componente básico de la calidad del software. Esta visión de la Usabilidad como atributo de calidad no es novedosa, puesto que, a pesar de que no existe un conjunto aceptado de atributos críticos de calidad software, la Usabilidad ha estado presente como atributo en descomposiciones de calidad del software desde los años 70’s [5] [6]. Por tanto, la Usabilidad se reconoce como atributo de calidad del software [9] [10] [11]. La Usabilidad permite que los costos y tiempos de desarrollo puedan ser reducidos evitando el sobre diseño y reduciendo el número de cambios posteriores requeridos en el producto. Además los sistemas que son fáciles deusarrequierenmenosentrenamiento,menossoporte para el usuario y menos mantenimiento. En concreto, los sistemas que mejor se ajustan a las necesidades del usuario mejoran la productividad y la calidad de las acciones y las decisiones. Los sistemas que no son fiables suponen pérdidas en los tiempos de manejo y no son explotados en su totalidad en la medida en que el usuario pierde interés en el manejo de las características avanzadas del sistema, que en algunos casos podrían no utilizarse nunca. Es por ello, que la Usabilidad debe ser considerada en todo momento, desde el inicio del proceso de desarrollo hasta las últimas acciones antes de liberar el sistema o servicio a los usuarios.

44

2 Propuesta

E

l objetivo de este trabajo es el Marco de Integración de la Usabilidad en el Proceso de Desarrollo de Software [7] y particularizarlo a un proceso especifico, el RUP [8]. La propuesta fue hecha en 4 pasos y no en 5 como Ferré [7], debido a que ésta propuesta está particularizado al RUP [8] y no es necesario las vistas. Por lo tanto, la propuesta se reduce a 4 pasos como se muestra en la Fig. 1: Analizar las técnicas del Marco de Integración de la Usabilidad en el Proceso de Desarrollo Software [7].


45

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Resumen

Figura 1. Técnicas del Marco de Integración de la Usabilidad al Proceso Unificado Racional de Desarrollo Software

eral, cercanía a la IS, grado de aportación de Usabilidad Analizar las técnicas del Marco de Integración de la Us- frente al esfuerzo, representatividad), para participar en su proceso de desarrollo de software. Siguiendo esta abilidad en el Proceso de Desarrollo Software [7]. metodología se determinó implementarlos en su forma original, además de agregar como criterios nuestros, que 2.1 Paso 2 las características de uso e implantación fuera similar a Analizar los modelos del RUP [8], desglosandolos y los modelos de RUP [8] permitiendo quedarnos con las profundizando en sus etapas, conocer que está dirigido técnicas que logren la integración a nuestra propuesta. por casos de uso, ser un proceso centrado en el usuario y ser iterativo, entre otros puntos como los flujos de tra- Para establecer la prioridad entre técnicas de una forma bajo, actividades, artefactos, roles, etc., además de ob- ordenada, se valoró cada técnica según un conjunto de servar diversos modelos que nos permitieran realizar la criterios que se describen a continuación. El valor asigcomparación con las técnicas de IHC, analizando car- nado a cada criterio para cada técnica se asocia en la acterísticas, criterios, así como similitudes en la imple- Tabla 1. mentación. Dentro del RUP [8], encontramos las siguientes coincidencias con respecto al proceso de desarrollo de software, como son: que algunos tienen nombres, car2.3 Paso 3 acterísticas, y realizan implementaciones similares, los Comparar las técnicas del Marco de Integración de la criterios permiten implementarlos en un proceso iteraUsabilidad en el Proceso de Desarrollo Software y las tivo, aplicabilidad en una gran variedad de proyectos, del RUP [8] para obtener las técnicas que coincidan. además de su cercanía a la IS (véase Tabla 2). Para esto se revisaron los criterios de eliminación de técnicas tomados en cuenta por Ferré [7] (participación de los usuarios, necesidad de formación, aplicabilidad gen2.1 Paso 1

Octubre - Diciembre de 2010


46

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Resumen

Octubre - Diciembre de 2010

Tabla 1. Características más destacadas de las técnicas del Proceso de Desarrollo de Software Técnica

P. U.

Necesidad de Formación

Aplicabilidad

Cercanía a la IS

Aportación / Esfuerzo

Representatividad

Val. Total

Card Sorting

Bajo

Alto

Medio

Alto

3

Muy útil

Casos de Uso Esenciales

No

Medio

Alto

Alto

Alto

1

Muy útil

Escenarios y Storyboards

Medio

Medio

Bajo

Alto

3

Muy útil

Especificaciones de Usabilidad

No

Medio

Medio

Medio

Alto

4

Muy útil

Inspecciones

No

Medio

Alto

Medio

Alto

4

Muy útil

Personas

No

Medio

Medio

Medio

Alto

3

Muy útil

Prototipos de Papel

Bajo

Alto

Alto

Alto

3

Muy útil

Retroalimentación del Usuario

Bajo

Alto

Alto

Alto

3

Muy útil

Cuestionarios, Entrevistas y Encuestas

Medio

Alto

Medio

Medio

3

Útil

Diagramas de Transición de Estados de la Interfaz

No

Bajo

Alto

Alto

Medio

2

Útil

Escenarios de Tareas

Medio

Medio

Medio

Alto

1

Útil

Guía de Estilo del Producto

No

Alto

Medio

Medio

Medio

1

Útil

HTA

No

Medio

Medio

Alto

Medio

1

Útil

Investigación Contextual

Alto

Medio

Medio

Alto

3

Útil

Mapa de Navegación

No

Medio

Alto

Alto

Medio

1

Útil

Mapa de Roles de Usuario

No

Bajo

Medio

Alto

Medio

1

Útil

Medición del Rendimiento

Medio

Medio

Medio

Medio

3

Útil

Modelo del Contenido de la Interfaz

No

Medio

Alto

Medio

Medio

1

Útil

Observación Etnográfica

No

Alto

Medio

Medio

Medio

2

Útil

Organización de la Ayuda según Casos de Uso

No

Medio

Medio

Alto

Medio

1

Útil

Perfiles de Usuario

No

Alto

Alto

Alto

Alto

5

Útil

Recorrido Cognitivo

No

Alto

Medio

Medio

Medio

4

Útil

Recorrido Pluralístico

Bajo

Medio

Medio

Medio

4

Útil

Registro del Uso

No

Alto

Medio

Alto

Medio

5

Útil


47

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Resumen

Tabla 2. Coincidencia de Técnicas Proceso unificado de desarrollo de software

Proceso de desarrollo de software (técnicas de Usabilidad)

Modelo de Casos de Uso del Negocio

Card Sorting,

Escenarios y Storyboards, Especificaciones de Usabilidad, HTA, Investigación Contextual, Observación Etnográfica, Personas Modelo del Dominio

Card Sorting,

Personas Diagrama de Casos de Uso

Casos de Uso Esenciales,

Escenarios de Tareas Casos de Uso (Roles)

Mapa de Roles de Usuario

Casos de Uso (Actores)

Perfiles de Usuario

Prototipos de Interfaz de Usuario

Card Sorting,

Inspecciones, Prototipos de Papel, Recorrido Cognitivo, Recorrido Pluralístico Diagramas de Estado

Diagrama de Transición de Estados de la Interfaz

Modelos del Diseño

Guía de Estilo del Producto,

Mapas de Navegación, Modelo del Contenido de la Interfaz Modelo de Análisis

Cuestionario, Entrevistas y Encuestas

Modelo de Pruebas

Organización de la Ayuda según Casos de Uso,

2.3.1 Características de las técnicas de Usabilidad con respecto a RUP • Card Sorting vs Modelo de Casos de Uso del Negocio: Card Sorting es una técnica participativa con necesidad de formación baja, y sencilla de aplicar. Permite conocer el mapa mental del usuario acerca del dominio de aplicación. Proporciona una mejora de la Usabilidad frente

al esfuerzo invertido. Resulta útil cuando se dispone ya de una información sobre el dominio. Ayuda al Modelo de Casos de Uso del Negocio, al permitir comprender la lógica que maneja el usuario, obteniéndose una representación estructurada de la información, ayuda como herramienta para la deducción y análisis de requisitos. Además el Modelo de Casos de Uso del Negocio de forma similar permite conocer del usuario la descripción del proceso del negocio de una empresa en los Casos de Uso.

Octubre - Diciembre de 2010

Medición del Rendimiento,


Resumen

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Octubre - Diciembre de 2010

• Escenarios y Storyboards vs Modelo de Casos de Uso del Negocio: La técnica de Escenarios y Storyboards no es cercana a la IS (valor bajo), pues requiere imaginar el futuro sistema y su contexto a un nivel de detallado para su uso concreto, lo cual no suele realizarse en la IS. Apropiada para sistemas con un alto carácter innovador, o cuando el cliente tiene dificultades para expresar claramente qué necesita, es sencilla de aplicar, aunque requiere de una formación de cierta extensión por no tratarse de un tipo de técnica habitual en la IS, cuando su aplicación es pertinente, la mejora en Usabilidad conseguida es importante. Además, ayuda al Modelo de Casos de Uso del Negocio cuando se está intentando transmitir a todas las partes implicadas; el tipo de sistema que se quiere construir, los Escenarios y Storyboards ayudan a centrar la narración de cómo va a ser el sistema en usuarios concretos que realizan tareas específicas. Esta técnica se puede combinar con la de Personas para conseguir una mejor definición del tipo de sistema que se va a construir, para quién va destinado, y qué necesidades pretende cubrir. Los detalles que añaden a una visión general sirven para centrar las discusiones de negociación de requisitos, para evitar que las discusiones se mantengan a un nivel abstracto que imposibilite a clientes y usuarios participar. La técnica permitirá mejorar la obtención de información con respecto a los usuarios ya que el aplicar está técnica ayudará en el Modelo de Casos de uso del Negocio, que es vital para la descripción del mismo.

48

jetivos a establecer. Así, los conocimientos requeridos para el establecimiento de las especificaciones son muy distintos a los que maneja habitualmente un ingeniero de software, por tanto, el valor de cercanía a la IS es medio. Finalmente, el grado de aportación/esfuerzo es alto en cuanto son una herramienta muy útil para conocer el nivel de Usabilidad que se desea alcanzar, y poder establecer cuán lejos se está de dicho nivel, a pesar de que el esfuerzo que supone establecerlas sí puede ser alto. Ayuda al Modelo de Casos de Uso del Negocio, por que es un objetivo de Usabilidad que se establece para el producto de software a obtener. Pero debe ser verificable para que pueda servir como guía para conocer si el proyecto está avanzando en la dirección establecida inicialmente, en el marco de un desarrollo iterativo. Además, incluir especificaciones de Usabilidad en los documentos de Especificación de Requisitos introduce la Usabilidad como uno más entre los aspectos que pueden ser establecidos cuantitativamente y por adelantado, evitando de esta forma que se perciba la Usabilidad como un valor cambiante que depende del observador. • HTA vs Modelo de Casos de Uso del Negocio:

La técnica HTA tiene una necesidad de formación media, puesto que, a pesar de tratarse de notaciones relativamente simples, requieren una forma de pensar en el problema a modelar, que requiere cierto entrenamiento para poder realizarla con perspectivas de éxito. HTA se basa en la copia de cómo se realizan las tareas habitual• Especificaciones de Usabilidad vs Modelo de Casos mente, por lo que es apropiada a proyectos de informade Uso del Negocio: tización de tareas; cercana a la IS por basarse en gran medida en el modelado. Tiene un proceso detallado de La técnica de Especificaciones de Usabilidad requiere aplicación que hace la técnica más costosa de aplicar, una formación y experiencia en Usabilidad consider- con una contribución de Usabilidad. Puesto que las tares able, por lo que implica conocimiento de ¿qué objetivos de modelado son comunes en la IS, tiene un valor alto de son alcanzables con un costo razonable?, por esta razón cercanía a la IS. Además, en el Modelo de Casos de Uso la técnica tiene un valor alto de necesidad de formación. del Negocio la técnica HTA resulta útil para estructurar La técnica es aplicable a aquellos problemas en los que la información observada acerca de cómo el usuario orsea factible conocer al principio del desarrollo las tareas ganiza las tareas que usualmente lleva a cabo en su traque se quieren soportar, en tanto el sistema no se base en bajo. Por tanto, el uso de esta técnica puede complementareas de un usuario en un entorno de oficina, por que la tar los esfuerzos de deducción y análisis de requisitos técnica no es tan válida, por ello, en el criterio de aplica- cuando se trata de un sistema que pretende dar soporte bilidad general tiene un valor medio. Las Especificacio- al usuario en la realización de sus tareas habituales de nes de Usabilidad, en cuantos requisitos no-funcionales, trabajo. son cercanas a la IS, pero incluyen al usuario en los ob-


49

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

• Investigación Contextual vs Modelo de Casos de Uso del Negocio: La Investigación Contextual requiere una disponibilidad alta en la organización cliente, pues requiere un usuario representativo para aplicar la técnica. La formación para poderse aplicar adecuadamente es considerable, y la aportación de Usabilidad que puede realizar es alta.

Resumen

cultura de la organización cliente. • Personas vs Modelo de Casos de Uso del Negocio:

Octubre - Diciembre de 2010

Útil cuando hay varios tipos de usuario, esta técnica requiere un cierto esfuerzo de aprendizaje y aplicación. El retorno en Usabilidad que se obtiene de su aplicación es considerable. La técnica requiere un esfuerzo considerable de aplicación, pero su aporte en Usabilidad puede En el Modelo de Casos de Uso del Negocio, la técnica de ser muy importante, y por lo tanto tiene un grado de InvestigaciónContextualayudaporestarestrechamente aportación/esfuerzo alto. Está técnica requiere una forrelacionada con las tareas de deducción de requisitos en mación de cierta consideración, por lo que su necesidad lo referente al estudio de los usuarios y de las tareas que en este sentido es media. En cuanto a su valor de reprerealizan habitualmente. Además, su uso está indicado sentatividad tiene un valor de tres. para aquellos proyectos de desarrollo en los que se tiene la posibilidad de tratar directamente con usuarios rep- Con respecto al Modelo de Casos de Uso del Negocio, resentativos, dispuestos a colaborar en la tarea común esta técnica ayuda a sintetizar todos los datos de que se de aclarar cómo realizan sus tareas habituales. Con esta disponga sobre los usuarios previstos del sistema, en técnica se consigue una comprensión más profunda de unos usuarios típicos que puedan usarse para alcanzar las necesidades del usuario que con las tradicionales consenso en el equipo de desarrollo y para centrar las entrevistas, debido a que los usuarios muchas veces no discusiones de diseño. Ayuda también a determinar qué conocen conscientemente las razones que motivan sus es lo que el producto debe hacer, relacionado con las actos de forma detallada. necesidades a satisfacer, por lo que puede contribuir a todo el proceso de análisis de requisitos. Al proveer un • Observación Etnográfica vs Modelo de Casos de Uso lenguaje común para referirse a los usuarios concretos del Negocio: del sistema, ayuda a alcanzar consenso en el equipo de desarrollo. La Observación Etnográfica, adecuada cuando existe un alto grado de disponibilidad en la organización cliente. • Card Sorting vs Modelo del Dominio: Requiere una formación extensa para poderse aplicar correctamente, pues requiere desarrollar las aptitudes Como ya se mencionó Card Sorting, permite conocer de observación sin intervenir. Resulta relativamente el mapa mental del usuario acerca del dominio de aplicompleja de aplicar, por lo que su aportación de Usabili- cación. Resulta útil cuando se dispone ya de infordad en comparación con el esfuerzo invertido es media. mación sobre el dominio, pero se quiere organizar dicha información según la estructura mental de los usuarios. En lo referente al Modelado de casos de Uso del Negocio, esta técnica permite la mejora de la Usabilidad, al La técnica Card Sorting nos ayuda con respecto al Modestar estrechamente relacionada con las tareas de de- elo del Dominio a conocer las “cosas” que existen o los ducción de requisitos en lo referente al estudio de los eventos que suceden en el entorno en el que trabaja, usuarios y de las tareas que realizan habitualmente. Se dando una mejor especificación de requisitos, al aplicar trata de una técnica que complementa a una entrevista la técnica con los usuarios. tradicional, puesto que permite conocer los datos sobre el comportamiento del usuario de primera mano, no a • Personas vs Modelo del Dominio: través de su visión posiblemente distorsionada por diversos factores (timidez, deseo de causar una buena im- La técnica de Personas es útil para obtener posibles presión, etc.). Así mismo, es especialmente útil cuando usuarios (personas), que aunque no correspondan con se quiere adecuar el sistema software a desarrollar a la ningún usuario real sean representativas de cómo es un


Resumen

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

usuario medio y cómo es la tarea típica que realiza. Su aplicabilidad general es media, por que no en todos los proyectos es necesario abordar el desarrollo de esta forma (es cercana a la IS). En base al Modelo del Dominio, esta técnica puede ayudar a acordar un vocabulario común con los usuarios, permite un mejor modelado al comprender y describir las clases más importante dentro del contexto del sistema.

Octubre - Diciembre de 2010

• Casos de Uso Esenciales vs Diagramas de Casos de Uso: Cercana a la IS, puesto que se trata de unos casos de uso a un nivel mayor de abstracción. Tiene una necesidad de formación media, puesto que requiere una forma de pensar en el problema a modelar que requiere cierto entrenamiento para poder realizarse con éxito. Por si fuera poco los Casos de Uso Esenciales son aplicables a todo tipo de proyectos, puesto que las tareas del usuario se deben considerar en todo proyecto (aplicabilidad alta), debido a que se trata de una de las bases del enfoque centrado en el usuario. En cuanto al grado de aportación frente al esfuerzo, tiene cierta dificultad en su aplicación y refinamiento, pero la mejora que puede aportar a la Usabilidad del sistema es alta, por lo que su valor es alto. Esta técnica complementa el uso de la técnica de Casos de Uso de la IS, cuya utilización resulta muy habitual como parte de las actividades de análisis de los desarrollos orientados a objetos. Desde un punto de vista centrado en el usuario, la técnica de Casos de Uso se suele aplicar de forma incorrecta. Esto es debido a que la elaboración de los Casos de Uso incluye una serie de decisiones que afectan a la Usabilidad, las cuales se toman sin seguir ningún criterio referente a los objetivos del usuario. Los Casos de Uso Esenciales ofrecen un modo de centrar las decisiones de la interacción entre el usuario y el sistema en los objetivos del usuario en los pasos que realiza, y en cómo el sistema da soporte a la toma de las decisiones del usuario en cada paso, mediante las respuestas que va ofreciendo, por lo tanto es de gran ayuda a los Diagramas de Casos de Uso de RUP. • Escenarios de Tareas vs Diagramas de Casos de Uso:

50

Útil cuando no están bien definidas las tareas que los usuarios medios van a realizar con el sistema. Necesaria una formación específica para su aplicación. Ayudan a centrarse en la Usabilidad del sistema, aunque su aporte no es tan alto como el de otras técnicas. Su aplicabilidad es general es media, cercana a la IS. Esta técnica lleva a situaciones concretas conforme a lo especificado en los Diagramas de Casos de Uso. Ya que permite ilustrar las tareas más representativas de cada tipo de usuario, y así ayuda a alcanzar consenso en el equipo de desarrollo sobre cómo el sistema va a dar soporte a las tareas del usuario. De esta forma, cumple un papel importante en el análisis de requisitos. • Mapa de Roles de Usuario vs Casos de Uso (Roles): Técnica relativamente sencilla por eso su necesidad de formación es baja, con un tipo de modelado como el habitual en la IS. Aplicable cuando el número de tipos de usuario es alto y se pueden establecer relaciones entre ellos. Aporta la profundidad en el estudio del usuario necesaria para poder hacer aportes a la Usabilidad del sistema. La técnica es aplicable cuando el número de roles distintos es alto y se pueden establecer relaciones entre ellos, por lo que su aplicabilidad general es media. Además, no es costosa de aplicar, pero el aporte de Usabilidad es reducido, ya que su valor para este criterio es medio. Por tanto, los Roles de Casos de Uso ayudan cuando se tiene cierto número de tipos de usuarios potenciales del sistema, la estructuración de las relaciones entre los mismos mediante un Mapa de Roles de Usuario resulta útil para tener la vista general de usuarios del sistema. Este tipo de modelos que ofrecen una visión general son muy útiles en las tareas de negociación de requisitos, con el fin contrastar con todas las partes involucradas si se están abordando los objetivos adecuados en cuanto a usuarios previstos del sistema. • Perfiles de Usuario vs Casos de Uso (Actores): Perfiles de Usuario es una técnica cercana a la IS, puesto que es una tarea de especificación y modelado, aplicable a un rango amplio de proyectos, que requiere cierto esfuerzo de aprendizaje. Se trata de una técnica básica en


51

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

cualquier desarrollo preocupado por la Usabilidad, por lo que su aporte en este sentido es muy importante. Los Perfiles de Usuario son necesarios en cualquier proyecto, puesto que el conocimiento de los futuros usuarios del sistema es una de las bases del enfoque centrado en el usuario, por ello su aplicabilidad general es alta. Así como que la técnica es básica para la Usabilidad del sistema, aunque requiere cierto grado de esfuerzo su grado de aportación/esfuerzo es alto.

• Card Sorting vs Prototipos de Interfaz de Usuario: Aunado a lo que se mencionó anteriormente sobre la técnica de Card Sorting, también puede contribuir en el diseño de prototipos, pues la estructura de los menús puedeestablecersebasándoseenlainformaciónobtenida por medio de la aplicación de esta técnica. • Inspecciones vs Prototipos de Interfaz de Usuario: La técnica de Inspecciones requiere una formación previa de cierta importancia, que se puede aplicar a todo tipo de proyectos. Tipo de técnica común en la IS, aunque no en lo referente a la Usabilidad, pero puede realizar un aporte importante a la Usabilidad del sistema final. Ayudan a los Prototipos de Interfaz de Usuario no directamente en su realización, aunque también tiene que ver con actividades de revisión de requisitos, se centra principalmente en la validación de prototipos. Está centrada en un tema particular como es la adhesión a

estándares o a guías de diseño, o la consistencia del diseño de la interacción. Dada la importancia que tiene la elaboración de prototipos en las actividades de requisitos, con respecto al objetivo de conseguir productos software con alta Usabilidad, estas técnicas son especialmente relevantes como parte de la validación de requisitos. • Medición del Rendimiento vs Prototipos de la Interfaz de Usuario: La Medición del Rendimiento, es una técnica con una necesidad de formación media, puesto que tiene su mecánica que hay que aprender y requieren cierto entrenamiento, pero no de forma excesiva. Su aplicabilidad es media en el caso de la Medición del Rendimiento, debido a que se centran en la medición del rendimiento, el cual puede no ser especialmente relevante en ciertos proyectos. Su cercanía a la IS es media, porque sin tratarse de técnicas completamente ajenas, sí que suponen un complemento a lo que habitualmente se realiza en el marco de la IS. El grado de esfuerzo es de cierta entidad en la Medición del Rendimiento; mientras que el aporte de Usabilidad en la técnica es igualmente importante. Por tanto, tiene un grado medio de aportación frente a esfuerzo. Por ellos, con vistas a que el resultado del test de Usabilidad sea lo más objetivo posible, esta variante mide la eficiencia en uso de cada participante en su uso del sistema. De esta forma, se obtienen valores cuantitativos que reflejan la Usabilidad del sistema en lo referente al atributo de eficiencia en uso. Por tanto, esta variante se aplica cuando se dispone de un prototipo suficientemente completo como para permitir un uso del mismo al participante, y cuando la eficiencia en uso es uno de los atributos de Usabilidad relevantes. • Prototipos de Papel vs Prototipos de Interfaz de Usuario: Prototipos de Papel es una técnica sencilla, aplicable a todo tipo de proyectos, que no requiere una extensa formación. Son aplicables en todo tipo de proyectos (aplicabilidad alto). El concepto de prototipado es cercano a la IS, a pesar de centrarse en prototipos con menor fidelidad al producto final que los prototipos habitu-

Octubre - Diciembre de 2010

Por otra parte los Actores en los Casos de Uso, permiten la recopilación de información sobre los usuarios previstos del sistema, con lo cual se convierte en un proceso sistemático mediante el uso de Perfiles de Usuario. Los distintos tipos de características que pueden resultar relevantes en un estudio de usuarios se detallan en la definición de cada perfil. De esta forma, se centran los esfuerzos de deducción en aquello que más útil puede resultar para el diseño de un sistema con un nivel de Usabilidad adecuado. Al estructurar la información sobre usuarios, el uso de esta técnica puede ayudar a los desarrolladores no familiarizados con el análisis de usuarios tal y como se realiza en la IHC, pues marca en un sentido amplio la informaciónrelevantesobreusuariosquedebenrecoger en sus tareas de deducción y análisis de requisitos.

Resumen


Octubre - Diciembre de 2010

Resumen

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

ales de la IS. El aporte a la Usabilidad del producto final es muy importante. Contribuye a la Usabilidad requiriendo poco esfuerzo por ello su grado de aportación/ esfuerzo es alto. Como parte de las reuniones de requisitos se pueden usar bosquejos a mano de la apariencia de la Interfaz de Usuario, o bien dibujos realizados por computadora mediante programas de dibujo. Este tipo de prototipos permiten transmitir al cliente la idea del sistema a construir que tiene el equipo, y poder así contrastar si se está trabajando en la dirección correcta. Frente a los prototipos que corren en un ordenador, cuentan con la ventaja de que el cliente no tiene la impresión de que el sistema está ya casi construido, puesto que la apariencia de borrador transmite la idea de que aún queda mucho trabajo por desarrollar hasta llegar al producto final. A pesar de tratarse únicamente de dibujos en papel, este tipo de prototipos son útiles también para mostrar la dimensión interactiva del sistema. Así, un miembro del equipo puede cambiar entre distintos dibujos para mostrar al cliente qué se ve en cada momento según las acciones que tome el usuario, permitiendo de esta forma expresar de una forma fácilmente comprensible cómo se ha pensado que funcione la interacción. Por lo tanto, es de gran ayuda a los Prototipos de Interfaz de Usuario, al permitir realizar prototipos más sencillos, en menos tiempo a los usuarios. • Recorrido Cognitivo vs Prototipos de Interfaz de Usuario: El Recorrido Cognitivo es una técnica que requiere tener un conocimiento amplio de los aspectos cognitivos por lo que la necesidad de formación es alta. Se centra en el rendimiento de un usuario experto en condiciones óptimas de uso, por lo que su aplicabilidad se limita a las situaciones donde dicho tipo de usuarios es relevante (aplicabilidad media). Al estar centrada en aspectos cognitivos, no resulta especialmente cercana a la IS, aunque los recorridos sí son una técnica común en la IS, por lo que el valor para el criterio de cercanía a la IS es medio. La aportación de Usabilidad es importante, pero el costo de aplicación es alto, por lo que el grado de aportación frente al esfuerzo es medio. Con respecto a los Prototipos de Interfaz de Usuario,

52

esta técnica permite validar un prototipo desde el punto de vista de las actividades cognitivas que se obliga a realizar al usuario. Por tanto, en lo referente a la Validación de Requisitos, está relacionada tanto con el Prototipado como con la validación de modelos, puesto que evalúa la calidad de un prototipo entendido como modelo de la interacción entre el usuario y el sistema. Además que permite buscar defectos en el software. • Recorrido Pluralístico vs Prototipos de Interfaz de Usuario: El Recorrido Pluralístico, es costoso por tratarse de una técnica de grupo y también el rendimiento que se obtiene es considerable, por lo que su grado de aportación frente a esfuerzo es medio. Es igualmente cercano a la IS por tratarse de un recorrido, pero con un enfoque distinto, participativo, que no es habitual en la IS (cercanía media a la IS). Su aplicabilidad es más amplia, pero requiere que las partes involucradas estén abiertas a este tipo de técnicas, por lo que el nivel para este criterio es medio. Finalmente, las necesidades de formación son bajas, debido a que está pensada para ser aplicada por usuarios, y la organización de las sesiones de recorrido no requiere conocimientos extensos. La técnica sirve para la validación, en tanto organiza las sesiones de revisión de requisitos (en la parte de los prototipos) en las que participan todas las partes involucradas. No persigue únicamente consignar la validez del prototipo desarrollado, sino que puede jugar un papel importante en la negociación de requisitos, puesto que contribuye a conseguir una sintonía entre todas las partes involucradas en el desarrollo. Con respecto a los Prototipos de la Interfaz de Usuario, lo más destacado de esta técnica participativa es que permite que el usuario aprecie que los temas que más le importan son atendidos convenientemente, y que también perciba que el equipo de desarrollo comprende su visión del problema. • Diagramas de Transición de Estados de la Interfaz vs Diagramas de Estado: Puesto que los Diagramas de Transición de Estados son


53

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Resumen

un modelo habitual de la IS, la formación requerida para la aplicación de esta técnica es baja. Es aplicable a productos con Interfaz de Usuarios Gráficas. La aportación en Usabilidad puede resultar importante, si bien su aplicación puede requerir un esfuerzo igualmente importante.

en los que hay desarrolladores con escasa experiencia previa en temas de IHC, puesto que la Guía de Estilo les marca la pauta a seguir en todo lo referente al diseño de la interacción.

Esta técnica puede ser de utilidad al Diagrama de estado ya que proporciona una forma de modelar un tipo concreto de Interfaz de Usuarios, aquellas basadas en distintos modos, o bien aquellas basadas en un sistema de ventanas modal (únicamente se permite interactuar con la ventana activa en cada momento). Esta técnica puede ser de utilidad también en la confección de manuales de uso, puesto que permiten transmitir al usuario la lógica de la interacción con el sistema.

El mapa de Navegación, es apropiada cuando la interfaz se compone de distintos contextos o ventanas entre los cuales navega el usuario. Requiere una formación de cierta extensión, y su aplicación resulta compleja. Así, las posibles mejoras en Usabilidad son importantes, aunque requiere un esfuerzo igualmente importante.

• Guía de Estilo del Producto vs Diagramas de Diseño:

El modelo y otra documentación de diseño sirven en cualquier desarrollo para asegurar una visión común en el equipo de desarrollo acerca de las decisiones de diseño, y para servir de base para futuras modificaciones y/o extensiones. La Guía de Estilo sirve para estos mismos fines, pero se refiere a todos los aspectos relativos al diseño de la interacción. Resulta especialmente útil cuando se quiere contar con equipos multidisciplinares

Mejora en cuanto a los Diagramas de Diseño, ya que la técnica permite la representación de las posibilidades de navegación entre distintos contextos de interacción. La consistencia entre los distintos elementos que forman la Interfaz de Usuario es una de las características clave de cara a la Usabilidad. Mediante esta técnica se puede observar una visión general de la navegación entre los distintos espacios de interacción, lo cual permite apreciar las desviaciones del objetivo general de consistencia que puedan aparecer. • Modelo del Contenido de la Interfaz vs Diagramas del Diseño: Debido a la diferencia con técnicas habituales de la IS, el Modelo del Contenido de la Interfaz tiene una necesidad de formación media debido a su relativa complejidad. Es aplicable para el diseño de Interfaz de Usuarios gráficas. Requiere cierto esfuerzo su aplicación, pero los resultados en mejora de la Usabilidad son acordes con el esfuerzo invertido. Por tratarse de modelos que utilizan medios no habituales en la IS, tiene un valor medio de cercanía a la IS. Esta técnica permite realizar las tareas de diseño de la interacción con una base gráfica que favorece la discusión de alternativas. Está indicada para Interfaz de Usuarios basadas en un sistema de ventanas con distintos espacios de interacción. Cubre el vacío existente en la IS en cuanto a Modelado de la Interfaz de Usuario. • Cuestionarios, Entrevistas y Encuestas vs Modelo de Análisis:

Octubre - Diciembre de 2010

La técnica de Guía de Estilo del Producto se puede considerar como de una cercanía de nivel medio a la IS, puesto que por una parte responde a la necesidad de especificar las reglas por las que se va a guiar el diseño (objetivo que no resulta ajeno a la IS), mientras que por otra parte, dichas reglas se ocupan de los elementos que forman parte de la Interfaz de Usuario. Por esta razón, consideramos que tiene un valor medio en cuanto a cercanía a la IS. La elaboración de una Guía de Estilo del Producto requiere una experiencia amplia en temas de Usabilidad, por lo que consideramos que la necesidad de formación es alta. Una Guía de Estilo del Producto sólo se justifica en sistemas de cierta complejidad, especialmente cuando se trata de una familia de productos, por lo que su aplicabilidad general es media. Se trata de una técnica muy costosa en esfuerzo, y lo obtenido en cuanto a mejora de Usabilidad es importante, pero no tanto como lo obtenido con otras técnicas, por lo que su grado de aportación/esfuerzo es medio.

• Mapa de Navegación vs Diagramas de Diseño:


Resumen

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Octubre - Diciembre de 2010

Los Cuestionarios, Entrevistas y Encuestas tienen una aplicabilidad general alta, puesto que son útiles para todo tipo de proyectos. La necesidad de formación es importante sin resultar excesiva (nivel medio). Sí se manejan en cierta medida cuestionarios en la IS, por lo que hay cierta cercanía a la IS (nivel medio). El esfuerzo de elaboración, distribución y análisis de los cuestionarios es considerable, sin embargo pueden reflejar un número importante de problemas de Usabilidad, por lo que el grado de aportación frente al esfuerzo es medio. Resultan de utilidad para todo tipo de proyectos, requieren una cierta formación, mientras que el esfuerzo de aplicación es considerable por lo complejo del proceso de elaboración de cuestionarios, selección de participantes y análisis de los resultados recogidos. En aportación de Usabilidad es importante, acorde con el esfuerzo que requiere su aplicación. Esta técnica proporciona la información relativa a la satisfacción subjetiva del usuario, la cual nos ayuda en una mejor obtención de requisitos para el Modelo de Análisis. Ya que en las entrevistas flexibles se puede obtener, además del valor de dicho atributo de Usabilidad, información acerca de las áreas del sistema con mayores deficiencias de Usabilidad, o en las que es preciso trabajar con mayor prioridad debido a la importancia que tienen para el usuario. • Organización de la Ayuda según Casos de Uso vs Modelo de Pruebas: La técnica de Organización de los Casos de Uso según la Ayuda requiere cierta formación (necesidad de formación media), y puede aplicarse en sistemas en los que se pueden extraer un número limitado de Casos de Uso representativos (aplicabilidad general media). Al basarse esta técnica en los casos de uso, tiene una cierta cercanía con la IS (nivel alto) y, aunque no resulta excesivamente costosa su aplicación, los beneficios están al mismo nivel (grado de aportación/esfuerzo medio). Los desarrolladores, cuando se les plantea el diseño de un subsistema de ayuda, a menudo no cuentan con ninguna técnica que les permita abordar tal tarea de una forma organizada. La técnica de Organización de la Ayuda según Casos de Uso puede suplir tal carencia, ligando la estructura del subsistema de ayuda a los casos de uso, y

54

sirviendo de pauta al desarrollo de tal subsistema. Las facilidades de ayuda, cuando no se elaboran en base a una pauta, corren el riesgo de convertirse en un repositorio de información al cual los usuarios acaban por no acudir por las dificultades para encontrar la información que se necesita en un determinado momento. • Registro del Uso vs Modelo de Pruebas: El Registro del Uso entronca con el uso de monitores software en la IS para medir la eficiencia, por lo que el nivel de cercanía a la IS es alto. De todas formas, se trata de una técnica relativamente compleja, por lo que requiere un nivel de formación alto. No es aplicable a todos los casos, en tanto únicamente es practicable cuando la organizaciónclienteestádispuestaaqueserecojandatos sobre el uso del sistema por parte de los usuarios finales (aplicabilidad media). El esfuerzo de establecimiento de los monitores software es alto, aunque aporta información valiosa de posibles puntos problemáticos de Usabilidad, debido a que permite conocer en detalle el uso real de las distintas funcionalidades. Por esta razón el grado de aportación/esfuerzo es medio. La información que puede aportar es valiosa para la mejora de la Usabilidad del sistema. El uso de esta técnica está íntimamente relacionado con el análisis de tareas realizado como parte de la deducción y análisis de requisitos. Puesto que se ha modelado cómo se espera que sea el uso dado al sistema, tener mecanismos de registro del uso real permite al equipo de desarrollo observar las desviaciones entre el uso esperado y el real. Este tipo de información genera información objetiva y detallada sobre posibles problemas de Usabilidad, funcionalidades con menos uso del esperado, o patrones de interacción que se repiten y que llevan a errores del usuario. • Retroalimentación del Usuario vs Modelo de Pruebas: La Retroalimentación del Usuario puede ser de muchos tipos, pero las quejas del cliente/usuario en general son algo común para los ingenieros software, por lo que podemos considerar a esta técnica con un nivel alto de cercanía a la IS. La complejidad de la técnica puede variar, pero en sus formas más comunes la necesidad de formación es baja. En todo tipo de proyectos se puede con-


55

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

tar con la retroalimentación del usuario, por lo que su aplicabilidad general es alta. Finalmente, sí que resulta de gran utilidad para el descubrimiento de problemas de Usabilidad, y su costo es bajo, por lo que el nivel aportación/esfuerzo es alto. En la técnica de Retroalimentación del Usuario, es el usuario quien, debido a algún problema o deficiencia en el sistema software que está usando, toma la iniciativa de acudir a la organización de desarrollo de software para informar del asunto. Cuando se cuenta con servicio de atención en línea o de ayuda, la información recopilada acerca de las consultas de los usuarios resulta de gran utilidad a la hora de identificar y priorizar los problemas de Usabilidad a tratar con mayor rapidez. Seleccionar y clasificar las actividades y técnicas que correspondan a las etapas del Proceso Unificado de Desarrollo de Software.

Resumen

contrando 24 técnicas de IHC que coinciden. Las técnicas de IHC fueron acomodadas conforme a la etapa correspondiente, donde mejor encaja de acuerdo a los modelos de RUP dependiendo del flujo de trabajo en el que se implemente como se muestra en la Tabla 4. Esto permite la selección de la técnica de Usabilidad correspondiente a los modelos de RUP y en cuanto a la etapa en la cual se quiere hacer uso de la técnica, evitando tener que hacer una búsqueda exhaustiva de las mismas.

2.4 Paso 4

Octubre - Diciembre de 2010

Se seleccionaron las técnicas en base a las actividades que se realizan tanto en Usabilidad como con el proceso unificado de desarrollo de software. Además que los términos manejados entre ellas no fueran tan dispares, enTabla 3. Técnicas de Usabilidad acomodadas en base a las etapas de RUP Inicio

Elaboración

Construcción

Transición

Card Sorting

Casos de Uso Esenciales

Escenarios de Tareas

Escenarios de Tareas

Diagrama de Transición de Estados de la Interfaz Guía de Estilo del Producto

Cuestionarios, Entrevistas y Encuestas Inspecciones

Escenarios y Storyboards

Investigación Contextual

Inspecciones

Medición del Rendimiento

Especificaciones de Usabilidad

HTA

Mapa de Navegación

HTA

Mapa de Roles de Usuario

Investigación Contextual

Perfiles de Usuario

Observación Etnográfica

Modelo del Contenido de la Interfaz Medición del Rendimiento Organización de la Ayuda según Casos de Uso Modelo del Contenido de la Registro del Uso Interfaz Prototipos de Papel Recorrido Cognitivo

Personas

Recorrido Cognitivo

Recorrido Pluralístico


Resumen

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

3. Conclusiones

L Octubre - Diciembre de 2010

a propuesta, de las 35 técnicas de Usabilidad de Ferré [7] y la integración se realizó en 4 pasos, análisis del marco de integración de la Usabilidad en el proceso de desarrollo de software, permitiendo obtener las técnicas consideradas como útiles para el desarrollo de software, análisis de RUP con la finalidad de conocer los modelos y flujos de trabajo, se realizó la selección de las coincidencias entre ambas técnicas, finalmente se ubicarón las técnicas de acuerdo a las etapas que corresponden a RUP de la cual se encontraron 24 técnicas de Usabilidad que coinciden con 10 modelos de RUP. En este trabajo se logro el Marco de Integración de la Usabilidad en el Proceso de Desarrollo de Software, ya que no existia un trabajo que integrara técnicas de IHC a una metodología en particular como el RUP; además de incorporar la Usabilidad en cada una de las etapas del ciclo de vida, en un ciclo iterativo, cumpliendo con el objetivo del trabajo. Un punto pendiente por realizar es probar la metodología en un caso real de desarrollo y verificar el grado de Usabilidad logrado al final del trabajo.

56


57

Marco de Integración de la Usabilidad al Proceso Unificado de Desarrollo de Software

Resumen

Referencias

Octubre - Diciembre de 2010

1. Lewis G. 1994. “What is Software Engineering?” DataPro (4015). Feb 1994. pp. 1-10. Pontificia Universidad Javeriana Ingeniería. 2. R. S. Pressman. Ingeniería del Software: “Un enfoque práctico”. Quinta edición. Ed. McGraw-Hill, 2002. 640 págs. 3. W. Humphrey. “Managing the software process”. Addison-Wesley, 1989. 4. IEEE Computer Society Professional Practices Committee. “Guide to the Software Engineering Body of Knowledge - 2004 Version”. IEEE Computer Society, Los Alamitos (CA), USA, 2004. 5. B. Boehm. “Characteristics of Software Quality”. North Holland Publishing Co., 1978. 6. J.A. McCall, P.K. Richards, G.F. Walters. “Factors in Software Quality”. vol. 1, 2, and 3, AD/A-049014/015/055, National Tech. Information Service, 1977. 7. X. Ferré. “Marco de Integración de la Usabilidad en el Proceso de Desarrollo Software”, Tesis Doctoral, Universidad Politécnica de Madrid, 2005. 273 Págs. 8. Jacobson, I., Booch, G., Rumbaugh, J. “The Unified Software Development Process”. Reading Boston, MA. Ed. Addison Wesley, 1999. 438 págs. 9. ISO 13407. Human-Centered Design Processes for Interactive Systems. ISO, Geneva (Switzerland), 1999. 10. J. Nielsen. “Usability Engineering”. Academic Professional Press, 1993. 358 págs. 11. B. Shneiderman. “Designing the User Interface: Strategies for Effective Human-Computer Interaction”. 3rd edition. Ed. Addison Wesley, USA, 1998. 639 págs


Sec ci贸n

Art铆culos Arbitrados

Divulgaci贸n


59

Divulgación

El daño de los equipos de cómputo al medio ambiente Damage computer equipment to the environment José Alonso Pérez Cruz, Gustavo Verduzco Reyes, Ricardo Armando Barrera Cámara, Fernando Enrique Sánchez Martínez Universidad Autónoma del Carmen. UNACAR Calle 56 N°4, Col. Benito Juárez, C.P. 24180, Tel: 938381018 ext. 1506 Ciudad del Carmen, Campeche japcruz@pampano.unacar.mx, gverduzco@pampano.unacar.mx, rbarrera@pampano.unacar.mx, fsanchez@pampano.unacar.mx Artículo recibido el 8 de Junio del 2010

RESUMEN

E

Palabras Clave: Equipo de cómputo, medio ambiente, reciclaje.

1. Introducción

P

ara tener una visión de la cantidad de equipo de computo que queda obsoleto se debe de tener una noción de la cantidad de equipos que se adquieren, el tiempo de vida que tienen y que se hace con ellos después que esta vida útil llega a su fin. Generalmente los equipos electrónicos que se renuevan con másfrecuenciasontelevisores,videocaseteras,estéreos, computadoras y celulares, con un promedio de 2.5 años para adquirir uno nuevo. De acuerdo con datos de la US Environmental Protection Agency (Agencia de Protección Ambiental de Estados Unidos) este organismo indica que sólo en los Estados Unidos de America se “tiran” al año, sin el menor interés, 134.5 millones de computadoras por obsoletas, así como 348.9 millones de otro tipo de electrónicos. Además en todo el conti-

ABSTRACT

T

he development of technology has been the evolution of the planet, this is linked directly to the advent of computers and the ability of these have had to change the environment around us in favor but also against. Currently the art equipment allow a number of tasks, where users search the device more elegant, sophisticated, fashion, allowing different or the carrying out of activities of daily life and this usually leads to a question that rarely is what happens when that device reaches the end of its life?, where is left? This paper aims to present numbers and facts of what happens with those teams and how they affect the environment.

Keywords: Computer equipment, environment, recycling.

nente Americano determina que el desecho anual es de 583.8 millones de unidades. Esto lleva a que se calcula que cada año en México se renuevan 2 millones de equipos de cómputo, y el precio de cada equipo nuevo oscila entre $9. 000 y $12,000 mil pesos. Estos números nos dan una dimensión de la cantidad de basura electrónica que se tiene actualmente y la que se va a tener a futuro, en México había en 2008 18.2 millones de computadoras y 73.6 Millones de teléfonos celulares. Si se toma en cuenta que estos los cambiamos cada 2.5 años en los próximos meses se estarán generando aproximadamente 91.8 Millones de equipos electrónicos obsoletos. Actualmente la basura tecnológica se está convirtiendo en un serio problema tanto para países desarrollados como subdesarrollados. En México los procesos de reciclaje de equipos de cómputo son escasos, esto acarrea problemas que todavía no se alcanzan a dimensionar, debido a que no se tiene la su-

Octubre - Diciembre de 2010

l desarrollo de la tecnología ha sido la evolución del planeta, esta va ligada directamente a la aparición de las computadoras y la capacidad que estas han tenido para cambiar el ambiente que nos rodea a favor pero también en contra. Actualmente los equipos de última generación permiten realizar un sin número de tareas, donde los usuarios buscan siempre el dispositivo más elegante, sofisticado, de moda, el diferente o el que permita realizar las actividades necesarias de un día a día y esto generalmente nos lleva a una pregunta que pocas veces se hace ¿qué pasa cuando ese dispositivo llega al final de su vida útil?, ¿en dónde queda? Este trabajo busca presentar números y hechos de lo que ocurre con esos equipos y como afectan el medio ambiente.

Artículo aceptado el 06 de Agosto del 2010


Octubre - Diciembre de 2010

Divulgación

60 El daño de los equipos de cómputo al medio ambiente

ficiente información a cerca de la problemática actual, con los números mencionados se puede llegar a tener un claro panorama de las dimensiones que esto llegará a tener en unos cuantos años. El primer claro problema será la contaminación tóxica donde los daños directos se podrán observar tanto en los seres vivos como en el medio ambiente. El beneficio de tener procesos de reciclaje para los equipos de computo podrían evitar la contaminación de las fuentes de agua, la tierra y el aire. Además se puede determinar un proyecto donde se pueden reutilizar varios de los equipos obsoletos, o armar la mayor cantidad de equipos de características bajas, con el objetivo de hacer donaciones a escuelas rurales del estado de Campeche donde la capacidad de computo que necesitan para trabajar no es determinada con un conjunto de características en hardware poderosas y donde estos equipos se puedendesenvolveradecuadamentesincausarproblemas pero resolviendo esta necesidad para las instituciones educativas. 2. Basura Computacional

L

abasuracomputacionalesunconceptoquesurge a raíz de los desperdicios y desechos de la industria de la computación, y se refiere a cualquier

computadora, accesorio, dispositivo periférico o consumible que se encuentra almacenado o en desuso, en la basura o en algún lugar. Estos pueden incluir tarjeta madre, impresoras, mouse, scanner, cartuchos de tintas vacías, mouse teclado, cable de alimentación. 3.Reciclaje Informático

E

l Reciclaje es una de las alternativas utilizadas para reducir el volumen de los residuos sólidos. Este proceso consiste en recuperar materiales (reciclables) que fueron descartados y que pueden utilizarse para elaborar otros productos o el mismo. Ejemplos de materiales reciclables son vidrio, metal, plástico, papel y cartón. Cuando el material o equipo informático con el que trabajamos deja de funcionar o de ser útil, tenemos varias opciones para deshacernos de él La más habitual es depositarlo discretamente en el contenedor más cercano, o dejarlo directamente en la calle. Existen sin embargo dos alternativas mucho más ecológicas y amigables que la primera, el reciclaje y la donación. Cuando los equipos ya no funcionan o son tan sumamente viejos que no van a poder resultar de utilidad a nadie más, la mejor opción es optar por su reciclado (Ilustración 1).

Ilustración 1. Ciclo de vida de un equipo de computo


61

El daño de los equipos de cómputo al medio ambiente

4. Métodos para Reciclaje • Separación en la Fuente: Separación en la fuente es la recuperación de los materiales reciclables en su punto de origen como por ejemplo: el hogar, comercio, industrias y escuelas. Estos materiales recuperados son llevados a los centros de acopio y reciclaje correspondientes a sus categorías en donde los almacenan y algunos los preparan para ser procesado o exportados. Una de las ventajas de la separación en la fuente es que los materiales reciclables recobrados no están contaminados al no estar mezclados con el resto de los residuos sólidos. Este método contribuye a reducir el volumen de los residuos sólidos que llega a los sistemas de relleno sanitario y por lo tanto alarga la vida útil de estos. Otra ventaja de este método es que disminuye los costos municipales de recolección y disposición final de los residuos sólidos. El éxito de este método dependerá en gran medida, del desarrollodeprogramaseducativosparaconcienciarsobre la importancia de cooperar implantando la estrategia del reciclaje en nuestro diario vivir.

• Separación Mecánica: La separación mecánica es la recuperación de materiales por medios mecánicos o electromecánicos después de la recogida. Algunos de estos sistemas de separación mecánica segregan todos lo materiales. Este método permite recobrar mayor cantidad de residuos sólidos que los otros métodos manuales. 5. Desarrollo

L

os equipos de cómputo obsoletos y en general todos los equipos electrónicos existentes tienen el grave problema de ser creados con un conjunto de dispositivos que al entrar en contacto con el sol contaminan y envenenan el aire, el agua y la tierra. Estos equipos deben de ser reciclados para que esto no ocurra,

solo que no se tiene la cultura y se desconoce los efectos que producen al medio ambiente, se tratan como basura normal y estos llegan a los vertederos creando una contaminación que se conoce como basura tóxica. En nuestro país la dependencia encargada de verificar que estos equipos no lleguen a los basureros se llama SEMARNAP, y uno de los problemas para las empresas que generan desperdicios tecnológicos es encontrar otra compañía que se dedique al reciclaje y que tenga los permisos correspondientes para poder realizar esta actividad. Los equipos de cómputo al ser construidos conjuntan varios elementos donde se contemplan aproximadamente 9 sustancias químicas tóxicas, las cuales son: Tabla 1. Sustancias Químicas Toxicas en los Equipos de Computoetapas de RUP 1

Plomo en tubos de rayo catódico y soldadura.

2

Arsénico en tubos de rayo catódico más antiguos.

3

Trióxido de antimonio como retardante de fuego.

4

6

Retardantes de flama polibromados en las cubiertas, cables y tableros de circuitos. Selenio en los tableros de circuitos como rectificador de suministro de energía. Cadmio en tableros de circuitos y semiconductores.

7

Cromo en el acero como anticorrosivo.

8

Cobalto en el acero para estructura y magnetividad.

9

Mercurio.

5

La contaminación de los equipos de cómputo tiene dos partes cuando la PC es construida y cuando termina la vida útil de la computadora. Al construir una PC hacemos uso de plásticos en la tarjeta madre en la caja del CPU, monitor, mouse y teclado todos estos elementos están armados en su mayoría con plástico. En la mayoría de las computadoras hay acero, cromo, cadmio, mercurio, berilio, níquel, zinc, retardadores de flama bromados, cables, alambres, tubos de despliegue, materiales termoplásticos, mezclas de plásticos y materiales especiales como baterías, entre otros. Todos estos elementosresultanaltamentecontaminantesparaelme-

Octubre - Diciembre de 2010

• Separación Manual después del Recogido: La separación manual de los residuos sólidos ocurre después de la recogida. Este método no es recomendado al presentar problemas de salud y seguridad porque los materiales a recuperarse ya se han mezclados con otros desechos contaminados.

Divulgación


Divulgación

62 El daño de los equipos de cómputo al medio ambiente

Octubre - Diciembre de 2010

dioambiente y nocivos para la salud pública, según afirman los expertos de Silicon Valley Toxics Coalition, un grupo de defensa del medioambiente. Entonces es necesario evitar que las computadoras terminen en rellenos sanitarios, sean incineradas o arrumbadas en los sótanos de los hogares. Según la Agencia de Protección del Ambiente de EE.UU. (EPA), a partir de 2005 se ha guardado un volumen inconmensurable de equipo electrónico que no se usa y pueden filtrar plomo, mercurio, arsénico, cadmio, berilio y otras sustancias tóxicas en la tierra. Incluso si permanece en áticos y sótanos indefinidamente, sin llegar nunca a un vertedero de residuos, esa solución tiene su propio efecto indirecto en el medio ambiente. Los estudios demuestran que casi 250 millones de computadoras llegarán a ser obsoletas en los próximos cinco años Cerca del 70% de los metales pesados que contaminan los vertederos y basureros públicos provienen de aparatos electrónicos que las personas desechan inadecuadamente. El mercurio y el cobalto, por ejemplo, son tóxicos por inhalación, por contacto y por ingestión; y el cromo es tóxico por inhalación e ingestión. Todos estos compuestos químicos forman parte de las computadoras y aparatos electrónicos que usamos a diario, y por supuesto que se transforman en un serio problema medioambiental cuando son tirados directamente a un basurero sin intentar recuperar sus componentes primero. De acuerdo con datos de la US Environmental Protection Agency (Agencia de Protección Ambiental de Estados Unidos) indican que sólo en ese país se “tiran” al año, sin el menor interés, 134.5 millones de PC por obsoletas, así como 348.9 millones de otro tipo de electrónicos. En todo el continente, el desecho anual es de 583.8 millones de unidades. cada aspecto del proyecto, es decir, para su realización se debe trabajar en grupo, se necesitan técnicas más formales de especificación y diseño que permitan una comunicación más clara y menos ambigua entre los integrantes del equipo; es por ello, que debe documentarse apropiadamente cada etapa del proyecto y realizar pruebas exhaustivas, y es esencial una cuidadosa administración [2], ya que cada organización cuenta con su propio proceso de software, que puede estar explícitamente definido o no, y que los desarrolladores siguen con mayor o menor grado de constancia. El área de pro-

ceso de software sustenta que un proceso definido explícitamente y mejorado de forma continua logrará un mejor producto; es decir, defiende que el empleo de un buen proceso de desarrollo conlleva a la obtención de un producto software de buena calidad. 6. Proyecto de Reciclaje de Basura Computacional de Empresas y Sociedad

E

n Ciudad del Carmen, Campeche existen más de 50 empresas que le trabajan a PEMEX y que anualmentegeneranbasuratecnológica.Actualmente, se desconoce cuáles de estas empresas cuentan con procesos de reciclaje para equipos de cómputo, corriendo el peligro de que muchos de estos dispositivos lleguen al basurero municipal en forma de basura normal contaminando seriamente, ya que estos elementos cuentan con varias sustancias tóxicas. Como ya se ha expuesto, varias de estas sustancias son dañinas tanto para el ser humano como para el medio ambiente. Cabe mencionar que Ciudad del Carmen es una isla que se encuentra en la zona natural protegida “Laguna de Términos” y que el basurero municipal se encuentra cercano a la playa; además de que se tienen antecedentes de empresas que tiran a la basura los equipos de cómputo por no contar con una política de reciclaje o porque simplementenecesitanhacerespacioensusbodegassinpensar en el daño ecológico que causan a la isla. Teniendo esta problemática se ha desarrollado un proyecto que busca generar una campaña de reciclaje computacional donde habrían dos etapas, la primera de ellas sería la recopilación de los equipos de computo obsoletos de las empresas y de la comunidad en general, esta primera fase dirigida a las empresas llevaría a generar un censo de las empresas que cuentan con residuos computacionales por medio de visitas directas donde se les aplicaría un breve cuestionario para conocer si cuentan con procesos de reciclaje y si están interesados en donar los equipos de computo obsoletos con que cuentan. Este proceso es complicado ya que la gran mayoría de las empresas tienen procesos internos de calidad los cuales determinan las bajas de equipos con un conjunto de documentos tanto por parte de la empresa que dona como la que recibe, llevando a tener certificados


63

El daño de los equipos de cómputo al medio ambiente

que las avalen, también se pueden encontrar empresas que si cuentan con procesos de reciclaje y quienes están en el proceso de buscar, aquí el proyecto puede ayudar proporcionando toda la información necesaria para dar de baja a los equipos de cómputo obsoletos y ser almacenados en la Universidad Autónoma del Carmen para que después sean enviados a una empresa recicladora la que disponga de estos equipos. Para concluir esta primera etapa se generaría una campaña para el público en general donde podrían llevar los equipos de cómputo en fechas determinadas al Centro de Tecnologías de Información de la DES DACI y de igual forma ser almacenados dentro de las instalaciones de la Universidad. Estas dos fases deben ser apoyadas con una campaña de información promovidos por los medios de comunicación como son radio, periódico y televisión locales. Además de hacer un conjunto de trípticos para repartir en las fechas de las recepciones donde se describan los daños que causaría tanto almacenar en casa estos equipos obsoletos como tirarlos al basurero público. Esto último buscaría hacer conciencia en la población y buscar crear una cultura acerca de la basura computacional.

Divulgación

sus condiciones, buscar rescatar la mayor cantidad de los mismos con la finalidad de contar con un conjunto de equipos funcionales que puedan ser donados a escuelas del estado de Campeche y cumplir con el propósito de apoyar a las mismas instituciones en los procesos de educación, donde la capacidad de computo no es la mayor virtud de los mismos pero pueden cumplir sin complicaciones con las tareas para las cuales pueden ser usados. Esto no se podría llevar a cabo sin tener el material humano que en este caso esta conformado por alumnos de las carreras de Ingeniería en Electrónica de la DES DAIT y de las carreras de Ingeniería en Sistemas Computacionales, Licenciatura en Informática e Ingeniería en Computación de la DES DACI de la Universidad Autónoma del Carmen. Otra forma de buscar un uso adecuado a estos equipos rescatados en donarlos a los mismos alumnos de la Universidad que a veces no necesitan una capacidad de computo mayor al de un procesador de textos y otras tareas básicas pero que no pueden adquirir uno, ayudando a mejorar sus expectativas en una carrera universitaria. Esta última etapa tendría que estar regulada por algún mecanismo que asegure que el alumno realmente necesita un equipo de computo.

Ilustración 2. Fases del Proyecto de Reciclaje Computacional

Octubre - Diciembre de 2010

La segunda etapa esta determinada por una revisión de todo el equipo de computo recepcionado para verificar


Divulgación

64 El daño de los equipos de cómputo al medio ambiente

A la par de estas etapas se aplicaran dos cuestionarios que buscan recopilar información acerca de las empresas y de los estudiantes universitarios, el primero busca conocer si las empresas cuentan con procesos de reciclaje, si están interesadas en las donaciones de equipos de computo y si conocen de los daños que estas causan al medio ambiente.

Octubre - Diciembre de 2010

Dentro del cuestionario que se elaboro para las empresas se tienen los siguientes datos: • • • • • •

Nombre de la empresa Dirección Teléfono y extensión Nombre del Contacto Departamento al que pertenece el contacto Correo Electrónico

Las preguntas que se conformaron para el cuestionario de empresas son las siguientes:

• Edad • Sexo • DES a la que pertenece 1. ¿Tiene usted algún equipo de cómputo? 2. ¿Qué tipo de equipo de computo tiene? 3. ¿Cuántos años tiene con el equipo de cómputo? 4. ¿Piensa comprar algún equipo de cómputo este año? 5. ¿Qué hace con el equipo de computo cuando ya es obsoleto? 6. ¿Sabe que el equipo de cómputo se recicla? 7. ¿Tiene algún método para reciclar? 8. ¿Sabe usted que el equipo de computo contamina el medio ambiente? Esta información podrá servir para entender mejor que hacenlasempresasconlosequiposobsoletosyentender el porqué los estudiantes deben de tener una cultura computacional. Al haber aplicado los respectivos cuestionarios se puede generar una base de datos donde se concentre esta información y buscar explotar esta información por medio de sistemas estadísticos que prueben que aunque este tema es poco relevante y no hay mucha gente que se preocupe por buscarle soluciones reales sino se busca un método para una solución el problema seguirá creciendo. Esto llevaría a buscar salidas poco pensadas, probadas y que realmente causen el beneficio que se quiere.

1. ¿Conoce los daños que causa los equipos de cómputo al medio ambiente?? 2. ¿Tiene implementado algún programa de reciclaje computacional en la empresa? 3. ¿Cuenta con residuos electrónicos computacionales en la empresa?? 4. ¿Sabe aproximadamente la cantidad de residuos con que cuenta actualmente su empresa? 5. ¿La empresa estaría interesada en eliminar el equipo 7. Conclusiones de cómputo? 6. ¿Conoce el tipo de apoyo prestaría la empresa para eliminar el equipo de cómputo? l desarrollar un proyecto que busque solucionar 7. ¿Conoce el tiempo que tardaría la empresa en reanticipadamente un problema real que en unos alizar los trámites correspondientes de las bajas de los años será demasiado grande para buscar soluequipos de cómputo?? ciones sin contratiempos y de forma segura es factible, 8. Anote una fecha en la que se podría visitar la em- tener un método para el reciclaje computacional, tendrá presa. un beneficio para la sociedad y el medio ambiente invaluables; ya que las grandes cantidades de sustancias Los cuestionarios a los estudiantes van enfocados con tóxicas que podrían haber ayudado a contaminar pula finalidad de conocer la cultura que tienen a cerca del eden ser contenidas y evitadas. En este proceso se pureciclaje y qué hacer con los dispositivos cuando con- ede determinar que el proyecto se limita a una ciudad en cluyen su vida útil. El cuestionario tiene un encabezado especifico pero al concluir el rescate de los equipos de conformado por 3 preguntas básicas e integra un total computo y los muchos beneficios que estos aportan se ocho preguntas donde busca obtener la información puede buscar crecer y replicarlo en otros lugares del esantes descrita, Las preguntas del cuestionario son las tado ya que actualmente los equipos de computo obsosiguientes:

E


65

El daño de los equipos de cómputo al medio ambiente

Divulgación

letos o sus periféricos se encuentran en cualquier lugar dondeseguramentehabrágrandesresultadosparaevitar la contaminación de la tecnología actual. El proyecto de reciclaje computacional actualmente se encuentra en proceso de llevarse a cabo y de las dos fases que se han presentado se puede determinar que la primera esta por llegar a su fin, debido a que en estos días se llevara a cabo un maratón de reciclaje teniendo la finalidad de recolectar todo el equipo de computo que se pueda obtener y que las empresas quieran o puedan donar, dando paso a iniciar la segunda etapa, teniendo varios retos por definir, como son la cantidad de equipo de computo que se recibirá tanto por las empresas como por la comunidad, la cantidad de equipos que se podrán recuperar, la generación de una base de datos donde se pueda tener información de las empresas que tienen procesos de reciclaje internos, las que no cuentan con ello, las que están en la tarea de tener una normatividad y las que participaron con el proyecto del reciclaje computacional.

Octubre - Diciembre de 2010

Por último, la misma base de datos nos proporcionara información para conocer la cultura de los estudiantes universitarios a cerca del reciclaje de equipo de computo y los daños que estos causan. Esto nos podría llevar a una tercera etapa donde se busque llevar el proyecto a procesos de generación de conciencia entre la comunidad y empresas y a tener un espacio permanente de recepción de equipo para su evaluación y reconstrucción o envío a la empresa de reciclaje. Los Beneficios ya se mencionaron, el trabajo que queda hacia delante es muy prometedor ya que muchos de estos equipos terminarían en el basurero municipal siendo un foco de contaminación tóxica que tarde o temprano empezará a sentir el daño tanto nuestro medio ambiente como los seres vivos.


Divulgación

66 El daño de los equipos de cómputo al medio ambiente

Octubre - Diciembre de 2010

Referencias

[1] Asociación Mexicana de Internet (AMIPCI). Estudio AMIPCI 2010 de Hábitos de los Usuarios de Internet en México. URL: http://www.amipci.org.mx/ estudios, 03/2010 [2] Clarín.com. Basura tecnológica. Qué hacer con las computadoras viejas. Publicado: 10 de marzo de 2005. Consultado: marzo 2010. URL: http://www.clarin. com/diario/2005/03/10/conexiones/t-936181.htm [3] Israeldj.tk, Nos tiran la basura electrónica. Publicado: 29 de noviembre de 2006. Consultado: marzo 2010. URL: http://israeldj.wordpress. com/2006/11/29/nos-tiran-la-basura-electronica/ [4] REMSA. Recicla Electrónicos México. URL: http://www.reciclaelectronicos.com/ [5] Barbara, Hirtz. E- Basura. Basura electronic, gran amenaza para el medio ambiente. Programa de las Naciones Unidas para el Medio Ambiente (PNUMA). Publicado: 24 de febrero de 2010. Consultado: Mayo 2010. URL: http://www.zonacatastrofica.com/basura-electronica-gran-amenaza-para-el-medio-ambiente.html [6] María Ovelar. India, el imperio de la basura electrónica, La segunda potencia tecnológica mundial es también el mayor estercolero computacional de la Tierra. CIBERPAIS. Publicado: 21 de enero de 2010. Consultado: Mayo 2010. URL: http://www.elpais. com/articulo/portada/India/imperio/basura/electronica/elpepisupcib/20100121elpcibpor_1/Tes [7] Autoridad de Desperdicios sólidos, Reciclaje:Gobierno de Puerto Rico. Publicado: 21 de Mayo de 2010. URL: http://www.ads.gobierno.pr/ secciones/reciclaje/


67

Comentarios a contenidos

E

n este libro podemos encontrar conceptos básicos sobre computación y programación en lenguaje Pascal. Es un libro de conocimiento general que introduce al lector al mundo de la computadora.

Comentarios

Introducción a la Computación Autor: Jorge Vasconcelos Santillana Publicaciones Cultural 3ra. Reimpresión 1999

El contenido del libro es útil para los estudiantes de nuevo ingreso en el nivel superior, para los programas de estudio relacionados con computación o informática, dado que contiene información de conceptos básicos y terminología que es necesario manejar adecuadamente para el buen desempeño académico. Éste libro abarca en su primera parte, temas de introducción a la computación y en su segunda, temas de introducción a la programación utilizando el lenguaje pascal.

Es necesario saber que la computadora trabaja con sistemas numéricos para representar los datos y su sistema numérico base es el Sistema Binario, pero también existe el Hexadecimal, Decimal y Octal, y su uso dependerá de la aplicación. Lo que el usuario le proporciona a la computadora como dato es convertido a lo que llamamos código máquina, que es la forma en que la computadora digiere toda la información que le estamos tras¬mitiendo.

guntas para alcanzar una mejor asimilación de los temas. Para el desarrollo de cada tema, el autor utiliza diferentes gráficos e ilustraciones que facilitan la comprensión del mismo, sobre todo para aquéllos que tienen un estilo de aprendizaje visual.

El libro es de fácil lectura y comprensión, lo que permite a un usuario novato entender su contenido; sobre todo, Parte esencial del contenido es la introducción a la res- a aquél que empieza una formación en el área de la Inolución de problemas a través de la computadora uti- formática o Computación. lizando los Algoritmos (con pseudocódigo, diagrama de flujo y pruebas de escritorio) y su implementación en el lenguaje Pascal. Lo interesante es que para cada problema planteado, incluye el análisis de la situación (el problema en sí y la solución esperada) y el diseño de la estrategia a seguir para la solución (los datos con los que se cuenta y los pasos de la solución a implementar). Cada capítulo incluye resumen y preguntas de repaso que pueden servir para evaluar el dominio del contenido por parte del lector. Es recomendable contestar las pre-

Autores: MC. Patricia Zavaleta Carrillo. MC. Dámaris Pérez Cruz.

Octubre - Diciembre de 2010

El autor presenta de forma clara el modelo de Von Neumann que representa la arquitectura de la computadora, en donde se muestran las diferentes unidades que la conforman así como su interacción. Además, explica cómo se realiza el procesamiento de la información en la computadora.



Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.