3 minute read
Estructurar datos
from Datos abiertos mejorar el acceso, incentivar el uso y promover transparencia en la gestion legislati
Al momento de estructurar un conjunto de datos para su publicación, pueden surgir inquietudes como, por ejemplo: ¿cómo estructurar un conjunto de datos?, ¿cuáles tips o buenas prácticas debo considerar para la estructuración?, ¿los datos que he estructurado serán útiles y de fácil uso por parte de terceros?, entre otras, que pueden generar incertidumbre. Para ello, en esta sección se sugiere un conjunto de buenas prácticas que se recomienda seguir, no siendo estas recetas infalibles, pero sí una herramienta que ayudará a conseguir una estructuración más ordenada de los datos.
Generalmente los formatos aceptados por las plataformas de datos para la publicación de conjuntos de datos son: csv (archivo separado por comas y cuyo formato se puede poner al exportar desde un archivo formato Excel); .xls (Excel 97 y/o posteriores versiones) .xlsx (2007 y/o posteriores versiones); y .tsv. Cuando se trata de datos geográficos, -no muy comunes en datos de parlamentos- los más usados son .km1 (formato basado en XML2 para almacenar datos geográficos) y .kmz (un archivo KMZ está formado por un archivo KML principal y cero o más archivos complementarios empaquetados en formato .zip).
Una vez seleccionado el formato de archivo a utilizar para la estructuración de los datos, se deben tener en cuenta las siguientes recomendaciones:
• La regla general será siempre validar y utilizar los formatos de datos de publicación aceptados en la plataforma de datos abiertos o página web en la cual se importarán y/o publicarán los conjuntos de datos.
• Para el almacenamiento de datos numéricos, se debe tener en cuenta los tipos de datos soportados, si son enteros, decimales, cantidad máxima de dígitos, si el formato del dato puede o no contener comas o puntos, si se soportan números positivos o negativos, y finalmente cómo se estructuran las columnas numéricas aplicando formatos para que se muestren ya sea como números estándar, porcentajes o moneda, los cuales son los formatos típicamente aceptados en herramientas de uso común cómo Excel.
3. https://desktop.arcgis.com/es/arcmap/10.3/manage-data/kml/what-is-kml-.htm 4. XML: Su traducción es lenguaje de marcado extensible, y es un lenguaje que define un conjunto de reglas para codificar documentos en un formato que sea legible por humanos y por máquina.
• Sobre los datos numéricos es importante revisar la cantidad máxima de dígitos que soportan las herramientas de publicación y visualización de datos. Por ejemplo, herramientas de visualización de datos cómo Power BI soporta la representación de en un tipo de número decimal hasta de 15 dígitos5, Tableau soporta datos numéricos hasta de 18 dígitos, pero esto varía entre herramientas y sus actualizaciones.
• Para las fechas, generalmente se utilizan los formatos de entrada aceptados bajo la norma ISO 8601; esta ayuda a eliminar las dudas que pueden surgir de las diversas convenciones, culturas y zonas horarias de días y fechas utilizadas en el mundo. La norma, establece la forma de presentar las fechas y horas, tanto para las personas como para las máquinas.
Cuando las fechas se representan con números, se pueden interpretar de diferentes maneras. Por ejemplo, 01/05/12 podría significar el 5 de enero de 2012 o el 1 de mayo de 2012. En el caso de datos legislativos es muy importante tener en cuenta este aspecto y estandarizar las fechas de tal forma que todas las fuentes de datos usen el mismo mecanismo las fechas
• Cuando existan datos similares que se dan en varios años, lo ideal es estructurar la base en un mismo set de datos.
Por ejemplo, en un solo conjunto de información disponer las leyes que se van generando y crear una columna para relacionar el año. Esto hace más eficiente la consulta a que si se dispone, por ejemplo, un set de datos por cada año o por cada mes.
Dato para el equipo TI
Los textos generalmente deben estar codificados en formato UTF-8. Este es un estándar utilizado para la codificación de caracteres alfanuméricos para soportar el intercambio, procesamiento y visualización universal de los textos escritos en diversos lenguajes y permite que los textos con tildes y/o símbolos matemáticos se visualicen correctamente y no con caracteres como ñ
A la hora de estructurar un conjunto de datos, se debe contemplar la manera como se pueden interoperar (intercambiar) con otras aplicaciones. Generalmente las plataformas de datos soportan el protocolo de datos abiertos - OData, el cual es un protocolo abierto que permite la creación, consumo e interoperabilidad de los datos de manera sencilla y estándar a través del uso de un enlace (Por ejemplo, en Excel se pueden consumir los datos a través de OData accediendo a la opción del menú Datos + Obtener datos + Desde otras fuentes + Desde una fuente de OData).
5. https://docs.microsoft.com/es-es/power-bi/connect-data/desktop-data-types