GeoKettle es una potente herramienta dirigida por metadatos de ETL (Extracción, Transformación y Carga, Extract, Transform and Load). Está enfocada en la integración de diferentes orígenes de datos para la construcción y actualización de bases de datos y almacenes de datos geoespaciales. Permite la extracción de datos desde diferentes orígenes, la transformación de los datos para la corrección de errores, limpia los datos, cambia su estructura, hace que cumplan estándares definidos, y carga estos datos transformados en Sistemas Gestores de Bases de Datos (SGBD), ficheros SIG o servicios web geoespaciales.
Esta guía de inicio rápido describe cómo:
- Cargar y transforma datos existentes
- Crear una transformación de datos nueva
Tal y como se muestra en la captura de pantalla siguiente, el espacio de trabajo es una ventana compuesta por diferentes paneles.
La parte izquierda actúa como un catálogo que contiene todos los pasos que pueden formar parte de una transformación de datos. La parte derecha del espacio de trabajo es el área donde la transformación propiamente dicha será diseñada y ejecutada/inspeccionada
Más adelante se describirá los contenidos de estos paneles conforme se demuestre su uso.
Para cargar una transformación previa, seleccione File ‣ Open. Navegue a la carpeta de ejemplos de transformaciones samples/transformations/geokettle, selecciona una de las transformaciones disponibles y haga clic en OK. Las transformaciones de GeoKettle se almacenan en ficheros de extensión *.ktr.
La siguiente figura muestra la transformación «intersection». Puede observar que el contenido de las dos partes principales de las que se compone el espacio de trabajo han cambiado.
Se puede ver una descripción de la transformación así como algunas directivas opcionales en la zona amarilla de anotaciones.
Antes de arrancar la transformación deberá especificar qué shapefile se va a usar. Para hacerlo, haz doble clic en cada uno de los pasos « GIS file input » para que aparezca el siguiente diálogo.
Introduce el nombre de tu shapefile incluyendo la extensión *.shp o déjalo como está para usar el juego de datos de ejemplo y haz clic en OK.
Ya estás listo para arrancar la transformación. Para hacerlo, simplemente pulsa el botón de inicio (play) de la barra de herramientas, en la parte superior de la transformación.
Arranca GeoKettle y accede al espacio de trabajo de la misma forma que lo harías al cargar una transformación existente (ver sección anterior).
Para crear una transformación nueva selecciona File ‣ New ‣ Transformation. Puedes especificar el nombre de la transformación salvándola con un nombre diferente (selecciona File ‣ Save as...).
Tal y como se muestra en la figura siguiente, todos los pasos disponibles se listan por categorías en el área izquierda del espacio de trabajo. Expande cada categoría para ver los pasos disponibles.
Para añadir un nuevo paso a la transformación, arrástralo desde el panel Steps al panel Transformation. Entonces puedes personalizar ese nuevo paso de tu transformación haciendo doble clic en él.
Saltos (Hops)
Un salto, representado como una flecha entre dos pasos, define un flujo de datos entre dos pasos. Tal y como se ve en la figura siguiente, añadiendo un salto desde Table Input a Add sequence significa que a la salida resultante de Table Input se enviará al paso Add sequence para posterior procesado, etc.
Para crear un nuevo salto, seleccione dos pasos, haga clic con el botón derecho en uno de ellos y seleccione New hop. Otra forma de hacerlo es pulsar y mantener la tecla Ctrl mientras se seleccionan dos pasos.
Cualquier salto se puede editar en todo momento haciendo doble clic o haciendo clic con el botón derecho y seleccionando menuselection:Edit hop en el menú contextual.
Configurando la transformación
Muchos de los pasos de una transformación necesitarán una parametrización personalizada antes de ser utilizable. Haz doble clic en cualquier paso para mostrar la interfaz en la que puedes ver y especificar cada uno de los parámetros requeridos.
Ejecutando una transformación
Cuando se ejecuta una transformación aparece un nuevo panel debajo del panel en el que se diseña la transformación. Este panel (también conocido como panel de Resultados de la Ejecución) contiene información sobre flujo de datos en todos los pasos que intervienen en la transformación.
Inicialmente se muestra la pestaña Step Metrics (siguiente figura). En esta pestaña se puede ver información general sobre el flujo de datos en la transformación como el número de filas leídos y escritos en las entradas y salidas de cada paso. La columna Active informa al usuario si el paso ha arrancado, está en marcha, ha acabado o se ha abortado, etc. En la columna Time se muestra el tiempo empleado desde que el paso arrancó, así como la velocidad media del paso (columna Speed) en filas por segundo.
Previsualizando la transformación
Tal vez la ejecución de una transformación termine con errores en el panel Execution Results (ver figura siguiente). Por favor, revisa el contenido de la pestaña Logging. En ella hay siempre mucha información útil acerca del origen y la razón del error. Modifica los parámetros del paso erróneo y reinicia la transformación.
Para ayudarte a encontrar el origen del error, puedes previsualizar los resultados de una transformación de un paso anterior en el flujo de trabajo. Para hacerlo, haz doble clic en el paso y selecciona Preview en el menú contextual. De esta forma, puedes ver el aspecto de los datos de forma alfanumérica y espacial en este punto del proceso en el contexto de la transformación sin tener que ejecutarla por completo.
Aquí hay algunos retos adicionales que puedes probar: