Don't miss the train: Metodología

Qué hicimos y cómo lo hicimos

Este artículo intenta responder a una pregunta aparentemente directa: ¿hasta qué punto les resulta fácil a los ciudadanos de Europa viajar en tren y qué explica las diferencias dentro de los países? En nuestro intento de responder, quisimos observar dos medidas, distancias a las estaciones de tren y la proporción de personas que tienen una buena conexión (que tienen que dar menos de10 000 pasos hasta llegar a una estación) frente a las que tienen una conexión deficiente (al menos 30 000 pasos hasta una estación) a la red de ferrocarril.

Las distancias a una estación de tren nos indican cuánto tiene que desplazarse alguien, mientras que la otra medición nos da una idea de cuántas personas deben depender de un coche, un autobús o un taxi para llegar a la estación de tren. El punto de corte de 30 000 pasos es arbitrario, pero se basa en la suposición de que probablemente una persona no caminaría esa distancia para coger un tren.

No hemos encontrado ninguna fuente oficial o no oficial que contenga datos de los países europeos sobre las distancias hasta las estaciones de tren o la cantidad de personas que viven cerca de una estación de tren. Por ello, tuvimos que recopilar y crear estos datos nosotros mismos.

Paso a paso, esto es lo que hicimos:

1. En julio de 2019, descargamos todas las estaciones de tren del Registro Europeo de Infraestructuras (European Register of Infrastructure, RINF , requiere inicio de sesión). El número total de estaciones descargadas fue de 29 511.

El RINF no contenía datos de Irlanda y Suiza. La calidad de los datos de Rumanía y Países Bajos era muy deficiente. Acabamos excluyendo a Rumanía, Irlanda y Suiza del análisis. En el caso de Países Bajos, recopilamos las estaciones adicionales de Wikipedia. También añadimos más estaciones procedentes de otras fuentes para Italia y Alemania.

2. En octubre de 2019, buscamos el nombre de las estaciones de tren en el sistema HaCon Fahrplan-Auskunfts-System (HAFAS) y combinamos las dos fuentes de datos cuando apuntaban a la misma estación de tren.

Este paso es prácticamente equivalente a buscar una estación de tren con el sistema de reservas de Deutsche-Bahn . Como queríamos analizar miles de estaciones, utilizamos esto que se conecta a las API de transporte público de HAFAS.

De forma resumida, buscamos el nombre de una estación en el registro RINF, el cliente de HAFAS ofrecía nombres de estaciones similares en la base de datos y seleccionamos la que se encontraba más cerca de la estación del registro RINF. Esto no siempre era obvio.

Por cada estación en el registro RINF que el sistema HAFAS desconocía, comprobamos manualmente si eran realmente estaciones de tren. Algunas lo eran y otras no. Solo seguimos adelante con aquellos países en los que pudiéramos mapear o explicar al menos el 90 % de las estaciones del registro RINF. En este paso, se eliminaron los siguientes países: Estonia, Letonia, Lituania, Grecia, España, Noruega y Eslovaquia. Esto significa que los datos de HAFAS sobre estos países eran especialmente deficientes en ese momento.

3. Solo incluimos países de los que HAFAS tuviera una cobertura total sobre los horarios de los trenes.

Calculamos la cobertura simulando cinco rutas de tren conocidas por país y comprobando si HAFAS sabía que se podía realizar en tren. (las rutas se pueden ver aqui ) Solo si la base de datos identificaba con éxito que se podían realizar en tren las cinco rutas en un país, seguíamos adelante con el análisis de ese país.

De los 16 países que seleccionamos en el paso anterior, determinamos que la API identificó correctamente todas las rutas disponibles por tren.

4. Dividimos las estaciones de tren entre relevantes o no relevantes. El número total de estaciones de tren relevantes fue de 22 852.

En nuestra opinión, una estación de tren relevante es aquella desde la que se puede viajar en tren a la capital (se permiten trasbordo a otros trenes). Una estación de tren no relevante es una estación desde que la hay que conducir o coger un autobús para llegar a la capital (aunque solo sea parte de la ruta).

Clasificamos cada estación como relevante o no relevante, según la respuesta del sistema HAFAS al simular 25 trayectos desde cada estación a la estación principal en la capital del país. Volvimos a comprobar y, si era necesario, volvimos a clasificar manualmente todas las estaciones que, según los datos de HAFAS, no eran relevantes.

Clasificamos las estaciones en Sicilia y Cerdeña como relevantes porque los socios plantearon que el tren era una opción viable para viajar hasta la capital desde estas islas, aunque también hubiera que tomar un ferry. Añadimos manualmente más estaciones en Italia (+116), Países Bajos (+11) y Alemania (+320) que faltaban en RINF o en HAFAS. 

5. Por cada país, encontramos la estación de tren relevante más cercana para cada persona en el país.

Trazamos líneas rectas entre todos los cuadrados en una cuadrícula de población de 1x1 km y todas las estaciones relevantes en un país determinado y clasificamos la línea más corta como la estación de tren más cercana.

Problemas generales con la calidad de nuestros datos

No hemos encontrado ninguna fuente internacional ni regional, ni privada ni de otro tipo, que contenga una lista exhaustiva de las estaciones de tren por toda Europa. Si le interesan las estaciones de tren, en nuestra opinión, solo tiene cuatro alternativas: el sistema HAFAS (HaCon Fahrplan-Auskunfts-System), el registro RINF (European Register of Infrastructure), autoridades nacionales o cualquiera de las listas colaborativas que se pueden encontrar en línea.

HAFAS es un sistema de reserva desarrollado por Hannover Consulting, una filial de Siemens de propiedad privada. La ventaja del sistema HAFAS es que algunas de las grandes empresas de transporte en países de Europa lo utilizan en sus sitios web de reservas. La desventaja es que se trata de un sistema privado y la empresa no publica su lista de estaciones, sino que es necesario crear una propia. En nuestro caso, no era opción viable, ya que nos dimos cuenta de que la calidad de los datos en HAFAS a veces es deficiente. No solo faltan estaciones en el sistema en regiones enteras de algunos países, sino que la ubicación de la estación de tren a veces es totalmente errónea.

El Registro Europeo de Infraestructuras (RINF) lo mantiene la Agencia Ferroviaria de la Unión Europea (ERA) y se supone que cada Estado miembro (además de Noruega y Suiza) comparte los datos de las estaciones (y otra información relacionada con el ferrocarril) en la base de datos. El registro RINF es, según nuestro entendimiento, la lista oficial más exhaustiva de estaciones en toda Europa. Determinamos que el registro RINF es el mejor recurso para abordar todos los Estados de forma individual. A posteriori, observamos que en el RINF era menos probable que se incluyeran los ferrocarriles privados en el caso de algunos países. Puede obtener más información sobre el registro RINF aquí .

Las listas colaborativas no son una mala alternativa, pero puesto que queríamos comprobar si se podía viajar desde una estación concreta, nos basamos en el nombre y las coordenadas que coincidieran con otra fuente (en nuestro caso, HAFAS) y es por lo que determinamos que una fuente oficial era más adecuada.

Otro problema con nuestros datos es que la cuadrícula de población que usamos para representar a las personas en Europa es de 2011. Sin duda, las poblaciones han aumentado y los países se han urbanizado más desde entonces, pero es la última cuadrícula disponible.

Notas

  • Los siguientes lugares se han excluido del análisis, aunque pertenecen o están conectados a países que hemos analizado. Córcega (Francia), Bornholm (Dinamarca), Irlanda del Norte (Reino Unido), Isla de Wight (Reino Unido), Orkney (Reino Unido), Shetland (Reino Unido), Islas Hébridas Exteriores (Reino Unido), Åland (Finlandia), Azores (Portugal), Madeira (Portugal) y Gotland (Suecia). Excluimos estas áreas porque no están conectadas a la parte continental donde se encuentra el destino final. Hay otras islas pobladas que sí están incluidas en nuestros resultados, por ejemplo, Lampedusa (Italia) y Heligoland (Alemania).
  • Todas las estaciones del nuevo ferrocarril ligero Letbanen de Dinamarca aún no estaban incluidas en los datos de estaciones europeas cuando realizamos la investigación.

Preguntas frecuentes

¿Cómo se calcularon los pasos?

Km / 1,6 * 1975 (fuente )

¿Cómo se determina si un área es urbana, rural o intermedia?

Mapeamos todos los cuadrados de población con las regiones NUTS3 y, a continuación, mapeamos cada cuadrado con la tipología NUTS3 correspondiente, tal y como se define en Eurostat aquí .

¿El registro RINF contiene todas las estaciones en Europa?

No. De hecho, sabemos que en el registro faltaban muchas estaciones rumanas y holandesas cuando exportamos los datos. También sabemos que los datos del RINF contenían muchas estaciones que ya no están en uso. Al mapear los datos del registro RINF con el sistema HAFAS pudimos excluir el máximo de falsos positivos. Añadimos más estaciones de otras fuentes para Países Bajos, Alemania e Italia, pero no sabemos con seguridad si hemos logrado encontrar todas las estaciones relevantes y lo más probable es que no hayamos incluido algunas.

¿Una estación en RINF tiene siempre una estación correspondiente correcta en HAFAS?

No. Pero se corresponde con una estación de HAFAS con un nombre similar que se encuentra como máximo a 500 metros de distancia, lo cual normalmente significa que se trata de la misma estación. Estos tipos de disparidades existen, pero son pocas y no se espera que afecte al análisis.

¿HAFAS incluye los horarios correctos actualizados de todas las estaciones?

No. Suponemos que, si el sistema HAFAS dice que se puede viajar desde una estación en tren, entonces HAFAS es correcto. También suponemos que, si HAFAS dice que no se puede viajar desde una estación en tren, la respuesta puede ser errónea. Por ello comprobamos de forma manual y (cuando era necesario) cambiamos la categoría de todas las estaciones con ese tipo de respuestas del sistema HAFAS.

¿Cómo se mide la distancia?

En líneas rectas.

Algunas personas viven en la frontera de un país colindante con la UE. ¿Por qué no se considera que una estación de tren transfronteriza es relevante?

Los datos no permiten realizar un análisis transfronterizo, ya que no contamos con datos de países suficiente.

¿Se incluyen estaciones y trenes suburbanos (es decir, S-bahn, Pendeltåg etc.)?

No hemos clasificado trenes o estaciones por tipo de tráfico (transnacional, nacional, regional o suburbano). Esto implica que, en algunos casos, los trenes suburbanos se incluyen y en otros no. Como hemos simulado recorridos a cualquier estación en la capital, hemos determinado que podemos asumir que los trenes suburbanos probablemente afectarán a las distancias en las regiones NUTS3 en las que esté la capital.

¿Cabe la posibilidad de que hayan clasificado una estación de tren como no relevante por una suspensión temporal del tráfico?

Sí, pero es poco probable. En el caso de cada estación que se clasificó inicialmente como no relevante, volvimos a comprobar la clasificación buscando un recorrido a la capital en el sitio web de reservas nacionales con distintas fechas de salida. Al hacerlo, observamos que, por ejemplo, en Dinamarca había muchas obras en el ferrocarril que estaban distorsionando nuestros datos, algo que solventamos volviendo a clasificar las estaciones como relevantes. No obstante, las suspensiones en el tráfico de mayor duración (+1 mes) pueden tener implicaciones de las que no somos conscientes, ya que algunos sitios de reservas no permiten buscar un recorrido con una antelación superior a un mes.

Traducciones disponibles
18 diciembre 2019

Fuente/s:

Journalism++
share subcribe newsletter