Don't miss the train: Metodologie

Ce am făcut și cum am făcut

Acest articol încearcă să răspundă unei întrebări aparent directe: cât de ușor este pentru cetățenii din Europa să călătorească cu trenul, și cum se explică diferențele din cadrul țărilor? În încercarea noastră de a răspunde, am vrut să ne uităm la două măsurători — distanțele până la gări și proporția de oameni bine conectați (mai puțin de 10,000 de pași până la o gară) versus cei conectați necorespunzător (cel puțin 30,000 de pași până la o gară — din rețeaua feroviară.

Distanțele până la o gară ne spun cât de departe trebuie să călătorească cineva în timp ce cealaltă măsurătoare ne dă o idee despre cât de mulți oameni trebuie să se bazeze pe o mașină, autobuz sau taxi pentru a ajunge la gară. Punctul limită de 30,000 de pași este arbitrar dar este bazat pe presupunerea că nu este probabil să parcurgi acea distanță doar pentru a prinde un tren.

Nu am găsit vreo sursă oficială sau neoficială care să conțină date pentru țările europene despre distanțele până la gări sau numere despre cât de mulți oameni locuiesc lângă o gară. Asta a însemnat că am fost nevoiți să adunăm și să creăm aceste date de unii singuri.

Pas cu pas, asta este ce am făcut:

1. În iulie, 2019, am descărcat toate gările din Registrul European de Infrastructură (RINF, necesită login). Numărul total de gări descărcate a fost de 29.511.

Registrul de Infrastructură nu a conținut date despre Irlanda și Elveția. Calitatea datelor despre România și Olanda a fost foarte slabă. Am sfârșit prin a exclude România, Irlanda și Elveția din analiză. Pentru Olanda am colectat gări în plus de pe Wikipedia. De asemenea, am adăugat mai multe gări din alte surse pentru Italia și Germania.

2. În octombrie, 2019, am căutat după numele gărilor din HaCon Fahrplan-Auskunfts-System (HAFAS) și am combinat cele două surse de date când au arătat spre aceeași gară.

Acest pas este în mare parte echivalent cu căutarea unei gări utilizând sistemul de rezervare al Deutsche-Bahn”s. Din moment ce am vrut s[ ne uităm peste mii de gări, am utilizat https://github.com/public-transport/hafas-client, care se conectează la API-urile transportului public HAFAS.

Pe scurt, am căutat un nume de gară din RINF, client-ul HAFAS a returnat toate gările cu nume similare din baza de date și am selectat-o pe cea care se află cel mai aproape de gara RINF. Acest lucru nu a fost întotdeauna evident.

Pentru fiecare gară din RINF pe care HAFAS nu a recunoscut-o, noi am verificat manual dacă ele chiar au fost gări. Câteva au fost, și câteva nu au fost. Am trecut mai departe doar cu țările unde am putut să schițăm sau să explicăm cel puțin 90% din gările RINF. Următoarele țări au fost eliminate la acest pas: Estonia, Letonia, Lituania, Grecia, Spania, Norvegia și Slovacia. Acest lucru înseamnă că datele HAFAS pentru aceste țări au fost clar insuficiente la momentul respectiv.

3. Am inclus doar țări unde HAFAS avea acoperire completă a orarelor trenurilor

Am estimat acoperirea simulând cinci rute de tren cunoscute per țară, verificând dacă HAFAS a știut că puteau fi parcurse cu trenul (traseele pot fi vizionate aici). Doar dacă baza de date a identificat cu succes toate cele 5 trasee dintr-o anumită țară ca fiind sigure de călătorit cu trenul, ne-am dus mai departe cu analiza pentru acea țară. 

Din cele 16 țări pe care le-am lăsat în pasul precedent , am descoperit că API-ul a identificat corect toate traseele ca fiind disponibile de parcurs cu trenul. 

4. Am clasificat gările ca relevante sau irelevante. Numărul total de gări relevante a fost de 22,852.

Potrivit nouă, o gară relevantă este o gară de la care poți călători cu trenul (schimburi cu alte trenuri sunt permise) până în capitală. O gară irelevantă este o gară de la care trebuie să conduci sau să iei autobuzul (chiar dacă doar pe o parte a traseului) pentru a ajunge în capitală.

Am clasificat fiecare gară ca relevantă sau irelevantă, depinzând de răspunsul dat de HAFAS când simulează 25 de călătorii de la fiecare gară la gara din capitala țării. Am verificat și, când a fost necesar, am (re)clasificat manual toate gările care, conform datelor de la HAFAS, nu au fost relevante.

Am clasificat gări din Sicilia și Sardinia ca relevante deoarece partenerii au sugerat că trenul a fost o opțiune viabilă de călătorit spre capitală din aceste insule, chiar dacă trebuie să iei, de asemenea, un feribot. Am adăugat manual mai multe gări pentru Italia (+116), Olanda (+11) și Germania (+320) care au lipsit fie din RINF, fie din HAFAS.

5. Pentru fiecare țară, am descoperit cea mai apropiată gară relevantă pentru fiecare persoană din țară.

Am tras linii drepte între toate pătratele pe o grilă a populației de 1x1 km  și toate gările relevante dintr-o anumită țară și clasate cea mai scurtă linie ca cea mai apropiată gară. 

Probleme generale cu calitatea datelor noastre

Nu am găsit nicio sursă internațională sau regională deschisă, privată sau de alt fel, care să conțină o listă exhaustivă a gărilor din întreaga Europă. Dacă ești interesat de subiectul gărilor ai, după cum vedem noi lucrurile, patru alternative: HAFAS (HaCon Fahrplan-Auskunfts-System), RINF (Registrul European de Infrastructură), autoritățile naționale sau alte liste crowdsourced care pot fi găsite online.

HAFAS este un sistem de rezervări dezvoltat de subsidiara privată Siemens Hannover Consulting. Partea bună a HAFAS este că destul de mulți operatori de transport mari din țările Europei îl folosește pe website-urilor lor de rezervări. Partea mai puțin bună este că proprietarul acestuia și compania nu publică lista lor de gări — trebuie să îți creezi propria listă. Să facem asta nu a reprezentat o opțiune viabilă pentru noi, și după cum am realizat — calitatea datelor din HAFAS este câteodată slabă. Nu doar că sistemul duce lipsă de gări pentru regiuni întregi în unele țări, dar locația gării este câteodată complet eronată.

Registrul European de Infrastructură este menținut de Agenția Feroviară Europeană, iar fiecare stat membru (de asemenea Norvegia și Elveția) ar trebui să raporteze gările (și alte informații legate de căile feroviare) în baza de date. RINF este, după cum înțelegem, cea mai exhaustivă listă oficială de gări din Europa. Am determinat că RINF este cel mai bun lucru pe care l-am putut face pentru a studia toate statele individual. În retrospectivă, am observat că acea plajă de căi ferate private au fost mai puțin probabile să fie incluse în RINF pentru câteva țări. Poți citi mai mult despre RINF aici .

Listele crowdsourced nu sunt o alternativă rea, dar, din moment ce am vrut să verificăm dacă ai putea să călătorești de la o gară anume, ne-am bazat pe nume și coordonate pentru a face legătura cu o altă sursă (în cazul nostru HAFAS) care este motivul pentru care am determinat că o sursă oficială a fost o soluție mai bună.

O altă problemă cu datele noastre este faptul că grila populației pe care am utilizat-o pentru a reprezenta oamenii din Europa este din 2011. Fără îndoială, populațiile au crescut și țările au devenit mai urbanizate de atunci, dar este ultima grilă disponibilă.

Note

  • Următoarele locuri au fost excluse din analiză, chiar dacă ele aparțin sau sunt conectate la țările pe care le-am analizat. Corsica (Franța), Bornholm (Danemarca), Irlanda de Nord (Regatul Unit), Insula Wight (Regatul Unit), Orkney (Regatul Unit), Shetland (Regatul Unit), Insulele de Vest (Regatul Unit), Åland (Finlanda), Insulele Azore (Portugalia), Madeira (Portugalia) și Gotland (Suedia). Am exclus aceste zone deoarece ele nu sunt conectate la teritoriul continental unde se află destinația finală. Există alte insule populate care sunt incluse în rezultatele noastre, de exemplu Lampedusa (Italia) și Heligoland (Germania).
  • Toate gările din noul metrou danemarchez Letbanen nu au fost încă înregistrate în datele gărilor europene când am realizat cercetarea

FAQ

Cum ați calculat pașii?

Km / 1.6 * 1975 (sursă )

Cum determinați că o zonă este urbană, rurală sau intermediară?

Am schițat toate pătratele de populație în regiuni NUTS3, iar mai apoi am schițat fiecare pătrat pentru a corespunde tipologiei NUTS3, cum este definită de Eurostat aici .

Știm că Registrul European de Infrastructură conține toate gările din întreaga Europă?

Nu. De fapt știm că registrul duce lipsa multor gări românești și olandeze din exportul de date pe care l-am realizat. De asemenea, știm că datele RINF au conținut multe gări care nu mai sunt utilizate. Schițarea datelor RINF în HAFAS ne-a permis să excludem cât de multe alarme false posibil. Dar nu știm sigur că am reușit să găsim toate gările relevante, dimpotrivă, este foarte posibil să fi sărit peste câteva.

Am adăugat mai multe gări din alte surse pentru Olanda, Germania și Italia.

O gară RINF este întotdeauna schițată pe gara corespunzătoare din HAFAS?

Nu. Dar este schițată pe o gară HAFAS cu un nume similar care se află la maxim 500 de metri de ea, care înseamnă de obicei că este aceeași gară. Aceste tipuri de neconcordanțe există, dar sunt puține și nu ne așteptăm să afecteze analiza.

Știm dacă HAFAS are orare corecte și updatate pentru toate gările?

Nu. Presupunerea noastră este că dacă HAFAS spune că poți călători de la o gară cu trenul, atunci HAFAS are dreptate. De asemenea, ne asumăm că dacă HAFAS spune că poți călători de la o gară cu trenul — acel răspuns poate fi fals. De aceea am verificat manual și (când a fost necesar) am reclasificat toate gările cu astfel de răspunsuri din partea HAFAS.

Cum măsurăm distanța?

Linii drepte.

Câțiva oameni trăiesc la granița unei țări UE învecinate. De ce nu permitem unei gări care trece peste graniță să fie relevantă?

Datele nu permit o analiză mai încolo de granițe din moment ce nu avem date pentru destule țări.

Sunt incluse trenurile și gările suburbane incluse (i.e. S-bahn, Pendeltåg etc.)?

Nu am clasificat trenurile și gările după tipul de trafic (transnațional, național, regional sau suburban). Asta înseamnă că, în unele cazuri, trenurile suburbane sunt incluse, iar în unele cazuri nu. Din moment ce am simulat călătorii către orice gară din capitală, am determinat că este sigur să presupunem că trenurile suburbane vor afecta în cea mai mare parte distanțele în regiunile NUTS3 unde se află capitala.

Este posibil să fi clasificat o gară ca irelevantă din cauza suspendărilor temporare din trafic?

Da, dar e puțin probabil. Pentru fiecare gară care a fost inițial clasificată ca irelevantă, am verificat clasificarea prin căutarea unei călătorii în capitală pe website-ul de rezervări național cu date de plecare diferite. Prin asta, am observat, de exemplu, că Danemarca a depus multă muncă pe căile ferate, fapt care ne-a distorsionat datele, lucru pe care l-am remediat prin reclasificarea gărilor ca relevante. Suspendările mai lungi din trafic (+1 lună) ar putea, oricum, să aibă implicații de care nu suntem conștienți din moment ce unele site-uri de rezervări nu-ți permit căutarea unei călătorii mai departe de atât.

Traduceri disponibile
mercuri, 18. decembrie 2019.

Sursă/e:

Journalism++
share subcribe newsletter