Don't miss the train: Metodologija

Što smo napravili i kako

Ovaj članak pokušava odgovoriti na jednostavno neposredno pitanje: koliko je jednostavno građanima Europe putovati vlakom i u čemu je razlika u zemljama?Da bismo odgovorili na to pitanje, htjeli smo vidjeti dvije mjere – udaljenosti do željezničkih stanica i omjer ljudi koji su dobro povezani (manje od 10.000 koraka do stanice) u odnosu na one koji su loše povezani (najmanje 30.000 koraka do stanice) sa željeznicom.

Udaljenosti do stanice vlaka govore nam koliko netko treba putovati dok nam druge veličine govore koliko ljudi treba auto, autobus ili taksi da bi došli do stanice vlaka. Brojka od 30.000 koraka je arbitrarna utemeljena na pretpostavci da vjerojatno nećeš hodati tako dugo samo da bi došao do vlaka. 

Nismo pronašli nikakav službeni ili neslužbeni izvor koji sadrži podatke za europske zemlje o udaljenostima do željezničkih stanica ili brojke ljudi koji žive blizu stanica vlaka. To znači da smo te podatke trebali sakupiti i stvoriti bazu sami. 

Korak po korak, napravili smo slijedeće:

1. U srpnju 2019. prikupili smo podatke o svim stanicama vlaka iz Europskog registra infrastrukture (RINF, potrebna je prijava) Ukupan broj prikupljenih stanica je 29.511.

Registar infrastrukture nije sadržavao podatke za Irsku i Švicarsku. Kvaliteta podataka za Rumunjsku i Nizozemsku bila  je vrlo loša. Na kraju smo Rumunjsku, Irsku i Švicarsku isključili iz anallize. Za Nizozemsku dodatne smo podatke prikupili na Wikipediji. Također smo dodali još stanica iz drugih izvora za Italiju i Njemačku. 

2. U listopadu 2019. tražili smo nazive željezničkih stanica u informcijskom sustavu HaCon Fahrplan-Auskunfts-System (HAFAS) i kombinirali dva izvora podataka kada su se odnosili na istu stanicu.

Ovaj korak je više-manje jednak pretraživanju željezničkih stanica po knjizi rezervacija Njemačkih željeznica . Kako smo htjeli pronaći tisuće stanica, koristili smo client koji je povezan sa sustavom HAFAS-a i javnim transportom API. 

Da pojednostavimo, tražili smo ime stanice u registru RINF, HAFAS nam je izbacio sve slične nazive iz baze i mi smo odabrali onu koja je najbliža stanici koju je naveo RINF. Nije to uvijek bilo očito.

Za svaku stanicu navedenu u RINF-u koju HAFAS ne zna, ručno smo provjerili radi li se zaista o željezničkoj stanici. Neku su to bile, neke nisu. Mogli smo nastaviti samo sa zemljama gdje smo uspjeli ili locirati ili objasniti najmanje 90 % stanica navedenih u RINF-u. Slijedeće smo zemlje isključili na ovom koraku: Estonija, Latvija, Litva, Grčka, Španjolska, Norveška i Slovačka.  To znači da su podaci HAFAS-a za te zemlje u tom periodu bili vrlo loši.

3. Uključili smo samo zemlje u kojima HAFAS pokrivao sve vozne redove željeznica.

Procijenili smo pokrivenost stimulirajući pet poznatih željezničkih ruta po zemlji, provjerivši da li ih je HAFAS prepoznao kao vozne putove (rute se mogu vidjeti ovdje ). Samo ako je baza podataka prepoznala tih pet putova kao vozne nastavili smo analizirati tu zemlju. U 16 zemalja koliko nam je ostalo u prošlom koraku; API je točno prepoznao sve rute kao željezničke. 

4. Kategorizirali smo stanice kao relevatne i one koje nisu relevantne. Ukupan broj relevantnih stanica bio je 22.852.

Prema našoj procjeni, relevantna stanica vlaka je ona od koje možeš vlakom doći do glavnog grada. (presjedanja su dopuštena). Stanica vlaka koja nije relevantna je ona od koje trebaš voziti ili ići taksijem (čak i samo dio puta) da bi došao do glavnog grada. 

Svaku smo stanicu kategorizirali kao relevantnu ili onu koja to nije ovisno o rezultatima HAFAS-a kada smo stimulirali 25 putovanja sa svake stanice do glavnog grada te zemlje. Dvaput smo provjerili i nekad kad je bilo potrebno manualno kategorizirali sve stanice koje po HAFAS-u nisu relevantne. 

Kategoriziralia smo stanice na Siciliji i Sardiniji kao relevantne jer su partneri sugerirali da je vlak održivi način za putovanje od glavnog grada do tih otoka iako se treba ići i trajektom. Ručno smo dodali još stanica za Italiju (+116), Nizozemsku (+11) i Njemačku (+320) koje su nedostajale u RINF-u ili HAFAS-u.  

5. Za svaku zemlju pronašli smo najbližu relevantnu stanicu vlaka za svaku osobu u zemlji.

Nacrtali smo udaljenosti zračnom linijom između svih kvadrata na razini populacijske mreže od 1x1km i sve relevatne stanice vlaka u pojedinoj zemlji i klasificirali najkraće linije i najbliže stanice vlaka. 

Općeniti problemi s kvalitetom naših podataka

Nismo pronašli nijedan međunarodni ili nacionalni izvor, privatni ili neki drugi koji sadrži potpunu listu željezničkih stanica u Europi. Ako vas zanimaju željezničke stanice ostaje vam, kako vidimo, četiri mogućnosti: HAFAS (HaCon Fahrplan-Auskunfts-System), RINF (European Register of Infrastructure), nacionalne vlasti ili neki od sakupljenih popisa koji se mogu pronaći na internetu. 

HAFAS je sistem rezervacija koji je pokrenula privatna tvrtka kći Siemens-a Hannover Consulting. Prednost je HAFAS-a što ga dosta velikih autoprijevoznika u europskim zemljama koristi na svojim stranicama za rezervacije. Loša je strana što je posjednički i tvrtka ne objavluje njihov popis stanica – morate napraviti svoj. To nije bilo operativno za nas i kako smo ustanovili, kvaliteta podataka u HAFAS-u je ponekad loša. Ne samo da u sustavu nedostaju stanice za cijele regije u nekim zemljama nego su ponekad i lokacije stanica potpuno pogrešne.  

Europski registar infrastrukture (RINF) održava Europska željeznička agencija i svaka država članica (uključujući Norvešku i Švicarsku) treba u sustav prijaviti stanice (i druge informacije vezane za željeznicu). RINF je koliko znamo najiscrpniji službeni popis stanica u Europi. Odredili smo da je RINF je najbolji način pristupa u svakoj pojedinoj zemlji. Primjetili smo da u nekim zemljama privatne željezničke linije nisu uključene u RINF. Tu možeš više pročitati o RINF-u .

Popisi prikupljeni crowdsourcingom nisu loša alternativa, ali htjeli smo provjeriti da li možeš putovati sa specifične stanice čiji smo naziv i koordinate pronašli kod drugog izvora (u našem slučaju HAFAS) pa smo odlučili da bi nam službeni izvor bio primjereniji. 

Drugi je problem s našim podacima da populacijska mreža koju smo koristili za stanovništvo Europe datira iz 2011. Nesumnjivo, stanovništvo je od tad naraslo i zemlje su se urbanizirale od tad, ali to je najnovija dostupna mreža. 

Bilješke

  • Slijedeća su mjesta isključena iz analize iako pripadaju ili su povezana sa zemljama koje smo analizirai. Korzika (Francuska), Bornholm (Danska), Sjeverna Irska (Velika Britanija), Isle of Wight (Velika Britanija), Orkney (Velika Britanija), Shetland (Velika Britanija), Western Isles (Velika Britanija), Åland (Finska), Azores (Portugal), Madeira (Portugal) i Gotland (Švedska). Isključili smo ta područja jer nisu povezana s kopnom gdje je krajnje odredište. Drugi su naseljeni otoci uključeni u naše rezultate poput Lampeduse (Italija) i Heligolanda (Njemačka).
  • Sve stanice nove danske lake željeznice Letbanen nisu bile u europskoj bazi podataka kada smo provodili istraživanje.

FAQ

Kako ste računali korake?

KM/1,6*1975 (izvor )

Kako ste određivali da li je područje urbano, ruralno ili između?

Preslikali smo sve populaciijske kvadrate u NUTS3 područja i onda preslikali svaki kvadrat u odgovarajuću NUTS3 tipologiju po definiciji Eurostata: https://ec.europa.eu/eurostat/web/rural-development/methodology.

Znamo li da Europski registar infrastrukture sadrži sve stanice diljem Europe?

Ne. U stvari znamo da u registru nedostaje dosta rumunjskih i nizozemskih stanica. Znamo također da RINF sadrži dosta stanica koje se više ne koriste. Preslikavanje baze RINF-a u HAFAS omogućilo nam je da isključimo što više mogućih pogrešaka. Ali ne znamo sigurno da smo pronašli sve relevantne stanice, ustvari vrlo je vjerojatno da nam neke nedostaju. 

Dodali smo još stanica za Nizozemsku, Njemačku i Italiju iz drugih izvora. 

Da li je stanica iz RINF-a uvijek preslika na točnu stanicu u HAFAS-u?

Ne. Ali je preslikana u stanicu HAFAS-a sličnog imena koja se nalazi 500 metara od nje, što obično znači da se radi o istoj stanici. Ovakva nepodudaranja postoje, ali rijetko i ne očekujemo da utječu na analizu. 

Znamo li da HAFAS ima točne i valjane vozne redove za sve stanice?

Ne. Naša je pretpostavka da ako HAFAS kaže da možeš od stanice putovati vlakom, onda je HAFAS u pravu. Također pretpostavljamo da ako HAFAS kaže da od stanice ne možeš putovati vlakom- taj odgovor može biti netočan. Zato smo ručno provjerili i (kada je bilo potrebno) rekategorizirali sve stanice koje su imale takav odgovor od HAFAS-a. 

Kako mjerimo udaljenost?

Prema linijama zračne udaljenosti. 

Neki ljudi žive na granicama sa susjednim EU zemljama. Zašto stanica preko granice ne može biti relevantna?

Podaci ne omogućuju prekograničnu analizu jer nemamo podatke za dovoljno zemalja. 

Jesu li uključene gradske željeznice i stanice (npr. S-bahn, Pendeltåg itd.)?

Nismo kategorizirali vlakove ni stanice po tipu prometa (transnacionalni, nacionalni, regionalni ili gradski). To znači da su gradski vlakovi nekad uključeni, a nekad nisu. Kako smo simulirali putovanje na bilo koju stanicu u glavnom gradu, odredili smo da je sigurno za pretpostaviti da će gradski vlakovi utjecati na udaljenosti u NUTS3 gdje je glavni grad. 

Da li je moguće da ste kategorizirali stanicu vlaka kao onu koja nije relevantna zbog privremene obustave prometa?

Da, ali je vrlo mala mogućnost. Za svaku stanicu koju smo kategorizirali kao onu koja nije relevantna dvaput smo provjerili klasifikkaciju tako što smo pretraživali putovanje u glavni grad sa drugim datumima putovanja. Tijekom toga primjetili smo da primjerice u Danskoj ima mnogo radova na željeznici koji su nam iskrivljavali podatke, što smo riješili tako što smo promijenili kategorije stanica u relevantne. Duže obustave prometa (više od mjesec dana) imaju implikacije za koje ne možemo znati jer neke stranice za rezervacije ne nude mogućnost pretraživanja putovanja za duži period od tog.

Dostupni prijevodi
srijeda, 18. prosinac 2019.

Izvor/i:

Journalism++
share subcribe newsletter