GC Lezersservice: Hoe deden we het?

Foto: Sargasso achtergrond wereldbol
,

nrcDeVolkskrantLogo (Plaatje: Spuyt12)Inmiddels is de Volkskrant-site al dicht gegooid, maar dan nu toch maar de traditionele nerdpost met technische details erachteraan. Hoewel het dit keer eigenlijk totaal niet technisch was.

Het begon allemaal met Steeph, die regelmatig complete artikelen linkte uit de Volkskrant en NRC op Sargasso. Hij heeft een abonnement op beide bladen, en copy-paste die links vanuit het beschermde gedeelte van de gedeeltes van de site die alleen voor abonneehouders toegankelijk is. Hiermee wordt dus de beveiliging omzeild, maar wordt niet het copyright overtreden. Er wordt immers nog steeds verwezen naar het oorspronkelijke artikel, op de servers van de kranten.

Het leuke is dus dat die links totaal niet beveiligd zijn. Toen ik even keek naar de links zag ik daar al wat dingen die te variëren waren en verhip, ik kreeg andere artikelen te zien!

Na nog wat uitzoekwerk bleek de structuur van de bestandsnamen als volgt te zijn, ik leg het even uit aan de hand van een voorbeeldje. Waarschuwing: dit is simpel.

http//url-naar-krant/20080105/pages/01001/articles/VOK2008010501001001.jpg

20080105: De datum in jaar, maand, dag.
01001: De katern (twee cijfers) en de pagina (drie cijfers)
VOK: Volkskrant (NRC voor ehm, NRC)
20080105: Nogmaals de datum in jaar, maand, dag.
01001001: Wederom de katern (twee cijfers), de pagina (drie cijfers), maar nu aangevuld met het artikelnummer (drie cijfers).

Dus, door het laatste getal eentje op te hogen kregen we steeds het volgende artikel van die pagina. We hoefden vervolgens alleen maar een scriptje te schrijven dat checkte hoeveel artikelen er op de pagina stonden en we wisten alle mogelijke variaties.

Voor het NRC was het eigenlijk nog een stukje leuker. Na wat puzzelen (wederom dank aan Steeph) kwamen we erachter dat je de pagina ook in platte tekst, html en pdf op kan vragen. En dat alles door kleine variaties in de url, die prima te automatiseren zijn.

Wat we dus deden :-). De houdbaarheid van deze ‘hack’ is dan ook zeer beperkt. Een simpele referer-check voor het tonen van het plaatje breekt ons systeem al. Of bijvoorbeeld een check of de persoon is ingelogd. Het vreemde is dat de Volkskrant dat al doet voor de pdf, html en platte tekstversies. Ondanks dat men dezelfde software gebruikt laat het NRC dit achterwege.

We zullen zien.

Reacties (5)

#1 TRS

Eerlijk gezegd was het mij ook opgevallen dat er naar VK artikelen voor abbo’s gelinked kon worden, maar heb niet de moeite genomen dat verder uit te pluizen.
Levert wel een leuke primeur op. Dit soort dingen zag je vroeger nog wel eens op GS…. vroeger.

  • Volgende discussie
#2 girl on the run

HA!

  • Volgende discussie
  • Vorige discussie
#3 Bas

Werkt ook bij Trouw

is dus PCM probleempje…

  • Volgende discussie
  • Vorige discussie
#4 Joost

@3: Nog steeds? Stuur eens een url? :-)

  • Volgende discussie
  • Vorige discussie
#5 Peter van der Ploeg

Haha, wat geweldig. Ook ontzettend onhandig van PCM, trouwens :)

  • Vorige discussie