Sargasso in getallen (2) | Reacties

DATA - Ruim 30.000 posts, 90 pagina’s en 700.000 reacties zijn in de afgelopen twaalf jaar op Sargasso verschenen. Een kleine data-analyse.

Inmiddels 712.340 reacties om precies te zijn. En omdat Sargasso niets zou zijn zonder reaguurders, gaan we ook even in die data graven.

Laten we eens eenvoudig beginnen met het aantal reacties per maand:

reacties_aant_mnd2_475

Opvallend is de dip vorig jaar na het redesign. Maar het aantal reacties zegt op zichzelf niet zoveel als we ook niet het aantal posts in ogenschouw nemen. Dus hier een grafiek met het gemiddelde aantal reacties per post per maand sinds de start:

reacties_gem_post_mnd_475

Geen touw aan vast te knopen en geen patroon in te zien.

Een heel andere benadering richt zich meer op de inhoud. Hoe lang zijn de reacties en verandert dat in de tijd?

Daarom eens kijken naar de gemiddelde lengte van reacties per maand sinds de start:

reacties_gem_lengte_mnd_475

Kijk eens aan. Niet alleen de schrijvers op Sargasso worden langer van stof, de reaguurders houden gelijke tred!

Maar hoe zit dat nou als je kijkt naar de uren van de dag?

reacties_gem_lengte_uur_475

Kijk eens aan. De reaguurders kakken een beetje in tegen het einde van de avond. Maar de reaguurders die het tot diep in de nacht volhouden, zijn er duidelijk even voor gaan zitten!

Okay, maakt het dan ook nog uit welke dag van de week het is?

reacties_gem_lengte_weekdag_475

Zie daar: net als de schrijvers zijn de reaguurders langer van stof in het weekend.

Tot zover de grafieken. Nu een paar lijstjes.

Wat zijn nou de postjes met meeste reacties? We verdelen het in drie groepen. Normale posts, waan v/d dag en klikTV.

We beginnen met de normale posts:
1. De leugens van Mariska Orbán-de Haas (864)
2. Rivieren van bloed (581)
3. Kleine IJstijd op komst (580)
4. Niet de daad, wel de ideologie (563)
5. Het gevaar Bosma (557)

Waan van de dag:
1. Ooggetuigenverslagen Armeense Genocide (744)
2. Integratiedebat staat bol van de onjuistheden (378)
2. D66-leider Pechtold over Wilders en Noorwegen (378)
4. Atheïsten zijn niet te vertrouwen (340)
5. Poll 13-jarige wereldzeilster (298)

KlikTV:
1. VS gaat rebellen Syrië stevig bewapenen (227)
2. Wilders: Pechtold is ‘zielig, miezerig en hypocriet mannetje’ (92)
3. De wereld vergaat pas op 16 februari 2013, door een komeet (72)

Eerder hebben we al de posts nader bekeken. Morgen gaan we nog in op de auteurs en de reaguurders.

Wilt u Sargasso financieel steunen en helpen haar toekomstdromen waar te maken? Doe dan mee en investeer in inhoud, investeer in Sargasso.

  1. 2

    Wat fons zegt. Ik vermoed (neu, weet wel zeker) dat d’r bepaalde onderwerpen zijn waar geheid veel reacties op komen. Omdat reaguurders bepaalde stokpaardjes hebben, bijvoorbeeld.

  2. 4

    @1: Haha, weet je wel hoeveel tags er bestaan? Ze verzinnen er elke dag wel weer een paar bij. Free format en zo.

    @overigens: altijd leuke postjes met die cijfers @Steeph. Nu nog de topreaguurders door de eeuwen heen en zo. Net zoals de topauteurs trouwens. En het verloop. Hoe lang houden ze het vol?
    Volgens mij is sikbock de oudst gediende, Bismarck doet het ook niet onaardig en su en zmc zie ik ook al die jaren al. Maar de gemiddelde deelname onder een nick (of groep nick’s, denk aan zmc, zmmmmc en zo)

    De lengte van de reacties worden volgens mij de laatste tijd door HPax behoorlijk omhoog getrokken. Of zie ik dat verkeerd? Kun je dat zien excusief HPax?

  3. 8

    @7: hé, piece of cake, non?

    Edit joost: Ja, maar ik denk wel dat ie complexer is dan de gemiddelde query, die toch redelijk rechttoe, rechtaan zijn.

  4. 9

    Beetje off-topic:

    waarom moet je bij een reactie, zoals op vrijwel elke website waar reageren mogelijk is, een e-mail adres invoeren, en vooral kunnen die ook gecontroleerd worden of nagekeken worden door de beheerders. En zo ja, wat doet Sargasso ermee.

  5. 10

    @4:

    (…) Maar de gemiddelde deelname onder een nick (of groep nick’s, denk aan zmc, zmmmmc en zo).

    Excuses:P Maar ter info/geruststelling: Ik gebruik wel altijd hetzelfde e-mailadres. Daarop moet dus nog wel te databreien zijn;)

    Naarmate mijn oorspronkelijke nickname in toenemende mate eenvoudig aan mijn echte naam te relateren raakte heb ik ervoor gekozen om op deze manier de googleability van Dhr. zmzmzcmmc te verlagen en ondertussen toch enigzins herkenbaar te blijven. Noem het een gebrek aan inspiratie:p Zoals bij vrijwel iedere niet-politicus is mijn professionele carriere immers niet bijzonder gebaat bij enige kennis van mijn politieke, ideologische of (a)religieuze standpunten. Onder deze varieteit aan nicknames voel ik me dan ook vrijer om openlijk te discussieren.

  6. 12

    @9: Van oudsher is het emailadres de enige optie die er is om in contact te komen met de reaguurder. Soms gebruiken we de adressen ook daarvoor.

    En ja, die adressen kunnen worden gezien door de beheerders, en we doen er verder niets mee.

  7. 13

    @12.

    Maar een beetje onzin natuurlijk, want ik kan ook een mailadres verzinnen/overnemen van iemand anders. En ik reageer op verschillende sites, maar ik heb nog nooit een reactie gekregen.

    Gebruiken jullie het niet om mensen (proberen) te identificeren, want dat zou me als beheerder interessant lijken.

  8. 14

    @8: Joost, het editen van reacties is geen manier van discussiëren. Ook niet omdat het wel makkelijk is of zo. Maak dan gewoon een nieuwe reactie.

    Hou je rollen als moderator en als reaguurder strikt gescheiden, wil ik daarmee zeggen. Want dit gaat anders misverstanden opleveren.

    En een query over drie tabellen kan je echt niet complex noemen, maar dat terzijde.

    Edit Joost: Dit is zo off topic dat ik er niet een nieuwe reactie aan wilde wijden. Want dan vallen daar weer mensen over. Dus ook hier. Verwarrend? Ik denk het niet.

    En waar heb ik de query “complex” genoemd? Leg me geen woorden in de mond. Al wat ik bedoelde is dat hij voor de gemiddelde leek of beginner wsl al lastig genoeg is.

  9. 15

    @13: Op het moment dat het interessant is om een emailadres te googlen, dan is het over het algemeen een vals adres. Het IP-adres is wat dat betreft vaak informatiever. Niet dat je mensen er echt mee kan opsporen, maar je kan er wel mensen die onder verschillende namen reageren mee zien, en eventueel zien of de reaguurder via een open proxy of tor reageert.

  10. 16

    @14: Joost, niet doen.

    edit Joost: Op de een of andere manier word ik altijd een beetje recalcitrant van mensen die mij – zonder enig recht van spreken – vertellen wat ik moet doen.

  11. 21

    @19: Ik zou de thema’s informatiever vinden. Zeker ook omdat de tags flink vervuild zijn doordat ze soms ook als categorisering gebruikt werden, en dat tagging notoir niet leuk gevonden wordt, dus ook vaak wordt nagelaten.

  12. 25

    “De reaguurders kakken een beetje in tegen het einde van de avond. Maar de reaguurders die het tot diep in de nacht volhouden, zijn er duidelijk even voor gaan zitten!”

    Die reaguurders van Sargasso bevinden zich all over the world, heb ik de indruk. Ik denk dat het voor de expats toch een stukje wezenlijke nieuwsduiding is die ze elders niet kunnen krijgen. Waar ik me harte bij aansluit, want dat geldt niet alleen voor expats. Maar: is deze indruk met sargassoëske datamining hard te maken? Als je de reaguurders naar woonplaats wil uitsplitsen heb je waarschijnlijk IP-adressen nodig. Dat begint al aardig op NSA-praktijken te lijken…

  13. 27

    @25:

    Als je de reaguurders naar woonplaats wil uitsplitsen heb je waarschijnlijk IP-adressen nodig. Dat begint al aardig op NSA-praktijken te lijken…

    Natuurlijk zitten er problematische kanten aan, maar elke website heeft sowieso de IP-adressen van de bezoekers. Dat is gewoon onvermijdelijk. En WordPress slaat het adres ook op bij elke reactie, de beheerder kan dat makkelijk zien.

    Dus als je dat koppelt aan de GeoIP-database dan heb je een aardig beeld van waar de bezoekers en reaguurders zoal vandaan komen.

    Van mij zullen ze niet heel veel wijzer worden want ik reageer altijd vanaf hetzelfde adres, waar ik ook ben.

  14. 29

    @Joost p/a Olav in #16: waarom heeft Olav geen recht van spreken? Hij geeft een mening, hij is een vrij regelmatig en vziw tamelijk constructief lid, hij onderbouwt waarom hij het een probleem vindt… ik vind eigenlijk dat dat wel iets redelijker mag worden behandeld dan recalcitrant reageren.

  15. 31

    @6: vijf tabellen. Tags worden gekoppeld met nummer in referentietabel. Losse tabel voor namen. Dan nog Posts en reacties en usernames.
    Vervolgens compenseren voor aantal keer dat tag gebruikt wordt.
    Te doen.

  16. 32

    @17: sorry Dr. Banner, sikbock heeft gelijk!

    Zo zie ik trouwens soms nog veel meer oudgedienden hoor, neem Arduenn, maar de frequentie van reageren neemt dan behoorlijk af. Maar ik kan ze niet allemaal noemen natuurlijk :)

  17. 34

    @27:

    Natuurlijk zitten er problematische kanten aan, maar elke website heeft sowieso de IP-adressen van de bezoekers. Dat is gewoon onvermijdelijk.

    Hoewel dat juist is en hoewel ik vind dat dat volstrekt geen probleem zou moeten zijn, worden IP-adressen van eindgebruikers in dit soort situaties als persoonsgegevens beschouwd door de Nederlandse wet. Hoewel ik het jammer zou vinden van alle informatie die je kwijtraakt als je de IP-adressen niet bewaart cq weggooit, ga ik er vanuit dat Sargasso, privacy-bewust als ze is, de IP-adressen van de reacties helaas niet tot haar beschikking heeft in een vorm anders dan de accesslogs, waarvan het hoogst ongebruikelijk is om die 12 jaar te bewaren.

    http://www.iusmentis.com/maatschappij/privacy/persoonsgegevens/
    http://blog.iusmentis.com/2007/10/23/publiceren-ip-adres-van-gebruikers-forum/

    EDIT:

    We slaan IP-adressen op, maar slechts de eerste drie getallen. 194.134.5.5. wordt zo 194.134.5.X.

    Aldus Sargasso op in haar privacystatement ;-)

  18. 36

    @zmcc: Sargasso heeft die gegevens wel. Helaas is het noodzakelijk om ook maar een kans te maken bepaalde mensen te kunnen bannen.

    Ik speel overigens wel met het idee om de ip-adressen in de db na, zeg, een maand, te anonimiseren. Want na die tijd hebben we er niet zoveel meer aan. Op dit moment is dat nog niet het geval.

    Een ander punt: Access- en errorlogs van servers kunnen ook worden geanonimiseerd. Elke server (in ieder geval als die apache draait) slaat die gegevens standaard op, maar het kan gewoon worden ingesteld dat de IP-adressen niet worden gelogd.

    Maar dan heb je wel een probleem als je zit met een DoS ofzo.

  19. 38

    Oh ja, en @iedereen. De reden dat ik in comments reageerrde, was omdat ik in een andere draad het verwijt kreeg off topic te gaan. Normaal doe ik dat niet maar in dexe situatie leek het me het beste.

    En dan word je natuurlijk weer hier op afgezekem. En dan heb ik het gehad.

  20. 39

    @Joost, #36 Over de accesslogs is de wet helder; die vallen erbuiten. Wat je in je reactiedatabase opslaat klinkt als illegaal en niet conform je eigen privacystatement. Niet dat mij het boeit, overigens. Just saying.

  21. 40

    “Maar hoe zit dat nou als je kijkt naar de uren van de dag? (…) Maar de reaguurders die het tot diep in de nacht volhouden, zijn er duidelijk even voor gaan zitten!”
    Zal dat niet komen omdat er ’s nachts minder berichten worden gepost en overdag veel meer, waarbij er ook meer korte berichten zijn. Ik kan me voorstellen dat je overdag in de vrije uurtjes nogal wat ‘snelle’ korte reacties krijgt die het gemiddelde omlaag brengen. Op school leer je natuurljk niet voor niets over het gemiddelde, modus en mediaan.

  22. 41

    @zmcc is dat zo van die accesslogs? Heb je daar een bron voor? En inderdaad, elke wordpress- joomla en drupalsite (etc etc) die reacties opslaat doet iets illegaals.

  23. 42

    @17 @32 @37
    DrBanner Dr Banner etc.
    Sinds eind 2002/begin 2003.
    Ik ben van de korte reacties.

    Ik denk dat tussen 20.00 en 2.00 er ook veel slow chat is.
    Dat maakt reacties korter.

    PROOST

    En meer dan Zwarte Piet mis ik Boobelino de Soto en The Horse. Ze hadden nooit voor de VN moeten gaan werken ;) The Horse had de langste, de Soto de grootste reacties.

  24. 43

    @42: dan was ik toch nog net iets ”eerder” Ik sinds begin 2002.. vergissing mijnerzijds dus.. de tijd van leefbaar Rotterdam, Pim Fortuyn en de “hetze” tegen Sargasso.. en “Henk op Phuket” natuurlijk, of was dat weer later?

    * opa weet het allemaal niet meer zo goed *

  25. 45

    @44: i recall geloof ik.. van die korte stukkies met mooie plaatjes van Ming vazen?.. Sargasso had vroeger überhaupt veel mooiere plaatjes trouwens.. waar zijn de plaatjes gebleven? ik kwam vroeger voor die plaatjes..

  26. 46

    @41:

    is dat zo van die accesslogs? Heb je daar een bron voor? En inderdaad, elke wordpress- joomla en drupalsite (etc etc) die reacties opslaat doet iets illegaals.

    Mijn tweede link uit #34 beschrijft de uitzondering voor accesslogs:

    http://blog.iusmentis.com/2007/10/23/publiceren-ip-adres-van-gebruikers-forum/

    Verder zijn natuurlijk niet alle wordpress- joomla en drupalsites Nederlands privacyblogboegbeeld:Pp

    En via deze weg nog een extra tekstuele +1 voor #45!

  27. 47

    @40: Als deze post wetenschappelijk en wiskundig verantwoord had moeten zijn, was ik er niet aan begonnen :-)
    Dat bewaar ik liever voor zaken die anderen aangaan.