Quote du Jour – Open Vensters, open deuren

Quote du Jour“Wij proberen te streven naar open standaarden op een manier die zo weinig mogelijk de dagelijkse werking van de overheid verstoort”

Vanaf september 2008 is het zover: de Belgische overheid heeft als eerste staat beslist om alle digitale documenten uit te wisselen in een Open Document Format.
Ondertussen lijkt dollarBill al wel een van z’n beruchte telefoontjes gepleegd te hebben.
En ja, dan krijg je een kijk in de bizarre innerlijke gemoedswereld van een Microsoft directeur die een moeilijke dag kende -maar “gelukkig bestaat er nog een telefoon”.

  1. 3

    Microsoft heeft het open .txt bestandsformaat inmiddels totaal verkloot. Voorheen ASCII, nu kan het ook een Unicodevariant zijn. Jongens, fijn en bedankt hoor.

  2. 4

    @mescaline: Unicode is slechts een karakterset codetabel, geen bestandsformaat. De .txt extensie ook niet. In ASCII encoded files zijn in feite een binary dump van wat uit een console komt. En als je dacht dat dit een nieuwe issue is heb je waarschijnlijk nooit gehoord van EBDIC :)

  3. 5

    Sorry su, dit boeit helemaal niks.
    In de praktijk van dertig jaar, miljarden mensen en tienduizenden programma’s is een .txt file een 8bit per karakter (meestal ASCII) file. En zeker geen 16bit zoals die schoft van MS XP nu aanlevert en aanmaakt, dat weet jij ook.

  4. 7

    @mescaline: ASCII in een bestand kan zowel 7 bits (lower ASCII) of 8 bits zijn. Het kan een representatie zijn van de ISO 8851-1 of een van de vele andere codepages die er bestaan zonder enig manier om te bepalen welke. Op vele IBM systemen zoals de AS400 is het zelfs een afwijkende encoding die jaren gebruikt is/wordt. Kortom, een grote baggerzooi die nodig aan uitfaseren toe is.

  5. 11

    Wat een hoopje gelul hier.

    Maar de volgende zaken zijn niet onbelangrijk

    1) Waarschijnlijk zijn de gewesten nog niet aangepast aan deze beslissing en wordt het een gezellig boeltje.
    2) De vent van MS zit te zeiken
    3) Onze ministers hebben eindelijk een zinnige beslissing genomen op IT-vlak, dat gebeurd niet vaak.

  6. 18

    @su – Er zijn toch maar twee bestandsformaten: ASCII en binary? Of hoe moet ik die dan noemen?

    En hoe heet dat formaat waarmee ik een in UTF-8-gecodeerd .txt-bestandje maak dan eigenlijk?

  7. 19

    @Arduenn: Er zijn twee manieren van intepreteren van een bestand, als text en als binary. Bij text wordt er vanuit gegaan dat er een (os-afhankelijke) end of line separator is terwijl binary een stroom van data is. Er is echter geen afspraak over hoe de twee van elkaar te herkennen. Je kunt dus zonder problemen een textbestand openen als binary en visa versa. Ook zijn er geen afspraken over de encoding van een textbestand. Zo kan een textbestand worden encode met 1 byte codepoints, 2 byte codepoints of variabele byte codepoints. Bij zowel text als binary kan de byte order of long-endian zijn of short-endian. Het is aan de interpreterende programma om de juiste encoding en byte order te herkennen. Dus de ‘bestandsformaat’ van text en binary zijn zeer algemene container afspraken.

    ASCII is geen bestandsformaat, maar een codetabel. Initieel was het een 7 bits codetabel (128 karakters), de most significant bit werd gebruikt voor een parity check. Later is dit uitgebreid met higher ASCII, wat een superset van ASCII is.

    Je kunt heel goed de afkomst van ASCII zien in de eerste 32 codepoints. Dit zijn controlcodes die zeer zinnig zijn voor het aansturen van een dumb terminal, maar die lang niet allemaal bruikbaar zijn als codes in textbestanden. Denk daarbij aan BEL (0x07) die een belletje doet rinkelen, ACK (0x06) om aan te geven dat data goed ontvangen is of NAK (0x15) om aan te geven dat er zooi is ontvangen. Ook in de hogere codepoints kunnen controlcodes voorkomen afhankelijk van de encoding. Zo bevat ISO 8859-1 in de codepoints 0x80 t.m. 0xA0 codes die vroeger op DEC terminals werden gebruikt voor controls.

    Het text ‘formaat’ waarmee een UTF-8, ASCII, etc. bestand mee wordt aangegeven noemen we flat text, wat zoveel betekent als een bestand bestaand uit een stroom codepoints in een arbitrair encoding.