Caratteri in Internet

william-morris-letter-a_r2[pagina da modificare e ampliare]

In questo articolo: I caratteri ASCII, ASCII a 7 bit (detto anche ASCII ristretto, US-ASCII, ASCII  base), ASCII esteso (ASCII a 8 bit), ISO 8859-1 (o Latin 1), ANSI (Windows-1252), Unicode, UTF-8.
Livello di difficoltà: non semplice

Esistono una enorme quantità di set di caratteri (character set in inglese, da non confondere con i font) utilizzati dai computer. Per averne una idea osservate la tabella (un elenco) che trovate in fondo alla pagina a questo link: http://en.wikipedia.org/wiki/DBCS.

Molti di queste codifiche sono legate a Sistemi Operativi caduti in disuso o a tentativi che hanno preceduto alcuni sistemi di standardizzazione che poi si sono imposti nella pratica. Comunque ancora molta confusione regna sotto il sole. Cerhiamo di chiarirci qualche idea.

I caratteri ASCII

ASCII a 7 bit (detto anche ASCII ristretto, US-ASCII, ASCII  base)

Ha più di 50 anni, ma forse non è ancora superato.
Utilizza solo 7 bit (quindi un byte incompleto o meglio un byte completo di cui non considera il primo bit – da verificare). Pertanto le combinazioni di bit disponibili sono 27 pari a 128 e vanno a da 0 al 127 (gli informatici cominciano a contare da zero).
ASCII significa American Standard Code for Information Interchange. Proposto dall’ANSI (American National Standards Institute ) nel 1963 divenne definitivo nel 1968. Fu inventato per le comunicazioni fra telescriventi (alcuni codici sono quasi incomprensibili oggi ma allora servivano per comandi specifici,). Nel tempo è diventato uno standard di riferimento.
Comprende tutti i caratteri dell’alfabeto latino minuscoli e maiuscoli, i numeri, vari segni tipografici e alcuni caratteri di controllo. Non include i caratteri accentati che in inglese non si usano.
Un testo scritto con i caratteri ASCII ristretto viene interpretato dalla stragrande maggioranza dei computer senza errori.
Può essere utilizzato per la lingua italiana, come ripiego, apponendo alle lettere accentate, che sono quasi sempre alla fine delle parole, il segno dell’apostrofo (es: perche’, cioe’, felicita’). Non è una bella soluzione ma in certe situazioni funziona. Altre lingue europee che usano le lettere accentate nel corso delle parole e quindi non solo come finali, non possono fare altrettanto.

ASCII esteso (ASCII a 8 bit)

Esistono varie versioni dell’ASCII esteso, cioè quello che sfrutta le 256 combinazioni dell’intero Byte, mantenendo la prima parte identica a quella dell’ASCII a 7 bit. Di fatto aggiunge nuovi caratteri caratteri dal 128 al 255. I primi 31, dal 128 al 159 li lascia vuoti (non li usa). Serve per le lingue che usano lettere accentate ed altri segni particolari. Versioni diverse di ASCII esteso servono per gruppi di lingue diversi.

ISO 8859-1 (o Latin 1)

Comprende i caratteri accentati e vari altri caratteri particolari maggiormante utilizzati nelle lingue europee occidentali, fra cui italiano, tedesco, spagnolo, danese, svedese, ecc. Alcune lingue europee, anche importanti, non sono rappresentate completamente. Per esempio il Francese non trova Œ , æ e una specie di y accentata… molto rara: Ÿ

Il linguaggio HTML corrente, alla base delle pagine web,  utilizza normalmente questo set di caratteri (ISO-8859-1 is the default character in HTML 4.01), tuttavia per evitare che qualche server o browser particolare non riconosca la parte dell’ASCII estesa, prevede la possibilità di scrivere i carattari strani con i soli caratteri dell’ASCII ristretto. Per esempio la “è” si può scrivere scrive “&eacute”. Allo stesso scopo è possibile utilizzare il codice decimale o il codice esadecimale.
Le parti dopo la & sono dette entità e servono a rappresentare caratteri speciali, i quali potrebbero avere problemi di visualizzazioni su computer e sistemi operativi differenti.

Le versioni più datate dei  browser non sono in grado di leggere correttamente nemmeno questi codici.

ANSI (Windows-1252)

ANSI , inteso come set di caratteri è stato  usato dalla Microsoft fino a Windows 95 .
Usa gli stessi caratteri del Latin 1 ma anche i primi 32 inutilizzati dal medesimo.
The codes from 128 to 159 are not in use in ISO-8859-1, but many browsers will display the characters from the ANSI (Windows-1252) character set instead of nothing.

Unicode

Fu sviluppato nel 1991 per poter codificare più caratteri in modo standard e permettere di utilizzare più set di caratteri estesi in un unico documento. É oggi largamente diffuso. Inizialmente prevedeva una coppia di Byte (256 x 256) pari a 65.536 caratteri (code points) ed è stato in seguito esteso a 1.114.112 (= 220+ 216) al momento largamente inutilizzati (verificare la situazione).

A volte si incontra la sigla BMP. Si tratta di una sola parte dell’Unicode, il Piano di base multilinguistico (Basic Multilingual Plane). Contiene la maggior parte dei caratteri per quasi tutti i moderni linguaggi e un grande numero di caratteri speciali.

UTF-8

Corrisponde all’Unicode, ma con un sistema che permette il risparmio di bit (in pratica usa solo i byte necessari)

Annunci
Questa voce è stata pubblicata in Abilità di base, Browser, Sistema Operativo e contrassegnata con , , , , , . Contrassegna il permalink.

Rispondi

Inserisci i tuoi dati qui sotto o clicca su un'icona per effettuare l'accesso:

Logo WordPress.com

Stai commentando usando il tuo account WordPress.com. Chiudi sessione / Modifica )

Foto Twitter

Stai commentando usando il tuo account Twitter. Chiudi sessione / Modifica )

Foto di Facebook

Stai commentando usando il tuo account Facebook. Chiudi sessione / Modifica )

Google+ photo

Stai commentando usando il tuo account Google+. Chiudi sessione / Modifica )

Connessione a %s...