Formas alternativas de codificacao de caracteres para outras linguas

De gutocarvalho.net

Conteúdo

[editar] O que é o ISO8859 ?

ISO 8859, formalmente ISO/IEC 8859, é a união das normas e padrões do International Organization for Standardization e [[International Electrotechnical Commission|IEC para caracteres de 8 bits para uso em computadores. As normas são divididas e numeradas, separadas e publicadas como, ISO/IEC 8859-1, ISO/IEC 8859-2, etc., cada um pode por sua vez oferece referencias de padrões e normas de uso.

ISO/IEC 8859 partes 1, 2, 3 e 4 e também a Ecma International ECMA-94.

[editar] Introdução

Enquanto os 95 padrões de impressão da tabela ASCII de caracteres são suficientes para trocar informações em Inglês Moderno, a maioria de outras linguagens que usam o alfabeto latino precisam de símbolos adicionais não disponíveis na tabela ASCII, como por exemplo ñ do idioma Espanhol, å no idioma sueco e outros idiomas nórdicos, e ő do idioma Húngaro.

O ISO 8859 veio para resolver este problema, utilizando o oitavo bit dos 8 bits de um caractere, desta forma ele possibilita a adição de mais 128 caracteres. Este oitavo bit anteriormente era utilizado como protocolo de controle da transmissão de informações, ou em alguns casos nem era utilizado. De qualquer forma, a maioria dos caracteres que precisamos podem ser inseridos neste oitavo bit.

A codificação ISO 8859-n contém apenas caracteres imprimíveis, e foram desenvolvidas para serem utilizados em conjunto com caracteres de controle mapeados para bytes não atribuídos. Para isto uma série codificação foi registrada com a IANA (Internet Assigned Numbers Authority) e os controles de código CO e C1 control set (controle de caracteres mapeados paa bytes do 0 ao 31) do ISO/IEC 646 e o os controles de código CO e C1 (controle de caracteres mapeados para bytes 127 a 159) da ISO 6249, resultando no completo mapa de caracteres de 8 bits com, não todos, mas a maioria bytes assinados. Estes ajustes deram ao ISO8859-n a preferência do nome MIME, ou em alguns casos onde o nome MIME preferido não foi especificado usam-se nomes canônicos. Muitas pessoas usam o termo ISO 8859-n e ISO-8859-n de forma indiferente. Apenas o ISO 8859-11 não conseguiu uma atribuição própria pois presumiu-se que ele era muito parecido com a norma TIS 620.

[editar] Caracteres

O padrão ISO 8850 foi desenhado para trocas de informações fidedignas e não para impressões tipográficas; o padrão omitiu símbolos necessários para uma tipografia de alta qualidade, tais como ligações, marcações, aspas, dentre outros. Como resultado disto, impressões de alta qualidade geralmente utilizavam sistemas proprietários, extensões proprietárias sobrescrevendo o padrão ASCCI e ISO8859, ou usando UNICODE ao invés do ISO 8859.

Por regra, se um caractere ou simbolo não fizer parte dos caracteres mais usados, e se este não estiver disponível nos teclados de seu idioma, você não poderia utilizá-lo.

Vamos a alguns exemplos, os caracteres « e »' usados em alguns idiomas europeus foram incluídos, mas os caracteres e usados no inglês não foi.

No francês não temos œ e Œ que são ligações por que eles podem ser digitados como 'oe'. O caractere Ÿ necessário para todos os textos em caixa alta, não está disponível.

Estes caracteres foram, de qualquer forma incluídos mais tarde com o ISO/IEC 8859-15/ISO 8859-15, em que também foi incluído mais tarde o caractere € que simboliza a moeda Euro.

Entretanto no idioma Alemão no tem as letras 'ij' e 'IJ' , isto por que os oradores alemães já estavam acostumados a digitar estas duas letras ao invés de usar um caractere especial.

Para o idioma Romeno inicialmente não estavam disponíveis os caracteres Ș/ș e Ț/ț porque estas letras foram inicialmente unificadas com Ş/ş' e 'Ţ/ţ usando cedilha pelo consórcio UNICODE, considerando o moldes com virgula benéficos de acordo com as variações de pictografia com cedilha. Mais tarde estas letras com virgula explicita foram adicionadas ao padrão Unicode e depois também no ISO/IEC 8859-16|ISO 8859-16.

A maioria das codificações ISO 8859 prove marcas diacríticas necessárias para várias linguagens do continente europeu usando o latin script. As outras oferecem alfabetos que não estão ligados as línguas latinas, dentr elas, alfabeto Grego, alfabero Cirílico, alfabeto Hebreu, alfabeto Arábico, alfabeto Thailandês.

A maioria das codificações contém espaçamento de caracteres, embora o alfabeto Tailandês, Hebreu e Arábico também conterem caracteres combinados. De qualquer forma, este padrão não pode gerar scripts para idiomas do leste asiático, CJK, seu tipo de ideografia requer milhares de pontos de código e caracteres diferentes. Embora eles utilizem caracteres baseados no Latin, Vietnamita não cabe nas 96 posições possíveis (sem combinação diacrítica). Os alfabetos japoneses (hiragana ou katakana, kana), também não cabem nos 96 caracteres, como muitos outros alfabetos do mundo que não foram codificados dentro do sistema ISO 8859.

[editar] As partes do sistema ISO 8859

Parte 01 Latin-1 Western European
Parte 02 Latin-2 Central European
Parte 03 Latin-3 South European
Parte 04 Latin-4 North European
Parte 05 Latin/Cyrillic
Parte 06 Latin/Arabic
Parte 07 Latin/Greek 	Co
Parte 08 Latin/Hebrew
Parte 09 Latin-5 Turkish
Parte 10 Latin-6 Nordic
Parte 11 Latin/Thai
Parte 12 Latin/Devanagari (nao existente)
Parte 13 Latin-7 Baltic Rim
Parte 14 Latin-8 Celtic
Parte 15 Latin-9
Parte 16 Latin-10 South-Eastern European

[editar] O que é o UNICODE?

[editar] Referências

Ferramentas pessoais