Unicode

O que é unicode?

O Unicode é um padrão globalmente adotado. Ele torna possível a representação de todos os caracteres de todas as línguas escritas usadas no mundo em computadores. A entidade responsável pela gestão desse padrão é o Unicode Consortium.

O Unicode atribui um número único a cada caractere, independentemente da plataforma, programa ou linguagem.

O padrão Unicode não apenas representa as letras usadas em línguas mais “familiares” para nós, como inglês, espanhol, francês e português, mas também abrange letras e símbolos usados em outras línguas, como russo, japonês, chinês e hebraico. Além disso, inclui símbolos de pontuação, símbolos técnicos e outros caracteres que podem ser usados em textos escritos.

Como o unicode trabalha?

Cada letra ou símbolo de cada alfabeto usado no mundo é associado a um código único chamado de “code point”. Esse code point é representado no formato U + número em hexadecimal. O exemplo abaixo exibe os códigos das letras que formam a palavra “BRASIL” (em letras maiúsculas).

B – U+0042
R – U+0052
A – U+0041
S – U+0053
I – U+0049
L – U+004C

O Unicode é uma vasta tabela que associa um número único (code point) a cada letra ou símbolo diferente de todos os alfabetos usados ao redor do mundo.

Encodings

Encoding é a maneira como os code points são armazenados em um arquivo de texto ou na memória do computador. O encoding é uma técnica que define regras para armazenar esses code points dos caracteres que formam as strings na memória do computador. Existem vários tipos de encoding:

UTF8
ISO-8859-1 (apelidado de Latin-1)
UCS-2
Windows-1252

Cada encoding utiliza uma técnica específica para lidar com os códigos Unicode.

“Por exemplo, o encoding UTF-8 é capaz de representar qualquer caractere Unicode. Para isso, ele usa uma técnica onde uma quantidade de 1 a 6 bytes pode ser empregada para representar cada caractere. Isso significa que o UTF-8 não segue um tamanho fixo para a representação. Code points de 0 a 127 são armazenados em 1 byte, mas outros podem ser armazenados em memória com tamanhos de 2 a 6 bytes.

O UTF-8 é completo, podendo armazenar qualquer caractere Unicode. Utiliza uma técnica de armazenamento considerada “sofisticada”. Outros encodings, como ISO-8859-1 e Windows-1252, são menos abrangentes que o UTF-8, focando apenas em um subconjunto da tabela Unicode (como caracteres de línguas ocidentais). Como compensação, eles podem usar técnicas de armazenamento mais simples e representar strings com menos bytes.” – Fonte: Devmedia

Aqui estão os links para os artigos que consultei para obter informações sobre esses dois tópicos. É fundamental ler esses artigos na ordem, para compreender melhor o conteúdo deste resumo direto e simplificado. Depois de entender esse resumo, será mais fácil absorver o conteúdo dos artigos abaixo sobre Unicode.

Se tiver alguma dúvida ou sugestão, fique à vontade para entrar em contato. Caso surjam dúvidas, deixe-as nos comentários. Até logo, e boa leitura!

Artigos para saber mais sobre Unicode:

Contribuição: Sinta-se à vontade para deixar seus comentários e contribuições para enriquecer este artigo. Sempre que for relevante, o artigo será atualizado com as informações adicionais fornecidas pelos leitores.

Artigo Relacionado

Artigo sobre “Manipulação de strings” com funções nativas do PHP. Nesse artigo além de ser apresentados algumas funções, são demonstrados alguns exemplos para fixar a informação.

Ler Agora