Internet

¿Qué es la codificación de caracteres?

La codificación de caracteres, en la programación de computadoras, es un método o algoritmo utilizado para encontrar una representación generalmente numérica de un carácter, glifo o símbolo. El uso de la codificación de caracteres en las computadoras es necesario porque la información dentro de la memoria de la computadora y en los medios legibles por computadora se almacena como secuencias de bits o números. Esto requiere el uso de codificación para traducir caracteres no numéricos que se utilizan para la visualización o salida legible por humanos en una forma que una computadora pueda manipular. En una aplicación más específica, los documentos del lenguaje de marcado de hipertexto (HTML) que son leídos por los navegadores web pueden definir qué tipo de codificación de caracteres están usando para que el navegador sepa qué conjunto de caracteres específico usar al mostrar la información en el documento. Hay varios esquemas de codificación en uso, aunque muchos de estos conjuntos propietarios y heredados están siendo reemplazados lentamente por el estándar de codificación Unicode®.

En los primeros días de las computadoras, cuando había un espacio de memoria limitado, los caracteres básicos del alfabeto inglés, incluidos los signos de puntuación y los números, se almacenaban en secuencias de 7 bits que permitían 128 caracteres diferentes. En este esquema original, cada byte de 7 bits representaba un carácter del alfabeto inglés, numerado en secuencia. Esta codificación de caracteres fue eficiente y finalmente se estandarizó y se usó en la mayoría de las computadoras que se produjeron. Aunque el sistema de codificación evolucionó hacia el estándar de codificación Unicode®, el concepto siguió siendo el mismo. Es decir, cada carácter individual en un idioma está directamente relacionado con un solo número dentro de un conjunto de caracteres estándar grande, y ese número es lo que una computadora usa para almacenar, procesar e indexar el carácter.

Se desarrollaron otros tipos de codificación de caracteres por diferentes razones. Algunos que estaban orientados específicamente al alfabeto inglés y destinados a ser utilizados para texto solo mapearon sus caracteres en secuencias de 7 bits y luego los distribuyeron en bytes de 8 bits u octetos. Esto tuvo el efecto de ahorrar 1 bit por octeto, utilizando efectivamente la codificación de caracteres como un tipo de compresión. Otros esquemas de codificación intentaron proporcionar información básica sobre un carácter, y luego caracteres adicionales para representar acentos especiales que podrían usarse al escribir en un idioma diferente, aunque estos se abandonaron en gran medida por los métodos de codificación uno a uno más simples.

En los documentos HTML, la codificación de caracteres es más o menos la misma que el concepto más amplio, excepto que la codificación que se define abarca un conjunto completo de caracteres. Esto puede ser importante no solo para idiomas extranjeros, sino también para documentos que usan símbolos específicos para ciencias o matemáticas que no están presentes en todos los juegos de caracteres. También puede ser útil para usar signos de puntuación y otros glifos que podrían no estar presentes o estar asignados de manera diferente en los esquemas de codificación. Los documentos que no definen correctamente una codificación de caracteres no estándar podrían mostrarse incorrectamente o estar llenos de caracteres sin sentido y marcadores de posición en lugar de información legible.