viernes, 4 de junio de 2021

1.6 UNICODE

Es un set de caracteres universal, es decir, un estándar en el que se definen todos los caracteres necesarios para la escritura de la mayoría de los idiomas hablados en la actualidad. Es un formato común de caracteres, dentro del cual se encuentran cada uno de los caracteres de todo teclado de una computadora. Deriva de los tres objetivos perseguidos que son universalidad, unicidad y uniformidad.

Define una tabla que representa cada carácter como un número de 2 bytes, de 0 a 65535. Cada número de 2 bytes representa un único carácter utilizado en al menos un idioma del mundo, a ese número se le llama code point. Hay exactamente un número por carácter, y exactamente un carácter por número. Almacenan letras, símbolos, números y otros caracteres mediante la asignación de un número a cada uno.  


  • La Principal Ventaja que tiene UNICODE es su adaptación a la gran cantidad de idiomas por todo el mundo, entre ellos idiomas como el chino, el ruso o el árabe.
  • Ente todos esos idiomas, uno de ellos es el español lo que hace que se pueda escribir sin problemas la letra ñ.

  • UNICODE es compatible con ASCII.

  • Una secuencia de bytes para un carácter jamás será parte de una secuencia más larga de otro carácter como lo hacían viejas codificaciones como Shift-JIS.

 

  •  Una desventaja es, UTF-8 es de longitud variable; eso significa que diferentes caracteres toman secuencias de diferentes longitudes para codificar. La agudeza de esto podría ser disminuida, sin embargo, creando una interfaz abstracta para trabajar con cadenas UTF-8 y haciéndolo transparente al usuario.

·      Un analizador de UTF-8 mal escrito podría aceptar un número de diferentes representaciones pseudo-UTF-8 y convertirlas en la misma salida Unicode.

·      Esto, más que una desventaja es un pequeño inconveniente, y es que los caracteres ideográficos usan 3 bytes en UTF-8, pero sólo 2 en UTF-16. Así, los textos chinos/japoneses/coreanos usarán más espacio cuando sean representados en UTF-8.

La función que cumplen  las Tablas Unicode dentro de la informática es que se lo utiliza para la representación de texto para procesamiento del equipo, proporciona una manera consistente de codificación de texto multilingüe y facilita el intercambio de archivos de texto internacionales. Proporciona información adicional sobre los caracteres y su uso. Cada carácter se asigna a un punto de código, que es un número entero entre 0 y 1114111. Se hace referencia a los puntos de código Unicode mediante la notación en formato U+nnnn, donde nnnn es el número hexadecimal del punto de código, o mediante una cadena de texto que describe el punto de código. Por ejemplo, la letra en minúscula “a” puede ser representada por U+0061 o la cadena de texto "LATIN SMALL LETTER A". Los puntos de código se pueden codificar mediante diferentes esquemas de codificación de caracteres.
No son suficiente 8 bits para codificar todos los alfabetos y escrituras del mundo.

Intercambiar documentos entre estos sistemas era difícil porque no había manera de que un computador supiera con certeza qué esquema de codificación de caracteres había usado el autor del documento; el computador sólo veía números, y los números pueden significar muchas cosas. Para resolver estos problemas se diseñó Unicode. Y en 1991 se acordó internacionalmente utilizar la norma Unicode, que es una gran tabla, que en la actualidad asigna un código a cada uno de los más de cincuenta mil símbolos, los cuales abarcan todos los alfabetos europeos, ideogramas chinos, japoneses, coreanos, muchas otras formas de escritura, y más de un millar de símbolos locales. 
Unicode se relaciona con el ASCII y el EBCDI a partir de que ambos constan de caracteres de texto, pero mientras el obtenido con el editor de texto, es un archivo de texto puro que codifica carácter a carácter, el archivo de texto producido por un procesador de textos contiene números, códigos que representan cambios de formato, de tipos de fuentes de letra y otros, e incluso pueden utilizar códigos propietarios distintos de ASCII o Unicode.
EBCDIC significa (Extended Binary Coded Decimal Interchange Code) Código de Intercambio decimal de código binario extendido. EBCDIC es un código binario que representa caracteres alfanuméricos, controles y signos de puntuación. Cada carácter esta compuesto por 8 bits= 1 byte, por eso define un total de 256 caracteres. Existen muchas versiones ("codepages") de EBCDIC con caracteres diferentes, respectivamente sucesiones diferentes de los mismos

caracteres. Por ejemplo al menos hay 9 versiones nacionales de EBCDIC con caracteres y sucesiones diferentes.

ASCII significa (American Standard Code for Information Interchange —Código Estándar estadounidense para el Intercambio de Información—), pronunciado generalmente áski. Utiliza 7 bits para representar los caracteres. En la actualidad define códigos para 32 caracteres no imprimibles, de los cuales la mayoría son caracteres de control que tienen efecto sobre cómo se procesa el texto, más otros 95 caracteres imprimibles que les siguen en la numeración (empezando por el carácter espacio). El código ASCII es una representación numérica de un carácter como ‘a’ o ‘@’. Es un método para una correspondencia entre cadenas de bits y una serie de símbolos (alfanuméricos y otros).



Unicode es un estándar en constante evolución y se agregan nuevos caracteres continuamente. Se han descartado ciertos alfabetos, propuestos por distintas razones, como por ejemplo el alfabeto klingon.



Fuentes



Alumnas: 

  • Dominguez, Micaela A.
  • Estigarribia, Erika G.
  • Francini, Astrid S.


No hay comentarios.:

Publicar un comentario

La historia de un gran matematico

1.6 UNICODE Es un set de caracteres universal, es decir, un estándar en el que se definen todos los caracteres necesarios para la escritura ...