Mojibake
Mojibake (文字化け, pronunciado /modʑibake/) es el nombre de los caracteres incorrectos e ilegibles que se muestran cuando el software informático no muestra el texto correctamente. Cuando se utilizan ordenadores, el texto se codifica mediante una codificación de caracteres. En la transferencia, cada carácter se sustituye por su posición (o número) en la codificación. Para volver a mostrar el carácter, la posición se sustituye de nuevo por el carácter. Cuando no se especifica la codificación original, se puede utilizar un carácter diferente al sustituir de nuevo el número por el carácter para su visualización. Unicode se introdujo para resolver este problema: UTF-8 es capaz de codificar los caracteres más comunes en 2 bytes.
Antes de la introducción de Unicode, se utilizaban otras codificaciones de caracteres. Por ejemplo, ISO-8859 contiene 15 codificaciones diferentes. Éstas son las mismas para los caracteres comúnmente utilizados en inglés. Tienen varios "bloques" de "caracteres especiales", que se archivan de forma diferente para cada codificación.
Este es el aspecto que puede tener un sitio web si se utiliza una codificación de fuente incorrecta.
El artículo de la Wikipedia en japonés sobre Mojibake utiliza la codificación UTF-8. Esta captura de pantalla muestra el aspecto que tiene cuando se descodifica utilizando la codificación estándar CP1252 de Windows.
Origen de la palabra
Mojibake es una palabra japonesa. La palabra 文字化け ([moʥibake]) se compone de dos partes. 文字 (moji) significa letra, carácter. 化け (bake), del verbo 化ける (bakeru), significa aparecer disfrazado, tomar la forma de, cambiar a peor. Literalmente, significa "mutación de carácter".
Preguntas y respuestas
P: ¿Qué es "mojibake"?
R: Mojibake es el término para los caracteres incorrectos e ilegibles que aparecen cuando el software del ordenador no consigue mostrar el texto correctamente.
P: ¿Cómo se codifica el texto cuando se utilizan ordenadores?
R: El texto se codifica utilizando una codificación de caracteres, en la que cada carácter se sustituye por su posición o número en la codificación.
P: ¿Qué ocurre cuando no se especifica la codificación original al transferir texto?
R: Cuando no se especifica la codificación original, es posible que se utilice un carácter diferente al sustituir el número por el carácter para mostrar.
P: ¿Qué es Unicode y cómo resuelve este problema?
R: Unicode es una norma de codificación de caracteres que puede representar la mayoría de los caracteres en dos bytes. Resuelve el problema de utilizar diferentes codificaciones de caracteres y garantiza que los caracteres se muestren correctamente.
P: ¿Cuáles son algunos ejemplos de otras codificaciones de caracteres que se utilizaban antes de Unicode?
R: ISO-8859 es un ejemplo de otra codificación de caracteres que se utilizaba antes de Unicode.
P: ¿Cuántas codificaciones diferentes contiene ISO-8859?
R: ISO-8859 contiene 15 codificaciones diferentes.
P: ¿Los caracteres especiales de ISO-8859 son los mismos para todas sus codificaciones?
R: No, los caracteres especiales de ISO-8859 se archivan de forma diferente para cada codificación.