Big5Big5 ou Big-5 est une méthode de codage de caractères, principalement utilisée à Taïwan et à Hong Kong, permettant de saisir les caractères chinois traditionnels. Son équivalent pour les caractères chinois simplifiés est le codage GB, utilisé en République populaire de Chine. Le nom chinois Big5 五大碼 (pinyin : wǔdàmǎ) signifie « Codage des Cinq Grands ». Ce nom fait référence au but originel de supporter les cinq principaux paquetages utilisés à Taïwan à cette époque, ou aux cinq principales compagnies informatiques à Taïwan : Acer 宏碁, MiTAC 神通, JiaJia 佳佳, Zero One 零壹 et FIC 大眾, qui ont collaboré à l'élaboration de ce code.
ASCII étenduLes codages de caractères ASCII étendu, aussi connus dans leur dénomination anglaise extended ASCII, sont un ensemble de jeux de codage de caractères qui ont en commun le sous-ensemble de caractères ASCII. Ce terme est informel et peut être critiqué pour deux raisons : d'une part cette dénomination pourrait laisser penser que le standard ASCII aurait été étendu, alors qu'il désigne en fait un ensemble de normes qui incluent le sous-ensemble ASCII ; d'autre part, l'ASCII étendu ne désigne pas un codage de caractère donné mais un ensemble imprécis de normes précisant chacune un codage de caractères surensemble de l'ASCII.
Fin de ligneDans un fichier texte, plusieurs conventions incompatibles existent pour représenter la fin de ligne ou la fin de paragraphe. Les trois conventions principales trouvent leur origine dans des systèmes d’exploitation concurrents. Dans la convention « Unix », la fin de ligne est indiquée par le caractère saut de ligne (, code 10 de la table ASCII). C’est la convention suivie entre autres par les systèmes Multics, Unix, de type Unix (Linux, AIX, Xenix, Mac OS X), BeOS, AmigaOS, et RISC OS.
Windows-1252Windows-1252 ou CP1252 (abréviation de « code page – 1252 » , signifiant Page de code – 1252) est un jeu de caractères, utilisé historiquement par défaut sur le système d'exploitation Microsoft Windows en anglais et dans les principales langues d’Europe de l’Ouest, dont le français. Au début des années 1990, l'utilisation du codage Windows-1252 se développe en Occident, avec la diffusion de Windows 3.x. Les caractères codés sont appelés par confusion « ANSI » au lieu d'« occidentaux » (« Western »).
Windows code pageWindows code pages are sets of characters or code pages (known as character encodings in other operating systems) used in Microsoft Windows from the 1980s and 1990s. Windows code pages were gradually superseded when Unicode was implemented in Windows, although they are still supported both within Windows and other platforms, and still apply when Alt code shortcuts are used. There are two groups of system code pages in Windows systems: OEM and Windows-native ("ANSI") code pages. (ANSI is the American National Standards Institute.
ISO/CEI 8859-15L'ISO/CEI 8859-15 (aussi connue comme Latin-9 et non officiellement comme Latin-0, mais jamais comme Latin-15) est la de la norme de codage de caractères ISO/CEI 8859 de l'Organisation internationale de normalisation (ISO). Cette norme donne un code numérique tenant sur aux caractères de l'alphabet latin utilisés en allemand, anglais, basque, catalan, danois, espagnol, finnois, français, italien, néerlandais, norvégien, portugais et suédois (parmi d'autres langues européennes).
UTF-16UTF-16 est un codage des caractères définis par Unicode, où chaque caractère est codé sur une suite de un ou deux mots de 16 bits. Le codage était défini dans le rapport technique 17, annexé à la norme Unicode. Depuis, cette annexe est devenue obsolète car UTF-16 fait partie intégrante de la norme Unicode, dans son chapitre 3 Conformance, qui la définit de façon très stricte. L'UTF-16 ne doit pas être confondu avec l'UCS-2 qui est le codage, plus simple, de chaque caractère sur deux octets.
Tiretvignette|Tirets typographiques. Le tiret est un signe de ponctuation. Il ne doit pas être confondu avec le trait d’union ni avec le signe moins. Il existe trois types de tirets, selon leur longueur : le tiret long (), le tiret moyen () et le tiret court (), ainsi que le double tiret. Le trait d'union ne peut être considéré comme un tiret. Il est aussi appelé “division” en typographie. Le tiret long ou « tiret cadratin » (« — » Unicode U+2014 HTML — — — digicode A-0151; TeX ---) a plusieurs fonctions.
GuillemetLe guillemet est un signe typographique de ponctuation, principalement utilisé par paire d’un guillemet ouvrant et d’un guillemet fermant. Leurs formes (simple ou double, en chevron ou en apostrophe) et positions (gauche ou droite) varient selon les langues, les régions ou la direction du système d’écriture utilisé. Le principal usage des guillemets est de mettre en relief une expression, un terme ou une citation. Les guillemets s’emploient ainsi pour le discours rapporté et les dialogues.
UTF-8UTF-8 (abréviation de l'anglais Universal Character Set Transformation Format - ) est un codage de caractères informatiques conçu pour coder l’ensemble des caractères du « répertoire universel de caractères codés », initialement développé par l’ISO dans la norme internationale ISO/CEI 10646, aujourd’hui totalement compatible avec le standard Unicode, en restant compatible avec la norme ASCII limitée à l'anglais de base, mais très largement répandue depuis des décennies.