Tag

accents

Browsing

Des espaces après chaque caractère accentué

Pour le site du Kriya Yoga France, on me transmet régulièrement des fichiers PDF que je dois transformer en articles. Je fais donc la plupart du temps un copié-collé et ensuite je m’attèle à la mise en page dans l’éditeur WordPress.

MacOS : résoudre le problème d'encodage Unicode des accents photo

Le hic, c’est que depuis l’année dernière, je travaille sous MacOS pour tout ce qui est développement web. J’ouvre donc chaque PDF avec Preview – la visionneuse PDF installée par défaut – mais lorsque l’on colle le contenu du PDF dans un autre document, tous les caractères accentués sont suivis d’une espace (oui, on dit bien une espace en typographie) et des sauts de ligne apparaissent de nulle part. Clairement improductif.

Un conflit Unicode

Le problème réside entre un conflit lors de l’encodage Unicode entre caractères précomposés et caractères décomposés.

Un caractère précomposé ou caractère composite ou caractère décomposable est une entité Unicode qui peut aussi être définie comme une combinaison de plus de deux caractères.

Un caractère précomposé peut typiquement représenter une lettre surplombée d’un accent, comme é (lettre e avec accent aigu).

Techniquement, é (U+00E9) est un caractère qui peut être décomposé en son équivalent unicode à base de la lettre e (U+0065) et du caractère combinant accent aigu (U+0301).

La solution : UnicodeChecker

Heureusement, il existe un petit utilitaire, UnicodeChecker, qui permet de régler le problème très simplement. Voici la marche à suivre.

1. Lancez UnicodeChecker > File > New Utilities Window.

2. Copiez le texte de votre fichier PDF en mémoire (sélectionnez le texte puis Cmd+C ou Ctrl+C au clavier).

3. Dans UnicodeChecker, choississez l’option Normalize (6ème icône) et collez votre texte dans le champ Input puis appuyez sur Entrée. Cela donne :

MacOS : résoudre le problème d'encodage Unicode des accents sous Preview photo

Quatre champs sont proposés avec le résultat de la normalisation. Les deux champs qui nous importent sont NFC et NFKC, qui utilisent tout deux de l’Unicode précomposé, dans lequel l’accent fait partie intégrante du caractère accentué et non une entité à part.

4. Sélectionnez et copiez le texte contenu dans le champ NFC:

MacOS : résoudre le problème d'encodage Unicode des accents sous Preview photo 1

5. Collez maintenant le texte précédemment copié dans votre document ou l’éditeur de texte de votre CMS. A l’œil nu, rien ne change mais dans le rendu, votre texte est désormais correctement accentué, sans espaces inopportunes.

Jusqu’à très récemment, il m’était tout à fait possible d’avoir des caractères accentués dans des blocs de texte sous WordPress en utilisant le plugin Crayon Syntax Highlighter pour coloriser le code.

crayon-syntax-highlighter

Or depuis quelques temps tous les blocs en lang="text" ne permettent plus d’afficher les accents : je me retrouve avec des mots tronqués comme si le texte n’était pas encodé en UTF-8.

Problème : des caractères non-Unicode

Voici ce que donne la phrase “j’ai mangé une tarte à la crème à Noël” avec une colorisation par défaut avec Crayon Syntax Highlighter :

J'ai mangé une tarte à la crème à Noël.

Gloups! C’est totalement illisible, les accents deviennent un caractère mal encodé et certaines lettres adjacentes sont littéralement supprimées. Pas glop.

Solution : créer un alias

La solution que je propose est plus une rustine d’appoint qu’une véritable solution.

Je pense que le problème réside dans l’expression régulière des langages du plugin : certains langages (shell par exemple) n’acceptent pas les accents alors que d’autres (HTML par exemple) oui.

Je me suis rendu compte en changeant la langue du bloc que le langage batch affichait correctement les accents.

Comme je n’allais pas éditer tous mes articles pour changer le langage des blocs texte que j’ai utilisé jusqu’à maintenant, j’ai opté pour la création d’un alias.

Deb «Spoons» Perry reprend Lonely Boy des Black Keys à sa manière, rock’n’roll et décalée :

Les cuillères sont jouées par deux, comme un instrument de musique idiophone (résonnant par lui-même). Il s’agit à l’origine de véritables cuillères détournées de leurs fonctions.

On les retrouve dans bien des pays d’Europe centrale, d’Amérique du Nord ou d’Asie centrale depuis le XVIIIe siècle. Elles sont utilisées dans les musiques traditionnelles, folkloriques et dans le folk ou le bluegrass.

Quand un Liégeois parle de chiques à un Bruxellois, cela se passe comme ça :

Cette vidéo de la Communauté Française Wallonie – Bruxelles, réalisée par Benoît Mariage – auteur notamment de plusieurs longs métrages avec Benoît Poelvoorde -, vise à rapprocher les différentes communautés de Bruxelles et de Wallonie.

Savez-vous que les noms de capitales doivent être accentuées, même si elles sont écrites en majuscules ? Voici un extrait du Lexique des règles typographiques orthographiques en usage à l’Imprimerie Nationale (3ème édition) :

En français, l’accent a pleine valeur orthographique. Son absence ralentit la lecture et fait hésiter sur la prononciation, sur le sens même de nombreux mots. Ainsi convient-il de s’opposer à la tendance qui, sous prétexte de modernisme, en fait par économie de composition, prône la suppression des accents sur les majuscules. On veillera à utiliser systématiquement les capitales accentuées, y compris la préposition à. On évitera ainsi de désorienter le lecteur ou même de l’induire en erreur comme ce pourrait être le cas dans les deux exemples suivants :

  • ENFANTS LEGITIMES et ENFANTS LÉGITIMÉS de LOUIS XIV
  • ETUDE DE MODELE et ÉTUDE DE MODELÉ…

Marceau Déchamps, vice-président de l’association “Défense de la langue française” ajoute également :

«Contrairement à une croyance répandue, en français, les capitales doivent porter des accents. Il faut d’abord faire la distinction entre les capitales et les majuscules. La majuscule est la première lettre, écrite en capitale, d’un nom propre ou du mot commençant une phrase. Cette majuscule, dans l’écriture manuscrite, bénéficie effectivement d’une tolérance de non accentuation. Mais, les mots écrits complètement en capitales et les majuscules d’imprimerie doivent être accentués.»

Dont acte.

ZEP– M’sieur, vous z’êtes anglais ou américain ?
– Pourquoi cette question ?
– Quand vous dîtes not’ nom ben vous avez un pitit axxent !
– Ah, c’est possible…
– En fait, vous zavez trop une tête d’anglais !!!
– Super sympa ça… c’est quoi ton nom à toi déjà – attends, bouge pas je le note…

– Haaaan !!! M’sieur vous z’avez quoi dans le dos ?
– Le sang du dernier élève qui a parlé sans lever la main.
– Ah bon ? (regards inquiets)
No, I’m hot. It’s about 30 degrees out there.
– Haaaan !!! Mais faut prendre une douche !!!
Man ! You’d better stop being a jackass RIGHT NOW ! Yellow card for now. Keep heading that way and there’s gonna be some nasty extra work waiting for you…