Soundex

De Geneawiki
Sauter à la navigation Sauter à la recherche

Outil informatique nommé Soundex permet de calculer le code phonétique d'un patronyme.

Il s'agit de trouver un indice permettant de regrouper, dans de très grandes bases de données, des noms d'orthographe et prononciation voisines.

Cela a été mis au point aux USA pour gérer les recherches dans les bases de données des recensements.

Le principe est de garder la première lettre (même les voyelles ainsi que les consonnes y (sic), w et h).

Pour les lettres suivantes on supprime toutes les voyelles, on supprime les consonnes doublées.

Sur ce qui reste on calcule un numéro à 3 chiffres.

Le terme Soundex s'applique à un système permettant de conserver, dans un même endroit, des noms de sonorité voisine débutant par la même lettre, malgré les différences ou les erreurs d'écriture.

Le code Soundex d'un patronyme se compose de son initiale et d'un ensemble numérique basé sur les consonnes utilisées dans ce même patronyme.

Toutes les voyelles ainsi que les consonnes y (sic), w et h sont ignorées (à moins que ce ne soit la première lettre du nom).

Des zéros sont ajoutés en fin de code pour compenser un nombre de trois chiffres si le patronyme ne contient pas trois lettres pouvant être codifiées.

S'il contient plus de trois consonnes, seules les trois premières sont codifiées.

La valeur numérique des codes Soundex est:

  • Version pour l'anglais :
    • 1 = B, F, P, V
    • 2 = C, G, J, K, Q, S, X, Z
    • 3 = D, T
    • 4 = L
    • 5 = M, N
    • 6 = R
  • Version pour le français :
    • 1 = B, P
    • 2 = C, K, Q
    • 3 = D, T
    • 4 = L
    • 5 = M, N
    • 6 = R
    • 7 = G, J
    • 8 = X, Z, S
    • 9 = F, V

Aucun code n'est affecté aux lettres a, e, i, o, u, y, w, ou h (à moins que ce ne soit la première lettre du nom).

Quand deux lettres de même valeur numérique sont voisines, elles sont codifiées comme une seule lettre.

Par exemple avec ce système, les noms suivants: - Palluy -- Pallui -- Pallua -- Pallu et les mêmes avec un seul "L" donnent tous "P400"
Autre exemple: Gutierrez est codé "G368" (G, 3 pour T, 6 pour le premier R, le second R est ignoré, 8 pour Z)

Voir aussi.png Voir aussi (sur Geneawiki)

Logo internet.png Liens utiles (externes)