Norme Gedcom

De GeneaWiki
Aller à : navigation, rechercher
Fichier gedcom.jpg
GEDCOM (pour abréviation de GEnealogical Data COMmunication) est une norme élaborée par l'Église de Jésus-Christ des saints des derniers jours (les mormons), qui permet les échanges de données informatisées entre les différents logiciels de généalogie, quels que soient les systèmes d'exploitation ou le matériel.

Les fichiers GEDCOM sont des fichiers séquentiels en format texte. La plupart des logiciels de généalogie intègrent les fonctions permettant d'exporter ou d'importer des fichiers enregistrés sous ce format.


Comment ça marche et à quoi ça sert ?

Un fichier GEDCOM est rédigé en texte seul. Il contient des enregistrements concernant :

  • chaque personne d'un arbre généalogique,
  • chaque famille,
  • chaque événement,
  • tous ces enregistrements étant liés entre eux selon certaines conventions.

La spécification GEDCOM, également appelée la norme GEDCOM, a été développée par l'Église de Jésus-Christ des saints des derniers jours (les mormons), initialement dans un but strictement religieux lié aux croyances de cette Église. Puis est venue la collaboration avec les différents éditeurs de logiciels, américains ou autres, qui a conduit à l'ajout de paramètres non réservés aux fins religieuses de l'Église.

L'immense majorité des logiciels de généalogie sont compatibles avec la norme GEDCOM, bien que très peu de logiciels de généalogies, même celui des Mormons, ne la respectent dans toute son étendue. Toutefois, les fonctionnalités les plus importantes sont généralement respectées, permettant ainsi l'importation ou l'exportation des données « principales ». De nombreux outils de visualisation et de conversion d'un fichier GEDCOM, ainsi que d'outils permettant la transformation d'un fichier GEDCOM en une généalogie « clefs en mains » pour le Web.

Même s'il est théoriquement possible d'écrire au clavier un fichier GEDCOM, le format a été imaginé en premier lieu pour servir aux échanges entre logiciels, et la lecture et l'écriture d'un fichier GEDCOM ne sont pas particulièrement aisées pour les néophytes (et même pour les plus aguerris d'ailleurs).

Les imports et exports au format GEDCOM permettent de pratiquer des échanges entre généalogistes sur des branches dites de Cousinage. Cela permet aussi de changer de logiciel (attention : les fabricants possèdent des petits plus qui n'existent pas chez d'autres ou qui ne sont pas reconnus de la même façon). Le format GEDCOM permet aussi dans l'expression des résultats de se servir d'autres logiciels : publication sur Geneanet, listes éclairs, pages HTML prêtes à mettre sur un site, etc.

Structure d'un fichier Gedcom

Un fichier GEDCOM est divisé en :

  • une section d'en-tête (HEAD)
  • divers enregistrements de diverses natures :
    • enregistrement « personne » (INDI = individual)
    • enregistrement « famille » (FAM = family)
    • enregistrement « note » (NOTE = note)
    • enregistrement « source » (SOUR = source)
    • enregistrement « dépôt d'archives » (REPO = repository)
    • enregistrement « objet multimédia » (OBJE = object)
  • marqueur de fin de ficher (TRLR = trailer)

Chacune de ces sections débute par 0, marque du niveau supérieur de l'arborescence, et est subdivisable de façon quasi-infinie, en fonction des besoins, à l'aide de marqueurs de niveaux inférieurs, permettant par exemple la saisie des « événements » (EVEN, BIRT, DEAT, MARR et un certain nombre d'autres), des « attributs » (nombre de mariages ou d'enfants, nationalité, décorations, etc.).

Chaque enregistrement, mais aussi chaque subdivision, peut généralement être relié, en fonction des besoins, à un enregistrement d'un autre type. Par exemple, la rubrique BIRT (naissance) de l'individu X sera reliée par des pointeurs : à un enregistrement NOTE ou à un enregistrement SOUR. Le même individu X pourra être relié par des pointeurs : à la famille (couple) dont il est issu, à la famille dont il est co-fondateur, à des notes ou à des sources liées à sa personne...

Exemple succinct

Pour plus de lisibilité sur cet exemple, les informations sont présentées de façon indentée (en "escalier") : habituellement tout le texte est aligné à gauche, sans tabulation.

0 HEAD
     1 SOUR Nom du programme
     1 DEST ANY
     1 GEDC
          2 VERS 5.5
          2 FORM LINEAGE-LINKED
     1 CHAR UTF-8
0 @I1@ INDI
     1 NAME Robert Eugene/Martin/
     1 SEX M
     1 BIRT
          2 DATE 02 OCT 1822
          2 PLAC Paris, Seine, France
     1 DEAT
          2 DATE 14 APR 1905
          2 PLAC Rouen, Seine-Maritime, France
          2 SOUR @S1@
     1 BURI
          2 PLAC Toulon, Var, France
          2 SOUR @S2@
     1 FAMS @F1@
0 @I2@ INDI
     1 NAME Marie Anne/Durand/
     1 SEX F
     1 BIRT
         2 DATE BEF 1828
         2 PLAC Évreux, Eure, France
         2 NOTE L'âge est estimé avec l'acte de naissance de son fils
     1 FAMS @F1@
0 @I3@ INDI
     1 NAME Joseph/Martin/
     1 SEX M
     1 BIRT
          2 DATE 11 JUN 1861
          2 PLAC Rouen, Seine-Maritime, France
          2 SOUR @S1@
     1 FAMC @F1@
          2 PEDI birth
0 @F1@ FAM
     1 HUSB @I1@
     1 WIFE @I2@
     1 CHIL @I3@
     1 MARR
          2 DATE DEC 1859
          2 PLAC Rouen, Seine-Maritime, France
          2 SOUR @S1@
     1 NCHI 1
0 @S1@ SOUR
     1 TITL Registres d'état civil de Rouen
     1 REPO @R1@
0 @S2@ SOUR
     1 TITL Faire-part de décès
0 @R1@ REPO
     1 NAME Archives départementales de la Seine-Maritime
     1 REFN AD76
     1 ADDR
          2 POST 76000
          2 CITY Rouen
          2 CTRY France
0 TRLR

Le fichier commence par une section d'en-tête débutant par 0 HEAD et se terminant à la ligne précédant 0 @I1@ INDI. Cette section comporte bien souvent 20 à 30 lignes d'informations générales sur la constitution du fichier (précisions sur le programme qui a généré le fichier, la version du gedcom, le codage des caractères, l'identité du "propriétaire" des données, etc.).

Les individus sont identifiés par un enregistrement INDI de niveau d'arborescence 0. Cet enregistrement attribue à chaque individu un numéro d'ordre, généralement précédé de la lettre I, placé entre deux signes @ (exemple: 0 @I3@ INDI ; cette ligne de niveau 0 marque le début de la section descriptive de l'individu numéro 3). Le numéro d'individu est un identifiant unique créé pour chaque nouvel individu. Cette numérotation ne correspond cependant pas à un système de numérotation généalogique tel que ceux de Sosa-Stradonitz ou d'Aboville.

Les événements 1 BIRT, 1 CHR, 1 DEAT, 1 BURI (naissance, baptême, mort, enterrement) peuvent être suivis d'enregistrements 2 PLAC (lieu) ou 2 DATE.


Une personne peut appartenir à une ou plusieurs familles. Une famille se compose d'un couple et de ses enfants. Comme pour les individus, les familles reçoivent un numéro d'identification, accolé à la lettre F et placé entre deux signes @ (exemple d'enregistrement: 0 @F1@ FAM ; cette ligne de niveau 0 marque le début de la section descriptive de la famille numéro 1).

Dans l'exemple ci-dessus, nous avons une famille composée des trois individus suivants:

  • le père Robert Eugène MARTIN, individu n° 1 ;
  • la mère Marie Anne DURAND, n° 2 ;
  • l'enfant Joseph MARTIN, n° 3.

L'enregistrement FAM avec le n° de famille donne le détail des membres (généralement le numéro de FAMille est précédé d'un F):

  • HUSB @I1@ : l'époux est l'individu n° 1 ;
  • WIFE @I2@ : l'épouse est n° 2 ;
  • CHILD @I3@ : l'enfant est n° 3.

L'enregistrement contient aussi, le cas échéant, les indications sur le lieu (PLAC) et la date (DATE) de mariage des parents.

Ce lien familial est ensuite référencé dans les enregistrements de chaque membre en fonction de sa position dans la famille :

  • les individus 1 et 2 appartiennent à la famille n° 1 comme HUSB (mari) et WIFE (femme): enregistrement 1 @F1@ FAMS (pour FAMily Spouse, c'est-à-dire ici: conjoint de la famille 1)) ;
  • l'individu 3 appartient à cette même famille n° 1 en tant qu'enfant: enregistrement 1 @F1@ FAMC (pour FAMily Child, c'est-à-dire ici: enfant de la famille 1) ; on peut mémoriser cette commande comme FAMille de Conception de l'individu. De nombreux logiciels ne le gèrent pas mais il est possible d'avoir plusieurs FAMC pour gérer une filiation adoptive ou d'autres filiations biologiques moins probables que la première).

Une personne peut bien sûr être à la fois enfant d'une famille et parent de la famille qu'elle a elle-même fondée.

La mise en œuvre de la norme GEDCOM

La mise en œuvre de la norme peut faire apparaître plusieurs problèmes.

Lors de l'importation des données, les programmes de généalogie ne détectent pas, en général, les informations erronées ou inconnues qu'ils ne prennent pas en compte.

L'encodage du fichier

Le fichier peut être encodé de plusieurs façons : ANSEL, ANSI (Windows), Macintosh, UTF-8, MS/DOS... Les programmes prennent une certaine liberté pour étendre les jeux autorisés par la norme. Celle-ci n'a pas évolué depuis 1996 et recommande l'utilisation d'ANSEL (une norme bibliographique nord-américaine obsolète) pour l'échange de Gedcoms accentués. La tendance actuelle est de permettre l'utilisation d'Unicode UTF-8 pour pouvoir utiliser tous les caractères existants.

Si certains logiciels sont en mesure de décoder ces encodages, d'autres sont incapables de décoder convenablement les caractères spéciaux tel que à, ï, etc. Pensez à demander de l'aide sur les forums appropriés avant que d'essayer de nettoyer manuellement le code.

Les utilitaires GEDCOM

Tout logiciel de généalogie digne de ce nom dispose d'un import / export au format Gedcom. Néanmoins il est parfois nécessaire de faire appel a un utilitaire spécialisé dans la comparaison de gedcom, vous pouvez retrouver la liste de ces outils dans la rubrique dédiée de GeneaWiki.

Un éditeur de texte tel que Notepad++ ou TextEdit peut être utilisé pour nettoyer le code du fichier Gedcom créé par un logiciel et revenir au standard.

L'avenir du GEDCOM

La version courante est la version 5.5 datant du 02/01/1996. Il ne semble plus y avoir de discussions par les mormons sur le sujet depuis de nombreuses années. Depuis 1996, on été proposés :

  • Initiatives abandonnées :
    • Gedcom : the future édition (LDS). C'était assez proche de Gedcom, mais bien amélioré.
    • Gedcom 5.5-1 : cette version est heureusement restée à l'état de brouillon (Draft), elle ne proposait que peu d'amélioration et supprimait la possibilité de liens divers (parrains, témoins...) au lieu de les rendre plus cohérents.
  • GEDCOM XML 6.0
  • Initiatives actives :
    • BetterGedcom est une initiative américaine récente qui a permis de mettre en place un groupe de travail sur internet (http://bettergedcom.wikispaces.com) dans le but de réformer le Gedcom actuel. Il s'agit de faire disparaître les déficiences actuelles de ce format de stockage et de partage des données.
    • Les Mormons, quant à eux, ont présenté récemment une nouvelle mouture de leur format GEDCOM dénommée "GEDCOM X" assez prometteuse en xml ou en json. ( http://www.gedcomx.org ). La version 1.0 a été présentée en juin 2013.

Il est à noter que l'API de l'arbre familial de Familysearch (le site dédié à la généalogie des Mormons) est conçu à partir de la spécification Gedcom X ce qui laisse augurer une mise en œuvre prochaine de cette nouvelle norme.

  • Certains programmes proposent déjà un format XML : Gramps, DeadEnds.

Voir aussi.png Voir aussi (sur GeneaWiki)

Logo internet.png Liens utiles (externes)

Medaille geneawiki.png
Cet article a été mis en avant pour sa qualité dans la rubrique "Article de la semaine" sur l’encyclopédie GeneaWiki.