Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Importer le catalogue de la DITP #598

Open
johanricher opened this issue Apr 19, 2023 · 12 comments
Open

Importer le catalogue de la DITP #598

johanricher opened this issue Apr 19, 2023 · 12 comments

Comments

@johanricher
Copy link
Member

johanricher commented Apr 19, 2023

Contexte

Suite à la création de l'organisation DITP et aux essais menés en interne, on souhaite d'importer leur catalogue afin de valider que l'outil permet de gérer et mettre à jour le catalogue en accord avec les process actuels.

Chaque jeu de données correspond à un indicateur de politique prioritaire du gouvernement qui concerne un ministère.

Le modèle de données de catalogue.data.gouv.fr considère qu'un jeu de données dans le catalogue (une "fiche") est produit par l'organisation qui le catalogue.

Or, la DITP, en tant que direction interministérielle qui instruit le pilotage des politiques prioritaires de l'Etat, catalogue des jeux de données "produits" par d'autres administrations.

On a donc adapté autant que possible le schéma de la DITP (champs complémentaires) pour distinguer les "jeux de données" des "indicateurs" : la DITP est l'organisation qui produit les "jeux de données" catalogués, chacun contenant les données d'un "indicateur" qui concerne une organisation (ministère) en particulier. Les contacts indiqués sont autant que possible associés à l'organisation concernée par l'indicateur.

Données à importer

Un fichier CSV nous a été transmis qui a d'abord été traité, et un schéma spécifique a été créé pour gérer les champs complémentaires.

Le fichier à importer : https://nuage.liiib.re/s/Byj3gxoQjScge7r?path=%2FParties%20prenantes%2FDITP (ditp_catalogue_valide.csv)

Le schéma, qui spécifie les champs complémentaires : https://github.com/etalab/catalogage-donnees-config/blob/ae82f69dd098f45d44ec3c012bbade3b41f8ae2d/organizations/ditp/catalog_schema.json

Le catalogue précédent créé avec le schéma commun (etalab/catalogage-donnees-config#37) est supprimé.

Infos complémentaires

La principale particularité de cet import est que toutes les fiches créées dans le catalogue doivent avoir un accès restreint ("Oui, car cette fiche n’est pas achevée").

Précisions sur certains champs :

  • Fréquences de mise à jour (champ freq_maj) : dans le fichier a importer, le mapping a déjà été fait avec les valeurs telles qu'on les a en base (pas besoin de faire le traitement spécifique qui avait été fait lors de l'import du catalogue MC).
  • Format : dans le fichier à importer, quand il y a plusieurs valeurs, elles sont séparées par une virgule (,) sans espace, et doivent être enregistrées en base comme des valeurs séparées

Ressources

@Volubyl
Copy link
Collaborator

Volubyl commented Apr 24, 2023

@johanricher

J'ai une question par raport au champ

  {
      "name": "donnees_diffusion",
      "title": "Perspectives de diffusion",
      "description": "Ce jeu de données peut-il être ouvert ? si non, pourquoi ? (Pour plus d'informations, [lire le guide d'Etalab](https://guides.etalab.gouv.fr/juridique/ouverture/).)",
      "type": "string"
    }

Celui-ci semble être un doublon par rapport au champs : "PUBLICATION_RESTRICTION" qui fait partie du schéma commun depuis #528

Ce champ est un enum qui peut prendre ces valeurs :

class PublicationRestriction(enum.Enum):
    DRAFT = "draft"  # the dataset is a draft
    LEGAL_RESTRICTION = (
        "legal_restriction"  # the dataset is not published for legal reason
    )
    NO_RESTRICTION = "no_restriction"  # the dataset has no publication restriction

Pour répondre à ce besoin :

La principale particularité de cet import est que toutes les fiches créées dans le catalogue doivent avoir un accès restreint ("Oui, car cette fiche n’est pas achevée").

Il faudrait rajouter une colonne publication_restriction avec la valeur "draft" dans le CSV d'import du catalogue.

Suggestions:

  • enlever ce champs complémentaire "donnees_diffusion" du catalogue
  • utiliser le champ "publication_restriction" avec la valeur "draft"

@johanricher tu en penses quoi ?

@johanricher
Copy link
Member Author

johanricher commented Apr 24, 2023

Pour moi ces 2 champs ont un statut différent :

  • donnees_diffusion apporte une information sur le jeu de données, présente dans le catalogue si on l'exporte depuis catalogue.data.gouv.fr,
  • PUBLICATION_RESTRICTION est une information sur la fiche, pas sur le jeu de données, spécifique à catalogue.data.gouv.fr. C'est une métadonnée de la fiche, comme la date de création de la fiche par exemple (on avait appelé ça "catalog record" je crois ?), et donc à ce titre pas présente dans le catalogue exporté.

D'un point de vue juridique, le jeu de données (stocké en dehors de catalogue.data.gouv.fr) et la fiche du jeu de données (stocké sur catalogue.data.gouv.fr) sont 2 documents différents.

Un jeu de données peut être indiqué dans le premier champ comme "diffusable" mais pour autant sa fiche sur catalogue.data.gouv.fr n'étant pas achevée, elle peut être configurée avec un niveau restreint.

Ici la DITP considère que les fiches décrivant les jeux de données catalogués ne sont pas achevées et souhaite donc qu'elles ne soient pas diffusées au-delà de son organisation (niveau restreint dans catalogue.data.gouv.fr), indépendamment des perspectives de diffusion des jeux de données catalogués.

Le catalogue du MC a le même champ.

Il faudrait rajouter une colonne publication_restriction avec la valeur "draft" dans le CSV d'import du catalogue.

C'est fait !

@Volubyl
Copy link
Collaborator

Volubyl commented Apr 25, 2023

c'est bon c'est importé @johanricher

@johanricher
Copy link
Member Author

@Volubyl
Copy link
Collaborator

Volubyl commented May 2, 2023

@johanricher là c'est vraiment bon ... désolé. Mini problème de déploiement

@johanricher
Copy link
Member Author

Je ne vois rien :(

@Volubyl Volubyl moved this from Prêt à développer to Tâches en revue in Outil de catalogage de données May 3, 2023
@Volubyl
Copy link
Collaborator

Volubyl commented May 3, 2023

Pour mémoire : le catalogue de la DITP comprend pour le moment que des fiches en DRAFT, cela signifie que seules les personnes faisant partie de l'oganisation sont capable de les voir

@johanricher
Copy link
Member Author

J'avais oublié ce petit détail... c'est parfait ! J'attends donc une confirmation de la DITP pour fermer le ticket.

@Volubyl
Copy link
Collaborator

Volubyl commented May 3, 2023

Je mettais ce message aussi pour les gens du futur qui devront faire un import ^^

@johanricher
Copy link
Member Author

Des essais sont encore en cours. Le schéma va peut-être évoluer à la marge, ce qui nécessitera un réimport du catalogue.

@Volubyl
Copy link
Collaborator

Volubyl commented May 12, 2023

ça va certainement demander du dev pcq je sais pas si le script prévoit le "réimport" ...

Il y a pas de gestion des doublons etc

@johanricher
Copy link
Member Author

johanricher commented May 15, 2023

"Réimport" = supprimer le catalogue DITP en base et refaire un import from scratch exactement avec les mêmes conditions que le premier. La seule chose qui changerait serait un changement du schéma (est-ce que le script doit être adapté pour ça ?) et des lignes en plus dans le fichier a importer.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Development

No branches or pull requests

2 participants