Table des matières

margin/temoin

metadata

- pour abstract, nous avons son positionnement dans le teiHeader, mais ou est exactement (xpath) cet élément dans le texte pour le capturer ?
Chloé : D'une part il n'y a pas d'argument dans tous nos textes. On essaye mais pour les anciens bouquins il en manque. D'autre part, quand il y en a un il devrait être (!) ici : /TEI/text[1]/front[1]/argument[1], c'est à dire dans une balise <argument> juste après la fermeture </titlePage>
Est-ce que ça te va ?

- dans les metadonnées pour zotero j'ai :

  1. collection : /TEI/teiHeader[1]/fileDesc[1]/sourceDesc[1]/biblFull[1]/seriesStmt[1]/title[1]
  2. N° dans la collection : /TEI/teiHeader[1]/fileDesc[1]/sourceDesc[1]/biblFull[1]/seriesStmt[1]/title[2]/@type

- Volume - Nb de volume

  1. Édition : pour l'instant cette donnée n'est pas intégrée dans le header, je dois voir cela.

Volume et nbe de volumes sont propres aux revues. Nous nous ne proposons pour l'instant que des livres.

- dublin core

  1. Subject ?

Quel est l'équivalent précis, dans le teiHearder ?
Chloé : nulle part. C'est indispensable ?

Le nombre de pages ? : pour l'instant cette donnée n'est pas intégrée dans le header mais ça devrait être là : /TEI/teiHeader[1]/fileDesc[1]/sourceDesc[1]/biblFull[1]/extent[1]/measure[1]

pour inscrire dans le namespace : http://bibotools.googlecode.com/svn/bibo-ontology/trunk/doc/index.html ou/et Dublin Core

A priori mon header type c'est ça : http://wikinum.droz.org/index.php?page=teiheader&redirect=no

MARC-XML

MARC-XML est implanté à l'adresse : page/marcxml ( http://calvin.archicol.fr/page/marcxml)

Le fichier créé est donc relatif au portail

Il faut valider le fichier MARC-XML pour vérifier que les attributs “tag” et “code” sont les bons Et ajouter le lien openurl !!

epub [update 01-31-2015]

Pour réaliser l'epub il y a plusieurs conditions. D'abord il est nécessaire que les fichiers importés dans Zord soient sans erreurs au test “tei_all” car la création du epub plante (surtout pour les erreurs d'ID !). Les images doivent être préalablement importées et toutes présentes.

Pour la fabrication des epub il y a une réflexion à approfondir sur différents points :

1) La couverture : La non présence de couverture ne fait pas planter la création du epub. Pourtant comme aucune page html ni lien dans l'opf n'est fait pour la couverture, l'insertion à posteriori de la celle-ci va être pénible. La mise en place de couvertures automatiques devient nécessaire même si celles-ci ne sont que temporaires.
Chloé : Les couv des ePUB sont toutes prêtes : leur nomenclature est ISBN_cov.jpg. Il faut un “entrepôt” où les déposer.

2) Les métadonnées sont particulièrement bien prises en compte par l'outil “teitoepub” il reste cependant quelques soucis comme par exemple les droits (on retrouve dans les tests une licence “Creative Commons” au lieu de “© Droz”), et bien sur l'absence de l'isbn epub !

L'implantation dans Zord est terminé. Des adaptations, couverture, css, métadonnées, un peu d'XSLT sont nécessaire pour une sortie parfaite.

Chloé : Qu'est-ce que je dois faire ? Je peux te fournir les couv. Les métadonnées je vais tout vérifier. LA licence il faut systématiquement mettre un “Copyright 2014 by Librairie Droz S.A.” quant à l'ISBN ePUB je peux te fournir l'équivalence ISBNpapier/ISBNePUB. Je me demande si le mieux ne serait pas d'intégrer systématiquement cette donnée au Header ? Tu en penses quoi ?

La construction des epubs est réalisé en “background”, car la création par lot peut prendre beaucoup de temps.

Un log est réalisé (log/epubs_[date du jour].log) lors de la création des epubs pour vérifier que chaque epub à bien été réalisé et voir les raisons en cas d'échec. Ensuite un epubCheck est réalisé quand le epub à bien été créé. Les fichiers, l'epub et le check sont placés dans le dossiers “epub” :

  1. [ISBN].epub
  2. [ISBN]_check.txt

openUrl (resolver)

En reprenant la structuration que l'on trouve dans crossRef : http://help.crossref.org/using_the_open_url_resolver

On devrait avoir une URL de ce type : http://www.droz.org/openurl?id=XXXXX

Voici les différentes questions :

  1. on envoie quoi ?
    1. Le plus pertinent me semble les métadonnées sous une forme html + RDF:bibo pour zotero ou autre
    2. qu'il y aie dans ces métadonnées un lien vers le portail quand l'oeuvre est publié sur un des portails (accès à la ressource)
    3. Si il y a une information de type “page” associée alors faire une redirection automatique vers la source (citation !)
  2. La création de citations/signet sur les portails, devraient donc avoir cette structure :
    1. Forme OpenUrl :
      1. http://www.droz.org/openurl?id=9782600013086&page=18 (le système devant pouvoir faire la conversion)
    2. Redirection vers :
  3. quel type d'id ? ISBN, ISSN, DOI, ARK ? ARK étant fait pour des institutions, DOI centralisé et cher, l'ISBN est je pense largement suffisant. Cette ID n'ayant de sens que pour la citabililité, et la pérénité le DOI est efficace pour ça, mais une URL de type OpenURL c'est pas mal non plus, non ?
  4. le resolver doit être global pour Droz donc il doit être externe aux portails bien qu'intégrable dans Zord comme web service. Je préconise quand même d'en faire un système de web service complètement autonome !

TODO: Plusieurs URL lien à ajouter dans Marc-XML !!

Typo (petite)

Pour la balise <hi> j'ai trouvé de 9 valeurs différentes pour l'attribut “rend” alors que la documentation n'en compte que 4. J'ai placé à coté de chaque valeur une définition CSS, un élément HTML ou un point d'interrogation.

  1. sup → <sup>
  2. b → <b>
  3. sc → font-variant: small-caps;
  4. sub → <sub>
  5. n → ?
  6. small → font-size:0.8em;
  7. i → <i>
  8. underline → text-decoration: underline;
  9. big → font-size:1.2em;

C'est quoi “n” ? Vue par exemple dans 9782600000215 je l'ai trouvé 2066 fois dans le corpus calvin.

Chloé : Je t'avoue que je n'en sais rien et que j'ai un peu de mal à les identifier dns les textes. Tu peux me donner quelques exemples pour que je te réponde ?

9782600000215 :

<hi rend=“n”>legitis ;</hi> (2 fois dans la note 38, page 20, facs 9782600000215_p0080.pdf)

9782600000253 :

<hi rend=“n”>a se</hi> et le <hi rend=“n”>per se</hi> (page 74, facs 9782600300253_p0094.pdf)

<hi rend=“n”>Loci communes</hi> (page 109, facs 9782600300253_p0129.pdf)

"Bugs"

Rechercher dans ce livre

Prenons le http://humanisme-renaissance.droz.org/9782600030618/
Je fais une recherche dans ce livre avec Isagoge
La page de résultats me dit :
“Vous faites une recherche dans le livre : undefined”
À la place de Undefined on devrait avoir la référence biblio telle que dans le style Harvard.
La page me dit “Aucun résultat” parce que par défaut j'arrive sur l'onglet Humanisme alors que ce livre se trouve dans l'onglet “Réforme et Réformation”.
Dans cet onglet j'ai bien comme résultat : 64 occurrences.
Quand on fait une “recherche dans ce livre” on ne devrait plus avoir les onglets dans la page de résultat, ou arriver d'emblée sur l'onglet du livre et les occurrences trouvées…

Voilà. Merci. Bises.

Nettoyage du code

Les listes : en particulier Index et Biblio : on atoujours la forme <iten><p>…</p></item>. L'idéal serait de retirer ces <p> qui créent des retours à la ligne.

CSS

CSS type Dictionnaire

Voir ici : http://humanisme-renaissance.droz.org/9782600005074/body-1#Zsec_10

<entry>
  <dictScrap><orth><hi rend="b">ABAQUE</hi></orth>
  <sense>ATTRIBUT DE L’ARITHMÉTIQUE, un des sept arts libéraux.</sense>
  <etym>
     <label><emph>ART.</emph></label>
Sur le frontispice de la <emph>Margarita philosophica</emph> de Reisch, Strasbourg, 1504 (Marle, II, fig. 268). Sur une plaquette allemande de 1554 au Musée de Nuremberg (Marle, II, fig. 269).
  </etym>
  </dictScrap>
</entry>

Dans les entrées suivantes on a <sens n=”“>

Titres courants

http://igs.dev.droz.org/9782600019620

Images dans le flux du texte, inline

8105 : par exemple ici http://thr-dev.droz.org/9782600008105/body-1-2#Zsec_12

http://wikiportails.droz.org/doku.php?id=tlf#navigation_tlf

Attention dans les calvin on retrouve l'élément <textClass> et cela rentre en conflit avec la categorie indiqué dans <seriesStmt> ! C'est soit l'un soit l'autre et il faut que le <textClass> soit bien rédigé ce qui n'est pas le cas dans les calvin !!

Autre point important, il faut une catégorie générale (un peu comme genre pour les tlf) qui soit unique, car elle correspond au différents onglets ! Donc il y a un problème avec les calvin car avec la catégorie “thr” on a à la fois des titres dans “sources” et “études” !

Détail sur le code à finaliser et figer

livres références

- 9782600009232, 9782600031660, 9782600002967

Actions

Onglets et catégories

3 onglets :

Temps estimé 28h ; Release 1 le 24 JUIN 2015

Catégories TLF

Petite réflexion indispensable pour la navigation dans les TLF (et potentiellement dans tous les portails à terme)

Nous avons deux types de données dans le <header> pour les classer ou définir des facettes de tri :

1- /TEI/teiHeader[1]/fileDesc[1]/seriesStmt[1]

Où l'on indique jusqu'ici la catégorie, type <seriesStmt xml:id=“theatre”> <title/> </seriesStmt>

2- /TEI/teiHeader[1]/profileDesc[1]/textClass[1]

Où l'on met les mots-clefs BISAC, CLIL et Cie.

Il y a deux questions :

Je propose que l'on continue à indiquer la catégorie disons “primaire” dans /TEI/teiHeader[1]/fileDesc[1]/seriesStmt[1]
c'est-à-dire pour les TLF :

ensuite on a parmi les autres données un heureux mélange qu'il faudrait trier en différentes facettes :

À nous, Maria et moi, de les classer, à partie de notre liste complète BISAC+CLIL, et de donner à David quels codes correspondent à quelle facette.