[Cvu] RV: Observaciones carga CVU-YAML (Dr. Luis Mochán)

mochan en icf.unam.mx mochan en icf.unam.mx
Jue Jun 21 09:09:12 CDT 2018


Abajo respondo algunos de los otros comentarios que hizo la 'fábrica'.
Saludos,
Luis


Sobre los otros comentarios:

Hay revistas que no tienen página inicial y final sino únicamente
número de artículo. Por lo tanto, la 'obligatoriedad' de poner página
inicial y página final debería revisarse. En todo caso, la única
obligatoria debería ser la página inicial.

El propósito de este ejercicio es capturar toda la información que sea
posible de manera automática a partir de los CV's que cada
investigador guarda en el formato de su propia elección. Pocos
investigadores escriben en su CV las palabras claves de su artículo,
ni el área de conocimiento ni quién lo financió. Por ello, para hacer
viable el ejercicio, deben admitirse, al menos temporalmente,
registros sin dicha información, quizás marcándolos como registros
incompletos y el usuario podría terminar de llenarlos *después* de
haber capturado la información central a partir de su CV. De no
hacerlo, se pierde el sentido del ejercicio.

El Volumen no puede debe ser numérico y por tanto el MIIC debe
adaptarse. Conacyt no debería hacer suposiciones sobre los formatos de
los diversos campos. Como núnca se harán operaciones tales y como
sumar o multiplicar números de volumen, no tiene caso declararlos como
campos numéricos. Su uso es siempre como un identificador, así que
debe bastar declararlos como cadenas de caracteres.
Hay publicaciones, pocas pero sí las hay, que añaden letras
al volumen, por ejemplo, para distinguir volumenes normales de volumenes
suplementarios o asociados a coloquios. También hay publicaciones
electrónicas (como la que señala en la figura 4) que usan una letra en
el volumen para designar el tipo de publicación.

Las publicaciones en ocasiones se identifican con un volumen y un
número. Por ejemplo, una revista podría publicar un volumen al
semestre, pero separado en 26 números semanales. En general, el número
es irrelevante, pues la numeración de las páginas identifica de manera
única a un artículo dentro de un volumen. Por ello, muchos de nosotros
no guardamos en nuestros CV's el número. Sin embargo, hallé que hay
revistas, sobre todo en las áreas sociales, donde además de la página
se usa el año y el número en lugar del volumen para identificar al
artículo. Por eso, entre los registros que les envié, hay al menos uno
que no tiene volumen pero sí tiene número. Como no podemos saber a
priori si los número son o no relevantes, lo que hice fue
incorporarlos al campo volumen de estar presentes siguiendo la
notación común 'V (N)', como en la imagen 3. No sería problema
presentar la información como dos campos, volumen y número, aunque en
dicho caso habría que admitir la posibilidad de que uno u otro
estuviera ausente. 

La presencia o no de comillas no debe ser problemática, pues forman
parte del formato estandarizado YAML. Si leen el archivo empleando cualquier paquete
que cumpla el estandard, las comillas desaparecerán al leer. Si
pretenden leer el archivo como si fuera un simple archivo de texto,
entonces tendrían que batallar con las comillas (y con muchas otras
dificultades). Mi sugerencia es que recurran a paquetes libres y
certificados que cumplan con el estandard. Por ejemplo, en mis
programas leo un archivo completo con código como el siguiente
    use YAML::Tiny;
    my $pubs=YAML::Tiny->read("publicaciones.yaml");
y luego puedo inspeccionar cualquier campo con código como
    print $pubs[0]->{artículos}->[10]->{volumen};
que imprimiría el volumen del onceavo artículo sin las comillas.

Sobre la presencia de espacios antes y después del guión, no creo que
quitar un espacio sea problemático. Separar el campo antes y después
del guión para identificar página inicial y final también es
trivial. 

Como mencioné arriba, en ocasiones la página final no tiene sentido y
con frecuencia no está disponible en el CV. Por ello deberían permitir
números de página sin guión.

Además, habiendo migrado muchas revistas, sobre todo las electrónicas,
de un número de página a un identificador de artículo, es probable que
existan identificadores no numéricos.

Existen versiones electrónicas de artículos que tienen asignado un
volumen completo. Por ello, algunos artículos como el de la imagen 7
no tienen número de página (el archivo yaml muestra un campo vacío
entre comillas). También deben estar preparados para recibir artículos
sin página. Quizás pueda establecerse un número '1' por defecto.




On Wed, Jun 20, 2018 at 11:27:01PM -0500, mochan en icf.unam.mx wrote:
> Estimados Edgar, Marcial, Luis,
> Estimada Julia,
> 
> Ahora que veo con un poco más de detenimiento su nota, me entra una
> ...
> > > 1.       La primer observación que se encontró es que existen campos obligatorios dentro de MIIC que no están siendo incluidos en el archivo a capturar, dicho esto cabe aclarar que estos datos deberían ser de igual forma obligatorios dentro de la captura de información por archivos YAML ya que no provienen de un proceso de migración.
> > > 
> > > 
> > > CVU MIIC
> > > 
> > > YAML
> > > 
> > > ISSN Impreso
> > > 
> > > *
> > > 
> > > ISSN electrónico
> > > 
> > > *
> > > 
> > > DOI (único dato no obligatorio)
> > > 
> > > *
> > > 
> > > Nombre (revista)
> > > 
> > > *
> > > 
> > > Título de artículo
> > > 
> > > *
> > > 
> > > Número de revista
> > > 
> > > 
> > > 
> > > Volumen de revista
> > > 
> > > *
> > > 
> > > Año de publicación
> > > 
> > > *
> > > 
> > > Páginas de - a
> > > 
> > > *
> > > 
> > > Palabra clave 1
> > > 
> > > 
> > > 
> > > Palabra clave 2
> > > 
> > > 
> > > 
> > > Palabra clave 3
> > > 
> > > 
> > > 
> > > Área de conocimiento (catálogos)
> > > 
> > > 
> > > 
> > > Recibió apoyo CONACYT
> > > 
> > > 
> > > 
> > > Autores
> > > 
> > > *
> > > 
> > > 
> > > 
> > > Info Extra
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 
> > > 2.       Por parte del área usuario en CONACYT se determinó que cualquiera de los ISSN fuera capturado sin ningún guion medio "-", y en el archivo YAML no se encuentran apegados a dicha regla, algunos vienen reparados por espacios o por guion medio.
> > > Ejemplo 1)
> > > 
> > > [cid:image001.png en 01D407F9.236F87F0]
> > > 
> > > Ejemplo 2)
> > > 
> > > [cid:image002.png en 01D407F9.236F87F0]
> > > 
> > > 
> > > 3.       El dato correspondiente al campo "Volumen" dentro del archivo YAML, contiene datos sin el formato correcto:
> > > 
> > > a.       MIIC - Numérico
> > > 
> > > b.       YAML - Alfanumérico
> > > 
> > > Ejemplo 1)
> > > 
> > > [cid:image003.png en 01D407FA.2B36D820]
> > >             Ejemplo 2)
> > > 
> > > [cid:image004.png en 01D407FA.C04C95D0]
> > > 
> > > 
> > > 4.       Se presentan inconsistencias en el formato del campo "Páginas de - a", no existe un formato concreto en el que se presente dicho dato en el archivo YAML:
> > > 
> > > Ejemplo 1)
> > > Es el formato más común, sin comillas:
> > > [cid:image005.png en 01D407FC.6DA2B600]
> > > 
> > > Ejemplo 2)
> > > Contiene espacios entre el guion usado para separar ambos datos además de incluir comillas:
> > > [cid:image006.png en 01D407FC.6DA2B600]
> > > 
> > > Ejemplo 3)
> > > Datos vacíos entre comillas:
> > > [cid:image007.png en 01D407FD.F9BBC5E0]
> > > 
> > > Cabe aclarar que por la cantidad de archivos y registros que se pretenden capturar se estima que estas problemáticas se repitan de manera muy constante o presente otras inconsistencias y no permitirá una fluidez en la captura de la información.
> > > Este análisis fue obtenido del primer archivo analizado de forma visual.
> > > 
> > > El diseño de la pantalla de captura de archivos ya se encuentra en desarrollo, te estaremos confirmando a la brevedad cuando se encuentre lista para poder presentártela.
> > > 
> > > Sin más por el momento quedo atento a tus comentarios.
> > > Saludos cordiales
> > 
> > 
> > 
> > 
> > 
> > 
> > 
> > 
> > 
> > -- 
> > 
> >                                                                   o
> > W. Luis Mochán,                      | tel:(52)(777)329-1734     /<(*)
> > Instituto de Ciencias Físicas, UNAM  | fax:(52)(777)317-5388     `>/   /\
> > Apdo. Postal 48-3, 62251             |                           (*)/\/  \
> > Cuernavaca, Morelos, México          | mochan en fis.unam.mx   /\_/\__/
> > GPG: 791EB9EB, C949 3F81 6D9B 1191 9A16  C2DF 5F0A C52B 791E B9EB
> > 
> > 
> > 
> > _______________________________________________
> > Mensaje público enviado a la lista Cvu
> > Cvu en em.fis.unam.mx
> > http://em.fis.unam.mx/cgi-bin/mailman/listinfo/cvu
> 
> -- 
> 
>                                                                   o
> W. Luis Mochán,                      | tel:(52)(777)329-1734     /<(*)
> Instituto de Ciencias Físicas, UNAM  | fax:(52)(777)317-5388     `>/   /\
> Apdo. Postal 48-3, 62251             |                           (*)/\/  \
> Cuernavaca, Morelos, México          | mochan en fis.unam.mx   /\_/\__/
> GPG: 791EB9EB, C949 3F81 6D9B 1191 9A16  C2DF 5F0A C52B 791E B9EB
> 
> 
> 
> _______________________________________________
> Mensaje público enviado a la lista Cvu
> Cvu en em.fis.unam.mx
> http://em.fis.unam.mx/cgi-bin/mailman/listinfo/cvu

-- 

                                                                  o
W. Luis Mochán,                      | tel:(52)(777)329-1734     /<(*)
Instituto de Ciencias Físicas, UNAM  | fax:(52)(777)317-5388     `>/   /\
Apdo. Postal 48-3, 62251             |                           (*)/\/  \
Cuernavaca, Morelos, México          | mochan en fis.unam.mx   /\_/\__/
GPG: 791EB9EB, C949 3F81 6D9B 1191 9A16  C2DF 5F0A C52B 791E B9EB





Más información sobre la lista de distribución Cvu