Sobre la importancia de compartir y reutilizar los datos de investigación

fair_principles.png

El acceso universal al conocimiento es una materia de enorme relevancia tratada en diversos mandatos e iniciativas.

Una de las principales razones es que favorece la innovación y la reutilización dando lugar a nuevas utilidades a menor coste, simplificando la colaboración entre usuarios, creadores y reutilizadores de datos. Además, facilita la transparencia y la fiabilidad de la investigación, permitiendo la verificación de los resultados de una manera más sencilla.

Otra de sus ventajas es que facilita la difusión de las investigaciones, incrementando su impacto y visibilidad.

A la hora de empezar un nuevo proyecto de investigación es importante que el equipo defina un marco de actuación común. Entre las consideraciones a tener en cuenta pueden destacarse las siguientes, ya que ayudarán a gestionar apropiadamente los datos de investigación que se generen y usen a lo largo del proyecto:

  • Define las responsabilidades para la gestión de datos entre los miembros del equipo en el plan de gestión de datos
  • Acuerda el uso de estándares comunes para recoger, almacenar y describir datos
  • Asegúrate de que todos los datos resultantes del proyecto se comparten en una plataforma común y segura entre todos los miembros del equipo
  • Documenta la metodología usada en la recogida de datos y las decisiones de una manera sistemática, por ejemplo, usando plantillas comunes
  • Usa estándares comunes para denominar a los ficheros, formatos, estructura de los contenidos
  • Pon por escrito cómo se gestionan los datos y se comparten entre los miembros del equipo
  • Establece qué datos son de uso interno para los miembros del equipo y cuáles se difundirán públicamente
  • Deposita los datos en un repositorio que permite el acceso a los revisores de las publicaciones resultantes del proyecto
  • Elige licencias de uso estándares para los datos resultantes del proyecto
  • Asigna un identificador persistente (DOI, Handle, PURL…) a los datos resultantes para que puedan ser encontrados, reutilizados y citados
  • Publica información (metadatos) sobre los datos resultantes en repositorios

Beneficios de los datos abiertos

Los conjuntos de datos constituyen una tipología muy específica de recursos de información científica y es muy importante tener en cuenta varias consideraciones antes de darles difusión pública.

La descripción sistemática y la difusión de los datos generados durante los proyectos de investigación mediante el depósito en un repositorio de acceso abierto son beneficiosas porque:

  • Promueven la investigación y el debate
  • Promueven la innovación y nuevos usos para los datos
  • Dan paso a nuevos tipos de colaboraciones entre los creadores y los usuarios de los datos
  • Aumentan la transparencia y la rendición de cuentas de los proyectos
  • Permiten el análisis de las conclusiones de las investigaciones
  • Animan a mejorar y validar los métodos de investigación
  • Reducen el coste de la duplicación en la recolección de datos
  • Aumentan el impacto y la visibilidad de la investigación
  • Dan crédito a los creadores de los datos
  • Proporcionan nuevos recursos educativos/ de investigación
  • Aumentan el impacto de los proyectos de investigación
  • Permiten citar y descubrir los conjuntos de datos generados
  • Minimizan los riesgos de pérdidas de datos, con vistas a garantizar una futura usabilidad
  • Cumplen con un número creciente de políticas de acceso abierto de agencias financiadoras de investigación
  • Garantizan que los datos científicos se preserven

La difusión de datos de investigación puede ser de interés para muchos segmentos de la sociedad:

  • Equipos de investigación
  • Agencias públicas de investigación
  • Universidades y centros científicos
  • Centros de datos científicos
  • Bibliotecas, archivos y museos
  • Estudiantes y ciudadanos curiosos de la ciencia

Primeras consideraciones prácticas

Los autores de datos deben tener en cuenta los siguientes aspectos para gestionarlos y difundirlos adecuadamente:

 ¿Qué tipos de datos se van a difundir en acceso abierto: resultados de encuestas, de observaciones, entrevistas, simulaciones, datos recogidos automáticamente, muestras, modelos…?

Es importante asegurarse de que los datos científicos que se desea difundir no están sujetos a ningún tipo de restricción por cuestiones de confidencialidad, privacidad o de copyright.

 ¿En qué formatos se encuentran los datos?

La calidad y la resolución de los datos son fundamentales para su accesibilidad y reutilización a corto y a largo plazo.

 ¿Qué estructura y qué dimensión tienen los datos: número y tamaño de los ficheros y del total del conjunto, un solo conjunto de datos/ítem o múltiples conjuntos de datos/ítems? ¿Qué organización y qué nivel de detalle tienen los datos? ¿Existen ficheros secundarios?

La Oficina Técnica de Digital.CSIC ofrece diversas soluciones según las exigencias de visualización y organización de los datos científicos. Algunas veces los datos estarán organizados en multitud de ficheros dentro de un solo conjunto de datos y en otras será necesario organizar los datos en varios conjuntos diferentes. La documentación adjunta en estos casos debe dejar claro el sistema de relaciones entre los distintos componentes del conjunto de datos.

Si el conjunto de datos tiene una identidad específica muy concreta y su estructura se organiza en una multiplicidad de registros, la Oficina Técnica del repositorio puede ofrecer la apertura de una colección ad hoc.

 ¿Los datos se han estructurado y se han etiquetado de modo consistente para que su difusión y su reutilización sean posibles?

Es muy importante que los ficheros se nombren del modo más consistente posible para facilitar su acceso. Es también recomendable que no dependan de software propietario, para asegurar su accesibilidad en el futuro, por lo que Digital.CSIC sugiere usar formatos como por ejemplo, csv. .txt, xml, tiff, mp4.

 ¿Qué formato(s) elegir para facilitar la mayor accesibilidad posible por otros usuarios ahora y en el futuro?

El formato y el software en que se crean los datos de investigación dependen en general del modo en que los investigadores deciden recoger y analizar los datos.

Esta elección a menudo está determinada por las normas específicas de la disciplina y sus hábitos de investigación. Existen disciplinas que recomiendan formatos específicos para los datos. Varias herramientas permiten identificar los estándares más usados, como por ejemplo:

Por su parte, la Biblioteca del Congreso de los Estados Unidos también mantiene un listado actualizado de formatos recomendados para objetos analógicos y digitales con fines de preservación.

Si los autores de los datos desean depositarlos en Digital.CSIC, es también importante comprobar si el repositorio institucional soporta estos formatos específicos. DSpace Format Reference Collection

Una vez se haya completado el análisis de datos y los datos están preparados para el almacenamiento, los autores deben considerar la conversión de sus datos a formatos estándar, intercambiables y de mayor duración.

Los formatos estándar deben ser considerados también para las copias de seguridad.

 ¿Los datos han sido creados, editados o comprimidos con un software específico?

Si los datos han sufrido algún proceso de transformación, es importante indicar la versión del software con el que se han creado los datos resultantes, incluyendo a ser posible, detalles sobre la compresión, codificación y bit rate.

 ¿Los ficheros incluyen documentación sobre los datos?

Es conveniente empezar a preparar la documentación de los datos al inicio del proyecto de investigación, incluso antes de iniciar la recogida de datos.

En la preparación de la documentación es muy importante incluir información sobre la metodología utilizada y otra información relevante, sobre los acrónimos usados y sobre las etiquetas de las variables y de los valores de los datos.

Digital.CSIC recomienda el depósito de un fichero readme.txt con toda la documentación junto con los conjuntos de datos.

Gestión de derechos de autor de los datos y licencias de uso

Es muy importante que los autores de los datos comprueben si son titulares de todos los derechos de autor para poder difundirlos legalmente. Si no es así, es necesario recibir el permiso de reutilización de los propios titulares. Por otra parte, los autores de los datos deben preparar las citas bibliográficas de las posibles fuentes utilizadas para generar los datos.

Otra cuestión relevante se refiere a la anonimización de los datos, si fuera necesario por cuestiones de privacidad. Si los datos no estuvieran suficientemente anonimizados, los autores deben obtener el consentimiento explícito de las personas cuya identidad quedaría revelada con la difusión de los mismos. Existen herramientas diferentes para anonimizar los datos de investigación con información personal/sensible fácilmente, por ejemplo AMNESIA de OpenAire.

Otro aspecto importante aborda las licencias de uso. ¿Bajo qué licencia se quieren publicar los datos de investigación? ¿Estarán todos los datos sujetos a la misma licencia? ¿Necesitan un embargo antes de difundirse en acceso abierto?

Es importante tener en cuenta que dependiendo del proyecto de investigación y del acuerdo con la agencia financiadora del proyecto podría ser necesario aplicar un periodo de embargo en el cual los datos no puedan ser accesibles durante el tiempo requerido. O por el contrario, que la agencia indique explícitamente los plazos obligatorios para su difusión pública y bajo qué términos.

Integración de datos

Por integración de datos se entiende la recuperación y la incorporación de un conjunto de datos a otros conjuntos de datos para crear uno mayor. La web semántica permite tales integraciones y para ello es necesario tratar el conjunto de datos de la siguiente manera:

  1. Marcar los datos en XML o en un formato similar
  2. Estructurar los elementos de los datos según el modelo Resource Description Framework (RDF)
  3. Identificar y hacer accesibles los datos a través de URIs
  4. Usar ontologías específicas para etiquetar los elementos del conjunto de datos
  5. RDA Research Data Repository Interoperability WG Final Recommendations

¿Qué repositorio de datos elegir?

Los repositorios de datos pueden ser institucionales, disciplinares o temáticos, e internacionales. Existen diversos directorios y buscadores de repositorios de datos, entre los que destacan Re3dataRepository Finder y FAIRsharing. Es importante leer con detalle las políticas y condiciones de uso de cada repositorio de datos ya que los servicios y funcionalidades pueden variar de manera significativa.

En virtud del mandato institucional de acceso abierto publicado el 1 de abril 2019 se requiere a la comunidad investigadora CSIC el depósito de las referencias bibliográficas de los datasets asociados a artículos de revistas y la apertura de sus datasets en DIGITAL.CSIC. Ello no impide el almacenamiento y difusión de estos datasets en otros repositorios de investigación.

 

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Salir /  Cambiar )

Google photo

Estás comentando usando tu cuenta de Google. Salir /  Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Salir /  Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Salir /  Cambiar )

Conectando a %s