María Teresa Gómez López (Mayte) es directora del departamento de lenguajes y sistemas informáticos, el segundo departamento más grande de la Universidad de Sevilla.
Nos habla sobre los datos que son publicados para el uso de terceros.
Las empresas hoy en día toman decisiones pensando en cómo deben almacenar los datos, cómo tomarlos, si son buenos o no, cómo su almacenamiento de forma segura para evitar brechas, etc.
Open Data
- Sin restricciones de copyright, patentes o control
- Distribución universal
- No se pierde la autoría
- Datos disponibles, reutilizables, descargables.
Los ingenieros del software estamos cambiando radicalmente el mundo gracias a que es posible explotar datos públicos.
En el caso del COVID, los datos que se han proporcionado generados a partir de análisis diversos (aire, agua, demografías, lugares, etc.) han sido decisivos para el avance de su prevención.
Open Access
Si los datos valen dinero ¿por qué publicaría nadie sus datos?
A los gobiernos y organizaciones públicas les interesa publicar sus datos en alas de transparencia.
Existen también empresas privadas publican datos para fomentar el uso de sus herramientas software.
También publican datos los investigadores, así como sus inferencias sobre ellos.
Debemos ser conscientes de qué datos generamos, porque algunos datos personales como los que proporcionas con tu móvil, smartwatch y demás gadgets pueden ser publicados.
Existen dos formas de publicar datos:
En forma de servicio: como TUSSAM y la localización de sus autobuses.
En forma de data set: Mayte nos da un curioso ejemplo; el de las casetas de la feria, dueños y localización que proporciona el ayuntamiento de Sevilla.
Nos muestra también varias fuentes potentes de datasets amerianas; us government data site, US census bureau, Open Data Network, Google Clous Public Datasets, Dataset Search.
RETOS DE LOS DATASETS
Interoperabilidad
La Interoperabilidad es la capacidad de los sistemas de información y de los procedimientos a los que éstos dan soporte, de compartir datos y posibilitar el intercambio de información y conocimiento entre ellos.
La mayoría de datos son publicados en bruto pero están bien estructurados y tienen un formato reutilizable.
No entra en gran detall sobre el Link data por cuestiones de tiempo, pero nos cuenta que está apoyado en estándares como rdf y owl.
Almacenamiento
Modelos relacionales son muy restrictivos por culpa de la evolución de los datos de entrada.
Dato y relación abiertos. Aunque el modelo esté creado, podemos crear nuevas relaciones entre entidades y cambiar fuentes.
Por ello, para big data son mejores bases de daots NoSQL.
Calidad de datos
No existe lo mejor, la calidad de los datos depende de la finalidad de su uso. También depende de sus atributos y características.
La calidad tiene dimensiones: completitud, precisión, correctitud, integridad y fiabilidad.
Nos habla también de los sesgos de preferencia a favor o en contra de una persona, grupo de personas o cosa. Este sesgo puede ser consciente o subconsciente:
Tipos de sesgos de datos:
- Sesgo del observador: diferentes personas observan diferentes cosas sobre un mismo conjunto de datos.
- Sesgo de interpretación: interpretar situaciones ambiguas de manera positiva o negativa.
- Sesgo de confirmación: tendencia a favorecer, buscar, interpretar y recordar la información que confirma las propias creencias o hipótesis.
Seguridad
¿Qué datos puedo publicar dentro de la legalidad?
Nos habla de los datos éticos y cómo la ética no siempre está completamente clara y consolidada. Para que existan datos éticos debe haber una ética compartida internacionalmente.
Ha habido avances en la ética del uso de datos, como el RGPD a nivel europeo, pero siguen existiendo grandes diferencias entre países. Por ejemplo en Reino Unido, donde ha habido sanciones mucho más severas por brechas de datos ilegales (105 millones de euros de media por empresa) con respecto a España (31 mil euros de media).