| País | Entidad | Número observaciones |
|---|---|---|
Agregadores financieros (aplicaciones financieras y Fintech) | ||
| Estados Unidos | Ready to Zero | 516 |
| Reino Unido | Money Dashboard | 8.350 |
| Estados Unidos | SaverLife | 5.746 |
| Estados Unidos | Confidencial | 156.606 |
| Islandia | Meninga | 66.262 |
| Islandia | Meninga | 55.545 |
| España | Fintonic | 236.053 |
| Estados Unidos | Check | 23.000 |
Bancos tradicionales | ||
| Francia | CIC (Credit Mutuel) / CB (Carte bancaire) | 300.000/1,8 millones de afiliados a CB |
| Dinamarca/Suecia | Danske Bank | 860.000 |
| España | Caixabank | 3.028.204 |
| Estados Unidos | JP Morgan | 5.014.672 |
| España | BBVA (tarjetas y TPV) | 2.200.000 empresas |
| Japón | Mizuho Bank | 2.800.000 |
| Países Bajos | ABN AMRO | 2.000.000 |
| Portugal | Sociedade Interbancária de Serviços | |
Introducción
En los últimos años la disponibilidad de ingentes bases de datos y el incremento de la capacidad de computación han transformado multitud de campos científicos y tecnológicos como las redes neuronales, renombradas como procedimientos de “Deep learning” para evitar las connotaciones negativas de su fracaso en los años 60 y 70, o la genética. La investigación económica también se ha visto influida por la disponibilidad de bases de datos cada vez de mayor tamaño y granularidad. De esta forma la investigación empírica, que en los años 70 era marginal (11% de los artículos más citados en revistas académicas) frente a la dominancia de la teoría (77%), en la actualidad alcanza el 60% frente al 10% de los artículos teóricos1.
En este trabajo se presenta una visión de esta transición hacia la utilización de grandes bases de datos en el campo de la economía laboral en el caso español2. El recorrido se plantea desde una perspectiva personal a partir de experiencias derivadas de mi propia carrera profesional como investigador. Muchas de las reflexiones que se exponen a continuación ha ido madurando a partir de reflexiones presentadas en García Montalvo (2021a, b, c) y García Montalvo (2014). Aunque mis primeros trabajos utilizando datos masivos se remontan al 1995, y se refieren a la negociación en tiempo real en mercado de futuros de bonos, en este artículo me centraré exclusivamente en mis experiencias relacionadas con investigación en el mercado laboral3.
La historia de la generalización de las grandes bases de datos4 laborales en España atraviesa varias etapas. La primera sería la prehistoria, que vendría caracterizada por el principio de “tú te lo guisas, tú te lo comes”. La segunda etapa sería la Edad Media de las estadísticas laborales caracterizada por la construcción de la gran catedral, la Muestra Continua de Vidas Laborales (MCVL), y el comienzo de una apertura de los productores de estadísticas a las demandas de los investigadores. La tercera etapa o Edad Moderna, que también podríamos denominadar como el periodo Israeliano, se caracteriza por un acceso más generalizado, pero bajo el principio de “dime a quien conoces y te diré si lo consigues” y “hazlo antes del cambio de responsables”. En la Edad Contemporánea se pasa de la desconfianza generalizada a la colaboración limitada. Y a partir de aquí existen dos fronteras: la primera frontera la marcan la disponibilidad de datos administrativos fusionados para la práctica totalidad de los ciudadanos de un país como en el caso de Dinamarca o Noruega. El caso de Islandia incluye incluso una base de datos del ADN de todos los habitantes del país. La segunda frontera pasa por la integración de datos de compañías privadas y datos administrativos. Esta es la actual frontera en la construcción de grandes bases de datos para la investigación económica.
1El resto son artículos académicos que combinan teoría y simulación o teoría y contrastación empírica.
2Este trabajo es una versión ampliada de la conferencia inaugural del I Workshop de Productores y Usuarios de Estadísticas Laborales que tuvo lugar en Madrid los días 26 y 27 de noviembre de 2024.
3Para una visión más completa se puede consultar García Montalvo (2021c)
4Las referencias a grandes bases de datos incluyen también la consolidación o fusión de bases de datos más pequeñas.
1. La prehistoria de las estadísticas laborales
A mitad de los años 90 existía una visión generalizada de la universidad española como una “fábrica de parados”, que se basaba en la elevada tasa de desempleo de los titulados universitarios españoles. De hecho, la Encuesta de Población Activa mostraba como los universitarios jóvenes menores de 29 años tenían tasas de desempleo superiores a los titulados de Formación Profesional y similares a la de los graduados de EGB o ESO. Solo el grupo de jóvenes sin estudios tenían tasas superiores. Desafortunadamente la EPA no tenía la suficiente granularidad para poder analizar si existían diferencias por titulaciones, o cuales eran los factores que determinaban el éxito o fracaso individual en la inserción de los jóvenes universitarios en el mercado laboral. En aquellos tiempos los datos de la Seguridad Social no eran una opción y, por tanto, en un intento de analizar los factores determinantes de la inserción laboral de los jóvenes universitarios, se contactó con muchas universidades para solicitar su colaboración en la programación y desarrollo de una encuesta específica. Las conversaciones con las universidades fracasaron ante el miedo a que se pudieran realizar, con posterioridad, comparaciones entre universidades.
Ante esta situación, con la financiación de la Comisión Europea (programa TSER), y en colaboración con centros de investigación de otros 10 países europeos (Austria, República Checa, Finlandia, Francia, Alemania, Italia, Noruega, Suecia, Reino Unido y Países Bajos) y Japón, desarrollamos el proyecto CHEERS (Carreer after Higher Education: a European Research Survey). Durante más de un año se discutió la construcción de un cuestionario muy completo, con adaptaciones nacionales, que permitía hacer un seguimiento de los primeros años de los titulados universitarios después de finalizar los estudios. También se recogía información sobre el acceso a los estudios universitarios, las características de la carrera, las competencias y habilidades desarrolladas durante la misma, así como los trabajos desarrollados desde la finalización de los estudios hasta el momento de la encuesta (cuatro años después de finalizar los estudios). Los resultados del estudio se plasmaron posteriormente en un libro (Teichler, 2007) que recogía capítulos transversales así como especializados en cada país5. Con esta información aprendimos que la universidad española no era una fábrica de parados, sino que era una fábrica de sobrecualificados, al menos subjetivos6.
El cuestionario confeccionado por los participantes en el proyecto tuvo bastante repercusión posteriormente pues multitud de operaciones estadísticas posteriores lo han tomado como base, incluido el plazo ad-hoc de cuatro años después de la graduación como determinante de la población objeto de estudio. La primera adopción se produjo en la Encuesta de Inserción Laboral de los Universitarios catalanes de la AQU, que ya cuenta con 8 ediciones (2001-2005-2008-2011-2014-2017-2020-2023). El INE ha desarrollado también dos encuestas sobre inserción de graduados universitarios (EILU), una en 2014 (referida a graduados del 2009-10) y la segunda en 2019 (referida a los graduados en 2013-14). En la actualidad la Seguridad Social también publica un informe sobre la situación laboral de los jóvenes graduados universitarios cuatro años después de la finalización de sus estudios.
5Para el caso español, ver García Montalvo (2007).
6Garcia Montalvo (2001) presenta un análisis detallado de todas las conclusiones obtenidas a partir de la muestra española de graduados universitarios.
2. La Edad Media
La Edad Media de las estadísticas laborales en España comienza con la construcción de la “Gran Catedral” que fue la Muestra Continua de Vidas Laborales (2004) que marca un enorme cambio frente a las solicitudes ad-hoc de periodos anteriores o la utilización de estadísticas “prêt-à-porter”. A partir de 2006 se integran datos fiscales. La MCVL también integra en la actualidad el Padrón Continuo con lo que resulta una fuente fundamental de información sobre el mercado laboral español. La disponibilidad generalizada de la MCVL provocó una explosión en la investigación sobre mercado laboral y el sistema de pensiones en España.
3. La Edad Moderna (o Israeliana)
La Edad Moderna en la investigación económica con grandes bases de datos comienza con varias propuestas internacionales. En Estados Unidos Card et al. (2010) proponen expandir el acceso a los datos administrativos para la investigación económica ante lo que describían como “erosión de la ventaja de EE.UU. en la creación de datos para la investigación económica”. Card et al. (2010) señalan la importancia para las ciencias sociales de contar con data de alta calidad y destacan que los datos administrativos son muy superiores a las encuestas muestrales tradicionales: mayor tamaño (totalidad de la población), estructura longitudinal, menor error de medida, imputación y no participación, etc. La prioridad para la investigación es desarrollar un acceso director y seguro a datos administrativos para investigación. Card et al. (2010) proponen un mecanismo, similar al de los países escandinavos, para desarrollar el sistema según el cual la agencia estadística nacional obtiene datos administrativos de todos los otros generadores de estadísticas, prepara la anonimización de los datos para cada proyecto de investigación, proporciona un acceso seguro a los investigadores y finalmente, solo el resultado de la investigación es público. En este proceso se resalta que el acceso directo a los microdatos es crítico para el éxito del programa. Los datos sintéticos o el envío de programas a las agencias desde el exterior no se consideran buenas alternativas.
En el Reino Unido en 2014 se pone en marcha el Administrative Data Research Network (ADRN) como una colaboración entre universidades, organismos gubernamentales, agencias estadísticas e investigadores para facilitar el acceso a datos administrativos fusionados entre diversas fuentes. La iniciativa ha dado enormes frutos como comentaré con posterioridad.
El último hito en esta serie de iniciativas internacionales es el Opportunity Insight Lab fundado por Raj Chetty, John Friedman y Nathaniel Hendren en 2018 con la financiación de la Chan Zuckerberg Initiative. Unos años antes estos investigadores habían conseguido el acceso a los datos de la Agencia Tributaria de Estados Unidos para realizar investigación económica, no sin cierta controversia sobre los objetivos de la investigación y la utilización posterior de los datos. La información proporcionada por la Agencia Tributaria de EE.UU. permitió realizar investigaciones muy interesantes e imposible con anterioridad, incluyendo el famoso Atlas de Oportunidades que mostraba, entre muchas otras cosas, como la movilidad social en Estados Unidos se había desplomado estrepitosamente entre 1940 y mitad de los años 80.
Mientras, en España, la Agencia Tributaria también se configura como el organismo con las bases de datos más completas y los procedimientos de “machine learning” más avanzados. Seguramente no hay ninguna otra agencia tributaria en el mundo con la capacidad de la agencia española. La AEAT posee la base de datos Zujar alimentada por 30 billones de datos, y utiliza multitud de herramientas para su análisis (Teseo, Electra, Midas – ROI, Genio-Infonor, procedimientos de “web scraping”, etc.).
Sin embargo, a mediados de los 2010, todavía es complicado trabajar con datos administrativos de instituciones españolas. Además, en caso de conocer la persona adecuada y que esta tenga la disposición de ayudar, es preciso desarrollar para cada investigación una infraestructura legal y técnica de cierta complejidad. En 2015 tuve la oportunidad de trabajar con unos datos sobre la asignación aleatoria de viviendas de protección oficial en el País Vasco. El objetivo del estudio era analizar el impacto de la posesión de una vivienda y, en particular, de una deuda en forma de hipoteca, sobre la oferta de trabajo. Lógicamente, la información sobre los cambios en el mercado laboral, asociada a la fecha de compra de la vivienda, no figuraban en la información administrativa sobre el mecanismo de asignación de la vivienda. De esta forma tuvieron que firmarse cuatro convenios, uno de ellos con la Tesorería General de la Seguridad Social, para fusionar la información en la forma fijada por las “Notas de intercambio de fichero, seguridad y anonimización” de la Tesorería General. Este procedimiento consistía en una triangularización de la información de forma que el investigador nunca tenía acceso a los datos identificadores de los individuos y solo las administraciones públicas manejaban dicha información para realizar la fusión.
Mi experiencia durante esos años en cuanto a las facilidades para obtener datos y gestionar la fusión de varias bases de datos fue mixta. Las instituciones más sensibles a las necesidades de investigación fueron la Seguridad Social, los Registradores de la Propiedad y algunos gobiernos autonómicos. Entre los organismos poco sensibles se encontraban la Dirección General de Tráfico, la Agencia Tributaria y ANCERT (Estadísticas Notariales)7.
7Recientemente, la situación ha cambiado sustancialmente respecto a las estadísticas notariales. El Notariado, que siempre ha tenido una enorme cantidad de información sobre el sector inmobiliario español y un centro tecnológico muy potente, se muestra en la actualidad abiertamente dispuesto a colaborar con los investigadores facilitando acceso a sus datos.
4. La edad contemporánea
A finales de los años 2010 la AIREF promueve una serie de reuniones con investigadores con el objetivo de impulsar una estrategia de acceso a datos administrativos. A este impulso no fue ajeno el hecho de que Israel Arroyo se hubiera incorporado a la AIReF en 2018 después de impulsar y facilitar, desde el puesto de subdirector general de Presupuestos, Estudios Económicos y Estadísticas en la Tesorería General de la Seguridad Social, la colaboración fluida de la Seguridad Social con los investigadores sobre temas relacionados con el mercado laboral. Como resultado de estas reuniones y de una reflexión interna de la AIReF se publica la Opinión 1/20 (AIReF, 2020) que plantea una propuesta de estrategia para el acceso a los datos administrativos en España, así como una serie de cambios normativos necesarios para desarrollarla.
A finales de la década de los 2010 la Agencia Tributaria también empieza una relativa apertura que culmina con la colaboración con el INE en la producción del Atlas de la Distribución de la Renta de los hogares (2019), que tiene un éxito enorme, y la facilitación de los datos necesarios para la realización de un Atlas de Oportunidades en España (2020) por parte de la Fundación Felipe González y COTEC, aunque desgraciadamente esta segunda aplicación es mucho menos conocida8. La Agencia Tributaria también participó muy activamente, y fue fundamental en la provisión de la información de base, en la construcción del Sistema Estatal de índices de Alquiler de Vivienda, que proporciona información precios de alquiler hasta nivel de distrito censal. Otro signo de este nuevo tiempo es que la AEAT permitiera a la AIReF utilizar las declaraciones de renta anonimizas (35,5 millones) que se han cruzado con la Encuesta de Presupuesto Familiares para analizar la fiscalidad conjunta de IRPF e IVA de las familias (AIReF, 2020), aunque estos datos no son públicos.
En los últimos años también se han hecho avances en otros datos administrativos. El PET (panel de datos de empresa-trabajadores) proporciona una visión similar a la MCVL pero desde la perspectiva de la empresa a partir del enlace de los registros sobre las empresas y las vidas laborales de los trabajadores. Asimismo, la creación del laboratorio de datos del Banco de España permitía acceder a los datos de la Central de Balances.
Dentro de las colaboraciones entre organismos públicos e instituciones de investigación el DataReSS, una colaboración entre el instituto de estadística de Cataluña (IDESCAT) y la Barcelona Graduate School of Economics, facilita el acceso a los registros que producen algunas administraciones públicas catalanas.
A principios de los años 2020 se producen otros dos hitos importantes. En primer lugar, se crea la Oficina del Dato, dependiente de la Secretaria de Estado de Digitalización e Inteligencia Artificial. El segundo hito relevante es el comunicado institucional del 13 de abril de 2021 en el que el INE, la Agencia Tributaria, la Seguridad Social y el Banco de España acuerdan comenzar a trabajar conjuntamente en el desarrollo de un sistema de acceso a sus bases de datos con fines científicos de interés público. El 12 de febrero de 2024 un nuevo comunicado institucional, esta vez refrendado por la Seguridad Social, el SEPE, el INE, el Banco de España y la Agencia Tributaria, informa de la firma de un acuerdo para permitir el acceso conjunto a sus bases de datos para trabajos científicos de investigación con interés público. El acuerdo, que dio lugar al ES_DataLab (es-datalab.es), permite que otras instituciones públicas se puedan adherir también en el futuro.
8Raj Chetty estuvo dando una conferencia en el departamento de economía de la Universidad Pompeu Fabra en 2023 y desconocía que en España se hubiera replicado el Atlas de Oportunidades a pesar de conocer las aplicaciones en otros países. El Atlas con datos españoles se puede consultar en https://atlasoportunidades.fundacionfelipegonzalez.cotec.es/
5. La próxima frontera I: los países escandinavos
El llamado modelo nórdico ha sido desde siempre el espejo en el que muchos países han querido reflejarse a la hora de conseguir expandir el uso de datos administrativos para el uso en investigación. Tanto las oficinas estadísticas de Islandia, Dinamarca, Noruega y Suecia permiten el acceso a los investigadores a grandes bases de datos administrativos ya fusionados9. El acceso en el caso noruego también puede estar intermediado por el Norwegian Social Sciences Data Service. Más recientemente países como Alemania (IAB) y Francia (CASD) también han puesto en marcha organismos para facilitar el acceso a grandes bases de datos administrativos. Pero sin duda uno de los casos de éxito es la iniciativa del Reino Unido. Uno de los motivos fundamentales de esta iniciativa fue, de forma parecida a lo sucedido en Estados Unidos, la sensación de que el Reino Unido estaba perdiendo el tren de la investigación económica de frontera por las limitaciones que tenían los investigadores para acceder a grandes bases de datos administrativos. En 2014 se puso en marcha la Administrative Data Research Network del Reino Unido (ADRN) como una colaboración entre universidades, organismos gubernamentales, agencias estadísticas e investigadores para facilitar el acceso a datos administrativos ya fusionados entre diversas fuentes. La iniciativa ha dado enormes frutos. En este sentido genera envidia sana que unos meses después de empezar la pandemia de COVID19 investigadores del Reino Unido fueran capaces de fusionar 17 millones de historiales electrónicos de salud y calcular la probabilidad de mortalidad por COVID19 en función de decenas de factores de riesgo (Opensafely Collaborative et al., 2020).
9Para una descripción más detallada de estas experiencias ver AIReF (2020).
6. La próxima frontera II: la integración de datos de empresas privadas y datos administrativos
Aunque las administraciones públicas generan enormes cantidades de datos administrativos, las compañías privadas todavía producen mayor cantidad de información. Además, las empresas privadas proporcionan una granularidad espacial y temporal y una inmediatez que difícilmente se pueden conseguir con los datos administrativos. El advenimiento de la pandemia de COVID19 y la necesidad de contar con información de muy alta frecuencia para hacer un seguimiento de la evolución económica, y del impacto de las políticas adoptadas para mitigar el efecto de la pandemia, ha hecho más importante la disponibilidad rápida de grandes bases de datos, impulsando la colaboración público-privada. En este caso el calificativo público puede referirse a universidades, organismos públicos y centros de investigación trabajando con grandes bases de datos de empresas privadas, aunque también se puede referir a bases de datos públicas construidas a partir de microdatos de empresas privadas.
Un ejemplo de esta colaboración fue el “economic tracker” del Opportunity Insight cuya construcción comenzó en 2020. Chetty et al. (2023) describe los datos que utilizan para hacer un seguimiento del impacto del COVID19 en diferentes dimensiones. Entre las empresas privadas que colaboran aportando datos están Affinity Solutions (gasto en tarjetas de crédito y débito), CoinOut (transacciones en efectivo), Womply (utilización de tarjetas de crédito en pequeños negocios), Paychex (datos sobre empleo y nóminas de 670.000 pequeñas y medianas empresas), Intuit (ofrece servicios de pago de nóminas a empresas), Earnin (ofrece servicios de avance de la nómina que permite acceder a la renta de los trabajadores que se han inscrito en la web), Kronos (servicio de gestión de trabajadores que comprende a 30.000 empresas y 3.2 millones de trabajadores), Homebase (herramienta de gestión de pequeñas empresas) y Zearn (aplicación para el aprendizaje de matemáticas utilizada por 925.000 estudiantes).
La disponibilidad de información sobre transaccionalidad bancaria (tarjetas de crédito y débito, TPV, apuntes en cuentas contratación de activos financieros, etc.) ha tenido una importancia fundamental en la revolución de la economía en tiempo real. En los últimos años se han multiplicado las colaboraciones a nivel internacional a través de acuerdos entre universidades y multitud de bancos para utilizar la información bancaria. El listado incluye ya muchos países: Estados Unidos, Reino Unido, Francia, Japón, Dinamarca, Suecia, Islandia, Portugal, Países Bajos, China y España. Las empresas colaboradoras incluyen todo tipo de entidades financieras desde Fintechs hasta bancos tradicionales. El Cuadro 1 recoge un resumen de países donde existen investigaciones en marcha y las entidades privadas que les dan soporte.
| País | Entidad | Número observaciones |
|---|---|---|
Agregadores financieros (aplicaciones financieras y Fintech) | ||
| Estados Unidos | Ready to Zero | 516 |
| Reino Unido | Money Dashboard | 8.350 |
| Estados Unidos | SaverLife | 5.746 |
| Estados Unidos | Confidencial | 156.606 |
| Islandia | Meninga | 66.262 |
| Islandia | Meninga | 55.545 |
| España | Fintonic | 236.053 |
| Estados Unidos | Check | 23.000 |
Bancos tradicionales | ||
| Francia | CIC (Credit Mutuel) / CB (Carte bancaire) | 300.000/1,8 millones de afiliados a CB |
| Dinamarca/Suecia | Danske Bank | 860.000 |
| España | Caixabank | 3.028.204 |
| Estados Unidos | JP Morgan | 5.014.672 |
| España | BBVA (tarjetas y TPV) | 2.200.000 empresas |
| Japón | Mizuho Bank | 2.800.000 |
| Países Bajos | ABN AMRO | 2.000.000 |
| Portugal | Sociedade Interbancária de Serviços | |
El objetivo de estas colaboraciones es analizar teorías económicas como la renta permanente, el efecto de los confinamientos, el impacto de las políticas de transferencias de rentas frente a la COVID19, la evolución del gasto durante la pandemia o el impacto distribucional de la epidemia sobre el gasto. Estas bases de datos masivas de entidades financieras también permiten abordar aspectos relacionados con el mercado laboral. Un ejemplo es la colaboración entre un equipo de investigadores del departamento de Economía de la Universidad Pompeu Fabra y Caixabank Research en el análisis en tiempo real de la desigualdad salarial en España desde el comienzo de la epidemia de COVID-19 (Aspach et al. 2021)10, el efecto de los ERTE sobre la desigualdad salarial (Aspach et al. 2022), o el impacto del ingreso mínimo vital, y la modificación de las condiciones en 2023, sobre el consumo y el empleo. Es interesante notar que recientemente varios organismos nacionales de estadística se han aproximado a entidades financieras para analizar la posibilidad de utilizar sus datos como fuente de indicadores estadísticos oficiales.
Otro ejemplo de uso de datos privados se produce en el caso de la colaboración entre instituciones públicas u organismos oficiales y empresas. Por ejemplo, el Banco Central Europeo (BCE) usa la base de datos privada AnaCredit (“analytical credit data sets”), que contiene datos armonizados de la zona euro en una base de datos única, para sus análisis prudenciales y supervisorias. Asimismo, el Bank for International Settlements (BIS) recolecta y procesa información bancaria confidencial en colaboración con bancos centrales y autoridades nacionales para su International Data Hub.
No obstante, sorprende que algunas de las colaboraciones entre empresas privadas e instituciones públicas reciban críticas generalizadas a pesar de perseguir fines sociales. Un ejemplo claro en el caso español fue el anuncio del INE de comprar datos de las compañías telefónicas sobre geolocalización de los clientes para estudiar la movilidad urbana. Cuando se anunció el estudio los medios de comunicación titularon de forma muy crítica: “Así va a rastrear el INE tu móvil durante 8 días: a qué operadoras afecta y como evitarlo”; ”Las operadores cobrarán medio millón de euros por ceder los datos al INE”; “El INE va a espiar tu móvil 8 días: ¿Qué puedes hacer”. Esta reacción es sorprendente sobre todo cuando la mayoría de los usuarios de un teléfono móvil están dispuestos a ceder toda su información personal dando acceso a todos los datos de su móvil para instalarse una simple aplicación de linterna. Sin embargo, si una institución pública hace un estudio con datos de usuarios de telefonía totalmente anonimizados y agregados por zonas, ponen el grito en el cielo. En este sentido falta claramente una mayor sensibilización de la población sobre la importancia de las bases de datos masivos para la investigación social.
10El seguimiento de este indicador se puede realizer a partir de los datos en https://inequality-tracker.caixabankresearch.com/
7. La RGPD y el informe Draghi
La aprobación del reglamento del RGPD (Reglamento General de Protección de Datos) de la UE, adoptado en 2016 y aplicado desde el 25 de mayo de 2018, si se interpreta de forma restrictiva supone un claro riesgo a la apertura y colaboración de usuarios y productores de estadísticas. De hecho, puede proporcionar la coartada perfecta a aquellos productores que quieren reducir el riesgo a cero sin tener en cuenta los beneficios de la investigación. Por lo general la transposición de la normativa a los distintos países está suponiendo una interpretación más restrictiva que la originalmente planteada. Y esto a pesar de todas las salvaguardias que la RGPD presenta en el caso de la investigación. Algunos ejemplos:
(26) … por tanto, el presente Reglamento no se refiere al tratamiento de dicha información anónima, ni siquiera con fines estadísticos o de investigación.
(50) … El tratamiento posterior con fines de archivo en interés público, fines de investigación científica o histórica o fines estadísticos debe considerarse operaciones de tratamiento compatibles y lícitas.
(53) Las categorías especiales de datos personales que merecen una mayor protección deben tratarse con fines relacionados con la salud únicamente cuando sea necesario para alcanzar dichos fines en beneficio de las personas físicas y de la sociedad en su conjunto… o con fines de archivo en interés público, fines de investigación científica o histórica o fines estadísticos.
El reciente informe Draghi, en su llamada a la simplificación y armonización de la regulación de la UE para no perjudicar adicionalmente a la economía europea, tiene multitud de llamadas de atención sobre el impacto en la investigación de la falta de armonización de la GDPR.
“La sobrerregulación del RGPD por parte de los Estados miembros y la falta de coherencia en su aplicación aumentan la carga administrativa de las empresas de la UE. El RGPD, que entró en vigor en 2016 y es directamente aplicable en todos los Estados miembros, tiene como objetivo ofrecer un enfoque armonizado de la UE para la aplicación de la privacidad. Sin embargo, otorga a los Estados miembros la posibilidad de definir normas de privacidad en 15 áreas, lo que genera fragmentación e incertidumbre jurídica derivada del uso generalizado de cláusulas de especificación, la sobrerregulación y la aplicación inconsistente por parte de las Autoridades de Protección de Datos (APD) nacionales, y el hecho de que algunos Estados miembros tengan varias APD que lo hagan (por ejemplo, 16 en Alemania). Esto podría obstaculizar el emprendimiento y la innovación transfronterizos, incluido el desarrollo y la implementación de nuevas tecnologías y soluciones de ciberseguridad. Las estimaciones apuntan a unos costes elevados de cumplimiento del RGPD, de hasta 500.000 euros para las pymes y de hasta 10 millones de euros para las grandes organizaciones. Además, debido a estos costes de cumplimiento, las empresas de la UE redujeron el almacenamiento de datos en un 26 % y el procesamiento de datos en un 15 % en relación con empresas estadounidenses comparables. Sin embargo, en diciembre de 2023, los Estados miembros en la formación del Consejo de Justicia y Asuntos de Interior se resistieron a una mayor armonización.”
Un aspecto importante sobre la utilización de datos y los impedimentos en algunas interpretaciones de la RGPD es lo que el informe Draghi denomina Espacio Europeo de Datos Sanitarios (EHDS). Sobre este punto el informe señala:
“Existe un potencial significativo sin explotar para aprovechar los datos sanitarios en la UE, como lo demuestran las considerables posibilidades de acceder y vincular conjuntos de datos en el ámbito de la atención sanitaria en relación con los EE. UU. Actualmente, el RGPD permite el procesamiento de datos sanitarios para la prestación de asistencia sanitaria o social, salud pública y fines científicos con base en la legislación de la UE o nacional. Los datos pueden procesarse sin consentimiento explícito siempre que se implementen medidas adecuadas y específicas para salvaguardar los derechos y libertades de los interesados. Algunos Estados miembros ya se benefician de estas posibilidades en virtud de su propia legislación nacional. Sin embargo, la adopción de estas opciones por parte de los Estados miembros ha sido desigual y ha dado lugar a un uso secundario ineficaz de los datos sanitarios. Para superar este desafío, la Comisión ha propuesto un reglamento para habilitar un Espacio Europeo de Datos Sanitarios (EHDS) aprovechando las posibilidades que ofrece el RGPD para una ley específica de la UE con salvaguardias particulares. En la primavera de 2024, el Parlamento Europeo y el Consejo llegaron a un acuerdo político sobre el reglamento propuesto. La propuesta pretende desarrollar un marco europeo inspirado en las medidas adoptadas por varios Estados miembros que han adoptado una legislación nacional similar para el uso secundario de datos sanitarios.”
El informe Draghi también propone forzar la implementación armonizada y simplificada de la GDPR de los estados de la UE y eliminar solapamientos regulatorios en el caso del desarrollo de aplicaciones de inteligencia artificial, recomendando la utilización de un procedimiento de revisión regular y rápido de las regulaciones relacionadas con la IA. El informe señala que, aunque las ambiciones del RGPD y la Ley de IA de la UE son encomiables, “su complejidad y el riesgo de superposiciones e inconsistencias pueden socavar los avances en el campo de la IA por parte de los actores industriales de la UE. Las diferencias entre los Estados miembros en la implementación y cumplimiento del RGPD, así como las superposiciones y áreas de posible inconsistencia con las disposiciones de la Ley de IA crean el riesgo de que las empresas europeas sean excluidas de las innovaciones tempranas en IA debido a la incertidumbre de los marcos regulatorios, así como a mayores cargas para los investigadores e innovadores de la UE para desarrollar IA de fabricación propia.” El informe Draghi indica que es preciso “desarrollar normas simplificadas y hacer cumplir la implementación armonizada del RGPD en los Estados miembros, al tiempo que se eliminan las superposiciones regulatorias con la Ley de IA. Esto garantizaría que las empresas de la UE no sean penalizadas en el desarrollo y la adopción de IA de vanguardia.”
8. Conclusiones
La utilización de datos masivos y algoritmos de aprendizaje automático tienen cada vez un papel más relevante en investigación económica. La colaboración entre instituciones públicas puede favorecer la utilización y fusión de las enormes bases de datos administrativos que aumentarían la capacidad de realizar investigación económica detallada y novedosa. Por su parte la creciente participación del sector privado en la generación de datos útiles para la investigación económica (evaluaciones de políticas públicas, seguimiento de la economía a alta frecuencia, etc.) hace cada vez más importante la colaboración público-privada en el aprovechamiento de estas bases de datos. En este contexto, el acceso a microdatos bancarios proporciona una de las fuentes de información con mayor potencial. Así lo muestran multitud de estudios recientes que utilizan este tipo de datos para analizar, con gran granularidad y alta frecuencia, fenómenos económicos muy relevantes como las consecuencias de la pandemia de COVID-19 o el impacto de las políticas destinadas a atenuar sus efectos.
Hasta hace pocos años el aprovechamiento para la evaluación de políticas públicas de los datos administrativos de las instituciones públicas españolas ha estado muy alejado del enorme avance que se estaba produciendo en otros países. En los últimos tiempos se observa una mayor sensibilización de las instituciones públicas respecto a la importancia de los datos administrativos para la investigación económica, aunque todavía queda mucho camino por recorrer en la sensibilización del público y los medios de comunicación. Aunque llevamos bastante retraso respecto a otros países estas iniciativas abren una ventana de oportunidad que, dependiendo de cómo se concrete, puede producir un avance muy significativo en la calidad y relevancia de la investigación económica en España.
Referencias
AIREF (2020), Opinión para una estrategia de acceso a datos administrativos, Opinión 1/20, septiembre.
Aspachs, O., Durante, R., García-Montalvo, J., Graziano, A., Mestres J., y M. Reynal (2022), “Real-Time Inequality and the Welfare State in Motion: Evidence from COVID-19 in Spain,” Economic Policy, Volume 37, Issue 109, 165–199.
Aspachs, O., Durante, R., García-Montalvo, J., Graziano, A., Mestres J., y M. Reynal (2021), “Tracking the impact of COVID-19 on economic inequality at high frequency,” 16 (3), PLoS ONE, 2021
Card, D., Chetty, R., Feldstein, M., y Saez, E. (2010), Expanding Access to Administrative Data for Research in the United States. en: Schultze, C. L., and Newlon, D. (eds), Ten years and Beyond: Economists Answer NSF’s Call for Long-Term Research Agendas. National Science Foundation
Chetty, R., Friedman, J. Stepner, M. y the Opportunity Insights Team (2023), “The economic impact of COVID-19: evidence from a new public dataset built using private sector data,” Quarterly Journal of Economics, 1-61.
García Montalvo, J. (2021a), “Investigación económica y datos masivos: mercados, fines sociales y colaboración público-privada,” Cuadernos Económicos del ICE, 102 (2), 69-85.
García Montalvo, J. (2021b), “Big data y economía en tiempo real: la utilidad de los microdatos bancarios,” Informe Económico y Financiero de EsadePol, #29, 20-26, 2021.
García Montalvo, J. (2021c), “Data science y sus aplicaciones económicas: una perspectiva personal,” Capítulo 1 in Peña, Poncela y Ruíz (Eds.), Análisis Econométrico y Big Data, 2021.
García Montalvo, J. (2014), “El impacto del big data en los servicios financieros,” Papeles de Economía Española, 43-59.
García Montalvo, J., García, A. y G. Mora (2007), “The Employment situation of Spanish university graduates some four years after graduation,” en U. Teichler (Ed.), Careers of University Graduates, 2007, Springer Publisher, 103-121.
García Montalvo, J. (2001), Educación y empleo de los graduados superiores en Europa y en España, Fundación Bancaja, 340 páginas.
OpenSAFELY Collaborative et al. (2020), “OpenSAFELY: factos associated with COVID-19-related hospital death in the linked electronic health records of 17 million adult NHS patients,” Nature, Julio.
Teichler, U. (Ed.) (2007), Careers of University Graduates, Springer Publisher, 103-121.