Regresion lineal y la temperatura del agua del Aquarium de Donosti
Hace años, en un Tribunal de Tesis, un reputado químico teórico, con petulante suficiencia, nos espetó a otros químicos, dedicados a medir cosas con aparatos, que lo único que nos preocupaba en nuestro trabajo "era conseguir que los puntos experimentales se ajustaran a una recta". Como ocurre en la figura, cuyo significado explicaré cuando os introduzca a la curiosa historia que ha generado esta entrada y que, como jubilata pertinaz, me ha tenido muy entretenido, entre otras muchas cosas, desde hace casi dos meses.
Todo empezó con la publicación, el pasado 2 de junio y en el Diario Vasco, de un artículo cuyo enlace es inútil que os ponga porque es de pago y cuyo título rezaba "El mayo con la temperatura del agua más cálida de los últimos 75 años". El artículo explicaba que tal dato se desprende de la serie histórica con la que cuenta el Aquarium de San Sebastián, lugar en el que, desde 1947, todos los días de mañanita y a la misma hora, se mide la temperatura del agua en sus inmediaciones.
El Aquarium es una Institución que me ha acompañado a lo largo de mi ya larga vida. He paseado infinidad de veces por sus inmediaciones, lo he visitado otras muchas desde niño, con mis padres, con la Búha o con amigos foráneos, comprobando su evolución más reciente de la mano del gran señor que era D. Vicente (Bixente) Zaragüeta, hernaniarra como este vuestro Búho pero de otro nivel, amigo personal de mis padres y nieto de D. Vicente Laffite, uno de los promotores del Aquarium, inaugurado en 1928. Incluso, hace años, fui convocado como experto en polímeros, cuando hubo un serio problema con el decorado del gran estanque de los tiburones, fabricado a base de poliuretano. En otro orden de cosas pero que tiene que ver con lo que aquí voy a contar, desde hace casi veinte años y aunque mi formación no es la adecuada, he leído muchas cosas ligadas a la climatología, incluidos los voluminosos informes del Primer Grupo de Trabajo del Panel Internacional de Cambio Climático (IPCC) o el más reciente informe del mismo Panel sobre el Océano y la Criosfera (setiembre 2019), algo que, sin falsa modestia, no creo se haya leído mucha gente.
Así que, con esa curiosidad por lo climático y esa proximidad al Aquarium, decidí hacerme con la citada serie histórica. Y como conozco gente en el Diario Vasco, pedí las coordenadas de la autora del artículo y le escribí un email. Me contestó enseguida pero, para mi sorpresa, me dijo que ella no tenía esa serie histórica y que los datos que aparecían en la primera figura de su artículo los había sacado de una cuenta de Twitter, cuyo enlace me enviaba. Y, efectivamente, allí estaban los datos de una serie de mayos, ordenados de la misma forma que en la gráfica mencionada. Como en ese tuit aparecía una cuenta de Twitter del Aquarium, les escribí un mensaje preguntado cómo podía obtener la serie histórica completa. Me contestaron diligentemente, dándome una dirección de correo electrónico del propio Aquarium. Cuando escribí a esa dirección, la respuesta fue que esos datos no estaban a disposición del público pero que estaban depositados en AEMET (Agencia Estatal de Meteorología).
Pasé bastante días entretenido en rastrear la web de AEMET y en cómo darme de alta como usuario de sus OpenData, tratando de aprender a usarlos (algo que no es obvio la primera vez). Pero no había forma de encontrar datos provenientes del Aquarium. Así que, dentro de la propia web de AEMET, planteé una consulta a su Delegación en Euskadi. Me contestaron enseguida explicándome que, en virtud de no sé qué normativa europea, esos datos no eran públicos pero que me mandaban un Excel con la serie histórica de mis desvelos. Documento que ahora tengo guardado como oro en paño, dado el esfuerzo que me ha costado. Aunque no habrá forma de actualizarlo en el futuro (algo a lo que, me han dicho, tengo derecho) mientras las cosas en AEMET o el Aquarium no cambien.
Y después de este tortuoso camino os preguntaréis, ¿tenían razón el artículo y su autora?. Pues, estrictamente, sí, pero matizando y bastante. De acuerdo con ese documento Excel, la temperatura media del agua en el Aquarium el mes de mayo de 2020 fue 17,6 ºC, la más alta de todos los registros desde 1947. Seguida, en este orden, por los valores de 2011 y 1990 (17,3), 1964 (17,2) y 1950, 1961 y 2007 (16,9). Pero esa temperatura media de mayo desde 1947 oscila entre ese máximo de 17,6 de 2020 y un mínimo de 14,0 en 1984. De hecho, en una fecha tan cercana como mayo de 2019, el año pasado, la temperatura media de mayo del agua de mar fue de unos parcos 15,5ºC (fresquita dice la Búha, que para esas alturas del año ya se suele haber bañado alguna vez).
Pero lo importante en el seguimiento de una magnitud climática es ver su evolución a lo largo de series históricas de un número importante de años. En este caso tenemos una serie de 74 años (1947-2020), no muy larga pero importante. La figura que ilustra la portada, que podéis ampliar clicando en ella, muestra la evolución de la temperatura media de mayo del agua del Aquarium en ese intervalo de tiempo. Incluso los que no estéis acostumbrados a ver gráficas de datos, os resultará evidente que mucha tendencia no parece advertirse.
Pero recordando al que criticaba que los químicos solo buscamos que los puntos se ajusten a una línea recta, podemos intentarlo con esta serie histórica. Usando las herramientas del propio Excel, podemos pedirle que nos ajuste esos datos a una recta. Muy obediente, Excel lo hace y nos muestra, además de la línea de puntos que se ve, la ecuación matemática a la que responde esa recta: y = 0,0012 x + 13,25 y un enigmático R2 = 0,008. Vamos a explicar estos resultados para los no iniciados.
El valor 13,25 es el valor que toma la magnitud representada en el eje vertical (la temperatura del agua) cuando en el eje horizontal nos fuéramos hasta el año cero (hace dos mil veinte años) y asumiéramos que, desde 1947 hasta ese año cero, la tendencia fuera la que la ecuación indica. Es poco o nada relevante para lo que discutimos aquí. El otro valor, 0,0012, es lo que sube, en promedio, la temperatura del agua del mar en el Aquarium por cada año transcurrido. Es decir, según esa ecuación (o la linea dibujada), la temperatura del agua del Aquarium estaría subiendo desde 1947 algo más de una milésima de grado (0,0012) por año o, en otros términos, algo más de una centésima de grado por decenio, que es como suelen expresarse los climatólogos. En cuanto al R al cuadrado, se trata de una magnitud que se usa en Estadística para evaluar lo bien o mal que se ajusta una recta a una serie de datos experimentales. Cuanto más cerca está del valor uno, mayor es el grado de ajuste entre recta y datos. Cuanto más se acerca a cero, tal ajuste es un desastre (como es el caso en este ejemplo, con un R al cuadrado prácticamente cero).
Pero si, como Galileo, decís aquello de "Sí, pero la temperatura está subiendo", os matizaré que si, por ejemplo, hacéis idéntico juego con los meses estivales de esa serie histórica, os podéis encontrar el caso de setiembre, donde la línea de ajuste es y = -0,0007 x + 21,99, lo que es igual que decir que la temperatura media del agua del Aquarium en setiembre, desde 1947, está bajando (hay un signo menos delante de 0,0007) siete diezmilésimas de grado por año o siete milésimas por decenio. Pero estudiando el resto de meses estivales e independientemente de que las temperaturas parezcan subir o bajar mínimamente, en todos los casos las R al cuadrado son prácticamente cero.
Antes de publicar esta entrada pedí a un amigo, Catedrático de Estadística Aplicada, que la revisara por si las moscas. Me contestó, con la fina ironía que le caracteriza que, puestos a ver alguna tendencia, él veía con esfuerzo una cierta tendencia oscilante. Y, ciertamente, si le decimos a Excel que nos construya con esos datos una gráfica usando las llamadas medias móviles, promediando las temperaturas cada seis años, el programa nos dibuja una gráfica que proporciona un cierto comportamiento oscilante en los datos de mayo desde 1947. Pero ni mi amigo ni yo le damos mucho significado a esa tendencia. Son cosas de Excel.
Y, ahora, que cada cual saque sus conclusiones sobre el artículo del Diario Vasco.
Todo empezó con la publicación, el pasado 2 de junio y en el Diario Vasco, de un artículo cuyo enlace es inútil que os ponga porque es de pago y cuyo título rezaba "El mayo con la temperatura del agua más cálida de los últimos 75 años". El artículo explicaba que tal dato se desprende de la serie histórica con la que cuenta el Aquarium de San Sebastián, lugar en el que, desde 1947, todos los días de mañanita y a la misma hora, se mide la temperatura del agua en sus inmediaciones.
El Aquarium es una Institución que me ha acompañado a lo largo de mi ya larga vida. He paseado infinidad de veces por sus inmediaciones, lo he visitado otras muchas desde niño, con mis padres, con la Búha o con amigos foráneos, comprobando su evolución más reciente de la mano del gran señor que era D. Vicente (Bixente) Zaragüeta, hernaniarra como este vuestro Búho pero de otro nivel, amigo personal de mis padres y nieto de D. Vicente Laffite, uno de los promotores del Aquarium, inaugurado en 1928. Incluso, hace años, fui convocado como experto en polímeros, cuando hubo un serio problema con el decorado del gran estanque de los tiburones, fabricado a base de poliuretano. En otro orden de cosas pero que tiene que ver con lo que aquí voy a contar, desde hace casi veinte años y aunque mi formación no es la adecuada, he leído muchas cosas ligadas a la climatología, incluidos los voluminosos informes del Primer Grupo de Trabajo del Panel Internacional de Cambio Climático (IPCC) o el más reciente informe del mismo Panel sobre el Océano y la Criosfera (setiembre 2019), algo que, sin falsa modestia, no creo se haya leído mucha gente.
Así que, con esa curiosidad por lo climático y esa proximidad al Aquarium, decidí hacerme con la citada serie histórica. Y como conozco gente en el Diario Vasco, pedí las coordenadas de la autora del artículo y le escribí un email. Me contestó enseguida pero, para mi sorpresa, me dijo que ella no tenía esa serie histórica y que los datos que aparecían en la primera figura de su artículo los había sacado de una cuenta de Twitter, cuyo enlace me enviaba. Y, efectivamente, allí estaban los datos de una serie de mayos, ordenados de la misma forma que en la gráfica mencionada. Como en ese tuit aparecía una cuenta de Twitter del Aquarium, les escribí un mensaje preguntado cómo podía obtener la serie histórica completa. Me contestaron diligentemente, dándome una dirección de correo electrónico del propio Aquarium. Cuando escribí a esa dirección, la respuesta fue que esos datos no estaban a disposición del público pero que estaban depositados en AEMET (Agencia Estatal de Meteorología).
Pasé bastante días entretenido en rastrear la web de AEMET y en cómo darme de alta como usuario de sus OpenData, tratando de aprender a usarlos (algo que no es obvio la primera vez). Pero no había forma de encontrar datos provenientes del Aquarium. Así que, dentro de la propia web de AEMET, planteé una consulta a su Delegación en Euskadi. Me contestaron enseguida explicándome que, en virtud de no sé qué normativa europea, esos datos no eran públicos pero que me mandaban un Excel con la serie histórica de mis desvelos. Documento que ahora tengo guardado como oro en paño, dado el esfuerzo que me ha costado. Aunque no habrá forma de actualizarlo en el futuro (algo a lo que, me han dicho, tengo derecho) mientras las cosas en AEMET o el Aquarium no cambien.
Y después de este tortuoso camino os preguntaréis, ¿tenían razón el artículo y su autora?. Pues, estrictamente, sí, pero matizando y bastante. De acuerdo con ese documento Excel, la temperatura media del agua en el Aquarium el mes de mayo de 2020 fue 17,6 ºC, la más alta de todos los registros desde 1947. Seguida, en este orden, por los valores de 2011 y 1990 (17,3), 1964 (17,2) y 1950, 1961 y 2007 (16,9). Pero esa temperatura media de mayo desde 1947 oscila entre ese máximo de 17,6 de 2020 y un mínimo de 14,0 en 1984. De hecho, en una fecha tan cercana como mayo de 2019, el año pasado, la temperatura media de mayo del agua de mar fue de unos parcos 15,5ºC (fresquita dice la Búha, que para esas alturas del año ya se suele haber bañado alguna vez).
Pero lo importante en el seguimiento de una magnitud climática es ver su evolución a lo largo de series históricas de un número importante de años. En este caso tenemos una serie de 74 años (1947-2020), no muy larga pero importante. La figura que ilustra la portada, que podéis ampliar clicando en ella, muestra la evolución de la temperatura media de mayo del agua del Aquarium en ese intervalo de tiempo. Incluso los que no estéis acostumbrados a ver gráficas de datos, os resultará evidente que mucha tendencia no parece advertirse.
Pero recordando al que criticaba que los químicos solo buscamos que los puntos se ajusten a una línea recta, podemos intentarlo con esta serie histórica. Usando las herramientas del propio Excel, podemos pedirle que nos ajuste esos datos a una recta. Muy obediente, Excel lo hace y nos muestra, además de la línea de puntos que se ve, la ecuación matemática a la que responde esa recta: y = 0,0012 x + 13,25 y un enigmático R2 = 0,008. Vamos a explicar estos resultados para los no iniciados.
El valor 13,25 es el valor que toma la magnitud representada en el eje vertical (la temperatura del agua) cuando en el eje horizontal nos fuéramos hasta el año cero (hace dos mil veinte años) y asumiéramos que, desde 1947 hasta ese año cero, la tendencia fuera la que la ecuación indica. Es poco o nada relevante para lo que discutimos aquí. El otro valor, 0,0012, es lo que sube, en promedio, la temperatura del agua del mar en el Aquarium por cada año transcurrido. Es decir, según esa ecuación (o la linea dibujada), la temperatura del agua del Aquarium estaría subiendo desde 1947 algo más de una milésima de grado (0,0012) por año o, en otros términos, algo más de una centésima de grado por decenio, que es como suelen expresarse los climatólogos. En cuanto al R al cuadrado, se trata de una magnitud que se usa en Estadística para evaluar lo bien o mal que se ajusta una recta a una serie de datos experimentales. Cuanto más cerca está del valor uno, mayor es el grado de ajuste entre recta y datos. Cuanto más se acerca a cero, tal ajuste es un desastre (como es el caso en este ejemplo, con un R al cuadrado prácticamente cero).
Pero si, como Galileo, decís aquello de "Sí, pero la temperatura está subiendo", os matizaré que si, por ejemplo, hacéis idéntico juego con los meses estivales de esa serie histórica, os podéis encontrar el caso de setiembre, donde la línea de ajuste es y = -0,0007 x + 21,99, lo que es igual que decir que la temperatura media del agua del Aquarium en setiembre, desde 1947, está bajando (hay un signo menos delante de 0,0007) siete diezmilésimas de grado por año o siete milésimas por decenio. Pero estudiando el resto de meses estivales e independientemente de que las temperaturas parezcan subir o bajar mínimamente, en todos los casos las R al cuadrado son prácticamente cero.
Antes de publicar esta entrada pedí a un amigo, Catedrático de Estadística Aplicada, que la revisara por si las moscas. Me contestó, con la fina ironía que le caracteriza que, puestos a ver alguna tendencia, él veía con esfuerzo una cierta tendencia oscilante. Y, ciertamente, si le decimos a Excel que nos construya con esos datos una gráfica usando las llamadas medias móviles, promediando las temperaturas cada seis años, el programa nos dibuja una gráfica que proporciona un cierto comportamiento oscilante en los datos de mayo desde 1947. Pero ni mi amigo ni yo le damos mucho significado a esa tendencia. Son cosas de Excel.
Y, ahora, que cada cual saque sus conclusiones sobre el artículo del Diario Vasco.
10 comentarios:
Si un alumno me indica que ahí hay una tendencia...
El caso del Aquarium resulta cómico pero no deja de ser anecdótico. Lo triste es que yo tengo casos reales de la Agencia Tributaria Española donde se utilizan regresiones de Excel con r2=0,0002 ó r2=0,2185 para apoyar decisiones como sancionar al contribuyente. Lástima que no pueda pegarlos en el comentario.Alguien debería reforzar los cursos de estadística en la facultad de economía. Casos así dan una idea de en que manos están nuestras instituciones y la prepotencia de la que disfrutan.
Gracias Iñigo. Yo también le hubiera mandado a repetir las medidas experimentales.
No sabes lo de acuerdo que estoy contigo, amigo Los Ilegales. Si solo fuera en la Facultad de Economía.... Parece que en la de Física no aprenden mucho los que luego se dedican a la Meteorología. O en la de Medicina. O, desgraciadamente, en la de Química, a pesar de mis esfuerzo mientras he estado en activo.
Mientras leía este post , aparecieron en mi memoria unos recuerdos de más de medio siglo …
Por los años sesenta del pasado siglo, mi padre, ingeniero, armó su propia estación meteorológica y a diario anotaba temperatura máxima y mínima, y el agua caída en las 24 horas…pero no podía entender por qué las cifras del agua caída eran tan distintas a las que reportaba a la radio local el operador de la estación meteorológica oficial de la ciudad…Estuvo un buen tiempo esmerándose en hacer las mediciones exactas, y como nunca había coincidencia, y de esas cifras a veces dependen proyectos de obras de ingeniería como represas, defensas de ríos, caminos, puentes, etc, decidió un día ir de visita a la estación de la Fuerza Aérea para dilucidar el problema…
Llegó de vuelta a casa muerto de la risa porque el operador de la estación le dio la siguiente explicación al preguntarle por qué el receptáculo del agua era un vaso vinero: “¡Ah, es que se me cayó el que tenía… y se hizo trizas!” … Claro, tenía marcados los mm con tinta china, pero el área era incorrecta!
No es la primera vez que envío comentarios a este blog, siempre como "Anónimo". Qué quieres, Buho, tal vez sea la añoranza de los tiempos en que una Internet con menos
"Tuiters" y similares dejaba circular las opiniones con más educación y provecho que
lo que creo percibir en la actualidad.
Debo decir que siempre han sido de admiración a tu trabajo, aunque en ocasiones haya mostrado alguna objeción a aspectos puntuales de su contenido siempre, eso si, desde el respeto a quien se toma el trabajo de hacerlo lo mejor posible.
Los jubilatas, a los que todavía no pertenezco aunque casi, diría que tenemos la obligación de recordar las obviedades que ignoran aquellos empeñados en reinventar la rueda. Y que conducen a auténticos despropósitos camuflados de "Ciencia" (con mayúsculas pretendidas).
Muchas gracias y mi admiración, una vez más, por tus coherentes y denodados desvelos.
Por cierto, un intento de enviar algo parecido a esto no tuvo éxito ayer...
Gracias anónimo amigo,
Esta vez has tenido éxito en el envío. Además ha llegado duplicado. Te agradezco otra vez tus comentarios. A mi no me importa conocer o no al que comenta o critique, siempre que se comporte. La ventaja de este medio es que como el carro es mío, si me parece que alguien se pasa en las formas, lo tiro a la papelera y punto. Pero lo cierto es que solo lo he hecho en dos ocasiones.
Me atrevo a sugerir que tome la serie entera de datos que ha conseguido, que haga la media móvil de 182 días hacia atrás, el día en cuestión y 182 días adelante (para eliminar la estacionalidad, que en verano la temperaturas son mayores que en invierno) y represente lo que obtiene, verá con mayor claridad una posible tendencia (sin predisponerle en ningún sentido, de aumento o de disminución).
Como la serie tiene bastantes huecos (días sin mediciones), le sugiero que pruebe a hacerlo con los datos desde 1990 o desde 2000, ya que desde esas fechas hay datos todos los días del año excepto los 1 y 20 de enero.
Incluso, con esa serie sin estacionalidad puede probar a hacer medias móviles de 5 o 10 años de ventana para ver el problema desde una óptica más amplia. Aún así, es posible que el modelo de regresión lineal sólo sea una aproximación a un problema de variabilidad más complejo y que esa regresión sólo sea un indicador que haya que poner en contexto con otros indicadores que muestran de forma generalizada tendencias de aumento (temperatura atmosférica por ejemplo), con otros procesos (gases de efecto invernadero), con otros síntomas ya medidos (ascenso del nivel medio del mar también detectado), etc., y aún así, efectivamente, se pueden buscar otros elementos para el estudio y la reflexión.
Gracias anónimo, pero solo me he fijado en la media de los meses de mayo que era de lo que hablaba la noticia del DV Pero le voy a dar alguna vuelta a lo que me propone. Me gustaría tener los datos actualizados a día de hoy pero me da una pereza enorme volver a pedirlos.
No tengo ninguna autoridad para contestar esa pregunta. Pero como también me preocupó la noticia acudí a la página de Preguntas y Respuestas del Organismo Internacional de Energía Atómica (IAEA):
https://www.iaea.org/es/temas/respuesta/descarga-del-agua-tratada-de-fukushima-daiichi/preguntas-frecuentes
Y me quedé bastante tranquilo. Por otro lado sigo en Twitter a @OperadorNuclear y @GOrizaola que han escrito y concedido entrevistas al respecto y que confirman lo que se ve en la página de la IAEA.
Publicar un comentario