¡Sorpresa! ¡La nube puede fallar!

Si no leíste la noticia, tal vez te diste cuenta al ver cómo múltiples servicios de compañías diferentes fallaban al mismo tiempo: Foursquare, Reddit, Hootsuite, Quora y varios cientos de compañías más fallaban o sufrían problemas con la caída de la Amazon Elastic Compute Cloud (EC2), una plataforma de cloud computing utilizada por una gran cantidad de servicios.

Según parece, la promesa de independencia entre sistemas que Amazon ofrecía como garantía de redundancia y estabilidad falló estrepitosamente: varios sistemas situados en lugares geográficamente separados fallaron a la vez debido, según parece, a un procedimiento de copia de seguridad descontrolado que hizo incontables copias de sí mismo, en un efecto en cascada que consumió rápidamente todo el espacio disponible y dio lugar a lo que ya se ha dado en llamar el «cloudgate» o el «cloudpocalipsis». Algo que, efectivamente, nunca debió producirse, y que hace surgir dudas de todo tipo sobre la madurez y desarrollo del cloud computing en su conjunto.

¿O no? En realidad, ¿es lo ocurrido de algún modo diferente a la caída de una central eléctrica? ¿O al fallo de una estación de suministro de agua potable? Si algo sabemos de la tecnología es que es imposible que no falle, y que lo que debemos hacer es tomar las medidas adecuadas para que, cuando falle (no «si falla», porque el que fallará es algo que alcanza la categoría de certeza metafísica), los efectos del fallo sean lo menos graves posible. La energía eléctrica falla en mi casa con suficiente frecuencia como para que hace años decidiese adquirir un modesto sistema de alimentación ininterrumpida (SAI) de uso doméstico, y me consta que ese tipo de fallos son perfectamente habituales en la vida de mucha gente, no solo en España sino en otros países en los que he vivido. Cuando falla, supone una molestia importante en tu vida diaria, cuando no una pequeña catástrofe debido a problemas de todo tipo. Y si llamas a la compañía, se excusan y te dicen básicamente eso, que es un fallo y que no pueden hacer nada, que las cosas fallan de vez en cuando. Y hablamos de servicios como la luz o el agua, que llevan con nosotros muchos, muchos años, en los que confiamos plenamente y sobre los que construimos muchos aspectos de nuestra vida, alrededor de una fiabilidad que tomamos por descontado.

De acuerdo, el fallo no debería haberse producido. Como hemos dicho en otras ocasiones, la nube es tan buena – o mala – como buenos – o malos – sean sus proveedores. No hay «nube», hay empresas que proveen servicios en ella. Empresas en las que cifrar determinados niveles de confianza, riesgos que estimar y valorar, evitando tanto un extremo (quedarse sistemáticamente al descubierto) como el otro (invertir más de lo que el riesgo realmente puede llegar a suponer). Tanto el defecto como el exceso suponen problemas, que pueden ir desde la interrupción del servicio y la pérdida de reputación hasta el exceso de coste. La tecnologia, oh sorpresa, puede fallar. Si la posibilidad de ese fallo es crucial para tu compañía, redúndala, preferentemente con diferentes proveedores. Un servicio como este blog que estás leyendo tiene varios sistemas de alerta inmediata, varios procedimientos alternativos en caso de caída dentro de mi proveedor de hosting, Acens, y aún así, a pesar de recibir protocolos de atención similares al de clientes de Acens con una criticidad de servicio infinitamente mayor que la mía, se hace incluso una copia de seguridad diaria sobre Amazon. Y eso que si todo falla… me da prácticamente igual, porque el servicio que proporciona esta página puede ser cualquier cosa menos crítico. El posible impacto de una caída de un día completo de mi blog es prácticamente nulo, porque al día siguiente, mis lectores, seguramente, seguirán estando ahí: me juego cada día mucho más en función de lo que pueda ocurrir dentro de mi cabeza y en consecuencia salga de mi teclado, que de lo que pueda ocurrir dentro de mi servidor.

Lo importante es plantearse una caída como esta, sucedida en un momento de bajo impacto (en pleno período vacacional y en uno de los días de tráfico más bajo de todo el año) como algo de lo que aprender. Para Amazon, entender que los fallos -dentro de un orden – pueden suceder, shit happens, pero que no deben fallar otros elementos fundamentales, como la comunicación. Para quien tiene procesos de verdad críticos con un impacto importante en lo transaccional, traducibles directamente a valor económico, que es preciso redundar en la medida que pueda paliar al menos una parte del posible perjuicio, y que dicho análisis no es una cuenta de servilleta que se hizo una vez al montar el servicio, sino un análisis dinámico en función de las diferentes opciones disponibles, la evolución de su coste, la de nuestro volumen de operación, etc. Un análisis de riesgos, de coste y beneficio, que no se puede descuidar.

AWS has allowed us to scale a complex system quickly, and extremely cost effectively. At any given point in time, we have 12 database servers, 45 app servers, six static servers and six analytics servers up and running. Our systems auto-scale when traffic or processing requirements spike, and auto-shrink when not needed in order to conserve dollars. In the ten months since we launched the public beta of our free, self-serve gamification platform we have handled over one billion API calls. Without AWS, that simply would not have been possible with our small team and limited budget.  Many others have realized similar benefits from the cloud, and AWS has quickly become a critical part of the startup ecosystem.

Keith Smith, CEO de BigDoor, afectado por la caída de Amazon Web Services (AWS)

Efectivamente, Amazon Web Services (AWS) cayó. Ningún sistema está cien por cien libre de fallos, y hay muchas lecciones que aprender de todo esto. Pero sin Amazon, muchas cosas serían sencillamente imposibles. Es, simplemente, un balance de coste frente a beneficio.

Para Amazon, el fallo va a suponer un importante perjuicio. Muchas cosas pueden fallar, pero lo que no debe fallar es la esencia de lo que prometías a tus clientes (sistemas completamente independientes) ni tu comunicación con ellos. El cloud computing está en sus inicios, y veremos fallos como el de ayer en numerosas ocasiones. Pero tan tangibles como esos mismos fallos son sus ventajas en términos de escalabilidad, flexibilidad, coste, rendimiento, eficiencia y muchos otros, hasta el punto de convertirse en ventajas fundamentales que definen, para muchas empresas, el auténtico ser o no ser, la disminución de barreras de entrada que hacen que muchas cosas que de otro modo no serían posibles puedan, efectivamente, ser posibles. Lo cual no quiere decir que, como todo, de vez en cuando pueda fallar.

26 comentarios

  • #001
    mercadder - 22 abril 2011 - 13:59

    No quiero parecer alarmista, pero desde el fin de semana pasado se vienen sucediendo situaciones extrañas en internet.

    WordPress.com sufrió un DoS, que afectó también a la plataforma de WordPress.org, aunque no quieran reconocerlo.

    Luego el supuesto problema de Amazon Cloud. Y para rematar, iTunes ayer tenía problemas.

    ¿Tienen relación? Podría ser que no, pero es muy sospechoso.

  • #002
    Manuel - 22 abril 2011 - 14:16

    Es anecdótico que justo esta semana estabamos evaluando la posibilidad de migrar algunos sistemas al ecosistema de Amazon… Y como parte del análisis comentábamos la fiabilidad de la nube: ¡ya viene bien que pasen cosas como estas para aprender! (Claro que mejor si pasan en espalda ajena). En cualquier caso, el plan B siempre debe existir: ¿será éste plan B el redundar parte de la nube en nuestra propia infraestructura?

  • #003
    Luarca65 - 22 abril 2011 - 14:36

    Y mientras duraba ese fallo, quienes no creen en la «nube» tenian disponibles sus archivos, pudieron proseguir con sus compras/ventas, sus presupuestos, sus conferencias, viendo su peli porno favorita (por supuesto, en su usb, no sea que le pille la parienta) enseñando las fotos de sus niños y sus comuniones a los amigos, escribiendo una carta de amor a su secretaria… y todo, porque lo tenian en «local»…

    Si para «trabajar en la nube», hay que tener por duplicado TODO tu material, «por si acaso falla» (algo que tiene mas de terrenal que de metafisico), las ventajas (si las tiene) se van al garete…

    Pueden fallar sus servidores (obligacion tienen de replicarlos, pero bueno), puede fallar el repetidor que te da cobertura en la zona en la que te encuentras y quedar «tecnologicamente ciego», se puede descontrolar un backup, o sencillamente cortarte el servicio por un error bancario traducido en un impago… pueden… pueden… puede que yo diga todo esto, solo por chinchar… que ya me conoceis… :)

    Pero mientras todos estos «improbables pueden» se suceden (tambien era improbable una caida de google o de FB y mira tu… millones de usuarios cabreados), tu pierdes un tiempo precioso… y la peli porno, la carta a la secre o las fotos de los nenes, pase, pero todo lo demas, traduce ese tiempo en dinero.

    Definitivamente, prefiero mi portatil. La nube, como backup, vale. Pero yo sigo sin depositar confianza en la «borrasca» :)

  • #004
    Juan Macias - 22 abril 2011 - 15:22

    Hace un mes escribí un artículo en mi blog sobre este tema a raíz de una caída de Amazon en Europa, el problema no es la nube, es como usan las empresas la nube, Netflix no ha sufrido apenas fallos en su sistema, tenian un buen plan de contingencia.

    http://juanmacias.net/archives/1179

  • #005
    enrique - 22 abril 2011 - 15:48

    se me ocurre un paralelo con la los servicios electricos, donde -cuando hay un apagon- todo se viene abajo, y nos demuestra nuestra dependencia casi absoluta y creciente…¿pero, quien se atreve a prescindir?

  • #006
    Gorki - 22 abril 2011 - 16:54

    Repito lo mismo que dije en Facebook sobre este tema:

    Creo que en el colapso del servicio de Amazon no conviene perder la perspectiva de la realidad, es cierto que en un día en solitario ha habido millones de pérdidas económicas por la caída de los servidores de Amazon, pero si esos miles de de negocios hubieran estados dispersos, en el tiempo que han funcionado en Amazon habrían tenido más perdidas.

    Es el mismo efecto que cuando se cae un avión y hay quinientas victimas. Lógicamente el accidente es portada en todos los periódicos, pero si quienes viajan en avión viajarán en automóvil, habría muchos más muertos, aunque ninguno de sus accidentes ocupara la primera plana de los periódicos.

    Amazon tomará medidas y lo ocurrido no volverá una ocurrir, aunque con seguridad pasado el tiempo suficiente, ocurrirá otra cosa. El renunciar por ello a los servicios en la nube, es lo mismo que renunciar a viajar en avión para hacerlo siempre en nuestro coche particular por miedo a un accidente aéreo, un error.

  • #007
    ninozor - 22 abril 2011 - 17:13

    A ver. Si estamos hablando de un servicio profesional para empresas, el contrato del servicio de cloud computing debe incluir un SLA, donde especifique los horarios de servicio (24×7, 8×5, etc), y el % de disponibilidad del servicio prometido.
    Así mismo, las claúsulas de penalización por incumplimiento de contrato.

    Todo lo demás, se convierte en un servicio al usuario doméstico donde los abusos por parte de proveedores no tienen fin, y donde el ciudadano de a pie se siente totalmente indefenso (póngase por ejemplo, los cortes de ADSL).

    Y si temen ataqued de DoS, y no pueden garantizar el servicio, mejor que no ofrezcan algo que no puedan mantener.

  • #008
    Anonimo - 22 abril 2011 - 17:29

    #01 Mercadder, puede que no vayas muy desencaminado.

    En general y por razones evidentes los gurús no parecen estar muy a favor de la nube…

    Hasta cierto punto es lógico que terminen ocurriendo cosas como lo de Amazon: enajenar los datos propios puede ser peligroso.

    http://ubuntu-cosillas.blogspot.com/2010/12/richard-stallman-advierte-sobre-los.html

  • #009
    Pablo Roca - 22 abril 2011 - 18:17

    Yo sigo siendo contrario a la famosa nube.

    Por ese y por múltiples motivos mas (quien tutela y como tus datos?, …)

    Lo que de sea una sorpresa el que la nube pueda fallar, pues para mi no lo es tanto, lo vengo advirtiendo desde hace ya un tiempo.

    Nadie se libra, así de primeras , en una búsqueda rápida, encuentro esto:

    Del 15 de Mayo de 2009
    Google outage: A broken cloud !

    9 Octubre de 2010
    Service outages rile Microsoft’s cloud customers

    Todo esto ya viene de antiguo, creo recordar que los servicios Cloud de Amazon no es la primera vez que se caen.

    ¿El origen del problema? Pues creo que viene por no diseñar sistemas redundantes online, de utilizar la clásica arquitectura virtualizada sin mas.

    A Cloud aún le queda mucho que mejorar para que sea una realidad segura.

  • #010
    Gorki - 22 abril 2011 - 18:20

    #008 Anonimo
    «los gurús no parecen estar muy a favor de la nube…»
    No es esa la apreciación que tengo yo, que me parece que la gran mayoría de los «gurus», por no decir todos, son partidarios del «Cloud Computing», aunque lógicamente adviertan de los riesgos que eso tiene, Por ejemplo IBM lo define como http://techlosofy.com/ibm-cloud-computing/

    «Definimos a la tecnología de Cloud Computing (del inglés, Computación en Nube) como un paradigma que permite reforzar y agilizar una serie de servicios que se ofrecen vía Internet, además de gestionar de la forma más eficiente los recursos con los que se cuenta.»

    Que una empresa que desearía vender «mainframes» a los diferentes negocios, se pase con armas y bagajes a la «cloud computing» demuetra que ve absolutamente perdido el segmento de negocio del procesamiento individual.

  • #011
    Fernando - 22 abril 2011 - 18:49

    Por eso me gusta Drop Box, tienes tus archivos en la nube y, a la vez en tus máquinas, si te falla la conexión o la nube, al menos puedes seguir trabajando y no pierdes tus archivos.

  • #012
    JLP - 22 abril 2011 - 19:39

    Falla y fallará el Cloud Computing, las Centrales Nucleares, las Plataformas Petrolíferas y otros sistemas o servicios por una sencilla razón: la lógica de la rentabilidad se impone sobre la lógica del servicio perfecto. En el caso del Cloud Computing la calidad del servicio basará en la relación precio servicio/SLAs/costes infraestructuras/beneficio, como siempre ha sido así desde la época de los mainframes.

  • #013
    era de esperar.... - 22 abril 2011 - 23:03

    Supongo que la expresión «sorpresa» está en tono irónico……. sólo era una cuestión de tiempo. Tranquilos que habrán más casos para debatir …. no será la última vez que pase.

  • #014
    m&M - 22 abril 2011 - 23:47

    Por ahora la nube no deja de ser algo peligrosa tanto como concepto como en su desarrollo.

    Ya veremos si en el futuro la Neutralidad de la Red deja de ser cuestionada y si podemos o no dejar en manos de cualquiera nuestros datos confiando en que no se apropien de ellos y los utilicen con fines inconfesables.

    Algunos expertos en seguridad informática, como el Ponemon Institute sitúan a la computación en la nube entre los primeros puestos en la lista de tendencias más peligrosas para la seguridad informática (39%), junto a Datos no estructurados (79%), Ciberterrorismo (71%), Movilidad (63%), Web 2.0 (52%), Virtualización (44%), La filtración de datos (40%), los delitos informáticos (40%)…

    http://www.webtaller.com/maletin/articulos/computacion-nube-riesgos-beneficios.php

  • #015
    Gorki - 23 abril 2011 - 01:13

    #014 m&M
    Sin ser experto inseguridad, te aseguro que el mayor peligro informático, de largo, está en la infidelidad de los empleados que tiene acceso a ellos y eso, es independiente que los datos los tengas en tu ordenador o en la nube, cifrados o no.

  • #016
    Joaquin - 23 abril 2011 - 10:06

    La samana pasada (o ha sido a principios de esta semana? con esto de la semana santa no lo tengo muy claro) estuvo caido Azure, la cloud de Microsoft, durante un día o así. Yo recibí el aviso desde una aplicación que uso que se llama SharpCloud que está alojada en Azure.
    Por otra parte mi empresa está adoptando de forma agresiva la nube para muchos casos y lo hacemos casi todo con Amazon. Tenemos una metodología de análisis y por ahora tenemos 14 casos de uso donde la nube es superior, con sus problemas, como este, que no nos ha afectado en absoluto.
    Amazon jamás dijo que su servicio sea 99.99% y cuando firmas los contratos esto queda bastante claro, ni siquiera SalesForce.com da un 99.99%.
    Por ejemplo en el caso de SF.com el SLA está muy claro: un día gratis por cada minuto que está caida la plataforma. Si se cae 30 minutos el mes siguiente te sale gratis.
    En 2008 se les cayó 8 minutos, en 2009 se les cayó 38 minutos. Esto no es nuevo. Coincido con Enrique. ¿No se va la luz en tu casa o en tu empresa? ¿Te planteas comprarte un generador? Para algunas cosas si, para otras me espero un rato.

  • #017
    Ana Borrego - 23 abril 2011 - 13:04

    Lo BARATO termina siendo CARO … Como Dice Juan Macia tb hay q invertir en un buen Plan de Contigencia.
    Read the SLA very, very carefully when you commit to a cloud service …

    AMAZON EC2 ofrece un 99,95% (supone 4.5 Horas al año sin servicio), pero en el resto de sus servicios AMAZON EBS, RDS no se compromete … por tanto es nuestra obligación tener un Plan B por si acaso pasan estas cosas.
    http://www.eweek.com/c/a/Cloud-Computing/Will-Amazon-EC2-Outage-Negatively-Affect-Attitudes-Toward-Cloud-Nah-733964/

  • #018
    Pablo Roca - 23 abril 2011 - 18:59

    #016 dices «¿Te planteas comprarte un generador?»

    Esa fue una buena pregunta, me ha gustado :)

  • #019
    Miguel - 24 abril 2011 - 12:00

    Lo que tienen que hacer es asegurarse de que lo importante funcione; o sea, el dinero. Como por ejemplo hace Mercadona. El otro día estaba pagando con tarjeta, y justo cuando se estaban enviando los datos se apagó la luz. Temí lo peor, pero al mirar la máquina vi que seguía funcionando sin problemas. De lo que deduje que se aseguran de que las máquinas para cobrar no fallen. Me fui contento porque no tuve ningún problema a pesar de que se fue la luz durante unos segundos.

  • #020
    Camaloon - Chapas - 24 abril 2011 - 14:25

    Es normal que tarde o temprano Amazon tuviera un fallo, lo importante es estar prevenido y tener un plan de contingencia lo suficientemente bueno, como para superar los imprevistos a medida que se vayan presentando.

  • #021
    susanabyte - 25 abril 2011 - 07:04

    Es cierto que no es la primera vez que pasa esto y quizás, precisamente por ello, no dejan de salir informaciones (http://goo.gl/cxfhT) que hablan de la desorientación y desconfianza que aún hay en las empresas para saltar a este modelo…

  • #022
    David Carrero Fdez-Baillo - 25 abril 2011 - 08:09

    No era una sorpresa todos sabíamos que esto podía pasar. Para proyectos o servicios críticos creo clave redundar sistemas en otra nube o sistema para más seguridad. ¡para cuando la posibilidad de una federación de nubes que permite tener un mayor nivel de redundancia antes fallos así!

  • #023
    Audea - 25 abril 2011 - 10:21

    Estoy bastante de acuerdo con una de las conclusiones del artículo. El fallo es algo que difícilmente puede eliminarse al 100%, lo realmente importante y lo que marca el nivel de funcionamiento es la capacidad de recuperación y asimilación del fallo para que no vuelva a suceder.

  • #024
    marberdo - 26 abril 2011 - 00:07

    Segun tu frase » la nube es tan buena – o mala – como buenos – o malos – sean sus proveedores», ¿quiere decir que Amazon en este caso es un mal proveedor?

  • #025
    Alex - 16 mayo 2011 - 13:00

    No entiendo muy bien porque hay tanta alarma con la seguridad en la nube. Nuestros datos nunca han estado seguros y aunque podamos asegurarlos ningún método es 100 por 100 fiable.
    La nube como nuestro ordenador sobremesa puede fallar pero son casos aislados.

    Yo llevo un año utilizando la mayoría de las aplicaciones que necesito mediante el servicio Aplicateca de Movistar y hasta ahora no he tenido ningún susto y encima he ahorrado tiempo y dinero. Las ventajas de la nube frente a lo que teníamos antes son evidentes pero no todo es perfecto.

  • #026
    Carlos Borrás de la Hoz - 6 junio 2011 - 11:08

    Solamente dejar claro que a pesar de estos contratiempos, en el reciente estudio de CB Consulting (Junio 2011), las previsiones de crecimiento de Cloud Computing en España son muy importantes.
    Dejo aquí un link al estudio de mercado más reciente de Cloud Computing en España. http://bit.ly/lKh8XG
    La Web es http://cb-consulting.org
    Saludos.

Dejar un Comentario

Los comentarios están cerrados