Ayer, Microsoft Teams, un paquete combinado de mensajería instantánea, chat y colaboración que compite con Slack y la nueva versión de Google Hangouts, estuvo inaccesible durante varias horas, desde aproximadamente las 8:30 am hasta las 11:30 am ET.
A las 10:30 a. m., Microsoft reconoció en Twitter que la interrupción fue el resultado de un certificado SSL caducado. Aproximadamente una hora después, obtuvieron un certificado de reemplazo y comenzaron a implementarlo en producción, con el servicio ampliamente restaurado el lunes por la tarde.
Esta no es la primera gran vergüenza pública de Microsoft debido a una falla en la renovación del servicio. La compañía fue responsable de uno de los incidentes más famosos de «vaya, accidentalmente todo el dominio» en 1999, cuando permitió que expirara el registro del dominio de pasaporte.com. El dominio era responsable de la autenticación de una variedad de servicios de Microsoft, incluidos Hotmail.com y Microsoft Messenger.
Poco después de que la expiración de Passport.com apareciera en la portada de Slashdot, un usuario de Hotmail que dice que «quería ver qué pasaba» pagó él mismo la tarifa de renovación de $35 y restableció el servicio. Más tarde, Microsoft reembolsó al buen samaritano, el consultor de Linux Michael Chaney, con un cheque de $ 500 que a su vez subastó en eBay por $ 7,100, donando las ganancias a la caridad.
Unos años más tarde, Microsoft volvió a fallar en el registro de dominios, lo que permitió que hotmail.co.uk se apagara en 2003, y esta vez, el individuo privado no solo pagó la tarifa, sino que en realidad comprado el dominio. Afortunadamente, la persona anónima que compró el dominio vencido no cambió sus registros DNS y lo transfirió de nuevo a Microsoft poco después.
La compañía aún no ha hecho disponible un análisis post mortem de la falla de Teams de ayer. La mayoría de los informes lo han caracterizado como alguien que se olvidó de renovar el certificado, pero es igualmente posible que un sistema de renovación automático haya fallado y nadie en la empresa haya detectado el problema hasta que se informó ampliamente que el servicio no funcionaba.
No nos atreveremos a decirle a Microsoft cómo ejecutar un servicio de 20 millones de usuarios, pero las operaciones más pequeñas pueden evitar fácilmente problemas similares: el Certbot de EFF automatiza la renovación de los certificados SSL gratuitos de Let’s Encrypt y el sistema de monitoreo de Nagios incluye un complemento que prueba automáticamente la implementación. Certificados SSL y avisa a su operador si se acercan a su fecha de caducidad.