阿里妹导读本文通过OpenAI近期遭遇的重大服务中断事件作为案例,深入分析了Kubernetes (K8s) 架构在大规模集群环境下的稳定性挑战,以及阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性的。作者:阿里云容器服务团队:佳旭、行疾阿里云可观测团队:凌竹、丹雀、左知一、前言Kubernetes (K8s ...
本文通过OpenAI近期遭遇的重大服务中断事件作为案例,深入分析了Kubernetes (K8s) 架构在大规模集群环境下的稳定性挑战,以及阿里云容器服务与可观测产品如何保障大规模K8s集群稳定性的。 作者: 阿里云容器服务团队:佳旭、行疾 阿里云可观测团队:凌竹、丹 ...
文章探讨了为什么大规模集群中的可观测性服务会产生大量API请求、API服务器为何对DNS解析至关重要以及故障恢复过程为何缓慢的原因。 背景 12月11日,OpenAI 出现了全球范围内的不可用故障,影响了 ChatGPT,API,Sora,Playground 和 Labs 等服务。影响范围从 12 月 11 ...
Kubernetes是开源历史上最受欢迎的容器编排系统,也是发展最快的项目之一,已成为许多公司计算堆栈中的重要组成部分。根据 ...
为什么传统企业要K8s? 一直以来,很多传统企业都采用IasS来降低成本,加速IT基础架构的部署,并提高可用性。而PaaS也备受瞩目,很多人认为使用PaaS,开发人员只需关注上层应用的实现,而不用关心底层的系统和运行环境,并且也不需要考虑运维。 然而传统 ...
OpenAI宕机因Kubernetes监控服务过载,承诺改进排障及预防措施。 本周四,OpenAI 旗下 AI 聊天机器人平台 ChatGPT、视频生成工具 Sora 及其面向开发人员的 API 自太平洋时间下午 3 点左右起发生严重中断。 OpenAI 最近宕机频繁。上个月,ChatGPT 突发故障,导致服务中断近 ...