OpenAI, 대규모 ChatGPT 장애의 원인으로 ‘새로운 텔레메트리 서비스’ 지목
OpenAI, 대규모 장애 발생 🚨\n\nOpenAI가 최근\n겪은 대규모\n서비스 장애에 대해\n’새로운 텔레메트리\n서비스’를 원인으로\n지목했습니다.\n수요일 오후 3시\n(태평양 시간)부터\nChatGPT, Sora, 그리고\n개발자 API에서\n큰 장애가 발생했는데요.\nOpenAI는 즉시\n문제를 인지하고\n복구 작업을\n시작했지만,\n모든 서비스를\n복구하는 데\n약 세 시간이\n소요되었습니다.\n\n## 장애 원인 분석 🔍\nOpenAI의 포스트모템에\n따르면, 이번 장애는\n보안 사고나\n최근 제품 출시가\n아니라, 수요일에\n배포된 텔레메트리\n서비스 때문이라고\n합니다. 이 서비스는\nKubernetes 메트릭을\n수집하는 역할을\n하는데요. Kubernetes는\n컨테이너를 관리하는\n오픈 소스 프로그램으로,\n예상치 못한 방식으로\nKubernetes API 서버에\n과부하를 일으켰다고\n합니다.\n\n## DNS 문제와 복구