AI

OpenAI, 대규모 ChatGPT 장애의 원인으로 ‘새로운 텔레메트리 서비스’ 지목

OpenAI, 대규모 장애 발생 🚨\n\nOpenAI가 최근\n겪은 대규모\n서비스 장애에 대해\n’새로운 텔레메트리\n서비스’를 원인으로\n지목했습니다.\n수요일 오후 3시\n(태평양 시간)부터\nChatGPT, Sora, 그리고\n개발자 API에서\n큰 장애가 발생했는데요.\nOpenAI는 즉시\n문제를 인지하고\n복구 작업을\n시작했지만,\n모든 서비스를\n복구하는 데\n약 세 시간이\n소요되었습니다.\n\n## 장애 원인 분석 🔍\nOpenAI의 포스트모템에\n따르면, 이번 장애는\n보안 사고나\n최근 제품 출시가\n아니라, 수요일에\n배포된 텔레메트리\n서비스 때문이라고\n합니다. 이 서비스는\nKubernetes 메트릭을\n수집하는 역할을\n하는데요. Kubernetes는\n컨테이너를 관리하는\n오픈 소스 프로그램으로,\n예상치 못한 방식으로\nKubernetes API 서버에\n과부하를 일으켰다고\n합니다.\n\n## DNS 문제와 복구 지연 ⏳\n새로운 텔레메트리\n서비스는 OpenAI의\nKubernetes 운영에\n영향을 미쳤습니다.\n특히 DNS\n해결 과정에서\n어려움을 겪었는데요.\nDNS 캐싱이 문제를\n더 복잡하게 만들어\n문제의 전모를\n파악하기 전에\n텔레메트리 서비스의\n배포가 계속되었습니다.\n문제를 감지한 후\n해결하는 데 시간이\n걸린 이유는\n과부하된\nKubernetes 서버를\n우회해야 했기\n때문입니다.\n\n## 향후 대책과 사과의 말 🙏\nOpenAI는 유사한\n사건의 재발을\n방지하기 위해\n여러 조치를\n취할 예정이라고\n밝혔습니다.\n인프라 변경에 대한\n모니터링 및\nKubernetes API 서버에\n접근할 수 있는\n새로운 메커니즘을\n도입할 예정입니다.\nOpenAI는 “이번 사건으로\n고객들께 불편을\n드려 죄송합니다”라고\n말했습니다.\n\n출처: TechCrunch

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다