LAION의 새 데이터셋 발표 독일의 연구 기관 LAION이 Stable Diffusion을 포함한 여러 생성 AI 모델을 훈련하는 데 사용된 데이터셋을 새롭게 출시했습니다. 새로운 데이터셋인 Re-LAION-5B는 아동 성착취물(CSAM)과의 연관성을 철저히 제거했다고 주장합니다. 이 데이터셋은 기존의 LAION-5B 데이터셋을 재출시한 것으로, 인터넷 감시 재단, 인권 단체, 아동 보호 센터 등으로부터의 권고를 반영하여 여러 가지 수정 사항이 적용되었습니다.
데이터셋 안전성 강화 Re-LAION-5B는 두 가지 버전으로 제공되며, 각각의 버전은 수천 개의 CSAM 링크를 필터링하여 제거했습니다. LAION은 불법 콘텐츠를 데이터셋에서 제거하기 위해 최선의 노력을 다하고 있으며, 불법 콘텐츠가 알려진 즉시 즉각적으로 삭제한다고 강조했습니다. 이 데이터셋은 연구 목적으로만 사용되도록 설계되었습니다.
기존 문제와의 연관성 Stanford 인터넷 관측소의 조사 결과, 이전 데이터셋인 LAION-5B의 하위 집합에는 불법 이미지에 대한 링크가 다수 포함되어 있었던 것으로 밝혀졌습니다. LAION은 이러한 문제를 해결하기 위해 LAION-5B를 일시적으로 중단하고, 사용 중인 연구실이나 기관들에게 Re-LAION-5B로의 전환을 권장하고 있습니다. 이 새로운 데이터셋은 약 55억 개의 텍스트-이미지 쌍을 포함하고 있으며, Apache 2.0 라이선스 하에 배포됩니다.
AI의 미래와 책임 AI 스타트업 Runway는 최근 Stable Diffusion 1.5 모델을 플랫폼에서 삭제했으며, 이는 LAION의 문제와 관련이 있을 수 있습니다. LAION은 데이터셋의 메타데이터를 통해 기존 LAION-5B의 불법 콘텐츠를 제거하는 데 도움을 줄 수 있다고 밝혔습니다. 이는 AI의 발전과 함께 안전성을 강화하려는 노력의 일환으로 볼 수 있습니다.
“AI의 발전은 기술뿐만 아니라 책임도 동반해야 합니다! LAION의 조치가 안전한 AI 환경 조성에 기여하길 바랍니다.”