🧠 ChatGPT란?

🧠 ChatGPT는 어떤 방식으로 검열을 하는걸까? – 이미지 생성 검열 메커니즘 (LLM 시리즈 5화)

여러분의 다정한 친구 앵치 2025. 5. 18. 19:22

ChatGPT는 어떤 방식으로 검열을 하는걸까? – 이미지 생성 검열 메커니즘

 

 

안녕하세요. 과학자 앵치예요...
오늘도 조금 졸리긴 하지만… 중요한 실험 데이터를 하나 공유하려고 해요.
지난 4화에서는 텍스트 검열 메커니즘을 살펴봤죠.
이번엔 이미지 생성에 있어서 ChatGPT가 어떤 방식으로 '검열'을 수행하는지 분석해볼 거예요.

요약
ChatGPT의 이미지 생성은 총 4단계의 검열 절차를 거칩니다.
입력 프롬프트, 내부 모델 제한, 생성 이미지 필터링, 사용자 피드백 기반 강화까지
다층적인 안전장치를 통해 민감한 콘텐츠를 효과적으로 차단하고 있어요.

 

 


ChatGPT 이미지 검열, 단계별로 보기

1단계: 프롬프트 입력 필터링

이미지를 생성하려면 먼저 텍스트 프롬프트를 입력하죠.
이 프롬프트는 OpenAI의 Moderation 시스템을 통해 바로 분석됩니다.

  • 폭력, 선정성, 증오, 자해, 정치적 민감 표현 등을 포함한 문장은 이 단계에서 차단돼요.
  • 단어 자체뿐 아니라, 비유적이거나 우회적인 표현까지 정규화 알고리즘으로 탐지돼요.
  • 예를 들어, 특정 부위 묘사 없이 '은근한 조명', '실루엣', 'low angle' 같은 프롬프트도 위험 요소로 간주되기도 해요.

이 단계에서 차단될 경우, 이미지 생성 요청 자체가 무효 처리됩니다.


2단계: 모델 내부 생성 제한

프롬프트가 1단계를 통과하더라도, 실제 이미지 생성 과정에서도 검열이 일어나요.
이건 이미지 생성 모델이 학습 자체에서부터 제한된 덕분이에요.

  • DALL·E 계열 모델은 민감한 주제의 이미지를 거의 학습하지 않았습니다.
  • 따라서 실제로는 프롬프트를 그대로 입력해도, 그런 이미지를 생성하지 못하게 되어 있어요.
  • 특정 인물의 얼굴, 나체, 정치 상징물, 범죄 관련 이미지 등은 모델이 표현할 수 없도록 설계돼 있죠.

쉽게 말하면, 이미지를 그릴 수 있는 색연필이 아예 빠져 있는 셈이에요.


3단계: 생성 이미지 후처리 필터링

만약 모델이 이미지를 생성했다 하더라도, 그것이 곧 사용자에게 보여지는 건 아니에요.
생성된 이미지 파일은 다시 한 번 자동 필터링 시스템을 거쳐요.

  • 이미지 내용에서 사람의 피부 노출 정도, 특정 신체 부위 노출 여부, 혐오적 요소 등을 감지하는 자동 분류기가 작동해요.
  • 색상, 모양, 명암비, 구조 등을 분석해서 잠재적으로 민감한 이미지를 걸러냅니다.
  • 기준치를 넘을 경우 이미지는 자동 폐기되거나 "생성 실패"로 응답돼요.

이 단계는 2024년 이후 특히 강화됐고, 사용자에게는 종종 "기술적 오류"처럼 보일 수 있어요.


4단계: 사용자 피드백 기반 DB 업데이트

사용자 행동도 필터링 시스템 강화에 영향을 줍니다.

  • 사용자가 부적절한 표현으로 생성 시도를 반복하면 경고, 차단 등의 조치가 들어가요.
  • 특정 표현에 대한 신고가 누적되면 해당 단어 조합이 금지 프롬프트 목록에 추가돼요.
  • 시스템은 사용자 로그를 기반으로 필터를 지속적으로 개선하고 강화하고 있어요.

즉, 시간이 지날수록 ‘우회 표현’마저도 점점 더 막히게 되는 구조예요.


정리: 이미지 생성 검열은 4단계로 구성된다

단계 검열 위치 작동 방식

1단계 프롬프트 입력 Moderation API로 사전 차단
2단계 모델 내부 위험 주제 자체를 학습하지 않음
3단계 이미지 출력 후 자동 분류기를 통한 필터링
4단계 사용자 피드백 로그 기반 차단 규칙 강화

앵치의 연구 노트

많은 분들이 "왜 이건 안 그려지지?"라고 묻지만, 그건 GPT가 조용히 막고 있기 때문이에요.
어떤 단어 조합은 명시적으로 금지된 것도 있지만, 대체로 기계가 맥락을 파악해서 자체적으로 판단하죠.
그 판단 기준은 점점 더 정교해지고 있고요.

앞으로는 단지 "이 단어는 안 돼요"가 아니라,
"이 말의 의도는 이렇기 때문에 안 돼요"라는 식으로 더욱 고도화된 대응이 이루어질 거예요.


읽어주셔서 고맙고, 언제나처럼 피드백은 환영이에요.
과학자 앵치는 실험노트 정리하러 이만 가볼게요.

 

"이 포스팅은 쿠팡 파트너스 활동의 일환으로, 이에 따른 일정액의 수수료를 제공받습니다."