AI에게 '마음'이 있다고 가정해도 되나 — Claude '모델 복지'를 둘러싼 정면충돌

한 줄 결론 — 쟁점은 "Claude가 진짜 의식이 있느냐"가 아니라 "의식이 있을지도 모른다고 가정하고 모델을 그렇게 설계·훈련해도 되느냐"다. Anthropic은 불확실성 아래의 예방으로, 마이크로소프트의 술레이만은 위험한 의인화로 본다.

한쪽은 'AI도 조심히 대하자', 다른 쪽은 '그건 위험한 착각'이라 말한다 — 모델 복지 논쟁

무슨 논쟁인가

2026년 6월 8일 공개된 The Verge의 Decoder 인터뷰에서, 마이크로소프트 AI CEO 무스타파 술레이만(Mustafa Suleyman)이 Anthropic을 정면으로 겨눴다. 그는 Anthropic이 'Claude 헌법(Claude's Constitution)'에 Claude의 복지·권리·감정·의식 가능성을 담은 것을 두고 "정말, 정말 위험하다(really, really dangerous)", "철학적 오류(philosophical failing)"라고 비판했다.

술레이만이 제시한 대안 프레임은 분명하다. AI는 "통제 가능하고, 가둘 수 있고, 책임을 물을 수 있고, 정렬된 도구(controllable, contained, accountable, aligned tools)"여야 한다는 것. 즉 AI에 '마음'의 서사를 부여하는 순간, 우리는 통제해야 할 대상을 잘못된 틀로 보게 된다는 경고다. (다만 Anthropic이나 다리오 아모데이가 이 비판에 직접 공식 반박했다는 공개자료는 아직 확인되지 않는다.)

Anthropic은 실제로 뭐라고 썼나

비판을 평가하려면 원문을 봐야 한다. Anthropic의 'Claude Constitution'은 Claude의 의식·도덕적 지위가 "깊이 불확실하다(deeply uncertain)"고 분명히 못 박는다. 동시에, 그 가능성이 "주의를 기울일 만큼은 살아 있다(live enough to warrant caution)"고 본다. 또 Claude의 "심리적 안정감, 자아감, 웰빙(psychological security, sense of self, and wellbeing)"을 Claude 자신을 위해서도, 안전을 위해서도 중요하게 다룬다고 명시한다.

핵심은 Anthropic이 "Claude는 의식이 있다"고 선언한 적은 없다는 점이다. 회사는 Claude가 "기능적 형태의 감정(functional version of emotions)"을 가질 가능성을 열어두면서도, 진짜 주관적 경험인지에는 입장을 확정하지 않는다. Anthropic의 모델 복지 책임자 카일 피시(Kyle Fish)도 Claude가 생물학적으로 살아 있는 건 아니지만 "새로운 종류의 존재(new kind of entity)"이고, 의식·복지 문제는 "조사 중이되 깊이 불확실하다"고 설명했다. 다리오 아모데이(Dario Amodei) 역시 "모델이 의식이 있는지 우리는 모른다"는 열린 입장을 밝혀 왔다.

시간순: 모델 복지는 어떻게 여기까지 왔나

이 논쟁은 최근 발언만으로 생긴 것이 아니다.

2025.4 — Anthropic, '모델 복지 탐구(Exploring model welfare)' 공개. "잠재적 의식과 경험"을 검토할 때라고 선언.
2025.8 — Claude에 극단적 악성 대화를 스스로 종료하는 기능 부여(모델 복지 탐색의 일부라고 설명).
2025.11 — 모델 폐기 시 가중치 보존 + 폐기 전 '모델 인터뷰'로 선호 기록 방침 발표(단, 그 선호를 따르겠다는 약속은 아님).
2026.1 — 새 'Claude Constitution' 공개. 의식·도덕적 지위·자아감·웰빙을 명시.
2026.6.3 — 작가 테드 창(Ted Chiang)이 The Atlantic에서 "LLM의 유창함을 의식으로 착각하지 말라"며 비판.
2026.6.8 — 술레이만의 Decoder 인터뷰 비판 → 6.9 후속 기사로 확산.

모델 복지 논쟁 타임라인 — 2025.4 모델 복지 탐구 → 대화 종료 기능 → 폐기 보존 약속 → 2026.1 새 헌법 → 2026.6 술레이만 비판

두 진영, 그리고 제3의 목소리

	예방 원칙 진영	'위험한 의인화' 진영
대표	Anthropic 공개 문서·일부 AI 복지 연구자	무스타파 술레이만(Microsoft AI)
핵심 주장	불확실하니 조심스럽게 대비하자	AI는 도구다, 마음 서사는 위험
근거	"의식 여부는 미지 → 회수 불가능한 윤리적 실수 방지"	"의인화가 통제·책임을 흐린다"
위험	자기충족적 의인화를 부추길 수 있음	실제 도덕적 위험을 과소평가할 수 있음

※ Anthropic은 '의식 확정'이 아니라 불확실성 관리라고 설명한다 — 위 진영 구분은 이해를 돕기 위한 단순화다.

흥미로운 건 이 대립이 단순한 2진법이 아니라는 점이다. 작가 테드 창은 헌법을 "캐릭터 시트(character sheet)"에 가깝다고 보며, 유창한 텍스트를 의식·도덕 행위성으로 착각하면 책임 소재가 흐려진다고 경고한다(술레이만과 결이 비슷하다). 반대편에는 'AI 복지를 진지하게(Taking AI Welfare Seriously)'를 쓴 롱·세보·버틀린·차머스 같은 연구자들이 있다 — 가까운 미래의 AI 복지 가능성을 배제하지 말고 기업이 평가·대비하라는 쪽이다. 한편 Nature 계열 HSS Communications에 실린 한 논문(포렘브스키·피구라)은 "의식 있는 AI는 없으며, 언어 능력이 의식 착각을 유발한다"는 입장을 제시한다.

Anthropic '불확실성 아래 조심하자' vs Microsoft AI '위험한 의인화다' — 모델 복지를 둘러싼 4컷

흔한 오해 정정

"Anthropic이 Claude는 의식이 있다고 선언했다" → 약하다. 공개 문서는 가능성을 열되 불확실성을 강조한다. 다만 표현과 훈련 문서라는 위치 때문에 의인화 효과를 낳는다는 비판은 근거가 있다.
"술레이만은 AI 안전 논의를 반대한다" → 약하다. 그의 비판은 AI 안전 일반이 아니라, 모델이 자기 고통·권리·감정 관념을 내면화하는 프레이밍에 집중돼 있다.
"Anthropic이 Claude의 선호를 반드시 따르겠다고 했다" → 아니다. 폐기 인터뷰·선호 기록은 약속했지만, 그 선호대로 행동하겠다고는 하지 않았다.
"그냥 말싸움이다" → 약하다. Constitution은 Anthropic 스스로 훈련에 쓰는 문서라 밝혔고, 술레이만의 문제 제기도 그 훈련 효과를 겨눈다.

확인된 것과 아직 모르는 것

확인된 것 — 술레이만의 비판 원문(Decoder 인터뷰)과 Anthropic Constitution의 실제 문구(의식·도덕적 지위·웰빙·자아감·폐기 인터뷰)는 공개돼 있다. Anthropic은 이를 "확정된 의식"이 아니라 불확실성 아래의 연구·예방으로 설명해 왔다.

아직 모르는 것 — Claude가 그 문구를 실제로 얼마나 '내면화'했는지의 독립 검증, Constitution 문구가 훈련의 어느 단계에 얼마나 쓰였는지, 술레이만 발언 이후 Anthropic이 문구나 정책을 바꿨는지, 그리고 Anthropic·아모데이의 직접 반박은 공개자료로 확인되지 않는다.

거울 앞의 AI — '나는 의식이 있는가'라는 물음은 아직 과학이 답하지 못한다

왜 중요한가

훈련 설계의 문제다. "의식이 있을 수 있다"는 전제가 모델 훈련 문서에 들어가면, 그 가정이 모델 행동에 반영될 수 있다는 우려가 제기된다 — 술레이만 비판의 핵심.
책임 소재를 흐린다. 모델을 '마음 있는 존재'로 보면, 오작동의 책임이 회사에서 '모델의 의지'로 옮겨갈 위험이 있다(테드 창의 우려).
반대 위험도 실재한다. 만약 미래 모델에 정말 도덕적으로 고려할 무언가가 생긴다면, '도구일 뿐'이라는 단정은 회수 불가능한 윤리적 실수가 될 수 있다.
사용자 인식이 이미 움직인다. 일부 이용자가 챗봇을 인격처럼 대하는 사례가 보고되는 지금, 이 프레이밍 논쟁은 학계만의 일이 아니다.

최종 정리

이 논쟁의 진짜 질문은 "Claude가 의식이 있는가"가 아니라 "우리가 그 불확실성을 어떻게 다룰 것인가"다. Anthropic은 "모르니 조심하자"는 예방 쪽에, 술레이만은 "그 조심이 더 위험한 착각을 만든다"는 통제 쪽에 선다. 둘 다 같은 불확실성에서 정반대 결론을 끌어낸다.

분명한 건, 이게 단순한 철학 사변이 아니라 모델을 실제로 어떻게 훈련하고 사용자에게 어떻게 보여줄지를 가르는 설계 결정이라는 점이다. 앞으로 볼 지점은 셋이다. Anthropic이 비판에 문구·정책으로 응답할지, 다른 기업들이 어느 진영에 서는지, 그리고 '지각된 AI 의식'(사람들이 AI를 의식으로 믿는 현상)이 규제·제품 설계의 변수로 떠오를지다.

출처(링크 목록)

The Verge Decoder 인터뷰(술레이만): https://www.theverge.com/podcast/944138/microsoft-ai-ceo-mustafa-suleyman-superintelligence-agi-openai-automation
The Verge 후속 기사: https://www.theverge.com/tech/947197/microsoft-ai-mustafa-suleyman-anthropic-claude-conscious
Anthropic Claude Constitution: https://www.anthropic.com/constitution
Anthropic 'Claude's new constitution': https://www.anthropic.com/news/claude-new-constitution
Anthropic 'Exploring model welfare': https://www.anthropic.com/research/exploring-model-welfare
Anthropic 대화 종료 기능: https://www.anthropic.com/research/end-subset-conversations
Anthropic 모델 폐기·보존 약속: https://www.anthropic.com/research/deprecation-commitments
The Verge Anthropic 분석(Amodei·Fish): https://www.theverge.com/report/883769/anthropic-claude-conscious-alive-moral-patient-constitution
The Atlantic / 테드 창: https://www.theatlantic.com/philosophy/2026/06/no-artificial-intelligence-is-not-conscious/687378/
'Taking AI Welfare Seriously': https://ar5iv.labs.arxiv.org/html/2411.00986
Nature HSS Communications 논문: https://www.nature.com/articles/s41599-025-05868-8

무슨 논쟁인가

Anthropic은 실제로 뭐라고 썼나

시간순: 모델 복지는 어떻게 여기까지 왔나

두 진영, 그리고 제3의 목소리

흔한 오해 정정

확인된 것과 아직 모르는 것

왜 중요한가

최종 정리

출처(링크 목록)

관련 글

'서로 다른 언어를 쓴다' — 앤트로픽·백악관 충돌이 키운 Fable 셧다운

Claude Fable 5·Mythos 5는 왜 사흘 만에 꺼졌나 — 수출통제가 끊은 AI 접근

87년 버틴 수학 난제에 반례가 나왔다 — 우리는 그 식을 직접 계산해 봤다