속보

단독

“진짜 ‘오픈소스’는 아니다”... 딥시크로 불붙은 '오픈워싱' 논란

입력
2025.02.03 18:20
10면
구독

"훈련 코드와 데이터 숨겼으니
오픈소스 아니라 '오픈웨이트'
이미지 마케팅, 규제 회피 전략"
"모든 정보 공개는 무리" 반론도

딥시크의 홈페이지에는 '딥시크-R1이 오픈소스로 공개됐다'고 적혀있다. 딥시크 홈페이지 캡처

딥시크의 홈페이지에는 '딥시크-R1이 오픈소스로 공개됐다'고 적혀있다. 딥시크 홈페이지 캡처

중국 인공지능(AI) 스타트업 ‘딥시크(DeepSeek)’가 공개한 추론 특화 AI 모델 ‘딥시크-R1’을 둘러싸고 ‘개방성’ 논란이 이어지고 있다. 딥시크가 자사 모델을 ‘오픈소스’라고 부르고 있지만, 사실 훈련에 사용된 데이터와 코드는 꽁꽁 숨겨두고 있다는 것이다. 일각에서는 ‘오픈소스’를 자처하는 AI 모델들 상당수가 실제로는 오픈소스라 볼 수 없다며 ‘오픈워싱(Openwashing)’ 마케팅 아니냐는 지적이 나온다.

딥시크는 지난달 20일 R1 모델의 코드와 가중치, 개발 과정을 담은 백서를 코드 공유 사이트 ‘깃허브’에 공개하며 “연구 공동체에 기여하기 위해 우리는 이를 오픈소스화했다”고 밝혔다. 딥시크의 행보는 ‘개방형’을 지향하는 AI 개발자들과 기업들의 지지로 이어졌다. 개방형AI 진영 대표 기업 메타의 수석 과학자이자 AI 4대천왕 중 한 명인 얀 르쿤 미국 뉴욕대 교수는 딥시크에 대해 “오픈소스 모델이 폐쇄형 모델을 능가한 것”이라고 평가했다.

그러나 AI 연구자와 윤리 전문가들 사이에서는 딥시크가 ‘오픈소스’라 불리기엔 부족하다는 주장이 나온다. 소프트웨어 구동용 코드, 변수에 부여되는 가중치 등 일부 정보만 공개했다는 이유에서다. 글로벌 오픈소스 연구기관인 오픈소스이니셔티브(OSI)가 내놓은 ‘오픈소스AI 정의 1.0’에 따르면, 오픈소스AI는 그 코드는 물론 데이터 및 학습 관련 정보 전체를 모두 공개해야 한다. 즉 AI 모델을 다른 개발자들이 실질적으로 재현할 수 있어야 하는데, 딥시크는 여기에 부합하지 않는다는 것이다.

OSI의 정의는 최근 수년간 AI 개발 생태계에서 이어진 오픈소스 논쟁에 표준을 제공하기 위해 학계와 산업계가 협업한 결과다. OSI의 조던 마리스 정책분석가는 지난달 29일 자신의 사회관계망서비스(SNS)에 “훈련 데이터와 훈련용 코드를 공개하지 않은 딥시크는 오픈소스AI가 아니다”라고 논평했다. 영국의 공공 데이터 전문기관 오픈데이터인스티튜트(ODI)는 지난달 30일 “데이터의 저작권과 개인정보 포함 여부를 비롯해 전반적인 투명성 점수가 다른 모델에 비해 낮았다”며 “딥시크를 오픈소스라 볼 수 없다”는 분석을 내놨다.

영국 오픈데이터인스티튜트(ODI)가 분석한 AI 모델별 데이터 투명성. ODI 캡처

영국 오픈데이터인스티튜트(ODI)가 분석한 AI 모델별 데이터 투명성. ODI 캡처

모든 데이터를 공개해야 한다는 OSI의 정의가 다소 엄격하다는 시각도 있다. 그러나 일부 코드와 가중치를 공개한 모델을 지칭하는 ‘오픈웨이트(Open Weight)’라는 용어가 있는데도 ‘오픈소스’라 주장하는 것은 과장이라는 지적도 많다. 개방형AI 진영의 메타와 마이크로소프트 역시 모델의 데이터는 공개하지 않거나 일부 과금을 하면서도 오픈소스라는 용어를 사용해 오픈워싱이란 비판을 받아왔다. 구글이 지난해 언어모델 ‘제마’의 코드를 공개하면서 ‘오픈 모델’로만 소개한 것과 상반된다.

AI 기업들이 오픈소스를 강조하는 이유는 결국 마케팅이다. 개발자 생태계에 기여하는 ‘열린 기업’이라는 이미지를 구축하고 사용자를 끌어들이는 효과를 노리는 것이다. 나아가 AI 산업 관련한 규제를 피하기 위해서라는 분석도 나온다. 대표적인 AI 규제인 유럽연합(EU) AI법은 오픈소스 라이선스에 따라 출시된 AI 모델에 대해선 투명성 및 모니터링 관련 책임을 면제하고 있다. 단 고위험 AI에 속하는 경우는 예외다.

개발자들 사이에선 데이터는 숨긴 채 일부만 공개하는 반쪽짜리 개방형 생태계는 한계가 있다는 지적이 설득력을 얻는다. ODI의 벤 스네이스 수석 연구원은 “딥시크의 데이터 투명성이 낮기 때문에 비용 및 훈련 효율성에 대한 주장의 진실성은 물론, 오픈AI와 마이크로소프트 데이터 도용 여부도 확인이 쉽지 않다”며 “딥시크가 실제 파괴적 혁신이 되려면 개방성이 더 성숙해져야 한다”고 분석했다.

신혜정 기자

관련 이슈태그

댓글 0

0 / 250
첫번째 댓글을 남겨주세요.
중복 선택 불가 안내

이미 공감 표현을 선택하신
기사입니다. 변경을 원하시면 취소
후 다시 선택해주세요.

기사가 저장 되었습니다.
기사 저장이 취소되었습니다.