AI가 언어를 배우면서 식민지화를 두려워하는 뉴질랜드의 원주민 집단

웹에서 스크랩한 대량 데이터 세트를 학습하여 원본 텍스트, 이미지, 비디오 등을 생성하는 생성형 인공 지능 (AI) 모델의 개발로 인해 표절, 비윤리적인 데이터 소싱 및 문화적 전유에 대한 우려가 커지고 있습니다.전문가들은 이러한 기술이 원주민 언어를 보존하고 되살리는 데 도움이 될 수 있지만 동의 없이 데이터를 수집하면 토착 문화가 남용되고 소수 민족의 권리가 박탈될 위험이 있다고 말합니다.

마오리 윤리학자이자 오클랜드 대학교 명예 학자인 카라이티아나 타우루 (Karaitiana Taiuru) 는 이렇게 말했습니다. “데이터는 땅과 천연 자원과 같습니다.토착민들이 자신의 데이터에 대한 주권을 갖지 못하면 이 정보 사회에서 다시 식민지화될 것입니다.”타우루의 발언은 OpenAI가 1,381시간의 테레오 마오리를 포함한 680,000시간 분량의 웹 오디오로 위스퍼 챗봇을 학습시킨 후 나온 것이다.

유엔은 문화, 지식 및 전통을 가져가 많은 토착 언어가 사라질 위협을 받고 있다고 경고했다.마오리어가 부흥하고 있는 뉴질랜드에서 정부는 2040년까지 100만 명의 기초 사용자를 확보하는 것을 목표로 하고 있습니다.마오리 방송과 아카이브를 운영하고 마오리어를 홍보하는 비영리 단체인 테히쿠 미디어 (Te Hiku Media) 의 피터 루카스 존스 (Peter-Lucas Jones) CEO는 “이는 마오리어를 사용하는 디지털 시스템이 점점 더 많이 보급될 것임을 의미한다”고 말했다.

하지만 마오리족이 아닌 단체가 자신들의 언어를 사용하여 스피치 모델을 출시하는 것은 “우려스럽다”고 그는 말했다.존스는 이러한 대형 AI 모델에서 우리가 목격하고 있는 것은 관련 지적 재산권은 고사하고 데이터에 존재할 수 있는 편견을 거의 고려하지 않고 인터넷에서 데이터가 스크랩되는 것이라고 설명했습니다.

에어 뉴질랜드가 마오리어로 “안녕하세요” 또는 “건강”을 의미하는 “kia ora”라는 단어를 로고에 상표로 등록하려고 하자 원주민 지도자들은 분노했다. 이는 외부 단체가 자신들의 언어와 문화를 받아들이려는 시도에 대한 긴장을 부각시켰다.비평가들은 일반적으로 AI 시스템의 설계나 테스트에 관여하지 않는 원주민 집단은 알고리즘에 내재될 수 있는 편견의 위험에 처해 있으며, 생성적 AI 모델은 잘못된 정보를 퍼뜨릴 수도 있다고 경고합니다.

카라이티아나 타우루는 토착민 데이터와 지식에 대한 보호가 필요하다고 말했다.2006년 세계무역기구 (WTO) 는 “전통 지식과 민속”에 대한 지적 재산권 보호 조치를 제시하면서 원주민 데이터와 지식을 보호해야 할 필요성에 대한 인식이 높아지고 있습니다.연방 정부가 인정한 미국 내 부족은 보호 구역에 대한 데이터 수집을 제한할 수 있습니다.그러나 AI에 비영리 단체인 인디저너스를 설립한 AI 윤리학자이자 아메리카 원주민인 마이클 러닝 울프 (Michael Running Wolf) 는 데이터 수집은 “감시 대상에서 벗어날 수 있고 부족의 관할권을 피할 수 있다”고 말했다.