生成式人工智能(AI)模型的开发越来越引起人们对抄袭、不道德的数据来源和文化侵占的担忧,这些模型从网络上抓取的大量数据集中学习,创建原创文本、图像、视频等。专家说,尽管这些技术可以帮助保护和振兴土著语言,但未经同意收集数据有可能被滥用、扭曲土著文化并剥夺少数群体的权利。
奥克兰大学毛利伦理学家兼名誉学者卡拉蒂亚娜·泰鲁说:“数据就像我们的土地和自然资源。如果土著人民对自己的数据没有主权,他们只会在这个信息社会中被重新殖民。”Taiuru的评论是在OpenAI使用来自网络的68万小时音频训练其Whisper聊天机器人之后发表的,其中包括1381小时的te reo 毛利语。
联合国警告说,许多土著语言面临消失的威胁,随之而来的是文化、知识和传统。在毛利语正在复兴的新西兰,政府的目标是到2040年让100万讲基本语言的人。运营毛利语广播和档案并推广毛利语的非营利组织Te Hiku Media的首席执行官彼得·卢卡斯·琼斯说,这意味着使用毛利语的数字系统将越来越多地推出。
但他说,看到一个非毛利人组织推出使用毛利人语言的演讲模式是 “令人担忧的”。琼斯解释说,我们在这些大型人工智能模型中看到的是从互联网上抓取数据,几乎不考虑数据中可能存在的任何偏见,更不用说任何相关的知识产权了。
当新西兰航空试图为标有 “kia ora”(在毛利语中意为 “你好” 或 “身体健康”)的徽标注册商标时,土著领袖感到愤怒,这凸显了外部团体试图采纳他们的语言和文化所造成的紧张局势。批评者警告说,通常不参与人工智能系统的设计或测试的土著群体面临着可能嵌入到算法中的偏见的风险,而生成的人工智能模型也可能传播错误的信息。
Karaitiana Taiuru说,土著数据和知识需要保护。人们越来越认识到保护土著数据和知识的必要性,世界贸易组织在2006年概述了为 “传统知识和民间传说” 提供知识产权保护的措施。美国联邦认可的部落可以限制其保留地的数据收集。但是,创立非营利组织 “人工智能土著人” 的人工智能伦理学家兼美洲原住民迈克尔·兰恩·沃尔夫说,数据收集 “可以在雷达之下飞行,避开部落的管辖”。