Sự phát triển của các mô hình trí tuệ nhân tạo (AI) học hỏi từ các tập dữ liệu hàng loạt cạo từ web để tạo ra văn bản gốc, hình ảnh, video và nhiều hơn nữa đã làm dấy lên mối quan tâm ngày càng tăng về đạo văn, tìm nguồn cung ứng dữ liệu phi đạo đức và chiếm đoạt văn hóa. Trong khi các công nghệ này có thể giúp bảo tồn và hồi sinh ngôn ngữ bản địa, thu hoạch dữ liệu mà không có sự đồng ý có nguy cơ lạm dụng, bóp mó văn hóa bản địa, và tước đoạt các quyền của người thiểu số, các chuyên gia nói.
Karaitiana Taiuru, một nhà đạo đức học Māori và là học giả danh dự tại Đại học Auckland, nói, “Dữ liệu giống như đất đai và tài nguyên thiên nhiên của chúng ta. Nếu người bản địa không có chủ quyền về dữ liệu của chính họ, họ sẽ chỉ đơn giản là bị tái thuộc địa hóa trong xã hội thông tin này.” Nhận xét của Taiuru đến sau khi OpenAI đào tạo chatbot Whisper của mình trên 680.000 giờ âm thanh từ web, bao gồm 1.381 giờ của te reo Māori.
Nhiều ngôn ngữ bản địa đang bị đe dọa biến mất, cảnh báo Liên Hiệp Quốc, mang theo các nền văn hóa, kiến thức, và truyền thống. Tại New Zealand, nơi ngôn ngữ Māori đang được hưởng sự phục hưng, chính phủ hướng tới mục tiêu có một triệu người nói cơ bản vào năm 2040. Điều này có nghĩa là các hệ thống kỹ thuật số sử dụng Māori sẽ được triển khai với số lượng ngày càng tăng, Peter-Lucas Jones, Giám đốc điều hành của Te Hiku Media, một tổ chức phi lợi nhuận điều hành các chương trình phát sóng và lưu trữ Māori và quảng bá ngôn ngữ cho biết.
Nhưng nó “đáng lo ngại” khi thấy một tổ chức phi Māori đưa ra một mô hình ngôn ngữ sử dụng ngôn ngữ của họ, ông nói. Jones giải thích rằng những gì chúng ta đang thấy với các mô hình AI lớn này là dữ liệu bị cạo từ internet mà ít quan tâm đến bất kỳ sự thiên vị nào có thể có trong dữ liệu, chưa nói đến bất kỳ quyền sở hữu trí tuệ liên quan nào.
Các nhà lãnh đạo bản địa đã tức giận khi Air New Zealand tìm cách đánh dấu một logo với dòng chữ “kia ora” – có nghĩa là “xin chào” hoặc “sức khỏe tốt” trong tiếng Māori – nêu bật căng thẳng về những nỗ lực đồng lựa chọn ngôn ngữ và văn hóa của họ bởi các nhóm bên ngoài. Các nhà phê bình cảnh báo các nhóm bản địa, những người nói chung không tham gia vào việc thiết kế hoặc thử nghiệm các hệ thống AI, có nguy cơ từ thiên vị có thể được nhúng vào trong các thuật toán, trong khi các mô hình AI tạo ra cũng có thể lây lan thông tin không chính xác.
Dữ liệu bản địa và kiến thức cần được bảo vệ, ông Karaitiana Taiuru cho biết. Có sự công nhận ngày càng tăng về sự cần thiết phải bảo vệ dữ liệu và tri thức bản địa, với Tổ chức Thương mại Thế giới vạch ra các biện pháp trong năm 2006 để cung cấp bảo vệ sở hữu trí tuệ cho “tri thức truyền thống và văn hóa dân gian”. Các bộ lạc được liên bang công nhận ở Mỹ có thể hạn chế thu thập dữ liệu về đặt phòng của họ. Tuy nhiên, việc thu thập dữ liệu “có thể bay dưới radar và tránh thẩm quyền của một bộ lạc”, Michael Running Wolf, một nhà đạo đức AI và người Mỹ bản địa, người đã thành lập tổ chức Indigenous trong AI.