ウェブからスクレイピングされた大量のデータセットから学習してオリジナルのテキスト、画像、動画などを作成する生成型人工知能(AI)モデルの開発により、盗作、非倫理的なデータ調達、文化の盗用に関する懸念が高まっています。これらの技術は先住民族の言語の保護と復活に役立ちますが、同意なしにデータを収集すると、悪用、先住民の文化を歪め、少数民族の権利を奪うリスクがあると専門家は言います。
マオリの倫理学者でオークランド大学の名誉学者であるカライティアナ・タイウル氏は、「データは私たちの土地や天然資源のようなものです。先住民族が自分たちのデータの主権を持っていなければ、この情報社会で再び植民地化されてしまうでしょう。」Taiuruのコメントは、OpenAIがWhisperチャットボットにウェブからの68万時間の音声をトレーニングした後に寄せられました。これには1,381時間のテ・レオ・マオリ語が含まれています。
国連は、多くの先住民族の言語が文化、知識、伝統とともに消滅の危機に瀕していると警告しました。マオリ語が復興しつつあるニュージーランドでは、政府は2040年までにベーシックスピーカーを100万人増やすことを目指しています。「つまり、マオリ語を使ったデジタルシステムがどんどん導入されていくということだ」と、マオリ語放送やアーカイブを運営し、マオリ語を広める非営利団体、テ・ヒク・メディアのピーター・ルーカス・ジョーンズ最高経営責任者(CEO)は語る。
しかし、マオリ以外の組織がマオリ語を使ったスピーチモデルを展開するのを見るのは「心配」だと彼は言った。ジョーンズ氏は、これらの大規模なAIモデルで目にしているのは、関連する知的財産権は言うまでもなく、データに存在する可能性のある偏りをほとんど考慮せずにインターネットからデータが取得されていることだと説明しました。
ニュージーランド航空がマオリ語で「こんにちは」や「健康」を意味する「キア・オラ」(マオリ語で「こんにちは」または「健康」を意味する)のロゴを商標登録しようとしたとき、先住民族の指導者たちは怒りました。これは、外部のグループが自分たちの言語や文化を取り入れようとする試みをめぐる緊張を浮き彫りにしました。批評家は、一般的にAIシステムの設計やテストには関与していない先住民のグループが、アルゴリズムに埋め込まれる可能性のある偏見のリスクにさらされている一方で、生成型AIモデルも誤った情報を広める可能性があると警告しています。
カライティアナ・タイウル氏によると、先住民のデータと知識には保護が必要だという。先住民族のデータと知識を保護する必要性に対する認識が高まっており、世界貿易機関は2006年に「伝統的知識と民間伝承」に知的財産保護を提供する措置を概説しました。米国の連邦政府が認めた部族は、居留地でのデータ収集を制限することができます。しかし、AI倫理学者で非営利団体「Indigenous in AI」を設立したネイティブアメリカンのマイケル・ランニング・ウルフ氏は、データ収集は「見過ごされがちで、部族の管轄を避けることができる」と述べています。