トピック — 人工知能
出版

データを制限するタイミングを把握することは、AIの品質に大きく影響します。AIデータが十分であることをどうやって確認するのでしょうか?

資金不足、ノウハウ不足、あるいは検閲など、様々な理由から、一部の政府や機関はAIに組み込むデータの量を削減しています。これはAIの成果の完全性を損なうのでしょうか?
データを縮小する理由
意図的なデータ縮小はポリシーと便宜上行われています。
ミシガン大学のコンピュータサイエンスとエンジニアリングの助教授であるロイア・エンサフィ氏は、103カ国で検閲が強化されていることを発見した。
エンサフィの報告によると、検閲措置のほとんどは「コンテンツをフィルタリングする組織やインターネットサービスプロバイダーによって推進された」という。「米国ではブロッキング活動の増加は小幅なものの、ブロッキングのための基盤は整っている」
他の業界では、分析プロバイダーや企業は、処理およびデータリポジトリに受け入れるデータ量を削減するために懸命に取り組んでいます。彼らは、解決しようとしている問題に関連性があると判断されたデータのみを求めています。
2018年、米国国勢調査局は、国民のプライバシーを保護するため、たとえ不正確なデータが増えることになったとしても、国民に関して収集するデータの量を削減する措置を講じた。
これらすべてのユースケースには明確なビジネス目標がありますが、データの除外は、その上で動作する AI の品質にどのような影響を与えるのでしょうか。
参照: 人工知能倫理ポリシー (TechRepublic Premium)
データが欠落している場合、AIはどのように「ミス」するのか
スタンフォード大学医学部の医学教授であるサンジブ・ナラヤン氏が、欠損データが医療にどのような影響を与えるかを説明します。
「アメリカの身長について考えてみてください」とナラヤン氏は述べた。「もしそれらを集めてチャートに載せたら、背の高い人と低い人の重なり合うグループやクラスターが見つかるでしょう。大まかに言って、大人と子供、そしてその中間の人たちです。しかし、身長を測るために誰が調査されたのでしょうか?平日に行われたのでしょうか?それとも週末、つまり異なるグループの人々が働いている時間帯に行われたのでしょうか?診療所で身長を測った場合、健康保険に加入していない人は除外される可能性があります。郊外で測った場合、田舎や都市部の人々とは異なるグループが抽出されます。サンプル数はどれくらいだったのでしょうか?」
2019年に論争を巻き起こしたアマゾンの採用アルゴリズムがこれをよく表している。
AmazonのAI搭載採用エンジンは、応募者の大半が男性だった時代の採用成功者の履歴データに基づいて学習されました。このパターンを観察したAIは、男性応募者の方が女性応募者よりも好ましいと学習しました。その結果、同社は多くの優秀な女性応募者を逃していました。
企業ができること
データの処理と取得にかかるコスト、そして洞察を得るまでの時間を短縮することへの重点により、企業はデータ除外を検討するようになりました。
これは理にかなっています。事前に除外できるデータが多ければ多いほど、結果処理にかかる時間が短縮され、コンピューティングリソースの消費量も削減されます。しかし、データレンズをどこまで閉じるべきなのでしょうか?
企業は、次の 3 つのことを実行すると適切な意思決定を行うことができます。
- トレードオフについて考えてみましょう。オフィスから25マイル以内に住んでいない顧客のデータを除外すると、あなたのサービスを知っていればもっと遠くから来てくれるかもしれない顧客を見逃してしまうことになるでしょうか?
- データを見るレンズを広げる準備をしておきましょう。分析対象の患者について、データが不正確であることが判明するかもしれません。健全な分析結論を導き出すのに十分なデータがありますか?答えが「いいえ」であれば、いつでもレンズを広げて、精度の向上を確認できます。
- データのソースと制限事項をユーザーに説明してください。提供するデータに依存するユーザーは、データとその制限事項を事前に理解しておく必要があります。例えば、ユーザーが過去10年間の交通動向を確認したいのに、データが8年間しかない場合、ユーザーはその情報を知る必要があります。
こちらもご覧ください
- メタバース チートシート: 知っておくべきことすべて (無料 PDF)
- 機械学習エンジニアになる方法:チートシート
- 採用キット: 機械学習エンジニア
- 人工知能:さらに読むべき記事

メアリー・シャックレット
メアリー・E・シャックレットは、技術調査・市場開発会社であるトランスワールド・データの社長です。同社設立以前は、金融サービス企業TCCU, Inc.でマーケティング・技術担当シニアバイスプレジデント、コンピュータソフトウェア企業Summit Information Systemsで製品研究・ソフトウェア開発担当バイスプレジデント、半導体業界の多国籍製造企業FSI Internationalで戦略計画・技術担当バイスプレジデントを務めました。基調講演者であり、1,000本以上の論文、調査研究、技術出版物を出版しています。