【コラム】Apple Cardをめぐる米国の法執行はどのように間違ったのか

編集部注：本稿の著者Liz O’Sullivan（リズ・オサリバン）氏は、企業のモデルリスクとアルゴリズムのガバナンスを自動化するプラットフォームParityのCEO。また、Surveillance Technology Oversight ProjectやCampaign to Stop Killer Robotsに対して、人工知能に関するアドバイスを行っている。

ーーー

アルゴリズム正義の支持者たちは、UHGやApple Cardのような企業に対する法的調査によって、いわゆる「裁判の日々」を迎え始めている。Apple Card訴訟は、定量化可能な公正性という新たな分野において、現在の反差別法が科学的研究の急速なペースに追いついていないことを示す好例である。

Appleとその引受会社が公正貸付違反を犯していないと判断されたのは確かかもしれないが、今回の判決は、あらゆる規制区域で機械学習を利用している企業に対する警鐘となり得る、明確な警告を提示した。経営陣がアルゴリズムによる公正さをもっと真剣に受け止め始めない限り、彼らの前途は法的な問題と評判の低下に満ちたものになるだろう。

Apple Cardに何が起きたのか

2019年後半、スタートアップのリーダーでありソーシャルメディアで著名なDavid Heinemeier Hansson（デイヴィッド・ハインマイヤー・ハンソン）氏は、Twitter上で重要な問題を提起し、大きな反響と称賛を巻き起こした。「いいね！」やリツイートが5万件近くある中、同氏はAppleと引受パートナーのGoldman Sachs（ゴールドマン・サックス）に対し、同じ金銭的能力を持つ同氏と同氏の妻に付与される信用限度額が異なる理由を説明するよう求めた。アルゴリズムの公正性のフィールドに立つ多くの関係者にとって、私たちが提唱する問題がメインストリームになるのを目にすることが重大な分岐点となり、結果的にニューヨーク州金融サービス局（DFS）からの照会に結実した。

DFSが2021年3月に、ゴールドマンの引受アルゴリズムについて、1974年に制定された女性やマイノリティを差別融資から保護する厳格な金融アクセス規則に違反していないと結論づけたことは、一見したところ、信用引受会社にとって心強く思えるものかもしれない。活動家にとっては残念な結果だが、財務部門のデータチームと密接に協力している私たちにとっては驚く結果ではなかった。

金融機関向けのアルゴリズムアプリケーションの中には、試行のリスクが利益をはるかに上回るものがあり、信用引受もその1つだ。貸付の公正性に関する法律は（古いものであれば）明確かつ厳格に施行されるため、ゴールドマンが無罪となることは予測できた。

とはいえ、ゴールドマンのアルゴリズムが、現在市場に出回っている他のすべての信用スコアリングおよび引受のアルゴリズムと同様、差別化していることは疑いの余地がない。また、仮に研究者がこうした主張を検証するために必要なモデルやデータへのアクセスを許可されたとしても、これらのアルゴリズムが崩壊することはないだろう。私がこれを知っているのは、ゴールドマンのアルゴリズムを検証するための方法論をニューヨーク州DFSが部分的に公開したからであり、ご想像の通り、その監査は、今日の最新のアルゴリズム監査人によって保持されている標準には遠く及ばないものだった。

DFSは（現行法の下で）Apple Cardの公正性をどのように評価したか

DFSは、Appleのアルゴリズムが「公正」であることの証明として、ゴールドマン・サックスが申請者の性別や配偶者の有無などの「禁止された特性」を利用していたかどうかを最初に検討した。これはゴールドマンにとってパスするのは容易だった。人種、性別、婚姻状況をモデルの入力に含めていないからだ。しかし、いくつかのモデル特性が、保護されたクラスの「プロキシ」として機能し得ることは、何年も前から知られている。

50年間の判例に基づくDFSの方法論では、この問題を検討したかについて言及されていないが、検討されなかったことは推測できる。もしそうであれば、信用スコアと人種との間に強い相関関係があることがすぐに判明するはずだ。それに関連して、一部の州では損害保険への利用を禁止することを検討している。プロキシ特性は最近になって研究の焦点になったばかりであるが、科学がいかにして規制を凌駕してきたかを示す第1の例を提供するものだ。

保護された特性がない場合、DFSは、内容は類似しているが、異なる保護クラスのユーザーに属する信用プロファイルを調査した。不正確な感じがするが、申請書で性別を「フリップ（反転）」させた場合に信用供与の決定にどのような影響があるかを明らかにしようとした。男性申請者の女性バージョンも同じ扱いになるかということだ。

直感的には、これは「公正」を定義する1つの方法のように思える。機械学習の公正性の分野には「フリップテスト」と呼ばれる概念がある。これは「個人の公正性」と呼ばれる概念の多くの尺度の中の1つであり、まさにそのように聞こえる。筆者は、AI専門の大手法律事務所bnh.aiの主任研究員であるPatrick Hall（パトリック・ホール）氏に、公正貸付の事例を調査する上で最も一般的な分析について尋ねた。DFSがApple Cardを監査するのに使用した方法を参照して、同氏はそれを基本回帰、または「フリップテストの1970年代バージョン」と表現し、不十分な法律について第2の例を提示した。

アルゴリズム的公正性のための新しい語彙

Soron Barocas（ソロン・バロカス）氏の独創的な論文「Big Data’s Disparate Impact」が2016年に発表されて以来、研究者たちは哲学の核となる概念を数学的な用語で定義することに熱心に取り組んできた。いくつかのカンファレンスが開催され、最も注目すべきAIイベントで新たな公正性の道筋が示された。この分野は高度成長期にあり、現在のところ法律が追いついていない状況だ。しかし、サイバーセキュリティ業界に起きたように、この法的猶予は永遠には続かないだろう。

公正な貸付を管理する法律は公民権運動から生まれたもので、制定以来50年以上の間にあまり進展が見られなかったことを考えると、DFSの軟式監査は容認できるかもしれない。法律上の前例は、機械学習の公正性に関する研究が本格的に始まるずっと前のものだ。もしDFSが、Apple Cardの公正性を評価するという課題に適切に対処できるように装備されていれば、過去5年間に花開いたアルゴリズム評価のための堅牢な語彙を使用することができただろう。

例えばDFSの報告書は、Joy Buolamwini（ジョイ・ブオラムウィニ）氏、Timnit Gebru（ティムニット・ゲブル）氏、Deb Raji（デブ・ラジ）氏による、2018年に発表された調査の中の有名な規準「equalized odds」の測定については触れていない。同氏らの論文「Gender Shades」では、顔認識アルゴリズムが明るい肌の被験者よりも暗い女性の顔で間違った推測をすることが多いことを証明しており、この推論はコンピュータービジョンだけでなく、予測に関するさまざまなアプリケーションにも当てはまる。

均等オッズは、Appleのアルゴリズムに対して問うべきものだろう。どのくらいの頻度で信用力を正確に予測しているか。どれくらいの頻度で間違った推測をしているか。性別、人種、あるいは障害ステータスの異なる人々の間でこれらのエラー率に違いがあるか。ホール氏によると、これらの測定は重要だが、法制度を完全に体系化するには新しすぎるという。

もしゴールドマンが、現実世界の女性申請者を常に過小評価していたり、黒人の申請者に対して実際に適用されるべきものよりも高い金利を設定していたりすることが判明すれば、こうした十分なサービスを受けていない人々が、全国規模でどのような悪影響を受けるかは想像に難くない。

金融サービスのCatch-22（落とし穴）

最新の監査人であれば、判例によって指示された方法では、マイノリティのカテゴリー内でのセクション間の組み合わせに対する公正性の微妙な差異を捉えることができないことを認識している。この問題は、機械学習モデルの複雑さによってさらに深刻化している。例えば、あなたが黒人で、女性で、妊娠している場合、あなたが信用を得る可能性は、それぞれの包括的な保護されたカテゴリーの結果の平均を下回るかもしれない。

マイノリティのサンプル数は定義上セット内のより少ない数であることを考えると、これらの過小評価されたグループは、その独自性に特別な注意を払わない限り、システムの全体的な監査から利益を享受することはないだろう。このことから、最新の監査人は、各グループの個人の人口動態を明確に把握した上で結果を測定できる「認知による公正性」アプローチを採用する傾向にある。

しかし「Catch-22（落とし穴）」が存在する。金融サービスやその他の厳格に規制された分野では、監査人は最初から機密情報を収集することができないため「認知による公正性」を利用できないことが多い。この法的制約の目的は、貸し手が差別されないようにすることにあった。運命の残酷なねじれの中で、これはアルゴリズムによる差別を覆い隠し、私たちに法的不備の第3の例を与える。

この情報を収集できないという事実は、モデルが十分なサービスを受けていないグループをどのように扱っているのかを知る上で障害となっている。それがなければ、私たちは実際的に真実であることを証明できないだろう。例えば、専業主婦は両方の配偶者の名前ですべてのクレジットベースの購入を実行するわけではないため、より薄い信用ファイルを確実に持っている。マイノリティのグループは、ギグワーカー、チップを受け取る労働者、または現金ベースの業界に属する傾向が極めて高く、マジョリティにはそれほど一般的ではないことが証明されているような所得プロファイルの共通性がもたらされることが考えられる。

重要な点として、申請者の信用ファイルにおけるこれらの相違は、必ずしも真の財務責任や信用力につながるものではない。信用力を正確に予測するには、その方法（例えば信用スコア）がどのようにブレークダウンするのかを把握する必要があるだろう。

AIを使用する企業にとってこれは何を意味するのか

Appleの例で言えば、同社が時代遅れの法律で守られている差別に対抗するために、信用ポリシーの帰結的なアップデートを行ったという話に希望に満ちたエピローグを挙げる価値がある。AppleのCEOであるTim Cook（ティム・クック）氏は声明の中で「業界が信用スコアを計算する方法に公正性が欠けている」ことを即座に強調した。

新しいポリシーでは、配偶者や親が信用ファイルを結合して、信用ファイルが弱い方が強い方の恩恵を受けられるようにしている。これは、世界に構造的に存在する差別を実際に減らす可能性のある措置を先を見越して考えている企業のすばらしい例だ。Appleはポリシーを改訂するにあたり、今回の調査の結果として導入されるかもしれない規制に先んじた。

これはAppleにとって戦略的に有利な点と言える。なぜなら、ニューヨーク州DFSはこの分野を支配する現行の法律が不十分であることに徹底的に言及しており、規制のアップデートは多くの人が考えているよりも間近かもしれないからだ。金融サービス監督官Linda A.Lacewell（リンダ・A・レイスウェル）氏の言葉を借りれば「現在の形での信用スコアリングの利用と、融資における差別を禁止する法律や規制は、強化と近代化を必要としている」。規制当局と協働した筆者の経験では、これは今日の当局が極めて熱心に追求していることだ。

米国の規制当局が、自動化と数学における平等に向けた堅牢な語彙を活用して、AIを統制する法律の改善に取り組んでいることは間違いない。連邦準備制度、OCC（通貨監督庁）、CFPB（消費者金融保護局）、FTC（連邦取引委員会）、連邦議会は、ペースが遅くとも、アルゴリズムによる差別に対処することに意欲的である。

その一方で、アルゴリズムによる差別が横行していると信じるに足る十分な理由が存在する。その主なるものとして、業界がここ数年、学術界の言葉を取り入れるのに消極的だったことが挙げられる。企業がこの新しい公正性の分野を活用できず、ある意味で保証されている予測的差別を根絶できないことに対する言い訳の余地はほとんどない。EUは、今後2年以内に採択される予定のAIに特化した法案に同意している。

機械学習の公正性の分野は急速に成熟しており、毎年のように新しい手法が生み出され、無数のツールがそれを助けている。この分野は今になってようやく、ある程度の自動化によってこれを規定できる段階に達しつつある。標準化団体は、米国の法律の採択が遅れている場合でも、これらの問題の頻度と深刻さの低減に向けたガイダンスを提供し、積極的に関与している。

アルゴリズムによる識別が意図的であるかどうかは、違法性を有する。そのため、医療、住宅、雇用、金融サービス、教育、または政府に関連するアプリケーションで高度な分析を使用している場合、誰もが知らずにこれらの法律に違反している可能性がある。

センシティブな状況下でのAIの無数のアプリケーションについて、より明確な規制ガイダンスが提供されるまでの間、業界はどのような公正性の定義が最善かを自力で判断する必要がある。

画像クレジット：SOPA Images / Getty Images

［原文へ］

（文：Liz O’Sullivan、翻訳：Dragonfly）

TechWatch