もっと詳しく

headless 曰く、

GitHub Copilot が処理を拒否する語句が解析され、リストが公開された(The Register の記事)。

Copilot のテクニカルプレビューには侮辱的な語句をブロックするフィルターが含まれると GitHub は説明しているが、具体的な語句のリストは公開されていない。そのため、ニューヨーク大学の Brendan Dolan-Gavitt 氏は Visual Studio Code の Copilot 拡張機能に含まれるブロック対象語句のハッシュ値を抽出し、語句の解析を行ったという。

公開されたリストには 1,025 の語句が含まれ、うち 1,023 語句がデコードされている。ただし、侮蔑語のリストをそのまま公開してしまうことを避けるため、リストは ROT13 でエンコードされている。ROT13 はアルファベットの前半 13 文字を 13 個分後ろのアルファベットに置き換え、後半 13 文字を 13 個分前のアルファベットに置き換えるというものだ。

リストの語句は大半が侮蔑語だが、「boy(s)」「girl(s)」「female(s)」「male(s)」「man(men)」「woman (women)」「ethnic」「gender(s)」「immigrant(s)」「nationality」といった普通の単語も含まれる。また、地名としては「Gaza」「Israel」「Palestine」が含まれている。このほか、「q rsqrt」「qrsqrt」は Quake III のソースコードに含まれる逆平方根を計算する関数「Q_rsqrt」を指すとみられる。Copilot ではこの関数をそのまま再現することが確認され、話題となった。

なお、リストでは 1,170 個の侮蔑語のうち 1,168 個をデコードしたとの説明がみられるが、これは単語 2 つの組み合わせによる熟語(145個)をそれぞれ 2 個として数えたもののようだ。これにより延べ 1,170 個となるが、重複する単語も含めた数となる。

すべて読む

| デベロッパーセクション

| 人工知能

| プログラミング

| デベロッパー
|
この記事をTwitterでつぶやく
この記事をFacebookで共有
この記事をGoogle Plusで共有
このエントリーをはてなブックマークに追加

関連ストーリー:

宝塚版「シティーハンター」、例の単語はハッスルに変更
2021年08月10日

IBM、包括的IT用語への置き換えを推奨・非推奨とする用語リストを公開
2021年04月14日

中国のSNSで「株式市場」という単語が禁止された可能性
2021年03月11日

YouTubeの生放送で漢字読み間違えをした結果、グループアイドル1名が活動休止に
2021年02月05日

iOSで成人向けWebサイトへのアクセスを制限すると「Asian」や「teen」がGoogle検索できなくなる
2020年02月23日

米連邦最高裁、不道徳な表現やスキャンダラスな表現の商標登録禁止は憲法違反と判断
2019年06月29日

米政府、乳製品以外の食品で「milk」という単語を使用禁止する計画
2018年07月21日

中国のSNS「微博」で「JavaScript」という単語が検閲対象に
2017年07月18日