日立製作所が8日から15日までオンラインで開催した「日立セキュリティフォーラム 2020 ONLINE」で、同社の研究開発グループの吉野雅之氏が人工知能(AI)システムへの攻撃手法について解説した。AIは攻撃を受けると、予測結果を誤ったり個人のプライバシーを脅かしてしまったりするなどのリスクが生じる。
これまでIT(情報技術)システムへの攻撃はユーザーのルーターやサーバーを攻撃する事例が多かった。だが「AIに対して直接的あるいは間接的に攻撃する研究事例の報告が増えている」(吉野氏)
同分野の論文は2014年から18年までの5年間で世界で1000本ほどだったが、19年の1年間で約1000本が報告されたという。学術的にAIへの攻撃が注目されており、「一定期間を経て、社会でも実際に攻撃が起こるようになると予測される」(吉野氏)

人工知能(AI)の予測傾向から教師データを不正に推測する攻撃手法(出所:日立製作所)
前提として、AIに予測させるには学習フェーズと予測フェーズが必要だ。まず学習フェーズで教師データをAIエンジンに学習させる。予測フェーズでは担当者が仕様に沿って予測用データを入力し、AIエンジンが予測結果を出力する。
「AIエンジンを直接攻撃することは難しい」と吉野氏は話す。攻撃者はAIの学習フェーズや予測フェーズにおいて一部のデータを汚染することで、AIエンジンのセキュリティーを破ったり、AIに誤った予測結果を出させたりするという。
攻撃手法は大きく分けて3つある。1つめが教師データの一部を汚染する手法だ。攻撃者に都合がよいように変更した教師データをAIエンジンに学習させる。例えばスパムメールの検知用AIに誤った教師データを学習させて、スパムメールを検知できないようにする。
2つめは予測用データの一部を汚染する手法である。代表的な攻撃対象が人物認識や物体認識のAIだ。元データの画像に対して人間には検知できない微小なノイズを重ね合わせることで、AIが誤った予測をしてしまうなどの研究事例がある。
3つめは逆予測による攻撃手法だ。攻撃者はAIエンジンに一定量の予測用データを入力して、出力された予測傾向から教師データを不正に推測する。個人情報をAIが学習していた場合、プライバシー侵害につながりかねない。具体的には攻撃者が顔画像などの教師データを不正に入手してしまうなどの被害が考えられる。