【音声あり】実世界データでAIを磨き込む〜ファインチューニングの現場とプライバシー対応の最前線〜

( EVENT REPORT )

トップトップ

●

お役立ち情報お役立ち情報

●

イベントレポートイベントレポート

●

【音声あり】実世界データでAIを磨き込む〜ファインチューニングの現場とプライバシー対応の最前線〜

PlayBook（社内ルール）
開発支援サービス

AI･パーソナルデータ利活用のルールをまとめ、現場の機動力を加速する。

もっと詳しくもっと詳しく

arrow_forwardarrow_forward

【音声あり】AI時代─人間らしさが武器になる〜米欧の規制動向とGoogleの取り組み〜

【音声あり】AI採用に潜むリスクと対策〜いま、企業が直面する課題〜

【音声あり】AI for Humanity: データ品質向上が人権保護に〜マスターカードとトルコ難民データの事例から〜

経営層レベルにおけるデジタルガバナンスの構築と維持

【音声あり】Click & Risk：AI時代の「広告」と「消費者プライバシー」の具体的対処法〈講演レポート〉

AI時代におけるイノベーションとコンプライアンスの両立

《米中AI覇権争いの真実》大国の興亡と汎用技術拡散の歴史

【音声あり】AIガバナンスを組織にどう実装するか？〈講演レポート〉

【講演レポート】ローレンス・レッシグが語る「ビジネスモデルが法を超える」──規制の4要素とAI時代のプライバシーの再定義

【対談】サム・アルトマン(OpenAI)ーAI時代のプライバシーと人類の未来：「人間らしさ」の証明とは？〈要約版〉

PlayBook（社内ルール）
開発支援サービス

AI･パーソナルデータ利活用のルールをまとめ、現場の機動力を加速する。

もっと詳しくもっと詳しく

arrow_forwardarrow_forward

無料で相談する無料で相談する

arrow_forwardarrow_forward

資料ダウンロード資料ダウンロード

arrow_forwardarrow_forward

Fine-tuning AI and Algorithms with Real-life Data - A Case Study
IAPP Global Privacy Summit 2025 現地レポート[Vol.11]　

この記事は音声でもお楽しみいただけます（Notebook LMの音声概要機能を利用しています。記事の内容との齟齬や文字の読み方が正確でない部分がありますので、予めご了承ください）

PrivacyTech · AIとプライバシー_ 実世界データ活用の最前線

転載：IAPP Global Privacy Summit 2025

人工知能(AI)の価値を最大化することは企業にとっての最優先事項であるが、AIの学習とファインチューニング（微調整）には現実のデータが不可欠であり、合成データだけでは不十分である───この講演では、EU AI Act規制下での「輸送分野」におけるAI導入について、2人の講演者が議論した。列車内の異常行動検知と自動運転技術の開発という2つの事例を通じて、データの必要性や代替手段の検討、プライバシー保護とのバランス、そして正当な利益評価の実務的な対応などが紹介された。AI活用の鍵は、現実的なリスク管理と透明性の確保にあることが強調された。

◆ この記事でわかること
===
・AIの学習とファインチューニング（微調整）とは何か。
・AI開発においてベンダーを選択する際の注意点は何か。
・実務で押さえるべき法的・倫理的対応のポイントは何か。
===

登壇者
実世界のノイズや多様性こそAIにとって重要
ケーススタディ1：公共交通機関でのAI監視モデル開発
ケーススタディ2：自動運転に向けたスマートセンサー技術の開発
学習(Training)とファインチューニング(Fine-tuning)は役割が異なる
学習(Training)：AIモデルの基礎教育
ファインチューニング(Fine-tuning)：特定の目的への最適化
AIの法的定義と規制
EU AI法とプライバシー要件
実務で押さえるべき法的・倫理的対応のポイント
① 必要性と代替手段の検討
② ベンダー管理と契約条項
③センシティブデータに該当するかの判断
④ 透明性の確保
⑤ 正当な利益の評価(Legitimate Interest Assessment)

登壇者

Julia Kaufmann, CIPP/E, Partner, Osborne Clarke
オズボーン・クラークのミュンヘン事務所のパートナーであり、グローバル・データプライバシー・アンド・セキュリティ・サービスラインのメンバー。情報技術、プライバシー、データ保護、電子商取引、マーケティング、インターネット法に関する法的課題について、国内および国際的な企業に助言を提供している。
2022年、Global Data Reviewの「Women in Data」(※)第2版において選出された。
※「Women in Data」は、データ保護分野における立法、規制、技術の最前線で活躍する女性を表彰するグローバルな賞。

Aurea White, Head of Data Privacy, AG Business Unit, Siemens Digital Industries Software
IAPP Global Privacy Summit 2023にも講演者として参加。

実世界のノイズや多様性こそAIにとって重要

近年、AIシステムの性能は飛躍的に向上しているが、実社会で活用するためには「実世界のノイズや多様性」に耐えうる学習が求められる。そのためには、研究環境ではなく実際の生活空間から得られたリアルデータを使ってAIを「ファインチューニング（微調整）」することが重要である。

本講演では、こうしたAIの性能向上に欠かせない、リアルデータを活用した2つの事例が紹介された。あわせて、プライバシー・法的リスクへの対応策や、実務上の判断ポイントが詳細に解説された。

ケーススタディ1：公共交通機関でのAI監視モデル開発

目的：
列車内における、乗車状況の監視と、乗降口などで発生しうる異常行動（殴打、押し合いなど）の兆候を、AIによって自動的に検知・通知する仕組みを構築すること。

導入背景：
公共交通機関における安全性の向上は喫緊の課題である一方、人による監視には限界があった。

ポイント：
鉄道会社が設置している通常の監視カメラ(CCTV)とは別に、AI学習用の独立したカメラを天井に設置。このカメラの側には、掲示板を配置し、乗客の認知と透明性確保を実現した。これは、プライバシー評価において重要な要素となる。

ケーススタディ2：自動運転に向けたスマートセンサー技術の開発

目的：
自動車に搭載されたスマートセンサー技術を用いた自動運転試験の改善、および、運転経路計画や運転制御のためのアルゴリズムの開発により、安全で信頼性の高い車両を実現すること。

ポイント：
周囲の状況を把握するため、車外にはLiDAR・カメラ・GNSS・GPSなどを搭載。あわせて、車内には快適性向上を目的とした生体センサー（ドライバーの瞳孔の動き、皮膚の反応、発汗の有無などをモニタリングする）を設置。

転載：IAPP Global Privacy Summit 2025（翻訳は編で追加）

いずれの事例も、「高精度（high fidelity）」が非常に重要なポイントとなる。列車や自動車に設置されたカメラからのリアルな映像こそが、最終的にアルゴリズムの学習・ファインチューニングを改善する鍵となるのである。

したがって、実際の状況に対応できるようにするためには、リアルなデータが不可欠となる。一方、これらのデータはあくまで学習のためにのみ収集され、他の目的では使用しないこと。この点は、プライバシー議論においても重要なポイントである。

学習(Training)とファインチューニング(Fine-tuning)は役割が異なる

AI開発において、「学習」と「ファインチューニング」はしばしば混同されがちであるが、両者の役割は異なっている。

学習(Training)：AIモデルの基礎教育

学習(Training)とは、AIが物事を認識･分類できるようにするため、大量のラベル付きデータ（編:意味のある分類がつけられたデータのこと。たとえば、猫の写真に「猫」という分類がついた写真データ）を用いて基本的なパターンを学習させるプロセスのことである。

たとえるなら子どもが「ライオンとは何か」を学び、ライオンを見たときには逃げるべきだと学習するようなものである。

AIの学習が進んでいくと、同じ画像ではなく「似た」画像でも分類ができるようになる。

先ほどの事例で挙げた、列車内の暴力的な状況の検出は、当然まったく同じシーンが再現されるわけではなく、似たような状況から暴力的状況を検出する必要がある。

実際には、列車の乗降口では多くの人が立ち止まったり、通話したり、ハグしたりといった行動を取る。こうした密集した空間で、AIは状況を正確に把握することが求められる。誰かがハグしているのか、殴り合っているのかは、大きな違いである。AIに学習させる際に、開発者はこれらを正しく区別し、正しいラベルをつける必要がある。

AIが状況を正しく認識できるようにするため、このような学習には、数千枚におよぶリアルデータが必要となる。

ファインチューニング(Fine-tuning)：特定の目的への最適化

ファインチューニング(fine-tuning)とは、既に学習済みのモデル（基礎モデル）に対して、特定のユースケースや業務目的に応じて再調整（微調整）するプロセスのことである。

すべてのケースでファインチューニングが意味を持つわけではなく、特定のタスクに対して小規模で高精度なデータセットを用いる必要があるときに適している。

ただし、AIは特定のタスクに対して学習を進めると、その他のタスクに対する性能が下がる可能性があることに注意しなければならない。つまり、開発者は「ある特定のタスクで150％の精度を目指すのか」あるいは「広範なタスクにそこそこ対応できるようにするのか」を選ばなければならない。

たとえば、自動運転の事例では、「If-Then（もし〜なら〜する）」ルールによるアルゴリズムが使われている。「赤信号なら停止」「道路脇で子どもがボールで遊んでいたら速度を落とす」といった具合に、特定の状況に対してあらかじめ決められた行動をとるものである。

さらに、こうしたアルゴリズムの訓練時には、法的要件を遵守する必要がある。たとえば、道路上の何かを見つけたからといってすべてに対して停止してよいわけではない。鳥なら止まらないが犬なら止まる、など、国ごとに決められた法律に従う必要がある。

このように、AIシステムの開発では、技術的な精度だけでなく、各国の法制度との整合性も重要になることに注意しなければならない。

AIの法的定義と規制

AIに関する規制は進化しており、プライバシーの要件だけでなく、他の法的要素にも目を向ける必要がある。EU AI ActとOECDでは、「AIとはある程度の自律性をもって作動するよう設計された機械システム」と定義している。

このシステムには、入力に基づいて出力を導き出す「推論(inference)」機能が含まれる。推論とは、入力に基づいて結果を導く処理能力を指し、アルゴリズムやモデルの構築も含む。出力には予測、コンテンツ、推薦などが該当する。

＜AIであるかどうかを判断するための重要な2つの要素＞

自律性(autonomy)：人間の介入なしに、少なくともある程度の独立性を持って動作する能力を持っていること。
推論(inference)：入力から出力を導く能力を持っていること。

ちなみに、この推論能力を身につけるプロセスが、いわゆる「機械学習(machine learning)」である。学習用データをシステムに与え、それに基づいて出力の方法を学習させる方法である。

自律性と推論機能は密接に関係している。システムは人間の関与なしに、（少なくとも一部の行動を）自律的に決定する必要がある。もし出力が完全に人間の手動操作によって制御されているのであれば、それはAIとは見なされない。たとえば「もし赤信号を検出したら、運転者に停止を表示する」といったIf-Thenルールは、人によってあらかじめ定義されたルールであり、AIが推論によって導き出すものではないため、AIシステムとは見なさない。

このような定義に基づくと、システムが法令に該当する「AIシステム」であるかどうかを判断するには、法律の専門知識だけでなく、ITチームや開発者と密に連携し、そのシステムが実際に何をしているのかを深く理解する必要があると言える。

前述の2つの事例に関して言えば、列車内の監視システムはAIシステムに該当すると判断される。特定の状況が安全上のリスクかどうかを自動的に判断することが求められているからである。

一方、自動運転センサーシステムはAIではなく、従来型のアルゴリズムとみなされる。If-Thenルールが適用されており、従来型のソフトウェアに近いためである。

しかしながら、「AIシステムではない」とされたシステムであっても、将来的にAIシステムと再分類される可能性もあることに注意しなければならない。開発チームが機能を進化させた結果、AIシステムへと変化してしまう可能性があるためである。組織内で、各部署が常に連携を密にしておく必要がある。

EU AI法とプライバシー要件

EU AI Actのリスクマネジメント要件では、潜在的なリスクを継続的に監視し、対応策を講じることが求められている。これはまさに「プライバシー･バイ･デザイン」や「データ保護影響評価(DPIA)」と共通する考え方である。

データの妥当性や目的適合性についても、EU AI Actでは、検証やテストに使うデータについて取得した時点の利用目的に沿っているかを考慮するよう求めている。これは法で言うところの「目的限定の原則」や「二次利用の制限」と重なる。

また「代表性のあるデータ」「偏りのない公平なデータ」であることも求められている。プライバシーの観点における公平性の要件を満たし、データが正確であることを確認するために役立つ。

さらに、EU AI Actはセンシティブデータの処理に関する法的根拠を提示している。AIシステムに不正確なバイアスが生じるのを回避する目的で、センシティブデータの処理が必要なケースでは有効に活用できることがある。

加えて、透明性も要件として求められている。AIの開発者または提供者は、デプロイヤー（実際にAIを導入・運用する側）に対して、システムに関する詳細な情報を提供する義務がある。この情報は、デプロイヤー側がDPIAを行う際に活用されるべきである。AI開発者から十分な技術情報を受け取って初めて、プライバシーの観点からも適正な評価が可能になるのである。

さらに、EU AI Actでは人による監視(human oversight)も義務づけられている。これは、プライバシーの文脈における「自動化された意思決定に関する要件（GDPR第22条）」とも連携している。

実務で押さえるべき法的・倫理的対応のポイント

① 必要性と代替手段の検討

近年、「必要性」の要件はますます重要視されるようになっている。たとえば、欧州データ保護委員会(EDPB)は、AIによる個人データ処理に関する意見書の中で、この点を強く強調している。また、欧州司法裁判所(ECJ)も、「本当にこのデータ処理が目的の達成に必要だったのか？」という疑問を呈した判決をいくつか出している。

したがって、AI開発で個人データを扱う際には、その処理が「本当に必要かどうか」、また「他の手段では代替できないのか」を慎重に検討することが求められるのである。

前述の公共交通機関と自動運転の2つの事例において、画像データは個人データであると判断された。なぜなら、インターネット上に存在するすべてのデータを活用すれば、個人を再特定することが非常に容易だからである。

この点への対応策として、まず検討されたのは、顔やナンバープレートなどの情報をぼかす処理であった。しかし、公共交通の事例ではこの方法が難しいと判断された。暴力とハグのような非暴力行動の違いを見分けるには、顔の表情や体の動きといった微細な情報が重要で、ぼかしてしまうとAIが正しく判断できなくなるためである。ただし、乗車状況を判断する際には顔のぼかしは合理的であり、実際にぼかし処理が行われた。

一方、自動運転のケースでも同様に、人物の動きや身体の構えが重要な判断材料となるため、顔や身体のぼかし処理は、学習目的と矛盾してしまうという判断になった。たとえば、自転車を押している人の動作などは、将来的に車がその人を認識して回避するために重要なデータとなるからである。また、現在の技術水準では、最初から完全に匿名化されたデータを収集するのは不可能という限界も浮かび上がった。

合成データ（編：現実世界のデータをもとに人工的に生成されたデータ）の利用も検討されたが、その作成には、まず実際のデータを収集する必要があるため、実データを使わざるを得ないという結論に至った。

結果として、ぼかし処理を可能な範囲で適用し、AIの学習が完了した時点ですべての個人データを削除することが決定された。保存期間や削除のタイミングはあらかじめ設定されており、透明性の観点からその情報も一般利用者に公開されている。

このように、AI開発におけるデータ利用の是非は「必要性」と「代替可能性」の現実的な見極め、そしてリスクを最小化するための具体策と説明責任が重要な鍵となる。

② ベンダー管理と契約条項

AIの開発や学習・ファインチューニングにおいて、実データの収集や加工処理を外部ベンダーに委託するケースは少なくない。しかし、委託先の選定と契約管理には細心の注意が必要である。

まず重要なのは、ベンダーが収集した個人データを自社の目的で使用しないことを、契約で明確に制限することである。契約書を確認し、データを活用する権利を第三者に与えるような条項がないことを確認しなければならない。また、厳格な削除要件が適用されていることも確認が必要である。

Webサイトや提案書で「データはすべて匿名化済みである」とうたっているベンダーでも、実際にはデータの収集直後に「生データ」が存在しており、主張が事実と異なっていたというケースも見られるため、注意が必要である。企業側は「匿名化済み」という言葉を鵜呑みにせず、ベンダーの処理プロセスをよく確認しなければならない。

＜AI開発に係るベンダーと議論すべき点＞

ベンダーがAIモデルの開発そのものに関与するのかどうか
モデルに個人データが含まれるかどうか
データ主体権利の行使時に個人データを削除する方法をベンダーがどのように支援できるか（個人データが含まれる場合）
AIモデルのアンラーニングをどのように適用できるか
データの出所や変更履歴等を適切に管理できる仕組みを持っているか（データ主体の権利行使に対応しやすくするため）

これらの対応を実現するために、調達チームと連携したベンダー評価ポリシーの整備も推奨される。AI時代においては、ベンダーとの契約が技術リスクだけでなく法的･社会的リスクにも直結することを再認識する必要がある。

③センシティブデータに該当するかの判断

AI開発において映像や画像を活用する場合、それらの中にセンシティブな情報が含まれる可能性があるかどうかを見極めることは、重要な法的判断ポイントである。

センシティブデータとは、健康状態、人種、宗教、政治的信条など、特に保護が必要とされる個人情報を指す。本講演で取り上げられたのは、「映像の中にこうしたセンシティブな要素が映ってしまっている場合、それも対象となるのか？」という問題である。

たとえば、映像に車椅子に乗った人、補助器具を装着している人、医療用マスクをしている人などが映っていると、それは健康状態を示す情報になりうる可能性がある。欧州の裁判所は、データ主体の利益を広くとらえてセンシティブと判断する傾向があるため、慎重な検討が必要である。

ただし、講演で紹介された2つの事例では、取得している映像は一般的なCCTVと同等のものであり、センシティブ情報として分類するのは過剰と判断された。もしこれをセンシティブとして扱えば、駅や公共空間の防犯カメラ映像もすべて該当してしまい、現実的な運用が困難になる。

このため、プロジェクトチームでは「映像に健康上の特徴が映り込む可能性はあるものの、それを目的として取得しているわけではない」こと、また「特別な取扱いや同意を求める対象には該当しない」ことを根拠に、センシティブデータには該当しないという立場をとった。

このように、AIによる映像処理では、「取得目的」「映像の内容」「利用方法」などを軸に、センシティブ性の有無を慎重に見極めることが重要である。必要であれば、社内でルール化しておくことが、のちの説明責任にもつながる。

④ 透明性の確保

AIが人に関わるデータを処理する以上、対象となる人々に「どんな情報が、なぜ、どのように使われているのか」を知らせる必要がある。これは法的な義務であると同時に、信頼を築くための基本でもある。

公共交通機関の事例では、AI学習用カメラが車内に設置されることに対して、乗客が自然に気づき、内容を理解できる設計が求められた。そこで実施されたのが、車両の各ドアにQRコードを掲示する仕組みである。これにより、乗客はスマートフォンで簡単に専用のWebページへアクセスし、以下のような情報を確認できるようにした。

＜乗客にWebサイトで開示した情報＞