機械学習

 機械学習とは、与えられたデータに潜むルール(パターン)を機械により見付け出すことです。
 本記事では、機械学習の定義や手法の種類、機械学習プロジェクトのプロセスについて解説します。

機械学習とは?

 機械学習とは、与えられたデータに潜むルール(パターン)を機械により見付け出すことです。従来のプログラミングの場合、人間が定義することで機械は動作しますが、機械学習の場合、機械にデータと機械学習の手法を与えることでデータの特徴を学び、そこに潜むルールを見付け出します。

 機械学習は、ビジネス要件により、「解釈性(説明性)」と「予測(精度)」のいずれに重きを置くのかについて語られることが多くあります。「解釈性」とは与えられたデータがどのような性質を持ち、何を要因として結果が得られたのかを理解することを目指します。一方、「予測」とは過去の経験から将来を語るように、過去のデータを学習することで、未知のデータがどのような結果をもたらすのかを的中させることを目指します。

図1. 機械学習により重視する要件

 たとえば、証券ビジネスのリテール業務における「解釈性」とは、ある金融商品の購入という結果は、どのような顧客の特性が要因として存在するのかを見いだすことです。「予測」とは、その金融商品の購入確率が高い顧客を抽出することです。

機械学習の手法

 機械学習の手法は、分析する目的に応じて主に以下の3つに分類することができます。(用語解説:AIモデル(機械学習モデル)でも詳しく解説しています。)

教師あり学習

 分析対象データにおいて予測したい変数(目的変数)を定め、特徴量を含む訓練データと目的変数の値の関係を学習することです。基本的には、目的変数が年齢や気温といった量的変数(連続値)の場合は回帰モデル、性別や満足度といった質的変数(カテゴリ値)の場合は分類モデルを構築します。

教師なし学習

 目的変数を事前に設定しないデータを対象として、モデルに組み込む変数(特徴量)のパターンを学習することです。似た特徴量同士をグループ化するクラスタリングやデータ圧縮などをしたいときに使用します。

強化学習

 学習モデル(エージェント)の行動(エピソード)によって生じた次の状態の価値(状態価値関数)を推定しておき、その関数に基づいた全体報酬(目的利得)が最大になるように学習することです。 状態価値関数の推定方法として、動的計画法、モンテカルロ法、TD学習等が挙げられます。自動運転や商品のレコメンドシステムなど、複雑な制御や行動の最適化が必要な分野での応用が期待されます。  

機械学習プロジェクトのプロセス

 ここでは、「予測」に重きを置いた機械学習モデルをビジネスに適用するプロジェクトに着目します。一般的に、機械学習モデルを使用するプロジェクトは、次のようなプロセスをたどります。

図2. 機械学習プロジェクトのフロー

STEP1:ビジネス理解と分析デザイン

 ビジネス課題を理解し、このプロジェクトにおいて何を実現したいのかというゴールを明確化し、定量的な目標値の設定とアプローチ方法を設計します。

STEP2:データの収集・理解

 ビジネス課題を解決する機械学習モデル構築(モデリング)のため、データ準備と前処理を行います。このステップの中では、確保したデータの傾向を確認するとともに、特徴量設計を行い、モデリングに必要な形式にデータを整形します。一般的に、他のステップと比較すると、このステップが最も多くの工数を要します。

STEP3:モデリング(学習)

 ビジネス課題とデータに対応するいくつかの適切な手法を選択し、機械学習のモデル構築を行います。多くの機械学習モデルは、構築前にハイパーパラメータと呼ばれる設定値をあらかじめ調整する必要があるため、このステップで分析者が行います。

STEP4:評価・検証

 構築したモデルの精度や推論速度などがビジネス課題を解決するにあたり、十分なパフォーマンスを発揮するか否かを検証します。検証の結果、よりパフォーマンスの高いモデルを目指す場合には特徴量の再設計やハイパーパラメータの再設定などのチューニング作業を行います。機械学習モデルは構築してから検証を行うまで、その効果がわからないことが多いため、これらを繰り返し行うことでより良いモデルにしていきます。また、必要な場合には、このプロジェクトにおいて実現したいゴールの見直しも改善方法のひとつです。

STEP5:適用(デプロイ)

 実際のビジネス現場において十分なパフォーマンスを発揮すると判断したモデルを実際のビジネスの現場に適用します。

STEP6:モニタリング

 実際のビジネスにおける検証を継続的に進め、必要に応じてチューニング作業を行います。STEP4が過去データを用いた評価・検証であるのに対し、本ステップは未来のデータを用いた評価・検証です。

引用:大和総研フロンティアテクノロジー本部 『エンジニアが学ぶ金融システムの「知識」と「技術」』 翔泳社 2019年01月24日 p84-p86  ※「機械学習の手法」章を本サイトで追記

関連するウェビナー

ウェビナー|大和証券グループで"ChatGPT"を使ってみた

レポート・コラム

大和地域AI(地域愛)インデックス | 大和総研

2022年10月20日
ナウキャスティングモデルによる実質GDPの早期把握 2022年10月20日 | 大和総研 | 久後 翔太郎

2022年07月21日
銀行業の統合報告書等をテキストマイニングで読み解く 2022年07月21日 | 大和総研 | 中田 理惠 | 長内 智 | 大和 敦 | 石川 清香

2022年07月20日
AI 経済分析の過去・現在・未来 2022年07月20日 | 大和総研 | 溝端 幹雄

2021年02月26日
新局面を迎えるナウキャスティング 2021年02月26日 | 大和総研 | 溝端 幹雄

2020年02月27日
AI(機械学習)で地銀の収益構造を解釈する 2020年02月27日 | 大和総研 | 中田 理惠

2020年01月10日
ヒトの“ つなぐ力” で次世代銀行ビジネスモデルは花開く 2020年01月10日 | 大和総研 | 内野 逸勢