合格る！G検定対策語句まとめ(カンペ) ②- Deeplearning 画像認識編

項目	説明
理由１	インターネットの発展により、莫大な量の学習データを収集する難易度が下がった
理由２	GPU の性能が向上したことで、膨大な量の計算処理が可能となった
理由３	ディープラーニングのプログラミング記述を支援するフレームワークが普及した
従来の機械学習に対する優位点	機械学習では特徴量の設計が精度を大きく左右するが、この特徴量設計を人間が行う必要があるというところに課題がある。ディープラーニングでは特徴量をモデル自らが獲得できるようになったことが大きな進歩である。この性質からディープラーニングは表現学習の一種に分類されている。

著名なソフト

ソフト名	作成者・作成団体	説明
SHRDLU	テリー・ウィノグラード	場合分けによって積み木の世界での対話処理を実現した
ELIZA	ジョゼフ・ワイゲンバウム	特定のルールに従って会話を行うチャットボット。チューリングテストで30%の人間を誤らせた。
PARRY	ケネス・コルビー	ELIZAと同時期に開発されたチャットボット。ICCC 1972などでELIZAと会話した。会話記録はRFC439などが有名
MYCIN	スタンフォード大学	エキスパートシステムを使って感染した細菌と有効な抗生物質を特定する。
DENDRAL	エドワード・ファイゲンバウム	エキスパートシステムを使って未知の有機化合物を特定する。
Deep Blue	IBM	チェス用のAI。世界チャンピオンに勝利した。手法としてモンテカルロ法(力任せの探索)を用いている。
AlphaGo	DeepMind (Google)	囲碁用のAI。世界チャンピオンに勝利した。
Ponanza	山本一成	将棋用のAI。プロ棋士に勝利している
AlphaFold	DeepMind (Google)	タンパク質の構造を見出し新薬開発に活かすモデルで、CASP13コンテストで優勝した。
AlphaZero	DeepMind (Google)	囲碁と将棋とチェス用のAI
Deep Dream	DeepMind (Google)	2015年発表。通常の画像をまるで夢に出てくるかのような不思議な画像に変換して表示する。
OpenAI Five	Open AI	Dota2というコンピュータゲームで2019年に2018年度の世界王者に勝利した。
AlphaStar	DeepMind (Google)	スタークラフト2というコンピュータゲーム用のAIである
OpenCV	Intel	画像認識ライブラリ。2006年に1.0がリリースされ、2015年には3.0がリリースされている。
YOLO	Joseph Redmon	インスタンスセグメンテーションによる物体検出。1ステージ型の検出アルゴリズム。You only look onceの略。

DeepLearningの手法

手法	課題の種類	主な適用先	説明
CNN (畳み込みニューラルネット)	教師あり	画像認識、音声認識	画像認識や音声認識に利用されている。ある大きさの領域を集約することで、特徴量を抽出し、画像の変形に強いモデルが作成できる。
RNN (再起型ニューラルネット)	教師あり	時系列データ、音声認識、機械翻訳	系列情報を扱う為に、ノードの出力を入力として再利用する方法。音声などの時系列データに利用されている。
LSTM (LongShortTermMemory)	教師あり	時系列データ、音声認識、機械翻訳	RNNの勾配消失問題を解決する手法として提案された。基本的には入力ゲート、忘却ゲート、出力ゲートの３ゲートを持つ。
オートエンコーダ (自己符号化機)	教師なし	次元削減	入力と出力を一致させる方法。隠れ層を入力層より少なくし、潜在表現を獲得することができる。事前学習などに利用される。
積層オートエンコーダ	教師あり	次元削減	エンコーダおよびデコーダを多層化することで、より複雑で高度な特徴量抽出を狙ったもの。
VAE (variable auto encoder)	教師なし	画像生成	入力データを圧縮して得られる特徴ベクトル（潜在変数）を確率変数として表す方法。一般的にはＮ次元の潜在変数が、Ｎ次元正規分布に従うように学習する。画像生成などで利用される。
GAN(Generative Adversarial Network)	教師なし	画像生成	画像を生成する手法で生成敵対ネットワークとも呼ばれる。Generator ができるだけ本物に近い生成物をアウトプットし, Discriminator はそれが正しいものか偽物かどうかを見抜こうとする相互作用の繰り返しにより、本物に近い生成物の構築を促す。
深層ボルツマンマシン	教師なし	画像認識や音声認識	確率的回帰結合型ニューラルネットワークの一種である。観測データの確率場をノードとし、無向の結合で依存関係を表す。
深層信念ネットワーク	教師なし	画像認識や音声認識	制約ボルツマンマシンとベイジアンネットワークを組み合わせたもの。
DQN(深層Q学習)	強化学習	ゲームのプレイヤーや自動運転など	行動価値関数（Q値）を CNN に置き換えたモデル。たまたまQ値が高いところを学習してしまう場合がある。
デュエリングネットワーク	強化学習	ゲームのプレイヤーや自動運転など	行動価値を状態価値関数（状態）とAdvantage関数（行動）に分割することにより、行動にかかわらず状態を学習することができるようにしたもの。
AlexNet	教師あり	画像認識	Deeplearning技術を用いて2012ILSVRC優勝。Deeplearningが注目されるきっかけとなった。CNNベースの10層。ReLU関数を用いることで勾配消失に対応した。
GoogLeNET	教師あり	画像認識	2015のILSVRC分類部門と検出部門で優勝。Inceptionモジュールをつなげることでモデル化。GAP(Global Average Pooling)を導入することで、パラメータ数を削減し、過学習を抑制している。
VGGNet	教師あり	画像認識	2014のILSVRC分類部門で２位。16-19の層を持つ。VGG16: 16層のネットワークからなるアーキテクチャ。VGG19: 19層。 2014年にオックスフォード大学のチームが発表した。
ResNet	教師あり	画像認識	2015のILSVRC優勝。152層ものニューラルネットワークで構成されている。SkipConnectionと呼ばれる層を飛び越える結合により、層が深くなっても伝播のしやすさを確保。残差ブロックを導入することで勾配消失問題に対処し,飛躍的に層を増やすことに成功した.
MobileNet	教師あり	画像認識	スマホなどの小型端末にも乗せられる高性能CNNを作りたいというモチベーションから生まれた軽量かつ(ある程度)高性能なCNN。畳み込みの計算を分割することで計算量の減少を達成した。V1,v2,v3が発表されている。
完全結合ネットワーク(FCN)	教師あり	画像認識	すべての層を畳み込み層としてネットワークを構成するもの。セマンティック・セグメンテーションに応用されている。
Vision Transformer	教師あり	機械翻訳	自然言語処理の分野で発展したTransformerを画像処理に流用したもの。Vision Transformerは画像を単語のように分割することによりCNNを使用せず、Transformerに近いモデルを使用している。
Seq2Seq （sequence to sequence）	教師あり	機械翻訳	機械翻訳などの用途で、入力だけでなく出力も時系列にそった出力を行う為に、エンコーダとデコーダと呼ばれる独立したRNNモデルを有するモデル。入力位置と出力位置が1対1に対応していない場合にもそれぞれ別の時系列データとして扱うことができる。順伝播するネットワークであるため、翻訳の計算時間が長くなる。
Transformer	教師あり	機械翻訳	Self-Attentionと呼ばれるネットワーク構造を利用することで、時間順にデータを読み込まなくてもよい。並列処理を可能にし、翻訳を高速化した。Self-Attentionの導入の跳ね返りは単語の位置関係が把握できなくなることである。これを解決する為に、位置エンコーディングと呼ばれる単語の出現位置情報を付加することで、間接的に単語の位置情報や位置関係を考慮することができるようになった。
WaveNet	教師あり	音声合成	2016 年に DeepMind 社により発表されたニューラルネットワークのアルゴリズムで従来に比べて圧倒的に高い質での音声合成に成功している。
R-CNN	教師あり	画像認識	R-CNNは人間が行う物体認識のように、領域ごとに特徴量を抽出する。Fast R-CNNはR-CNNに比べCNNの演算回数を削減できる可能性が高い。Mask R-CNNのアルゴリズムを用いると、身体のポーズの検出も可能となる可能性が高い。
End-to-End Learning	教師あり	ロボットの学習、音声認識など	ある一連の動作を学習する際に従来は一つ一つの動作をステップバイステップで学習していたものを、大きな一つのネットワークで表現することで全ての動作を一気に学習することができるようになったことを示す。
Neural ArchitectureSearch(NAS)	ー	機械学習モデル自体の生成	パラメータとネットワーク構造の最適化も行い、ニューラルネットワークの構造自体がパラメータと重みを最適化する。膨大な計算量が必要。AutoMLを実現するための理論
NASNet	ー	機械学習モデル自体の生成	CNNの畳み込みやプーリングを行うCNNセルを定義し、CNNセルの最適化を行う。
MnasNet	ー	機械学習モデル自体の生成	Googleによって発表された。AutoMLを参考にしたモバイル用のCNNモデル設計。処理速度情報を探索アルゴリズムの報酬に組み込むことで処理速度を制約している。

パラメータの更新方法

手法	説明
逐次学習（オンライン学習）	学習ごとに一つのサンプルを利用して学習する
バッチ学習	データをすべて使用して学習する
ミニバッチ学習	データの中から一部をランダムに抽出して学習する。バッチ学習よりも短時間で最適解にたどり着きやすい。
SGD (確率的勾配降下法)	損失関数を微分して勾配を計算し、勾配方向へ事前に決めた学習係数だけ進むことを繰り返す。パラメータの更新ごとの計算量が少ない為、よく利用されている。現実的な時間で学習を完了するため、ミニバッチとその並列計算を併用するのが普通。
Momentum	SGDを改良したもので、物理的な動きを模倣しており、速度と加速度を持つ。学習率は一定で、以前利用した勾配が速度の中に残る。
AdaGrad	SGDを改良したもので、パラメータそれぞれに個別の学習係数を与えるもの。大きく動いたパラメータの学習係数は小さくなる。
RMSProp	AdaGradの改良版。指数移動平均を蓄積することで、過去に大きく動いたパラメータの学習係数も時間が経つと再度大きく動くようになる。
Adam	移動平均で振動を抑制するモーメンタムと、学習率を調整して振動を抑制するRMSPropを組み合わせている。勾配の平均と分散を推定し利用する。

強化学習

語句	説明
DQN（Deep Q-Network）	行動価値関数（Q値）を CNN に置き換えたモデル。たまたまQ値が高いところを学習してしまう場合がある。
ダブルDQN	DQNはたまたまQ値が高いところを学習してしまう場合があり、それを防ぐ手段としてDQNを二重化したモデル
デュエリングネットワーク	行動価値を状態価値関数（状態）とAdvantage関数（行動）に分割することにより、行動にかかわらず状態を学習することができるようにしたもの。
SARSA	TD法とϵϵ-greedy法を組み合わせて、価値関数の推定と最適方策を同時に求めて行く方法。
noisy network	ネットワークそのものに学習可能なパラメータと共に外乱を与え、それも含めて学習させていく手法。
ε-Greedy法	価値によらず一定確率でランダムに行動を選択することで、選択される行動を広げる。
Rainbow	2017年発表。DQN、Categorical DQN、Multi-Step RL、Double DQN、Prioritized Experience Reply、Dueling Net、Noisy Netという7種類のアルゴリズムを統合したもの
マルチエージェント機械学習	複数の強化学習エージェントが同時に学習をして行動し、あるエージェントが報酬を得た時に他のエージェントにも間接報酬を与える。エージェントが多数存在して相互作用することによって生じる現象を模倣することができる。
状態表現学習	深層強化学習において環境の状態をあらかじめ学習しておく手法。環境の状態をあらかじめ学習しておくことで深層強化学習の学習効率を高める手法。
SAC	連続値制御の深層強化学習モデルである。方策関数(Actor)とsoftQ関数をニューラルネットワークで実装する。ソフトベルマン方程式を用いる。ロボットアームや自動運転のハンドル制御などに利用される。報酬の総和の期待値を最大化することを目的とし、目的関数にエントロピー最大項を加えることで探索を行うことができる。
報酬成型(Reward Shaping)	通常の報酬値に、追加の値を加えることで学習速度を向上させることができる。代表的な手法はPBRS(Potential-based Reward Shaping)。
モンテカルロ法	エピソードに従ってエージェントに行動を最後まで取らせ報酬を得た後、各状態に対して、実際に取られた報酬の平均をとることで期待値を計算する方法。
オフライン強化学習	過去に蓄積されたデータのみで強化学習を行う手法。医療・ロボティクスなどの実環境との相互作用へのリスクの大きい分野で期待されている。
Sim2Real(Simulation-To-Real)	シミュレーションを用いて方策を学習し、その学習した方策を現実に転移させる手法。
ドメインランダマイゼーション(Domain Randomization)	ランダム化されたプロパティを使用して様々な学習用のシミュレーション環境を作成する手法。これらすべての環境で機能するようにモデルを学習する。実データをほとんど必要しない、教師なし学習。
A3C	強化学習の一種で、Asynchronous Advantage Actor-Criticの３つのAをとったもの。Actor-Cirticのプロセスをマルチエージェントで利用する。また、複数ステップ先まで動かして、Q関数の更新を行う。
強化学習における「Actor-Critic」	actorは行動を決定し、criticは環境から情報を集めることで状態の価値を推定し、これに基づいて actorの行動を評価するというプロセスとなる。ロボットの制御などにも活用が進んでおり、Actor-Criticを応用したSoft Actor-Criticという手法がある。
割引率を考慮した報酬	機械学習における報酬はすごく昔のものほど価値が低いというもの。同様に現在の報酬は未来にいくほど価値が低くなる。
強化学習の手法の1つとして利用されている、方策勾配法の説明	方策をあるパラメタで表される関数とし、そのパラメタを学習することで、直接方策を学習していく手法。方策反復法の1つの手法であり、方策勾配定理に基づき実装される。モンテカルロ法は用いない。
sim2real	強化学習において、現実世界とシミュレーションのギャップを様々な方法で埋めるアプローチのこと。

ディープラーニングの画像への応用５分類

応用	説明
クラス分類	画像を分類するタスクで、"犬"や"猫"などの単一のラベルを出力する。ResNet が提案され高い精度の識別性能を誇っている。
物体検出	画像内に含まれる物体を取り囲むようなボックス（矩形領域）とその物体名を出力する。
物体セグメンテーション	画素ごとに物体名のラベルを出力する。対象の境界があいまいであったり、物体同士が重なっている画像でも物体を切り分けてラベリングすることができる可能性がある。
画像キャプション生成	画像の意味合いを理解し、キャプション（脚注）を出力する。画像を認識し,「青い服を着てスマートフォンを操作している」などのようにその対象の動作まで表示できるようになりつつある。
画像生成	画像そのものを生成する。GANやVAEが有名。

データ拡張

手法	詳細
Cutout	画像中のランダムな位置を中心とした正方形領域を固定値0でマスクする。正方形領域の大きさはどのデータセットにおいても同一。
Randaom Erasing	ランダム縦横比の長方形の領域をランダムな値でマスクする。物体検出タスクでは，画像全体をマスクする，物体ごとにマスクする，両方を組み合わせてマスクする，という3パターンの適用方法がオプションとして提案されている。
Hide-and-Seek	CutOutやRandamErasingでは重要な情報を落としすぎたりするため、画像を小さな正方形で分割し、このグリッドの各マスを一定確率でマスクするアルゴリズム
GridMask	四角形のマスク領域を縦横一定の間隔で掛けることで重要な情報を落としすぎないことを目指した。
CutMix	Cutoutの改良版で画像を２枚用意し、一つの画像からもう一つの画像へコピーする手法
Mixup	２つの画像を合成して新たなサンプルを作る
Augmix	複数の変換を掛けた画像を最後に混ぜ合わせる

物体検出（セグメンテーション）の種類

分類	モデル	概要
インスタンスセグメーション	YOLO, YOLACT++, Mask R-CNN(FAIR, Facebook AI Research, 2018)	矩形領域を基本とする境界ボックス単位で物体を検出
セマンテックセグメーション	FCN(2015), Segnet(), DeepLab	ピクセル単位の物体検出。道路や空など形が一定でない対象でも検出できることがある。
パノプティックセグメンテーション	Panoptic-DeepLab (Google, 2020)	インスタンスセグメンテーションとセマンテックセグメンテーションを組み合わせた。

物体検出・姿勢推定モデル

モデル	アプローチ	説明
YOLO	インスタンスセグメーション	インスタンスセグメンテーションによる物体検出。1ステージ型の検出アルゴリズム。You only look onceの略。
SSD	インスタンスセグメーション	YOLOと同系統の1ステージ型の検出アルゴリズムであるが、フィルタサイズを小さくしている。
Segnet	セマンテックセグメーション	エンコーダーとデコーダーを有し、エンコーダ部分はCNNモデル（VGG16）の一部を採用。デコーダ部分では画素数が削減されている画像の画素数をもとに戻すため、Up Sampled層と呼ばれる層で指定したカーネル周りのがぞの中で最大値を有するセルを特定し、その周りをパディングしている。
U-Net	セマンテックセグメーション	Olafらによって生物医学のために開発された。エンコーダーとデコーダーを有し、Skipconnectionと呼ばれるエンコーダ部で取得した画像の特徴マップをデコーダ部で再活用することのできる構造が採用されている。
Open Pose	Bottom-up approach	カーネギーメロン大学のZhe Caoらが2016年に論文発表した。2D画像の複数人物の姿勢を可視化し,効率的に推定する。手法として、まず入力画像から部位の位置の推定（S・confidense maps）と、部位の連関を表す（L・Part Affinity Fields（PAFs））を算出し、その後SとLの集合から同じ人物の部位を組み合わせ、姿勢の状態を出力する.

画像生成・画像変換

モデル	説明
GAN	生成ネットワークと識別ネットワークの二つを競い合わせる深層生成モデルの一種。片方が強くなりすぎないように２つのネットワークの学習は同時に進めていく。JSダイバージェンスを用いている。収束性、モードコラプス、勾配消失の問題点がある。モードコラプスとは生成器がに通った出力しか出さなくなること。
VAE	入力データを圧縮して得られる特徴ベクトル（潜在変数）を確率変数として表す方法。一般的にはＮ次元の潜在変数が、Ｎ次元正規分布に従うように学習する。画像生成などで利用される。KLダイバージェンスを用いている。
Pix2Pix	画像生成アルゴリズムの一種で、画像を変換するディープラーニングのモデル。色を塗ったり、白黒写真をカラー写真に変えるなどに利用される。
CycleGAN	教師なし画像変換。ペアとなる訓練データ無しに、ソースドメインからターゲットドメインへの画像の変換を行う。１対１のサンプルを集めづらい学習に向いている。馬とシマウマの相互変換や、写真とモネの絵の相互変換等に利用される。
AttnGAN	自然言語のテキストの説明から画像を描くAIシステム。テキストを入力するとその絵を出力してくれる。
StyleGAN	GANを一部変換したもの。超高精度な画像を生成することができる。

ご覧いただきありがとうございます。

G検定対策語句まとめ③ – Deeplearning 系列データ/法律編に続きます。

間違いなどございましたらコメント欄からご指摘いただけると助かります。

合格る！G検定対策語句まとめ(カンペ) ②- Deeplearning 画像認識編

ディープラーニングが脚光を浴びた理由

著名なソフト

DeepLearningの手法

パラメータの更新方法

強化学習

ディープラーニングの画像への応用５分類

データ拡張

物体検出（セグメンテーション）の種類

物体検出・姿勢推定モデル

画像生成・画像変換

nishina

【Blogサーバ構築③】WordPressへのログインと初期設定

[2022年版]コスパの良い機械学習用のパソコンの自作：構成と性能編

【サーバ関連】一つのnginxサーバで複数のドメインを持てるようにする

ディープラーニングが脚光を浴びた理由

著名なソフト

DeepLearningの手法

パラメータの更新方法

強化学習

ディープラーニングの画像への応用５分類

データ拡張

物体検出（セグメンテーション）の種類

物体検出・姿勢推定モデル

画像生成・画像変換

nishina

Related Posts