合格る!G検定対策 語句まとめ(カンペ) ②- Deeplearning 画像認識編

G検定を受けるにあたり、G検定出題範囲の語句を表形式でまとめました。
その結果、総文字数23000のまとめが出来上がったため、3回に分けて記事にしていきます。
この記事は3回のうち2回目です。

実際に合格した勉強法はこちら

それでは本題のカンペです。2回目のDeeplearning 画像認識編いってみましょう!

※このまとめは以下のサイトとwikipediaの情報、筆者の記憶を用いて作成しています。

Study AI 様の模擬試験

DIVE INTO EXAM様の模擬試験

G検定 本番困りそうな所まとめ

・参考書

最短突破 ディープラーニングG検定(ジェネラリスト) 問題集

ディープラーニングが脚光を浴びた理由

項目説明
理由1インターネットの発展により、莫大な量の学習データを収集する難易度が下がった
理由2GPU の性能が向上したことで、膨大な量の計算処理が可能となった
理由3ディープラーニングのプログラミング記述を支援するフレームワークが普及した
従来の機械学習に対する優位点機械学習では 特徴量 の設計が精度を大きく左右するが、この特徴量設計を人間が行う必要があるというところに課題がある。ディープラーニングでは 特徴量 をモデル自らが獲得できるようになったことが大きな進歩である。この性質からディープラーニングは 表現学習 の一種に分類されている。

著名なソフト

ソフト名作成者・作成団体説明
SHRDLUテリー・ウィノグラード場合分けによって積み木の世界での対話処理を実現した
ELIZAジョゼフ・ワイゲンバウム特定のルールに従って会話を行うチャットボット。チューリングテストで30%の人間を誤らせた。
PARRYケネス・コルビーELIZAと同時期に開発されたチャットボット。ICCC 1972などでELIZAと会話した。会話記録はRFC439などが有名
MYCINスタンフォード大学エキスパートシステムを使って感染した細菌と有効な抗生物質を特定する。
DENDRALエドワード・ファイゲンバウムエキスパートシステムを使って未知の有機化合物を特定する。
Deep BlueIBMチェス用のAI。世界チャンピオンに勝利した。手法としてモンテカルロ法(力任せの探索)を用いている。
AlphaGoDeepMind (Google)囲碁用のAI。世界チャンピオンに勝利した。
Ponanza山本一成将棋用のAI。プロ棋士に勝利している
AlphaFoldDeepMind (Google)タンパク質の構造を見出し新薬開発に活かすモデルで、CASP13コンテストで優勝した。
AlphaZeroDeepMind (Google)囲碁と将棋とチェス用のAI
Deep DreamDeepMind (Google)2015年発表。通常の画像をまるで夢に出てくるかのような不思議な画像に変換して表示する。
OpenAI FiveOpen AIDota2というコンピュータゲームで2019年に2018年度の世界王者に勝利した。
AlphaStarDeepMind (Google)スタークラフト2というコンピュータゲーム用のAIである
OpenCVIntel画像認識ライブラリ。2006年に1.0がリリースされ、2015年には3.0がリリースされている。
YOLOJoseph Redmonインスタンスセグメンテーションによる物体検出。1ステージ型の検出アルゴリズム。You only look onceの略。

DeepLearningの手法

手法課題の種類主な適用先説明
CNN
(畳み込みニューラルネット)
教師あり画像認識、音声認識画像認識や音声認識に利用されている。ある大きさの領域を集約することで、特徴量を抽出し、画像の変形に強いモデルが作成できる。
RNN
(再起型ニューラルネット)
教師あり時系列データ、音声認識、機械翻訳系列情報を扱う為に、ノードの出力を入力として再利用する方法。音声などの時系列データに利用されている。
LSTM
(LongShortTermMemory)
教師あり時系列データ、音声認識、機械翻訳RNNの勾配消失問題を解決する手法として提案された。基本的には入力ゲート、忘却ゲート、出力ゲートの3ゲートを持つ。
オートエンコーダ
(自己符号化機)
教師なし次元削減入力と出力を一致させる方法。隠れ層を入力層より少なくし、潜在表現を獲得することができる。事前学習などに利用される。
積層オートエンコーダ教師あり次元削減エンコーダおよびデコーダを多層化することで、より複雑で高度な特徴量抽出を狙ったもの。
VAE
(variable auto encoder)
教師なし画像生成入力データを圧縮して得られる特徴ベクトル(潜在変数)を確率変数として表す方法。一般的にはN次元の潜在変数が、N次元正規分布に従うように学習する。画像生成などで利用される。
GAN(Generative Adversarial Network)教師なし画像生成画像を生成する手法で生成敵対ネットワークとも呼ばれる。Generator ができるだけ本物に近い生成物をアウトプットし, Discriminator はそれが正しいものか偽物かどうかを見抜こうとする相互作用の繰り返しにより、本物に近い生成物の構築を促す。
深層ボルツマンマシン教師なし画像認識や音声認識確率的回帰結合型ニューラルネットワークの一種である。観測データの確率場をノードとし、無向の結合で依存関係を表す。
深層信念ネットワーク教師なし画像認識や音声認識制約ボルツマンマシンとベイジアンネットワークを組み合わせたもの。
DQN(深層Q学習)強化学習ゲームのプレイヤーや自動運転など行動価値関数(Q値)を CNN に置き換えたモデル。たまたまQ値が高いところを学習してしまう場合がある。
デュエリングネットワーク強化学習ゲームのプレイヤーや自動運転など行動価値を状態価値関数(状態)とAdvantage関数(行動)に分割することにより、行動にかかわらず状態を学習することができるようにしたもの。
AlexNet教師あり画像認識Deeplearning技術を用いて2012ILSVRC優勝。Deeplearningが注目されるきっかけとなった。CNNベースの10層。ReLU関数を用いることで勾配消失に対応した。
GoogLeNET教師あり画像認識2015のILSVRC分類部門と検出部門で優勝。Inceptionモジュールをつなげることでモデル化。GAP(Global Average Pooling)を導入することで、パラメータ数を削減し、過学習を抑制している。
VGGNet教師あり画像認識2014のILSVRC分類部門で2位。16-19の層を持つ。VGG16: 16層のネットワークからなるアーキテクチャ。VGG19: 19層。
2014年にオックスフォード大学のチームが発表した。
ResNet教師あり画像認識2015のILSVRC優勝。152層ものニューラルネットワークで構成されている。SkipConnectionと呼ばれる層を飛び越える結合により、層が深くなっても伝播のしやすさを確保。残差ブロックを導入することで勾配消失問題に対処し,飛躍的に層を増やすことに成功した.
MobileNet教師あり画像認識スマホなどの小型端末にも乗せられる高性能CNNを作りたいというモチベーションから生まれた軽量かつ(ある程度)高性能なCNN。畳み込みの計算を分割することで計算量の減少を達成した。V1,v2,v3が発表されている。
完全結合ネットワーク(FCN)教師あり画像認識すべての層を畳み込み層としてネットワークを構成するもの。
セマンティック・セグメンテーションに応用されている。
Vision Transformer教師あり機械翻訳自然言語処理の分野で発展したTransformerを画像処理に流用したもの。Vision Transformerは画像を単語のように分割することによりCNNを使用せず、Transformerに近いモデルを使用している。
Seq2Seq
(sequence to sequence)
教師あり機械翻訳機械翻訳などの用途で、入力だけでなく出力も時系列にそった出力を行う為に、エンコーダとデコーダと呼ばれる独立したRNNモデルを有するモデル。入力位置と出力位置が1対1に対応していない場合にもそれぞれ別の時系列データとして扱うことができる。順伝播するネットワークであるため、翻訳の計算時間が長くなる。
Transformer教師あり機械翻訳Self-Attentionと呼ばれるネットワーク構造を利用することで、時間順にデータを読み込まなくてもよい。並列処理を可能にし、翻訳を高速化した。Self-Attentionの導入の跳ね返りは単語の位置関係が把握できなくなることである。これを解決する為に、位置エンコーディングと呼ばれる単語の出現位置情報を付加することで、間接的に単語の位置情報や位置関係を考慮することができるようになった。
WaveNet教師あり音声合成2016 年に DeepMind 社により発表されたニューラルネットワークのアルゴリズム で従来に比べて圧倒的に高い質での音声合成に成功している。
R-CNN教師あり画像認識R-CNNは人間が行う物体認識のように、領域ごとに特徴量を抽出する。Fast R-CNNはR-CNNに比べCNNの演算回数を削減できる可能性が高い。Mask R-CNNのアルゴリズムを用いると、身体のポーズの検出も可能となる可能性が高い。
End-to-End Learning教師ありロボットの学習、音声認識などある一連の動作を学習する際に従来は一つ一つの動作をステップバイステップで学習していたものを、大きな一つのネットワークで表現することで全ての動作を一気に学習することができるようになったことを示す。
Neural ArchitectureSearch(NAS)機械学習モデル自体の生成パラメータとネットワーク構造の最適化も行い、ニューラルネットワークの構造自体がパラメータと重みを最適化する。膨大な計算量が必要。AutoMLを実現するための理論
NASNet機械学習モデル自体の生成CNNの畳み込みやプーリングを行うCNNセルを定義し、CNNセルの最適化を行う。
MnasNet機械学習モデル自体の生成Googleによって発表された。AutoMLを参考にしたモバイル用のCNNモデル設計。処理速度情報を探索アルゴリズムの報酬に組み込むことで処理速度を制約している。

パラメータの更新方法

手法説明
逐次学習(オンライン学習)学習ごとに一つのサンプルを利用して学習する
バッチ学習データをすべて使用して学習する
ミニバッチ学習データの中から一部をランダムに抽出して学習する。バッチ学習よりも短時間で最適解にたどり着きやすい。
SGD
(確率的勾配降下法)
損失関数を微分して勾配を計算し、勾配方向へ事前に決めた学習係数だけ進むことを繰り返す。パラメータの更新ごとの計算量が少ない為、よく利用されている。現実的な時間で学習を完了するため、ミニバッチとその並列計算を併用するのが普通。
MomentumSGDを改良したもので、物理的な動きを模倣しており、速度と加速度を持つ。学習率は一定で、以前利用した勾配が速度の中に残る。
AdaGradSGDを改良したもので、パラメータそれぞれに個別の学習係数を与えるもの。大きく動いたパラメータの学習係数は小さくなる。
RMSPropAdaGradの改良版。指数移動平均を蓄積することで、過去に大きく動いたパラメータの学習係数も時間が経つと再度大きく動くようになる。
Adam移動平均で振動を抑制するモーメンタムと、学習率を調整して振動を抑制するRMSPropを組み合わせている。勾配の平均と分散を推定し利用する。

強化学習

語句説明
DQN(Deep Q-Network)行動価値関数(Q値)を CNN に置き換えたモデル。たまたまQ値が高いところを学習してしまう場合がある。
ダブルDQNDQNはたまたまQ値が高いところを学習してしまう場合があり、それを防ぐ手段としてDQNを二重化したモデル
デュエリングネットワーク行動価値を状態価値関数(状態)とAdvantage関数(行動)に分割することにより、行動にかかわらず状態を学習することができるようにしたもの。
SARSATD法とϵϵ-greedy法を組み合わせて、価値関数の推定と最適方策を同時に求めて行く方法。
noisy networkネットワークそのものに学習可能なパラメータと共に外乱を与え、それも含めて学習させていく手法。
ε-Greedy法価値によらず一定確率でランダムに行動を選択することで、選択される行動を広げる。
Rainbow2017年発表。DQN、Categorical DQN、Multi-Step RL、Double DQN、Prioritized Experience Reply、Dueling Net、Noisy Netという7種類のアルゴリズムを統合したもの
マルチエージェント機械学習複数の強化学習エージェントが同時に学習をして行動し、あるエージェントが報酬を得た時に他のエージェントにも間接報酬を与える。エージェントが多数存在して相互作用することによって生じる現象を模倣することができる。
状態表現学習深層強化学習において環境の状態をあらかじめ学習しておく手法。環境の状態をあらかじめ学習しておくことで深層強化学習の学習効率を高める手法。
SAC連続値制御の深層強化学習モデルである。方策関数(Actor)とsoftQ関数をニューラルネットワークで実装する。ソフトベルマン方程式を用いる。ロボットアームや自動運転のハンドル制御などに利用される。報酬の総和の期待値を最大化することを目的とし、目的関数にエントロピー最大項を加えることで探索を行うことができる。
報酬成型(Reward Shaping)通常の報酬値に、追加の値を加えることで学習速度を向上させることができる。代表的な手法はPBRS(Potential-based Reward Shaping)。
モンテカルロ法エピソードに従ってエージェントに行動を最後まで取らせ報酬を得た後、各状態に対して、実際に取られた報酬の平均をとることで期待値を計算する方法。
オフライン強化学習過去に蓄積されたデータのみで強化学習を行う手法。医療・ロボティクスなどの実環境との相互作用へのリスクの大きい分野で期待されている。
Sim2Real(Simulation-To-Real)シミュレーションを用いて方策を学習し、その学習した方策を現実に転移させる手法。
ドメインランダマイゼーション(Domain Randomization)ランダム化されたプロパティを使用して様々な学習用のシミュレーション環境を作成する手法。これらすべての環境で機能するようにモデルを学習する。実データをほとんど必要しない、教師なし学習。
A3C強化学習の一種で、Asynchronous Advantage Actor-Criticの3つのAをとったもの。Actor-Cirticのプロセスをマルチエージェントで利用する。また、複数ステップ先まで動かして、Q関数の更新を行う。
強化学習における「Actor-Critic」actorは行動を決定し、criticは環境から情報を集めることで状態の価値を推定し、これに基づいて actorの行動を評価するというプロセスとなる。ロボットの制御などにも活用が進んでおり、Actor-Criticを応用したSoft Actor-Criticという手法がある。
割引率を考慮した報酬機械学習における報酬はすごく昔のものほど価値が低いというもの。同様に現在の報酬は未来にいくほど価値が低くなる。
強化学習の手法の1つとして利用されている、方策勾配法の説明方策をあるパラメタで表される関数とし、そのパラメタを学習することで、直接方策を学習していく手法。方策反復法の1つの手法であり、方策勾配定理に基づき実装される。モンテカルロ法は用いない。
sim2real強化学習において、現実世界とシミュレーションのギャップを様々な方法で埋めるアプローチのこと。

ディープラーニングの画像への応用5分類

応用説明
クラス分類画像を分類するタスクで、"犬"や"猫"などの単一のラベルを出力する。ResNet が提案され高い精度の識別性能を誇っている。
物体検出画像内に含まれる物体を取り囲むようなボックス(矩形領域)とその物体名を出力する。
物体セグメンテーション画素ごとに物体名のラベルを出力する。対象の境界があいまいであったり、物体同士が重なっている画像でも物体を切り分けてラベリングすることができる可能性がある。
画像キャプション生成画像の意味合いを理解し、キャプション(脚注)を出力する。画像を認識し,「青い服を着てスマートフォンを操作している」などのようにその対象の動作まで表示できるようになりつつある。
画像生成画像そのものを生成する。GANやVAEが有名。

データ拡張

手法詳細
Cutout画像中のランダムな位置を中心とした正方形領域を固定値0でマスクする。正方形領域の大きさはどのデータセットにおいても同一。
Randaom Erasingランダム縦横比の長方形の領域をランダムな値でマスクする。物体検出タスクでは,画像全体をマスクする,物体ごとにマスクする,両方を組み合わせてマスクする,という3パターンの適用方法がオプションとして提案されている。
Hide-and-SeekCutOutやRandamErasingでは重要な情報を落としすぎたりするため、画像を小さな正方形で分割し、このグリッドの各マスを一定確率でマスクするアルゴリズム
GridMask四角形のマスク領域を縦横一定の間隔で掛けることで重要な情報を落としすぎないことを目指した。
CutMixCutoutの改良版で画像を2枚用意し、一つの画像からもう一つの画像へコピーする手法
Mixup2つの画像を合成して新たなサンプルを作る
Augmix複数の変換を掛けた画像を最後に混ぜ合わせる

物体検出(セグメンテーション)の種類

分類モデル概要
インスタンスセグメーションYOLO, YOLACT++, Mask R-CNN(FAIR, Facebook AI Research, 2018)矩形領域を基本とする境界ボックス単位で物体を検出
セマンテックセグメーションFCN(2015), Segnet(), DeepLabピクセル単位の物体検出。道路や空など形が一定でない対象でも検出できることがある。
パノプティックセグメンテーションPanoptic-DeepLab (Google, 2020)インスタンスセグメンテーションとセマンテックセグメンテーションを組み合わせた。

物体検出・姿勢推定モデル

モデルアプローチ説明
YOLOインスタンスセグメーションインスタンスセグメンテーションによる物体検出。1ステージ型の検出アルゴリズム。You only look onceの略。
SSDインスタンスセグメーションYOLOと同系統の1ステージ型の検出アルゴリズムであるが、フィルタサイズを小さくしている。
Segnetセマンテックセグメーションエンコーダーとデコーダーを有し、エンコーダ部分はCNNモデル(VGG16)の一部を採用。デコーダ部分では画素数が削減されている画像の画素数をもとに戻すため、Up Sampled層と呼ばれる層で指定したカーネル周りのがぞの中で最大値を有するセルを特定し、その周りをパディングしている。
U-NetセマンテックセグメーションOlafらによって生物医学のために開発された。エンコーダーとデコーダーを有し、Skipconnectionと呼ばれるエンコーダ部で取得した画像の特徴マップをデコーダ部で再活用することのできる構造が採用されている。
Open PoseBottom-up approachカーネギーメロン大学のZhe Caoらが2016年に論文発表した。2D画像の複数人物の姿勢を可視化し,効率的に推定する。手法として、まず入力画像から部位の位置の推定(S・confidense maps)と、部位の連関を表す(L・Part Affinity Fields(PAFs))を算出し、その後SとLの集合から同じ人物の部位を組み合わせ、姿勢の状態を出力する.

画像生成・画像変換

モデル説明
GAN生成ネットワークと識別ネットワークの二つを競い合わせる深層生成モデルの一種。片方が強くなりすぎないように2つのネットワークの学習は同時に進めていく。JSダイバージェンスを用いている。収束性、モードコラプス、勾配消失の問題点がある。モードコラプスとは生成器がに通った出力しか出さなくなること。
VAE入力データを圧縮して得られる特徴ベクトル(潜在変数)を確率変数として表す方法。一般的にはN次元の潜在変数が、N次元正規分布に従うように学習する。画像生成などで利用される。KLダイバージェンスを用いている。
Pix2Pix画像生成アルゴリズムの一種で、画像を変換するディープラーニングのモデル。色を塗ったり、白黒写真をカラー写真に変えるなどに利用される。
CycleGAN教師なし画像変換。ペアとなる訓練データ無しに、
ソースドメインからターゲットドメインへの画像の変換を行う。1対1のサンプルを集めづらい学習に向いている。馬とシマウマの相互変換や、写真とモネの絵の相互変換等に利用される。
AttnGAN自然言語のテキストの説明から画像を描くAIシステム。テキストを入力するとその絵を出力してくれる。
StyleGANGANを一部変換したもの。超高精度な画像を生成することができる。

ご覧いただきありがとうございます。

G検定対策 語句まとめ③ – Deeplearning 系列データ/法律編に続きます。

間違いなどございましたらコメント欄からご指摘いただけると助かります。