G検定を受けるにあたり、G検定出題範囲の語句を表形式でまとめました。
その結果、総文字数23000のまとめが出来上がったため、3回に分けて記事にしていきます。
実際に合格した勉強法はこちら
それでは本題のカンペです。まずは基礎知識編いってみましょう!
※このまとめは以下のサイトとwikipediaの情報、筆者の記憶を用いて作成しています。
・参考書
created by Rinker
¥2,618
(2025/04/04 23:32:05時点 楽天市場調べ-詳細)
最短突破 ディープラーニングG検定(ジェネラリスト) 問題集
Contents
年表
年 | 事柄 | 人や団体 | 補足説明 |
---|---|---|---|
1950 | チューリングテストの提唱 | チューリング | チューリングテスト:テストを通して、審査員が人間とコンピュータを判別し間違えたら、そのコンピュータは人間並みの知能を持っているかのような振る舞いができたと判断する。 |
1956 | ダートマス会議にて「人工知能」という言葉が登場 | ジョン・マッカーシー | 世界で初めて「人工知能」という言葉が使用された。 |
1958 | ニューラルネットワークのパーセプトロン開発 | フランク・ローゼンブラット | S層(感覚層、入力層)、A層(連合層、中間層)、R層(反応層、出力層)の3つから構成される。S層とA層の間はランダムに接続されており、S層には外部から信号が与えられる。A層はS層からの情報を元に反応する。R層はA層の答えに重みづけをして、多数決を行い、答えを出す。 |
1964 | 人口対話システムELIZA開発 | Joseph Weizenbaum(MIT) | SLIPという言語で作成 |
1965 | 世界初のエキスパートシステムであるDendral開発 | スタンフォード大学:エドワード・ファイゲンバウム、Bruce Buchanan、ジョシュア・レーダーバーグ、Carl Djerassi | 未知の有機化合物を質量分析法で分析し、有機化学の知識を使って特定する |
1972 | エキスパートシステムのMYCIN開発 | スタンフォード大学 | DENDRALから派生した医療用のエキスパートシステム。システムは伝染性の血液疾患を診断し、抗生物質を推奨するようにデザインされていて、患者の体重のために供与量を調節する。 |
1975 | 遺伝的アルゴリズムの提案 | ミシガン大学のJohn Henry Holland | 個別のパラメータをもつモデルを複数用意し、集団を形成する。集団のモデルをれぞれに同じ課題を解かせ、集団の中で成績がよかったもののパラメータを組み合わせて新たな集団を作り(交叉)、課題を解かせることを繰り返す。局所解を回避するためにランダムにパラメータを変化させること(突然変異)も行う。 |
1979 | MYCINの知識表現と推論を一般化したEMYCIN開発 | Alan Bundy | MYCINシステムの汎用化ツール。エキスパートシステム構築支援ツールの典型といわれる。 |
1979 | ネオコグニトロンの提案 | 福島 | 人間の視覚を模した人口ニューラルネットワークで、画像の濃淡のパターンを検出する単純型細胞(S細胞)と物体の位置変更を許容する複雑型細胞(C細胞)の2の層が交互に積み重なっており、畳み込みニューラルネットワークのさきがけとなった。 |
1982 | 第五世代コンピュータープロジェクト | 通商産業省(現経済産業省)所管の新世代コンピュータ技術開発機構(ICOT) | 1982年から1992年にかけて進めた国家プロジェクトで、人工知能コンピュータの開発が目的にされており、総額で540億円の国家予算が投入された。非ノイマン型計算ハードウェア、知識情報処理ソフトウェア、並行論理プログラミング言語がプロジェクトの三本柱とされた。 |
1986 | 誤差逆伝播法(back propagation)の発表 | デビッド・ラメルハート、ジェフリー・ヒントン、ロナルド・J・ウィリアムス | 出力と正解の誤差を入力層の方向に向かって逆向きに重みの値を更新していく学習していく手法 |
1998 | LeNetの提案 | ヤン・ルカン | ネオコグニトロンにバックプロパゲーションによる教師あり学習を適用した。 |
2006 | ディープラーニングの提唱 | ジェフェリー・ヒントン | 局所最適化と勾配消失問題を解決するためのアイデアとしてオートエンコーダ及びディープビリーフネットワークという手法を提案 |
2011 | Watsonがアメリカのクイズ番組で歴代チャンピオンを破る | IBM | IBMが開発した質問応答システムであるWatsonが「ジョパティ!」というクイズ番組で歴代のチャンピオンを破った。 Watsonは自然言語を理解し人間の意思決定を助けるものとして現在でも広く使用されている. |
2012 | AlexNet発表 | Alex Krizhevsky, Ilya Sutskever, ジェフェリー・ヒントン (トロント大学) | Deeplearning技術を用いてILSVRC優勝。Deeplearningが注目されるきっかけとなった。CNNベースの10層。ReLU関数を用いることで勾配消失に対応した。 |
2012 | Google の「猫」 | Google社が2012年に大量の画像データから「猫」を抽出し,その隠れ層では猫の概念と思われる画像が抽出された.これにより,コンピュータがディープラーニングにより意味を理解できたと考えられた. | |
2014 | GoogLeNET発表 | 2015のILSVRC分類部門と検出部門で優勝。Inceptionモジュールをつなげることでモデル化。GAP(Global Average Pooling)を導入することで、パラメータ数を削減し、過学習を抑制している。 | |
2014 | VGGNet発表 | オックスフォード大学 | 2014のILSVRC分類部門で2位。16-19の層を持つ |
2014 | GAN発表 | イアン=グッドフェロー | 画像を生成する手法で生成敵対ネットワークとも呼ばれる。Generator ができるだけ本物に近い生成物をアウトプットし, Discriminator はそれが正しいものか偽物かどうかを見抜こうとする相互作用の繰り返しにより、本物に近い生成物の構築を促す。 |
2015 | ResNet発表 | MicroSoft | 2015のILSVRC優勝。152層ものニューラルネットワークで構成されている。SkipConnectionと呼ばれる層を飛び越える結合により、層が深くなっても伝播のしやすさを確保。残差ブロックを導入することで勾配消失問題に対処し,飛躍的に層を増やすことに成功した. |
知能の全体像
階層 | 説明 |
---|---|
第一階層 | パターン処理。環境からの情報のセンシングとそれに応じた行動というループが基本とされる。この際に重要となるのが 「身体性」という性質で、コンピュータはハードウェアを通じて外部環境との相互作用を得る。 |
第二階層 | 記号の処理。人間はこれを通じて物事を抽象的に認識できるようになり、チェスなどのゲームを楽しむようになった。 |
第三階層 | 他者とのインタラクション。我々が知識を獲得していく上で不可欠な営み。 |
機械学習の発展
名前 | 説明 |
---|---|
第1次AIブーム | 推論と探索が中心。1950-1960年頃に流行し、トイプロブレムと呼ばれるような簡単な迷路などの問題を解くことができるAIが開発されたが、複雑な問題には対応できなかった。 |
第2次AIブーム | 専門家の知識を実装した、エキスパートシステムの台頭。しかしながら、専門家の知識をヒアリングし、エキスパートシステム自体を構築するのに非常に労力がかかることが課題であった。 |
第3次AIブーム | ディープラーニングが開発され、特徴表現学習ができるようになった。画像認識を行うILSVRCでディープラーニングを用いたモデルが優勝したり、囲碁のAlphaGoや将棋のPonanzaがプロ棋士に勝つなどしている。 |
エキスパートシステムシステムの課題
項目 | 内容 |
---|---|
学習コスト | 知識をコンピュータに与えるために膨大なコストをかけて専門家にヒアリングをして知識を取り出さねばならないこと |
答えの一貫性 | ルールの数が莫大になった際に,ルール間の矛盾が生じたり,答えに一貫性が失われる場合が生じること |
あいまいな質問への対応 | 暗黙的で明文化されていない,曖昧な質問に対して答えることが難しいこと |
機械学習の3分類
学習の分類 | 説明 |
---|---|
教師あり学習 | 各データにおいて入力とそれに対応する正しい出力(分類)がセットになった訓練データが与えられ、ある入力があった際にそれがどのような出力を返すべきかを学習させる。 |
教師なし学習 | 入力用のデータのみを与えられ、データの中に現れる一定のパターンやルールを抽出する。共通項を見出し、カテゴリ分けを行ったりするのに使われる。 |
強化学習 | エージェントが自身の報酬を最大化させることを目指して学習する手法である。主に囲碁や将棋などのゲームのプログラムや自動運転に利用されている。 |
機械学習の定理や課題、語句の定義
名前 | 説明 |
---|---|
フレーム問題 | ジョン・マッカーシーが発起した課題であり、あるタスクを実行する際に、タスクに関係のある知識だけを取り出して利用するということをコンピュータに実装するのが非常に難しいという課題 |
シンボルグラウンディング問題 | 記号とそれが意味するものとを適切に結びつけるタスクでコンピュータでは実現が難しいという課題。 |
次元の呪い | 機械学習ではデータの次元が増えると計算量が爆発的に増大し、必要なデータや時間が大量になってしまうという問題。 |
バーニーおじさんのルール | ディープラーニングの学習にはパラメータの10倍のデータが必要という経験則。 |
みにくいアヒルの子理論 | 機械学習ではアヒルの子と醜いアヒルの子の類似性は他のアヒル同士の類似性と同じになるという理論。 |
ノーフリーランチ定理 | どのような問題に対しても万能な汎用アルゴリズムは存在しないという定理。 |
モラベックスのパラドックス | 機械にとっては高度な推論よりも、1歳児レベルの知恵や運動スキルを身につける方が難しいというパラドックス。 |
グルーのパラドックス | 命題の取り方によっては帰納法が破綻するというパラドックス。 |
弱いAI | 何かのタスクに特化したAI |
強いAI | コンピュータが、幅広い知識と自意識を持つこと |
オントロジー | 哲学用語としては、「存在論」を意味し、情報科学の分野では、「概念化の明示的な仕様」を意味する。セマンティックウェブなどで使用される概念を定義するための辞書としての役割がある。 |
統計・機械学習の基本語句
キーワード | 説明 |
---|---|
正規分布 | 確率論や統計学で用いられる連続的な変数に関する確率分布の一つ。データが平均値の付近に集積するような分布を表す。ガウス分布ともいう。 |
標準偏差 | データや確率変数の、平均値からの散らばり具合(ばらつき)を表す指標の一つである。分散の非負の平方根。 |
χ二乗分布 | 確率分布の一種で、推計統計学で最も広く利用されるものである。独立に標準正規分布に従う k個の確率変数の二乗和が従う分布を自由度kのχ二乗分布という。 |
t分布の説明 | 連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される。t検定にも利用される。スチューデントのt分布とも呼ばれ、自由度によって分布の形が変化する。 |
P値 | 統計的有意性を判断する際に用いられる有意確率 |
訓練誤差 | 機械学習のモデルを学習した際の誤差。 |
汎化誤差 | データの母集団に対する誤差の期待値。実際に運用する際の誤差に近いものであり、この汎化誤差を最小化できるパラメータを得ることが理想 |
KLダイバージェンス | 2つの確率分布がどの程度似ているかを表す尺度で非負の値をとる。2つの確率分布が同じ場合、値は0となる |
損失関数 | 教師あり学習で、モデルの出力と正解ラベルの誤差を表す関数 |
決定係数 | 回帰分析などで、データに対する推定された回帰式の当てはまりの良さを表す係数 |
最尤推定 | ロジスティック回帰の学習に用いられる。最尤推定を行うことで最も確からしいパラメータを獲得することができる。 |
局所最適解 | 勾配降下法において、局所的に誤差が少なくなる点のこと。対義語は大域最適解。勾配が0付近となるため、誤差は最小ではないがその点に収束する。 |
多重共線性 | 重回帰分析などで発生する課題で、説明変数の中に相関係数が高い(類似した)変数があるときに発生し、標準誤差の増加など予測が上手くいかなくなる |
内部共変量シフト | トレーニングの過程で各レイヤーのパラメータが変化することで生じる、特定のレイヤーに入力されるデータ分布の変化のこと。出力の偏りをなくすバッチ正規化(Batch Normalization)で対応される |
過学習 | モデルが訓練データに適合しすぎてしまい、汎用性がなくなること。データ量の増加、正則化、早期打ち切りなどが対策となる。 |
勾配消失 | (勾配消失)は極端に層の多いニューラルネットワークで発生する問題。誤差逆伝播法で誤差の勾配が入力層に伝播する過程で0に近づいてしまい重み更新が進まず、学習が進まなくなる。 |
勾配爆発 | 主にRNNなどで発生し、誤差の勾配が異常に増加する |
計算量増加 | 誤差逆伝播法の考案前は各ノードで微分を行なっていたため、計算量が多く層の数を増やすのが難しかった |
エポック | ディープラーニングの学習の過程において、訓練データを何回繰り返し学習させるか |
イテレーション | 一回のエポック内の学習の実行回数 |
Adversarial Examples | 人間では認識しづらいが、AIが認識を誤るような情報を加えたデータのこと |
XAI | Explainable AI、説明可能なAIのこと。DARPAが投資プログラムを発表した。 |
プラトー | 学習を重ねても、特定の次元においては最小値だが別の次元から見ると最大値である鞍点から抜け出せない状態。 |
LOD | ウェブ上でコンピュータ処理に適したデータを公開・共有するための方法。 |
バウンディングボックス | 物体検出で、画像の中から位置とカテゴリーの特定を行うために用いられる矩形領域。 |
協調フィルタリング | 顧客の行動履歴などの情報を元に類似性などを関連付ける方法。顧客が好みそうな商品やコンテンツなどを推薦することに使われている。 |
機械学習の主な手法
手法名 | 学習大別 | 適用できる問題 | 説明 |
---|---|---|---|
k近傍法(kNN) | 教師あり学習 | 分類問題 | 与えられた学習データをベクトル空間上にプロットした後、未知のデータに対し、そこから距離が近い順に任意のk個を取得し、その多数決でデータが属するクラスを推定する。 |
k-means法 | 教師なし | クラスタリング | いくつかのクラスタ(分類)を用意し、その中心を計算する。その後、中心とそれぞれのサンプルの距離を計算し、サンプルを最も近い中心が属するクラスタに設定し直す。・この2つを中心の移動量が一定を下回るまで繰り返す。非階層型クラスタリング。 |
ロジスティック回帰 | 教師あり | 分類 | 尤度関数の最小化をする線形回帰によって対数オッズを予測し、ロジット変換によって正規化することで各クラスに属する確率を計算する。 |
線形回帰 | 教師あり | 回帰 | 標本値と予測値の誤差を最小化する線形関数を見つける |
決定木 | 教師あり | 回帰・分類 | データを木構造をとる有向グラフで表し、条件分岐の繰り返しによって表されるモデルのこと。条件分岐は情報利得が最大となるように決定する。数値データならば回帰木、分類データならば分類木と呼ぶ。決定木は SVM やニューラルネットワークなどの手法と比較して分析結果を説明しやすいことと、データの前処理が少なく済むという特徴がある。 |
ランダムフォレスト | 教師あり | 回帰・分類 | 決定木にアンサンブル学習を取り入れたもの。過学習気味の木を複数作成し、出力結果の平均をとると、汎化性能が向上するという逆転の発想の手法。 |
サポートベクターマシン | 教師あり | 分類問題 | 分類問題において、比較的識別能力の高いモデルを構築できる。SVMはグループ間のマージンが最大になるような境界を求める方法で、これにより出来るだけ汎化性能を高め、未知のデータを適切に分類しやすくしている。 |
PCA(主成分分析) | 教師なし | クラスタリング、次元削減 | 線形結合からデータ内の分散が大きくなるような特徴量を見つける。各成分は直交している。 |
Q学習 | 強化学習 | - | 報酬を最大化させる方策を見つけるように学習する方法。 |
HMM(隠れマルコフモデル) | 教師あり | 時系列パターンの認識 | 確率モデルの1つ。観測されない(隠れた)状態をもつマルコフ過程のモデル。連続的かつ伸縮しうる信号列のパターン抽出には適しているが、長いパターンには適していない。局所解に陥りやすい。混合正規分布モデルに基づく隠れマルコフモデルとして、GMM-HMMがある。 |
DBSCAN | 教師なし | クラスタリング | 密度準拠クラスタリングアルゴリズム。ある空間に点集合が与えられたとき、互いに密接な点をグループにまとめ、低密度領域にある点を外れ値とする。非階層型クラスタリング。 |
群平均法 | 教師なし | クラスタリング | 2つのクラスターの全ての要素の組み合わせについて距離を求め、その平均値を基にクラスター間の距離を決定する手法のこと。階層型クラスタリングで、デンドログラムで表現可能 |
混合ガウスモデル(GMM) | 教師なし | クラスタリング | 与えられたデータセットを、複数の正規分布の重ね合わせで表現する。確率密度関数が得られる (確率分布として表現できる)。 サンプルごとに、各クラスターに所属する確率が得られる。 |
パーセプトロン | 教師あり | 回帰・分類 | 神経細胞のニューロンの構造を模しており、とてもシンプル。各変数を入力し、その入力データそれぞれに重みをかけて総和をとり、その値が閾値を超えたかどうかによって分類する。分類直前に活性化関数と呼ばれる関数を用いる場合がほとんど。課題はデータが線形分離可能ではないと分類不可であること。簡単な非線形問題が解けないことをXOR問題と呼ぶ。 |
機械学習の前処理
手法 | 説明 |
---|---|
正規化 | ニューラルネットワークの入力を事前に0から1の範囲にスケーリングすること。Min-max Normalizationやmean Normalization がある。 |
標準化 | データを平均をが0、標準偏差が 1の 標準正規分布に従うように変換する。 |
白色化 | すべての特徴量に相関がなくなるようにする。 |
正則化 | パラメータのノルムが大きくなりにくくする。過学習の回避や説明変数の削減に用いられ、誤差関数にパラメータの和を付加することで行われる。 |
L1正則化 | 誤差関数にパラメータの絶対値の和を加える方法。重要度の低い特徴量の重みが0になる為、次元削減が可能(スパース化)。L1正則化を用いた線形回帰をLasso回帰という。 |
L2正則化 | 誤差関数にパラメータの二乗和を加える方法。こちらは重要度の低い特徴量の重みは小さくなるものの、ゼロにはならない。荷重減衰ともよび、主に過学習を防ぐために用いられる。L2正則化を用いた線形回帰をRidge回帰と呼ぶ。 |
ElasticNet | L1正則化とL2正則化の中間。Lasso回帰のモデルに取り込める説明変数の数に制限がある」という問題点をカバーした。 |
平滑化 | 他のデータから大きく外れているデータを平均化あるいは除去することで合理性を保つ。 |
ヒストグラム平均 | 画素ごとの明るさをスケーリングする。 |
アフィン変換 | 機械学習などで用いる画像を変形させたい場合に行う。拡大・縮小、平行移動、回転、せん断を行うことができる。 |
学習の際の工夫
名前 | 分類や適用先のモデルなど | 説明 |
---|---|---|
量子化 | 機械学習全般 | 機械学習において演算に用いる数値の表現を浮動小数点数から整数に変換すること。 |
early stopping | 機械学習全般 | 過学習を起こす前に学習を終了する手法。 |
自己符号化器 (Autoencoder) | 次元圧縮・次元削減 | 2006年にジェフリー・ヒントンらが提唱したニューラルネットワークを使用した次元圧縮のためのアルゴリズム。 |
主成分分析(PCA) | 次元圧縮・次元削減 | 第一主成分を求め、それに直交する第二主成分を求め、、、と順に直交する成分を求めていく |
t-SNE | 可視化 | 高次元での距離分布が低次元の距離分布にも合致するように非線形の変換を行う |
スラック変数 | SVM | SVMにおいて、グループ分けの際に誤った分類をどれだけ許容するかを決める値 |
カーネル法 | SVM | SVMにおいて、線形分離では分類が不可能なデータセットを分類する為の方法。具体的にはデータの次元を増やすことで対応する。例えば2次元問題を3次元に拡張し、データをうまく分割できる線を探す課題ではなく、面を探す課題に変換する。 |
カーネルトリック | SVM | SVMにおいて、内積計算をカーネル関数というシンプルな関数へ置換えることで、計算量を大幅に削減する方法。 |
アンサンブル学習 | - | あまり性能が高くないモデルを組み合わせることをアンサンブル学習と呼び、汎化性能が高くなることが知られている。アンサンブル学習の方法として、バギングやブ―スティングがある。 |
バギング | アンサンブル学習 | 複数のモデルを別々に学習させ、各モデルの平均や多数決によって最終的な判断をする手法。 |
ブースティング | アンサンブル学習 | 弱い分類器を何度も学習させることにより性能を高めること。 |
グリッドサーチ | ハイパーパラメータの探索 | ハイパーパラメータの探索方法で、初期のパラメータの値をいくつか用意し、それぞれの値で学習し、最も良いパラメータを探していく。 |
ランダムサーチ | ハイパーパラメータの探索 | ハイパーパラメータの探索方法で、上限数を設定した上でパラメーターをランダムに選び検証することで良いパラメータを探していく。 |
Xavierの初期値 | 活性化関数の初期値 | 線形な活性化関数に対してノード数の平方の逆数で初期化。 sqrt(1.0 / n)を標準偏差とする初期値に設定する。 |
Heの初期値 | 活性化関数の初期値 | 非線形な活性化関数にも対応するためXavierの2倍の範囲で初期化。sqrt(2.0 / n)を標準偏差とする初期値に設定する。 |
DropOut | DeepLearning | 過学習対策として用いられる。各ノードをランダムに無効化して、学習時に学習されないノードを作ることで、モデルの汎化性能を向上する。 |
ReLU | DeepLearning | 勾配消失対策。微分が1となる関数を用いることで、Back Propagation時に、情報が入力層側に伝わりやすくする。 |
畳み込み層 | DeepLearning | フィルタを用いて特徴を抽出する。数式の形が畳み込み積分に類似していることからこの名前となった。単純型細胞群に相当する。 |
プーリング層 | DeepLearning | プーリング層ではあるピクセルの周囲のセルを一つの値に集約し、特徴の位置ずれに対して許容度を持たせる。マックスプーリングは最大値で、アベレージプーリングは平均値で集約する。 |
バッチ正規化 | DeepLearning | 各層において活性化関数をかける前に伝播してきたデータを正規化する処理である。①勾配消失の防止、②学習の高速化、③過学習の防止の3つの効果がある。 |
プルーニング | DeepLearning | ニューラルネットワークの重み(パラメータ)の一部を取り除く手法。ニューラルネットワークのレイヤー間のつながり(パラメータ)を削除し、パラメータの数を減らして計算を高速化することができる. |
モデルの再利用 | DeepLearning | 特に画像認識では入力層付近の特徴量は抽象的な表現が強くなり、出力層付近の特徴量は詳細な表現となる。従って既に訓練されたモデルを転用することでモデルのトレーニングを効率化することができる。 |
転移学習 | モデルの再利用 | 最終出力層のみを置き換えて新規問題に対して学習させる方法 |
ファインチューニング | モデルの再利用 | 最終出力層だけでなく、モデル全体の重みも少し修正することで、新規問題に対して学習させる。既存モデルに対して大きな変更がされないように、学習済みの層の学習率を低く設定する場合が多い。 |
蒸留 | モデルの再利用 | 学習済みモデルに与えた入力とそれに対する出力を学習データとし、新たなシンプルなモデルを訓練すること。必要な計算リソースを削減できる。 |
インセプションモジュール | GoogLeNET | 小さなネットワークを1つのモジュールとして定義している ネットワークを分岐させ、サイズの異なる畳み込みを行う。 複数のフィルタ群によるブロックから構成される。 |
Dilated Convolution | 畳み込み層 | フィルターとの積を取る相手の間隔をあける畳み込みのこと。カーネル自体は畳み込み層と同様に行列を定義するが、スキャンの際に一定の間隔で画素を読み込まないことで結果的に広範囲の領域を一度にスキャンすることができる仕組みである。 |
Depthwise Separatable Convolution | 畳み込み層 | 通常のConvolutionの計算量を削減したもの。Nチャネル数のデータに一辺のサイズがKのM個のフィルタを畳込み演算するときのパラメータ数はM×K×K×Nとなる一方、Depthwise Separable Convolutionでは(M+K×K)Nとなる。従って、1/(K×K)+1/M)だけパラメータ数がへる |
SkipConnenction | DeepLearning(ResNet) | 勾配消失対策。層を飛び越えるような結合をもつことで、Back Propagation時に、情報が入力層側に伝わりやすくする。 |
ニューラル常微分方程式 | ResNet | ResNetの課題であった多くのメモリと時間を要する課題を解決するため、中間層を微分方程式として捉える手法であり、NIPS2018のベストペーパーに選ばれた。 |
データ拡張 | 画像認識モデル | 画像データに回転や移動を加えることにより水増しすること。 データ拡張を行うことで、同じ物体に対する色々な見え方の学習を進めることができる。画像の意味が変わらない程度に留める必要がある。 |
MAML(Model-Agnostic Meta-Learning、マムル) | 回帰、分類、強化学習等のタスク | メタ学習の一種で初期値を効果的に求める方法。更新後の目的関数の値の和が小さくなるように初期パラメータを決定する。最適化処理において、勾配の勾配を求める。 |
価値反復法 | 強化学習 | 行動価値と状態価値の2種類の価値を定義し、TD誤差が可能な限り小さくなるまで学習を行う。Sarsaはアルゴリズムの代表例の1つである。 |
モデルの評価方法/データ分割方法
評価指標 | 使用分野 | 説明 |
---|---|---|
混同行列 | 分類 | 二値分類の正解・不正解の種類であるTP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)の4種類を行列形式で表したもの。正しい分類はTP(真陽性)、TN(真陰性)、誤った分類はFP(偽陽性)、FN(偽陰性)。 |
正解率 Accuracy | 分類 | 全データの内、予測値と標本値が一致したものの割合。全予測正答率。100%に近い程良い。(TP+TN)/(TP+FP+FN+TN) |
適合率 Precision | 分類 | 正値を予測したデータの内、標本値でも正値だったデータの割合。正予測の正答率。100%に近いほど良い。(TP)/(TP+FP) |
再現率 Recall | 分類 | 標本値が正値になっているデータの内、正値を予測できたデータの割合。正に対する正答率。100%に近いほど良い。(TP)/(TP+FN) |
特異率 Specificity | 分類 | 負値を予測したデータの内、標本値でも負値だったデータの割合。負に対する正答率。(TN)/(FP+TN) |
F値 F-measure | 分類 | 適合率と再現率の調和平均(2*Precision*Recall)/(Precision+Recall) |
PR曲線 | 分類 | トレードオフの関係となるPrecision と Recall を二次元平面にプロットしたもの。 |
AUC | 分類 | Area Under the Curveの略でPR曲線の面積を示す。基本的には面積が大きいほど性能が良いと判断される。 |
ROC曲線 | 分類 | Receiver Operator Characteristics Curve。TPR(Recall)とFPR(FP/(FP+TN))で曲線を書く。TPRのみ高いのが理想なので、曲線の下側の面積は小さいほうが良い。 |
RMSE | 回帰 | 予測値と標本値の誤差を二乗して平均を出し、平方根を取ったもの。0に近いほど良い。 |
AIC(赤池情報量規準 | 分類 | 観測されるデータとモデルの予測値の間の誤差を示す基準値であり、予測・分類精度が高く、説明変数が少ないモデルを高く評価するように定義された指標。値が小さいほど良い。 |
Hold-out ホールドアウト法 | データの分割方法 | 訓練データとテストデータを分割し、訓練データがテストデータに混ざらないようにして検証すること。この際、訓練に使われなかったデータをOOF(Out of Fold)と言う。 |
k-Fold k-分割交差検証 | データの分割方法 | K-Foldは、一度学習用データとテスト用データに分けた後、その学習用データをさらに、k分割して、学習用データとvalidation用のデータを作る方法。K分割した後の一つのかたまりをValidationデータとし、残りで学習することをk回繰り返す。K=4か5を取ることが多い。 |
機械学習ライブラリやプラットフォーム
名前 | 開発元 | 説明 |
---|---|---|
Chainer | Preferred Networks(PFN) | PyTorchの前身。計算グラフの構築と順伝播処理の実行をを並行して実行するDefine-by-runという方法が特徴。 |
CNTK | Microsoft | Microsoft Cognitive Toolkit(CNTK)(マイクロソフトコグニティブツールキット)とは、Microsoftが提供するオープンソースの「統合ディープラーニングツールキット」。既にONNXの利用が推奨されている。 |
Keras | keras.io | Pythonで書かれた,TensorFlowまたはCNTK,Theano上で実行可能な高水準のニューラルネットワークライブラリ |
ONNX | FacebookとMicrosoftが発端 | ONNX(Open Neural Network Exchange)は相互運用可能なAIモデルのためのオープンエコシステム |
PyTorch | Preferred Networks(PFN) | 計算グラフの構築と順伝播処理の実行をを並行して実行するDefine-by-runという方法が特徴。データ構造によってモデルを変えやすい |
Tesorflow | 機械学習向けに開発されたエンドツーエンドのオープンソース プラットフォーム | |
Threno | オープンソース | Python用数値計算ライブラリで、「コンピュータ代数システム」と「最適化コンパイラ」の機能を有しており、DeepLearningにも使用されている。 |
人物
名前 | 説明 |
---|---|
Arthur Lee Samuel アーサー・リー・サミュエル | 機械学習の権威で、機械学習を「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」と定義。 |
Alan Mathison Turing アラン・マシスン・チューリング | 1950年に人工知能の判定テストであるチューリングテストを考案した |
Allen Newell アレン・ニューウェル | 初期のAIプログラムである Logic Theory Machine (1956) と General Problem Solver (1957) で知られている。1956年にはハーバート・サイモンと共に Information Processing Language を開発した。 |
Andrew Ng アンドリュー・ン | オンラインラーニングプラットフォームであるCourseraを設立。機械学習の有名な研究者で2014-2017までBaiduのチーフサイエンティストを務めた。スタンフォード大学。 |
Ian J. Goodfellow イアン・J・グッドフェロー | 画像を生成する手法で生成敵対ネットワークとも呼ばれるGANを考案。 |
Erik Stolterman エリック・ストルターマン | デジタルトランスフォーメーションという言葉を2004年に定義した。内容は「ITの浸透が、人々の生活をあらゆる面でより良い方向に変化させる」という意味。 |
Geoffrey Hinton ジェフリー・ヒントン | Deeplearning技術を用いたAlexNetを考案し、ILSVRC2012優勝。 ニューラルネットワークのバックプロパゲーションやボルツマンマシンなどの開発者の一人。 |
Joseph Weizenbaum ジョセフ・ワイゼンバウム | SLIPという言語を用いて人口対話システムのELIZAを開発 |
John Rogers Searle ジョン・サール | 強いAI・弱いAIという言葉を作った。 中国語の部屋という思考実験を考案。 |
John McCarthy ジョン・マッカーシー | 1956年のダートマス会議のために1955年に出した提案書の中で、「人工知能; Artificial Intelligence」という用語を世界で初めて使用した。 「フレーム問題」は1969年にジョン・マッカーシーとパトリック・ヘイズの論文の中で述べられた |
Stevan Harnad スティーブン・ハルナッド | シンボルグラウンディング問題を提唱した |
Herbert Alexander Simon ハーバート・アレクサンダー・サイモン | 1956年にはアレン・ニューウェルと共に Information Processing Language を開発した。 |
Yann LeCun ヤン・ルカン | ネオコグニトロンにバックプロパゲーションによる教師あり学習を適用したLeNetを考案。 2018年にヨシュア・ベンジオ、ジェフリー・ヒントン、ヤン・ルカンはチューリング賞を共同受賞している。 |
Yoshua Bengio ヨシュア・ベンジオ | ディープラーニングの研究者の一人。モントリオール大学で研究を行なっている。 2018年にヨシュア・ベンジオ、ジェフリー・ヒントン、ヤン・ルカンはチューリング賞を共同受賞している。 |
Ray Kurzweil レイ・カーツワイル | シンギュラリティーという言葉を提唱。2029年に人工知能が人間より賢くなり、2045年にシンギュラリティが起きると予想した。 |
松尾豊 | 日本のディープラーニングの権威。人工知能という言葉を「人工的に作られた人間のような知能,ないしはそれを作る技術」と定義している。 |
活性化関数
活性化関数名 | 説明 |
---|---|
ステップ | 0か1のみを出力する。単純パーセプトロンで用いられている。 |
シグモイド | DeepLearning以前では最もよく用いられていた。微分の最大値が0.25なのでバックプロパゲーション時に勾配消失を起こしやすい。 |
tanh(ハイパボリックタンジェント、双曲線正接関数) | -1から1の範囲をとり、微分係数の最大値は1であるため、シグモイド関数より勾配消失しにくい。シグモイド関数と相互の線形変換可能。 |
ReLU(正規化線形関数) | 入力が0以下なら0。0以上なら入力をそのまま出力。微分したときの勾配が1となるので、バックプロパゲーション時に勾配消失しにくい。微分不可能な点が存在する。 |
Leaky ReLU | ReLU関数の改善版。0以下の入力については入力に係数をかけたものを出力する。係数は0.01であることが多い。 |
Softmax | 出力の総和が1になるように調整する関数。多クラス分類の出力層に用いられる。 |
恒等関数 | 入力をそのまま出力する関数で、回帰問題の出力層に用いられる。 |
団体や学会
名前 | 説明 |
---|---|
DARPA | アメリカ国防総省高等研究計画局。国防関連の技術開発を行う。 |
AAAI | アメリカの人工知能学会 |
ICJI | ICJIは、記号推論などの伝統的なテーマを含む人工知能技術全般をテーマとしている学会 |
NeurIPS | NeurIPSは、ニューラルネットワーク技術を主にテーマとしている学会であるが、近年は機械学習をテーマにした発表が増加している |
CVPR | CVPRは、画像認識を主にテーマとしている学会 |
ICML | ICMLは機械学習分野のトップカンファレンス |
Partnership on AI | 2016 年に、AI の研究や検証、実動におけるベストプラクティスを開発したり共有したりすることを目的として、Facebook、Amazon、Alphabet(Google)、IBM、Microsoft の5 社によって創設された非営利団体。 |
OpenAI | 人工知能を研究する非営利団体でイーロンマスクが創設。オープンソースと親和性の高い人工知能を、人類全体に有益性があるように注意深く推進することを目的として掲げている 。 |
データセット
名称 | 説明 |
---|---|
MNIST | 手書き文字のデータセット。訓練用に6万枚、テスト用に1万枚の計7万枚用意されている。 |
CIFAR | 物体カラー写真(乗り物や動物など)で、学習用に50,000枚、テスト用に10,000枚用意されている。10種類に分類できるものがCIFAR-10、100種類に分類できるものがCIFAR-100と呼ばれている。 |
Fashion-MNIST | 学習用に60,000枚、テスト用に10,000枚用意された10種類に分類できる衣類品画像のデータセット。 |
GLUE(General Language Understanding Evaluation) | 言語理解タスクのベンチマーク用データセット |
ご覧いただきありがとうございます。
G検定対策 語句まとめ②- Deeplearning 画像認識編に続きます。
間違いなどございましたらコメント欄からご指摘いただけると助かります。