合格る!G検定対策 語句まとめ(カンペ) ① – 基礎知識編

G検定を受けるにあたり、G検定出題範囲の語句を表形式でまとめました。
その結果、総文字数23000のまとめが出来上がったため、3回に分けて記事にしていきます。

実際に合格した勉強法はこちら

それでは本題のカンペです。まずは基礎知識編いってみましょう!

※このまとめは以下のサイトとwikipediaの情報、筆者の記憶を用いて作成しています。

Study AI 様の模擬試験

DIVE INTO EXAM様の模擬試験

G検定 本番困りそうな所まとめ

・参考書

最短突破 ディープラーニングG検定(ジェネラリスト) 問題集

年表

事柄人や団体補足説明
1950チューリングテストの提唱チューリングチューリングテスト:テストを通して、審査員が人間とコンピュータを判別し間違えたら、そのコンピュータは人間並みの知能を持っているかのような振る舞いができたと判断する。
1956ダートマス会議にて「人工知能」という言葉が登場ジョン・マッカーシー世界で初めて「人工知能」という言葉が使用された。
1958ニューラルネットワークのパーセプトロン開発フランク・ローゼンブラットS層(感覚層、入力層)、A層(連合層、中間層)、R層(反応層、出力層)の3つから構成される。S層とA層の間はランダムに接続されており、S層には外部から信号が与えられる。A層はS層からの情報を元に反応する。R層はA層の答えに重みづけをして、多数決を行い、答えを出す。
1964人口対話システムELIZA開発Joseph Weizenbaum(MIT)SLIPという言語で作成
1965世界初のエキスパートシステムであるDendral開発スタンフォード大学:エドワード・ファイゲンバウム、Bruce Buchanan、ジョシュア・レーダーバーグ、Carl Djerassi未知の有機化合物を質量分析法で分析し、有機化学の知識を使って特定する
1972エキスパートシステムのMYCIN開発スタンフォード大学DENDRALから派生した医療用のエキスパートシステム。システムは伝染性の血液疾患を診断し、抗生物質を推奨するようにデザインされていて、患者の体重のために供与量を調節する。
1975遺伝的アルゴリズムの提案ミシガン大学のJohn Henry Holland個別のパラメータをもつモデルを複数用意し、集団を形成する。集団のモデルをれぞれに同じ課題を解かせ、集団の中で成績がよかったもののパラメータを組み合わせて新たな集団を作り(交叉)、課題を解かせることを繰り返す。局所解を回避するためにランダムにパラメータを変化させること(突然変異)も行う。
1979MYCINの知識表現と推論を一般化したEMYCIN開発Alan BundyMYCINシステムの汎用化ツール。エキスパートシステム構築支援ツールの典型といわれる。
1979ネオコグニトロンの提案福島人間の視覚を模した人口ニューラルネットワークで、画像の濃淡のパターンを検出する単純型細胞(S細胞)と物体の位置変更を許容する複雑型細胞(C細胞)の2の層が交互に積み重なっており、畳み込みニューラルネットワークのさきがけとなった。
1982第五世代コンピュータープロジェクト通商産業省(現経済産業省)所管の新世代コンピュータ技術開発機構(ICOT)1982年から1992年にかけて進めた国家プロジェクトで、人工知能コンピュータの開発が目的にされており、総額で540億円の国家予算が投入された。非ノイマン型計算ハードウェア、知識情報処理ソフトウェア、並行論理プログラミング言語がプロジェクトの三本柱とされた。
1986誤差逆伝播法(back propagation)の発表デビッド・ラメルハート、ジェフリー・ヒントン、ロナルド・J・ウィリアムス出力と正解の誤差を入力層の方向に向かって逆向きに重みの値を更新していく学習していく手法
1998LeNetの提案ヤン・ルカンネオコグニトロンにバックプロパゲーションによる教師あり学習を適用した。
2006ディープラーニングの提唱ジェフェリー・ヒントン局所最適化と勾配消失問題を解決するためのアイデアとしてオートエンコーダ及びディープビリーフネットワークという手法を提案
2011Watsonがアメリカのクイズ番組で歴代チャンピオンを破るIBMIBMが開発した質問応答システムであるWatsonが「ジョパティ!」というクイズ番組で歴代のチャンピオンを破った。
Watsonは自然言語を理解し人間の意思決定を助けるものとして現在でも広く使用されている.
2012AlexNet発表Alex Krizhevsky, Ilya Sutskever, ジェフェリー・ヒントン (トロント大学)Deeplearning技術を用いてILSVRC優勝。Deeplearningが注目されるきっかけとなった。CNNベースの10層。ReLU関数を用いることで勾配消失に対応した。
2012Google の「猫」GoogleGoogle社が2012年に大量の画像データから「猫」を抽出し,その隠れ層では猫の概念と思われる画像が抽出された.これにより,コンピュータがディープラーニングにより意味を理解できたと考えられた.
2014GoogLeNET発表Google2015のILSVRC分類部門と検出部門で優勝。Inceptionモジュールをつなげることでモデル化。GAP(Global Average Pooling)を導入することで、パラメータ数を削減し、過学習を抑制している。
2014VGGNet発表オックスフォード大学2014のILSVRC分類部門で2位。16-19の層を持つ
2014GAN発表イアン=グッドフェロー画像を生成する手法で生成敵対ネットワークとも呼ばれる。Generator ができるだけ本物に近い生成物をアウトプットし, Discriminator はそれが正しいものか偽物かどうかを見抜こうとする相互作用の繰り返しにより、本物に近い生成物の構築を促す。
2015ResNet発表MicroSoft2015のILSVRC優勝。152層ものニューラルネットワークで構成されている。SkipConnectionと呼ばれる層を飛び越える結合により、層が深くなっても伝播のしやすさを確保。残差ブロックを導入することで勾配消失問題に対処し,飛躍的に層を増やすことに成功した.

知能の全体像

階層説明
第一階層パターン処理。環境からの情報のセンシングとそれに応じた行動というループが基本とされる。この際に重要となるのが 「身体性」という性質で、コンピュータはハードウェアを通じて外部環境との相互作用を得る。
第二階層記号の処理。人間はこれを通じて物事を抽象的に認識できるようになり、チェスなどのゲームを楽しむようになった。
第三階層他者とのインタラクション。我々が知識を獲得していく上で不可欠な営み。

機械学習の発展

名前説明
第1次AIブーム推論と探索が中心。1950-1960年頃に流行し、トイプロブレムと呼ばれるような簡単な迷路などの問題を解くことができるAIが開発されたが、複雑な問題には対応できなかった。
第2次AIブーム専門家の知識を実装した、エキスパートシステムの台頭。しかしながら、専門家の知識をヒアリングし、エキスパートシステム自体を構築するのに非常に労力がかかることが課題であった。
第3次AIブームディープラーニングが開発され、特徴表現学習ができるようになった。画像認識を行うILSVRCでディープラーニングを用いたモデルが優勝したり、囲碁のAlphaGoや将棋のPonanzaがプロ棋士に勝つなどしている。

エキスパートシステムシステムの課題

項目内容
学習コスト知識をコンピュータに与えるために膨大なコストをかけて専門家にヒアリングをして知識を取り出さねばならないこと
答えの一貫性ルールの数が莫大になった際に,ルール間の矛盾が生じたり,答えに一貫性が失われる場合が生じること
あいまいな質問への対応暗黙的で明文化されていない,曖昧な質問に対して答えることが難しいこと

機械学習の3分類

学習の分類説明
教師あり学習各データにおいて入力とそれに対応する正しい出力(分類)がセットになった訓練データが与えられ、ある入力があった際にそれがどのような出力を返すべきかを学習させる。
教師なし学習入力用のデータのみを与えられ、データの中に現れる一定のパターンやルールを抽出する。共通項を見出し、カテゴリ分けを行ったりするのに使われる。
強化学習エージェントが自身の報酬を最大化させることを目指して学習する手法である。主に囲碁や将棋などのゲームのプログラムや自動運転に利用されている。

機械学習の定理や課題、語句の定義

名前説明
フレーム問題ジョン・マッカーシーが発起した課題であり、あるタスクを実行する際に、タスクに関係のある知識だけを取り出して利用するということをコンピュータに実装するのが非常に難しいという課題
シンボルグラウンディング問題記号とそれが意味するものとを適切に結びつけるタスクでコンピュータでは実現が難しいという課題。
次元の呪い機械学習ではデータの次元が増えると計算量が爆発的に増大し、必要なデータや時間が大量になってしまうという問題。
バーニーおじさんのルールディープラーニングの学習にはパラメータの10倍のデータが必要という経験則。
みにくいアヒルの子理論機械学習ではアヒルの子と醜いアヒルの子の類似性は他のアヒル同士の類似性と同じになるという理論。
ノーフリーランチ定理どのような問題に対しても万能な汎用アルゴリズムは存在しないという定理。
モラベックスのパラドックス機械にとっては高度な推論よりも、1歳児レベルの知恵や運動スキルを身につける方が難しいというパラドックス。
グルーのパラドックス命題の取り方によっては帰納法が破綻するというパラドックス。
弱いAI何かのタスクに特化したAI
強いAIコンピュータが、幅広い知識と自意識を持つこと
オントロジー哲学用語としては、「存在論」を意味し、情報科学の分野では、「概念化の明示的な仕様」を意味する。セマンティックウェブなどで使用される概念を定義するための辞書としての役割がある。

統計・機械学習の基本語句

キーワード説明
正規分布確率論や統計学で用いられる連続的な変数に関する確率分布の一つ。データが平均値の付近に集積するような分布を表す。ガウス分布ともいう。
標準偏差データや確率変数の、平均値からの散らばり具合(ばらつき)を表す指標の一つである。分散の非負の平方根。
χ二乗分布確率分布の一種で、推計統計学で最も広く利用されるものである。独立に標準正規分布に従う k個の確率変数の二乗和が従う分布を自由度kのχ二乗分布という。
t分布の説明連続確率分布の一つであり、正規分布する母集団の平均と分散が未知で標本サイズが小さい場合に平均を推定する問題に利用される。t検定にも利用される。スチューデントのt分布とも呼ばれ、自由度によって分布の形が変化する。
P値統計的有意性を判断する際に用いられる有意確率
訓練誤差機械学習のモデルを学習した際の誤差。
汎化誤差データの母集団に対する誤差の期待値。実際に運用する際の誤差に近いものであり、この汎化誤差を最小化できるパラメータを得ることが理想
KLダイバージェンス2つの確率分布がどの程度似ているかを表す尺度で非負の値をとる。2つの確率分布が同じ場合、値は0となる
損失関数教師あり学習で、モデルの出力と正解ラベルの誤差を表す関数
決定係数回帰分析などで、データに対する推定された回帰式の当てはまりの良さを表す係数
最尤推定ロジスティック回帰の学習に用いられる。最尤推定を行うことで最も確からしいパラメータを獲得することができる。
局所最適解勾配降下法において、局所的に誤差が少なくなる点のこと。対義語は大域最適解。勾配が0付近となるため、誤差は最小ではないがその点に収束する。
多重共線性重回帰分析などで発生する課題で、説明変数の中に相関係数が高い(類似した)変数があるときに発生し、標準誤差の増加など予測が上手くいかなくなる
内部共変量シフトトレーニングの過程で各レイヤーのパラメータが変化することで生じる、特定のレイヤーに入力されるデータ分布の変化のこと。出力の偏りをなくすバッチ正規化(Batch Normalization)で対応される
過学習モデルが訓練データに適合しすぎてしまい、汎用性がなくなること。データ量の増加、正則化、早期打ち切りなどが対策となる。
勾配消失(勾配消失)は極端に層の多いニューラルネットワークで発生する問題。誤差逆伝播法で誤差の勾配が入力層に伝播する過程で0に近づいてしまい重み更新が進まず、学習が進まなくなる。
勾配爆発主にRNNなどで発生し、誤差の勾配が異常に増加する
計算量増加誤差逆伝播法の考案前は各ノードで微分を行なっていたため、計算量が多く層の数を増やすのが難しかった
エポックディープラーニングの学習の過程において、訓練データを何回繰り返し学習させるか
イテレーション一回のエポック内の学習の実行回数
Adversarial Examples人間では認識しづらいが、AIが認識を誤るような情報を加えたデータのこと
XAIExplainable AI、説明可能なAIのこと。DARPAが投資プログラムを発表した。
プラトー学習を重ねても、特定の次元においては最小値だが別の次元から見ると最大値である鞍点から抜け出せない状態。
LODウェブ上でコンピュータ処理に適したデータを公開・共有するための方法。
バウンディングボックス物体検出で、画像の中から位置とカテゴリーの特定を行うために用いられる矩形領域。
協調フィルタリング顧客の行動履歴などの情報を元に類似性などを関連付ける方法。顧客が好みそうな商品やコンテンツなどを推薦することに使われている。

機械学習の主な手法

手法名学習大別適用できる問題説明
k近傍法(kNN)教師あり学習分類問題与えられた学習データをベクトル空間上にプロットした後、未知のデータに対し、そこから距離が近い順に任意のk個を取得し、その多数決でデータが属するクラスを推定する。
k-means法教師なしクラスタリングいくつかのクラスタ(分類)を用意し、その中心を計算する。その後、中心とそれぞれのサンプルの距離を計算し、サンプルを最も近い中心が属するクラスタに設定し直す。・この2つを中心の移動量が一定を下回るまで繰り返す。非階層型クラスタリング。
ロジスティック回帰教師あり分類尤度関数の最小化をする線形回帰によって対数オッズを予測し、ロジット変換によって正規化することで各クラスに属する確率を計算する。
線形回帰教師あり回帰標本値と予測値の誤差を最小化する線形関数を見つける
決定木教師あり回帰・分類データを木構造をとる有向グラフで表し、条件分岐の繰り返しによって表されるモデルのこと。条件分岐は情報利得が最大となるように決定する。数値データならば回帰木、分類データならば分類木と呼ぶ。決定木は SVM やニューラルネットワークなどの手法と比較して分析結果を説明しやすいことと、データの前処理が少なく済むという特徴がある。
ランダムフォレスト教師あり回帰・分類決定木にアンサンブル学習を取り入れたもの。過学習気味の木を複数作成し、出力結果の平均をとると、汎化性能が向上するという逆転の発想の手法。
サポートベクターマシン教師あり分類問題分類問題において、比較的識別能力の高いモデルを構築できる。SVMはグループ間のマージンが最大になるような境界を求める方法で、これにより出来るだけ汎化性能を高め、未知のデータを適切に分類しやすくしている。
PCA(主成分分析)教師なしクラスタリング、次元削減線形結合からデータ内の分散が大きくなるような特徴量を見つける。各成分は直交している。
Q学習強化学習-報酬を最大化させる方策を見つけるように学習する方法。
HMM(隠れマルコフモデル)教師あり時系列パターンの認識確率モデルの1つ。観測されない(隠れた)状態をもつマルコフ過程のモデル。連続的かつ伸縮しうる信号列のパターン抽出には適しているが、長いパターンには適していない。局所解に陥りやすい。混合正規分布モデルに基づく隠れマルコフモデルとして、GMM-HMMがある。
DBSCAN教師なしクラスタリング密度準拠クラスタリングアルゴリズム。ある空間に点集合が与えられたとき、互いに密接な点をグループにまとめ、低密度領域にある点を外れ値とする。非階層型クラスタリング。
群平均法教師なしクラスタリング2つのクラスターの全ての要素の組み合わせについて距離を求め、その平均値を基にクラスター間の距離を決定する手法のこと。階層型クラスタリングで、デンドログラムで表現可能
混合ガウスモデル(GMM)教師なしクラスタリング与えられたデータセットを、複数の正規分布の重ね合わせで表現する。確率密度関数が得られる (確率分布として表現できる)。
サンプルごとに、各クラスターに所属する確率が得られる。
パーセプトロン教師あり回帰・分類神経細胞のニューロンの構造を模しており、とてもシンプル。各変数を入力し、その入力データそれぞれに重みをかけて総和をとり、その値が閾値を超えたかどうかによって分類する。分類直前に活性化関数と呼ばれる関数を用いる場合がほとんど。課題はデータが線形分離可能ではないと分類不可であること。簡単な非線形問題が解けないことをXOR問題と呼ぶ。

機械学習の前処理

手法説明
正規化ニューラルネットワークの入力を事前に0から1の範囲にスケーリングすること。Min-max Normalizationやmean Normalization がある。
標準化データを平均をが0、標準偏差が 1の 標準正規分布に従うように変換する。
白色化すべての特徴量に相関がなくなるようにする。
正則化パラメータのノルムが大きくなりにくくする。過学習の回避や説明変数の削減に用いられ、誤差関数にパラメータの和を付加することで行われる。
L1正則化誤差関数にパラメータの絶対値の和を加える方法。重要度の低い特徴量の重みが0になる為、次元削減が可能(スパース化)。L1正則化を用いた線形回帰をLasso回帰という。
L2正則化誤差関数にパラメータの二乗和を加える方法。こちらは重要度の低い特徴量の重みは小さくなるものの、ゼロにはならない。荷重減衰ともよび、主に過学習を防ぐために用いられる。L2正則化を用いた線形回帰をRidge回帰と呼ぶ。
ElasticNetL1正則化とL2正則化の中間。Lasso回帰のモデルに取り込める説明変数の数に制限がある」という問題点をカバーした。
平滑化他のデータから大きく外れているデータを平均化あるいは除去することで合理性を保つ。
ヒストグラム平均画素ごとの明るさをスケーリングする。
アフィン変換機械学習などで用いる画像を変形させたい場合に行う。拡大・縮小、平行移動、回転、せん断を行うことができる。

学習の際の工夫

名前分類や適用先のモデルなど説明
量子化機械学習全般機械学習において演算に用いる数値の表現を浮動小数点数から整数に変換すること。
early stopping機械学習全般過学習を起こす前に学習を終了する手法。
自己符号化器 (Autoencoder)次元圧縮・次元削減2006年にジェフリー・ヒントンらが提唱したニューラルネットワークを使用した次元圧縮のためのアルゴリズム。
主成分分析(PCA)次元圧縮・次元削減第一主成分を求め、それに直交する第二主成分を求め、、、と順に直交する成分を求めていく
t-SNE可視化高次元での距離分布が低次元の距離分布にも合致するように非線形の変換を行う
スラック変数SVMSVMにおいて、グループ分けの際に誤った分類をどれだけ許容するかを決める値
カーネル法SVMSVMにおいて、線形分離では分類が不可能なデータセットを分類する為の方法。具体的にはデータの次元を増やすことで対応する。例えば2次元問題を3次元に拡張し、データをうまく分割できる線を探す課題ではなく、面を探す課題に変換する。
カーネルトリックSVMSVMにおいて、内積計算をカーネル関数というシンプルな関数へ置換えることで、計算量を大幅に削減する方法。
アンサンブル学習-あまり性能が高くないモデルを組み合わせることをアンサンブル学習と呼び、汎化性能が高くなることが知られている。アンサンブル学習の方法として、バギングやブ―スティングがある。
バギングアンサンブル学習複数のモデルを別々に学習させ、各モデルの平均や多数決によって最終的な判断をする手法。
ブースティングアンサンブル学習弱い分類器を何度も学習させることにより性能を高めること。
グリッドサーチハイパーパラメータの探索ハイパーパラメータの探索方法で、初期のパラメータの値をいくつか用意し、それぞれの値で学習し、最も良いパラメータを探していく。
ランダムサーチハイパーパラメータの探索ハイパーパラメータの探索方法で、上限数を設定した上でパラメーターをランダムに選び検証することで良いパラメータを探していく。
Xavierの初期値
活性化関数の初期値線形な活性化関数に対してノード数の平方の逆数で初期化。 sqrt(1.0 / n)を標準偏差とする初期値に設定する。
Heの初期値活性化関数の初期値非線形な活性化関数にも対応するためXavierの2倍の範囲で初期化。sqrt(2.0 / n)を標準偏差とする初期値に設定する。
DropOutDeepLearning過学習対策として用いられる。各ノードをランダムに無効化して、学習時に学習されないノードを作ることで、モデルの汎化性能を向上する。
ReLUDeepLearning勾配消失対策。微分が1となる関数を用いることで、Back Propagation時に、情報が入力層側に伝わりやすくする。
畳み込み層DeepLearningフィルタを用いて特徴を抽出する。数式の形が畳み込み積分に類似していることからこの名前となった。単純型細胞群に相当する。
プーリング層DeepLearningプーリング層ではあるピクセルの周囲のセルを一つの値に集約し、特徴の位置ずれに対して許容度を持たせる。マックスプーリングは最大値で、アベレージプーリングは平均値で集約する。
バッチ正規化DeepLearning各層において活性化関数をかける前に伝播してきたデータを正規化する処理である。①勾配消失の防止、②学習の高速化、③過学習の防止の3つの効果がある。
プルーニングDeepLearningニューラルネットワークの重み(パラメータ)の一部を取り除く手法。ニューラルネットワークのレイヤー間のつながり(パラメータ)を削除し、パラメータの数を減らして計算を高速化することができる.
モデルの再利用DeepLearning特に画像認識では入力層付近の特徴量は抽象的な表現が強くなり、出力層付近の特徴量は詳細な表現となる。従って既に訓練されたモデルを転用することでモデルのトレーニングを効率化することができる。
転移学習モデルの再利用最終出力層のみを置き換えて新規問題に対して学習させる方法
ファインチューニングモデルの再利用最終出力層だけでなく、モデル全体の重みも少し修正することで、新規問題に対して学習させる。既存モデルに対して大きな変更がされないように、学習済みの層の学習率を低く設定する場合が多い。
蒸留モデルの再利用学習済みモデルに与えた入力とそれに対する出力を学習データとし、新たなシンプルなモデルを訓練すること。必要な計算リソースを削減できる。
インセプションモジュールGoogLeNET小さなネットワークを1つのモジュールとして定義している
ネットワークを分岐させ、サイズの異なる畳み込みを行う。
複数のフィルタ群によるブロックから構成される。
Dilated Convolution畳み込み層フィルターとの積を取る相手の間隔をあける畳み込みのこと。カーネル自体は畳み込み層と同様に行列を定義するが、スキャンの際に一定の間隔で画素を読み込まないことで結果的に広範囲の領域を一度にスキャンすることができる仕組みである。
Depthwise Separatable Convolution畳み込み層通常のConvolutionの計算量を削減したもの。Nチャネル数のデータに一辺のサイズがKのM個のフィルタを畳込み演算するときのパラメータ数はM×K×K×Nとなる一方、Depthwise Separable Convolutionでは(M+K×K)Nとなる。従って、1/(K×K)+1/M)だけパラメータ数がへる
SkipConnenctionDeepLearning(ResNet)勾配消失対策。層を飛び越えるような結合をもつことで、Back Propagation時に、情報が入力層側に伝わりやすくする。
ニューラル常微分方程式ResNetResNetの課題であった多くのメモリと時間を要する課題を解決するため、中間層を微分方程式として捉える手法であり、NIPS2018のベストペーパーに選ばれた。
データ拡張画像認識モデル画像データに回転や移動を加えることにより水増しすること。
データ拡張を行うことで、同じ物体に対する色々な見え方の学習を進めることができる。画像の意味が変わらない程度に留める必要がある。
MAML(Model-Agnostic Meta-Learning、マムル)回帰、分類、強化学習等のタスクメタ学習の一種で初期値を効果的に求める方法。更新後の目的関数の値の和が小さくなるように初期パラメータを決定する。最適化処理において、勾配の勾配を求める。
価値反復法強化学習行動価値と状態価値の2種類の価値を定義し、TD誤差が可能な限り小さくなるまで学習を行う。Sarsaはアルゴリズムの代表例の1つである。

モデルの評価方法/データ分割方法

評価指標使用分野説明
混同行列分類二値分類の正解・不正解の種類であるTP(True Positive)、FP(False Positive)、FN(False Negative)、TN(True Negative)の4種類を行列形式で表したもの。正しい分類はTP(真陽性)、TN(真陰性)、誤った分類はFP(偽陽性)、FN(偽陰性)。
正解率
Accuracy
分類全データの内、予測値と標本値が一致したものの割合。全予測正答率。100%に近い程良い。(TP+TN)/(TP+FP+FN+TN)
適合率
Precision
分類正値を予測したデータの内、標本値でも正値だったデータの割合。正予測の正答率。100%に近いほど良い。(TP)/(TP+FP)
再現率
Recall
分類標本値が正値になっているデータの内、正値を予測できたデータの割合。正に対する正答率。100%に近いほど良い。(TP)/(TP+FN)
特異率
Specificity
分類負値を予測したデータの内、標本値でも負値だったデータの割合。負に対する正答率。(TN)/(FP+TN)
F値
F-measure
分類適合率と再現率の調和平均(2*Precision*Recall)/(Precision+Recall)
PR曲線分類トレードオフの関係となるPrecision と Recall を二次元平面にプロットしたもの。
AUC分類Area Under the Curveの略でPR曲線の面積を示す。基本的には面積が大きいほど性能が良いと判断される。
ROC曲線分類Receiver Operator Characteristics Curve。TPR(Recall)とFPR(FP/(FP+TN))で曲線を書く。TPRのみ高いのが理想なので、曲線の下側の面積は小さいほうが良い。
RMSE回帰予測値と標本値の誤差を二乗して平均を出し、平方根を取ったもの。0に近いほど良い。
AIC(赤池情報量規準分類観測されるデータとモデルの予測値の間の誤差を示す基準値であり、予測・分類精度が高く、説明変数が少ないモデルを高く評価するように定義された指標。値が小さいほど良い。
Hold-out
ホールドアウト法
データの分割方法訓練データとテストデータを分割し、訓練データがテストデータに混ざらないようにして検証すること。この際、訓練に使われなかったデータをOOF(Out of Fold)と言う。
k-Fold
k-分割交差検証
データの分割方法K-Foldは、一度学習用データとテスト用データに分けた後、その学習用データをさらに、k分割して、学習用データとvalidation用のデータを作る方法。K分割した後の一つのかたまりをValidationデータとし、残りで学習することをk回繰り返す。K=4か5を取ることが多い。

機械学習ライブラリやプラットフォーム

名前開発元説明
ChainerPreferred Networks(PFN)PyTorchの前身。計算グラフの構築と順伝播処理の実行をを並行して実行するDefine-by-runという方法が特徴。
CNTKMicrosoftMicrosoft Cognitive Toolkit(CNTK)(マイクロソフトコグニティブツールキット)とは、Microsoftが提供するオープンソースの「統合ディープラーニングツールキット」。既にONNXの利用が推奨されている。
Keraskeras.ioPythonで書かれた,TensorFlowまたはCNTK,Theano上で実行可能な高水準のニューラルネットワークライブラリ
ONNXFacebookとMicrosoftが発端ONNX(Open Neural Network Exchange)は相互運用可能なAIモデルのためのオープンエコシステム
PyTorchPreferred Networks(PFN)計算グラフの構築と順伝播処理の実行をを並行して実行するDefine-by-runという方法が特徴。データ構造によってモデルを変えやすい
Tesorflowgoogle機械学習向けに開発されたエンドツーエンドのオープンソース プラットフォーム
ThrenoオープンソースPython用数値計算ライブラリで、「コンピュータ代数システム」と「最適化コンパイラ」の機能を有しており、DeepLearningにも使用されている。

人物

名前説明
Arthur Lee Samuel
アーサー・リー・サミュエル
機械学習の権威で、機械学習を「明示的にプログラムしなくても学習する能力をコンピュータに与える研究分野」と定義。
Alan Mathison Turing
アラン・マシスン・チューリング
1950年に人工知能の判定テストであるチューリングテストを考案した
Allen Newell
アレン・ニューウェル
初期のAIプログラムである Logic Theory Machine (1956) と General Problem Solver (1957) で知られている。1956年にはハーバート・サイモンと共に Information Processing Language を開発した。
Andrew Ng
アンドリュー・ン
オンラインラーニングプラットフォームであるCourseraを設立。機械学習の有名な研究者で2014-2017までBaiduのチーフサイエンティストを務めた。スタンフォード大学。
Ian J. Goodfellow
イアン・J・グッドフェロー
画像を生成する手法で生成敵対ネットワークとも呼ばれるGANを考案。
Erik Stolterman
エリック・ストルターマン
デジタルトランスフォーメーションという言葉を2004年に定義した。内容は「ITの浸透が、人々の生活をあらゆる面でより良い方向に変化させる」という意味。
Geoffrey Hinton
ジェフリー・ヒントン
Deeplearning技術を用いたAlexNetを考案し、ILSVRC2012優勝。
ニューラルネットワークのバックプロパゲーションやボルツマンマシンなどの開発者の一人。
Joseph Weizenbaum
ジョセフ・ワイゼンバウム
SLIPという言語を用いて人口対話システムのELIZAを開発
John Rogers Searle
ジョン・サール
強いAI・弱いAIという言葉を作った。
中国語の部屋という思考実験を考案。
John McCarthy
ジョン・マッカーシー
1956年のダートマス会議のために1955年に出した提案書の中で、「人工知能; Artificial Intelligence」という用語を世界で初めて使用した。
「フレーム問題」は1969年にジョン・マッカーシーとパトリック・ヘイズの論文の中で述べられた
Stevan Harnad
スティーブン・ハルナッド
シンボルグラウンディング問題を提唱した
Herbert Alexander Simon
ハーバート・アレクサンダー・サイモン
1956年にはアレン・ニューウェルと共に Information Processing Language を開発した。
Yann LeCun
ヤン・ルカン
ネオコグニトロンにバックプロパゲーションによる教師あり学習を適用したLeNetを考案。 2018年にヨシュア・ベンジオ、ジェフリー・ヒントン、ヤン・ルカンはチューリング賞を共同受賞している。
Yoshua Bengio
ヨシュア・ベンジオ
ディープラーニングの研究者の一人。モントリオール大学で研究を行なっている。 2018年にヨシュア・ベンジオ、ジェフリー・ヒントン、ヤン・ルカンはチューリング賞を共同受賞している。
Ray Kurzweil
レイ・カーツワイル
シンギュラリティーという言葉を提唱。2029年に人工知能が人間より賢くなり、2045年にシンギュラリティが起きると予想した。
松尾豊日本のディープラーニングの権威。人工知能という言葉を「人工的に作られた人間のような知能,ないしはそれを作る技術」と定義している。

活性化関数

活性化関数名説明
ステップ0か1のみを出力する。単純パーセプトロンで用いられている。
シグモイドDeepLearning以前では最もよく用いられていた。微分の最大値が0.25なのでバックプロパゲーション時に勾配消失を起こしやすい。
tanh(ハイパボリックタンジェント、双曲線正接関数)-1から1の範囲をとり、微分係数の最大値は1であるため、シグモイド関数より勾配消失しにくい。シグモイド関数と相互の線形変換可能。
ReLU(正規化線形関数)入力が0以下なら0。0以上なら入力をそのまま出力。微分したときの勾配が1となるので、バックプロパゲーション時に勾配消失しにくい。微分不可能な点が存在する。
Leaky ReLUReLU関数の改善版。0以下の入力については入力に係数をかけたものを出力する。係数は0.01であることが多い。
Softmax出力の総和が1になるように調整する関数。多クラス分類の出力層に用いられる。
恒等関数入力をそのまま出力する関数で、回帰問題の出力層に用いられる。

団体や学会

名前説明
DARPAアメリカ国防総省高等研究計画局。国防関連の技術開発を行う。
AAAIアメリカの人工知能学会
ICJIICJIは、記号推論などの伝統的なテーマを含む人工知能技術全般をテーマとしている学会
NeurIPSNeurIPSは、ニューラルネットワーク技術を主にテーマとしている学会であるが、近年は機械学習をテーマにした発表が増加している
CVPRCVPRは、画像認識を主にテーマとしている学会
ICMLICMLは機械学習分野のトップカンファレンス
Partnership on AI2016 年に、AI の研究や検証、実動におけるベストプラクティスを開発したり共有したりすることを目的として、Facebook、Amazon、Alphabet(Google)、IBM、Microsoft の5 社によって創設された非営利団体。
OpenAI人工知能を研究する非営利団体でイーロンマスクが創設。オープンソースと親和性の高い人工知能を、人類全体に有益性があるように注意深く推進することを目的として掲げている 。

データセット

名称説明
MNIST手書き文字のデータセット。訓練用に6万枚、テスト用に1万枚の計7万枚用意されている。
CIFAR物体カラー写真(乗り物や動物など)で、学習用に50,000枚、テスト用に10,000枚用意されている。10種類に分類できるものがCIFAR-10、100種類に分類できるものがCIFAR-100と呼ばれている。
Fashion-MNIST学習用に60,000枚、テスト用に10,000枚用意された10種類に分類できる衣類品画像のデータセット。
GLUE(General Language Understanding Evaluation)言語理解タスクのベンチマーク用データセット

ご覧いただきありがとうございます。

G検定対策 語句まとめ②- Deeplearning 画像認識編に続きます。

間違いなどございましたらコメント欄からご指摘いただけると助かります。