AIうぉ--!(ai-wo-katsuyo-shitai !)

AIを上手く使ってみせたい!!自分なりに。

Top Trending Papers of 2021、についていけてるかチェック

Top Trending Papers of 2021、についていけてるかチェック

以下の記事に示されている10大トレンドについていけてるかチェックする。

medium.com

【1】ADOP: Approximate Differentiable One-Pixel Point Rendering —

知ってるか

ADOPという言葉を知らないので、0点

内容が理解できるか

引用

Abstract- シーンの洗練と新しいビューの合成のための、新しいポイントベースの微分可能なニューラルレンダリングパイプラインを紹介する。入力は点群およびカメラパラメータの初期推定値である。出力は、任意のカメラポーズから合成された画像である。点群のレンダリングは、多解像度1ピクセル点ラスタライズを用いた微分可能なレンダラによって実行される。離散ラスタライズの空間勾配は、ゴーストジオメトリという新しい概念で近似される。レンダリング後、ニューラルイメージピラミッドはシェーディング計算とホールフィリングのためにディープニューラルネットワークに渡される。その後、微分可能な物理ベースのトーンマッパーが、中間出力をターゲット画像に変換します。パイプラインのすべての段階が微分可能であるため、カメラモデル、カメラポーズ、ポイント位置、ポイントカラー、環境マップ、レンダリングネットワークの重み、ヴィネット、カメラ応答関数、画像ごとの露出、画像ごとのホワイトバランスなど、シーンのすべてのパラメータを最適化します。本システムは、学習中に初期再構成を改良するため、既存のアプローチよりも鮮明で一貫性のある新規ビューを合成できることを示す。また、効率的な1ピクセル点ラスタライズにより、任意のカメラモデルを使用し、1億点を大きく超えるシーンを実時間で表示することが可能である。

説明に出てくる基礎用語

別途。

コメント

面白そう。。。

【2】The Bayesian Learning Rule

知ってるか

0点

内容が理解できるか

引用

多くの機械学習アルゴリズムが、ベイズ学習則と呼ばれる単一のアルゴリズムの特定のインスタンスであることを示す。ベイズの原理から導かれるこのルールは、最適化、深層学習、グラフィカルモデルなどの分野から、幅広いアルゴリズムを生み出す。これには、リッジ回帰、ニュートン法、カルマンフィルターなどの古典的アルゴリズムや、確率勾配降下、RMSprop、Dropoutなどの最新のディープラーニングアルゴリズムが含まれる。このようなアルゴリズムを導き出す上で重要な考え方は、自然勾配を用いて推定した候補分布を用いて事後分布を近似することである。候補分布が異なればアルゴリズムも異なり、さらに自然勾配に近似することで、それらのアルゴリズムのバリエーションが生まれます。我々の研究は、既存のアルゴリズムを統一し、一般化し、改善するだけでなく、新しいアルゴリズムの設計にも役立ちます。

説明に出てくる基礎用語

別途。

コメント

面白そう。。。

【3】Program Synthesis with Large Language Models

知ってるか

0点

内容が理解できるか

引用

本論文では、汎用プログラミング言語におけるプログラム合成のための、現世代の大規模言語モデルの限界を探ります。MBPPとMathQA-Pythonという2つの新しいベンチマークを用いて、244Mから137Bのパラメータを持つモデルを評価し、少数点調整と微調整の両領域で評価する。このベンチマークは、これらのモデルが自然言語記述から短いPythonプログラムを合成する能力を測定するために設計されています。MBPP(Mostly Basic Programming Problems)データセットには974のプログラミングタスクが含まれており、初級プログラマが解くことができるように設計されている。MathQA-Pythonデータセットは、MathQAベンチマークPython版であり、より複雑なテキストからコードを合成するモデルの能力を評価する23914問の問題が含まれている。両データセットにおいて、合成性能はモデルサイズに対数線形に比例することがわかりました。我々の最大のモデルは、コードデータセットでの微調整を行わない場合でも、適切に設計されたプロンプトを用いた数発の学習により、MBPPの問題の59.6%に対して解を合成することができる。データセットの一部を取り出して微調整を行うと、ほとんどのモデルサイズで性能が10%程度向上します。MathQA-Pythonデータセットでは、最大のファインチューニングを施したモデルで83.8%の精度を達成した。さらに、コードに関する対話に参加し、人間のフィードバックを取り入れて解を改善するモデルの能力も研究しています。その結果、人間からの自然言語フィードバックにより、モデルの初期予測に比べてエラー率が半減することがわかりました。さらに、エラー分析を行い、これらのモデルがどこで失敗し、どのような種類のプログラムの生成が最も困難であるかを明らかにする。最後に、プログラムの実行結果を予測するためにモデルを微調整することで、モデルの意味的根拠を探ります。その結果、最良のモデルであっても、特定の入力が与えられたときのプログラムの出力を予測することはできないことがわかった。

説明に出てくる基礎用語

別途。

コメント

面白そう。。。

【4】Program Synthesis with Large Language Models

知ってるか

0点

内容が理解できるか

引用

本論文では、マスクドオートエンコーダ(MAE)がコンピュータビジョンのためのスケーラブルな自己教師付き学習器であることを示す。我々のMAEアプローチは単純であり、入力画像のランダムなパッチをマスクし、欠損ピクセルを再構成する。これは、2つのコアデザインに基づいている。まず、非対称エンコーダ・デコーダアーキテクチャを開発し、(マスクトークンのない)可視パッチの部分集合に対してのみ動作するエンコーダと、潜在表現とマスクトークンから元の画像を再構成する軽量なデコーダを備えています。次に、入力画像の75%という高い割合でマスクを行うことで、自明でなく意味のある自己監視タスクが得られることを見出した。この2つの設計を組み合わせることで、大規模なモデルを効率的かつ効果的に学習することができ、学習を(3倍以上)高速化し、精度を向上させることができる。例えば、ViT-Hugeモデルは、ImageNet-1Kデータのみを用いた手法の中で最高の精度(87.8%)を達成している。また、下流タスクにおける転移性能は、教師ありの事前学習を上回り、有望なスケーリング挙動を示す。

説明に出てくる基礎用語

masked autoencoders (MAE)

コメント

面白そう。。。

【5】8-bit Optimizers via Block-wise Quantization

知ってるか

0点

内容が理解できるか

引用

ステートフルオプティマイザは、過去の勾配値の指数平滑和(モメンタム付きSGD)や二乗和(Adam)など、勾配の統計値を時系列で保持します。この状態を利用することで、通常の確率的勾配降下法と比較して最適化を加速することができますが、モデルパラメータに割り当てられる可能性のあるメモリを使用するため、実際に学習するモデルの最大サイズに制限があります。本論文では、32 ビットのオプティマイザーを使用した場合の性能レベルを維持しながら、8 ビットの統計量を使用する初のオプティマイザーを開発しました。その結果生じる計算、量子化、安定性の課題を克服するために、ブロック単位の動的量子化を開発した。ブロック単位の量子化では、入力テンソルをより小さなブロックに分割し、それぞれ独立に量子化します。各ブロックはコア間で並列に処理され、より高速な最適化と高精度な量子化を実現する。安定性と性能を維持するために、我々はブロック単位の量子化と2つの追加的な変更を組み合わせます。(1)ダイナミック量子化(大きさの大小に関わらず精度の高い非線形最適化)、(2)安定した埋め込み層(言語モデルにおける入力トークンの不均一な分布から生じる勾配分散を軽減する)です。その結果、8ビット・オプティマイザは、1.5Bパラメータ言語モデリング、GLUE微調整、ImageNet分類、WMT'14機械翻訳、MoCo v2 contrastive ImageNetプリトレーニング+ファインチューニング、RoBERTaプリトレーニングなど、さまざまなタスクにおいて32ビット性能を維持しながら、わずかなメモリ使用量で、元のオプティマイザのハイパーパラメータの変更が不要になりました。この8ビット・オプティマイザは、2行のコード変更を必要とするドロップイン置き換えとして、オープンソース化1されています。

説明に出てくる基礎用語

別途。

コメント

。。。

【6】Revisiting ResNets: Improved Training and Scaling Strategies

知ってるか

0点

内容が理解できるか

引用

新しいコンピュータビジョンアーキテクチャがスポットライトを独占しているが、モデルアーキテクチャの影響は、学習方法およびスケーリング戦略の同時変更と混同されることが多い。我々の仕事は、正統的なResNet(He et al., 2015)を再訪し、これらの3つの側面を分離するために研究しています。おそらく驚くべきことに、我々は、学習とスケーリング戦略がアーキテクチャの変更よりも重要かもしれないこと、さらに、得られたResNetsが最近の最先端モデルと一致することを発見した。我々は、最適なスケーリング戦略が訓練体制に依存することを示し、2つの新しいスケーリング戦略を提供する。(1)オーバーフィッティングが起こりうる領域ではモデルの深さをスケーリングする(そうでない場合は幅のスケーリングが望ましい)、(2)以前推奨されていたよりもゆっくりと画像解像度を上げる(Tan & Le, 2019)、である。改善された学習とスケーリング戦略を用いて、我々はResNetアーキテクチャのファミリー、ResNet-RSを設計し、TPU上でEfficientNetsよりも1.7倍〜2.7倍高速であり、ImageNet上で同様の精度を達成します。大規模な半教師付き学習では、ResNet-RSはEfficientNetNoisyStudentの4.7倍の速度で、86.2%のImageNetトップ1精度を達成しました。この学習技術は、一連の下流タスクの転送性能を向上させ(最先端の自己教師付きアルゴリズムに匹敵)、Kinetics-400のビデオ分類に拡張されました。我々は、今後の研究のベースラインとして、これらのシンプルな改訂版ResNetsを使用することを推奨します。

説明に出てくる基礎用語

別途。

コメント

面白い観点だと思う!(かな?)

【7】Image Super-Resolution via Iterative Refinement

知ってるか

0点

内容が理解できるか

引用

我々は、SR3(Repeated Refinementによる画像超解像のためのアプローチ)を発表する。SR3は、ノイズ除去拡散確率モデル[17, 48]を条件付き画像生成に適応し、確率的な反復ノイズ除去処理によって超解像を行うものである。出力生成は純粋なガウスノイズから始まり、様々なノイズレベルでのノイズ除去について学習したU-Netモデルを用いて、ノイズの多い出力を反復的にリファインする。SR3は、様々な倍率の超解像タスクにおいて、顔や自然画像に対して高い性能を発揮する。CelebA-HQの標準的な8倍の顔超解像タスクにおいて、SOTA GAN手法と比較し、人間による評価を行った。その結果、SR3は50%に近い誤答率を達成し、フォトリアルな出力を示唆する一方、GANは34%の誤答率を超えないことがわかった。さらに、SR3は生成モデルと超解像モデルを連結したカスケード画像生成においても有効であることを示し、ImageNetにおいて11.3という競争力のあるFIDスコアを達成した。

説明に出てくる基礎用語

Super-Resolution

コメント

面白い!(かな?) 超解像、ちょっと、注目。

【8】Perceiver IO: A General Architecture for Structured Inputs & Outputs

知ってるか

100点

内容が理解できるか

はい。DeepMindのpercieverですよね。 (あれ、論文、2種類ある???)

説明に出てくる基礎用語

perceiver

コメント

はじめて知ってるのでてきた!!!

【9】Do Vision Transformers See Like Convolutional Neural Networks?

知ってるか

40点

内容が理解できるか

はい。

説明に出てくる基礎用語

ViT

コメント

一応、知ってる。読んだ?ことある。

【10】Implicit MLE: Backpropagating Through Discrete Exponential Family Distributions

知ってるか

0点

内容が理解できるか

引用

離散確率分布と組合せ最適化問題ニューラルネットワークの構成要素と組み合わせることは、多くの応用があるが、いくつかの課題がある。我々は、離散指数族分布と微分可能なニューラル部品を組み合わせたモデルのエンドツーエンド学習のためのフレームワークである陰的最尤推定(I-MLE)を提案する。I-MLEは最確値を計算する能力さえあればよく、滑らかな緩和に依存しないため、広く適用可能である。このフレームワークは摂動に基づく陰解法や、ブラックボックス的な組み合わせソルバーによって微分する最近の方法など、いくつかのアプローチを包含している。我々は、perturb-and-MAPによってマージナルを近似するための新しいクラスのノイズ分布を導入する。さらに、最近研究されている組合せソルバを含むいくつかの学習設定においてI-MLEを用いると、最尤推定に単純化できることを示す。いくつかのデータセットにおける実験から、I-MLEは問題特有の緩和を用いた既存のアプローチと競合し、しばしばそれを凌駕することが示唆される。

説明に出てくる基礎用語

別途。

コメント

。。。

全体を通してのコメント

全然知らない内容ばっかり!!!(厳しい)

自分の関連記事

ai-de-seikei.hatenablog.com

ai-de-seikei.hatenablog.com

ai-de-seikei.hatenablog.com