StackGAN
December 08, 2020
こちらの論文を読んでいく。
これまで適当にNotionに個人でまとめていたものをただ公開するだけ。
論文の読み方は落合洋一さんのSlideShareにあったやり方で読んでいる。
なぜ興味を持った?
- GANが好きで流れに追い付きたい
- Text to Photoはあまり知識がなかったのでたまたま巡り合ったこのGANから
どんなもの?
テキストから現実に存在するような(写実的な)画像を生成するGANのモデル
256*256pixelの画像を生成できるようになり、詳細な部分まで表現できるようになった。
先行研究と比べてどこがすごい?
従来のText to photohはテキストデータから目標の解像度である256×256などを目指していたが、StackGANは2ステージに分けるようなモデル構造をしており、StageIでは64×64のおおまかな線と配色を行った画像を生成するGAN, そこで作成された64×64の画像と文章を入力データとして、StageⅡでは256×256の画像を作成するGANのモデルとなっている。
技術や手法のキモはどこ?
- 直接生成するのではなく、1段階置くことでデータを拡張した
- ConditionalAugumentationのアイデアをもとに変数を別に入力として入れることで効果を発揮した
どうやって有効だと検証した?
Datasets
- Caltech-UCSD Bird(CUB)
- Oxford-102 flower
比較対象
- GAN-INT-CLS
- GAWWN
評価指標
- Inception Score
- Human Rank