StackGAN

December 08, 2020

こちらの論文を読んでいく。
これまで適当にNotionに個人でまとめていたものをただ公開するだけ。
論文の読み方は落合洋一さんのSlideShareにあったやり方で読んでいる。

なぜ興味を持った？

GANが好きで流れに追い付きたい
Text to Photoはあまり知識がなかったのでたまたま巡り合ったこのGANから

どんなもの？

テキストから現実に存在するような(写実的な)画像を生成するGANのモデル
256*256pixelの画像を生成できるようになり、詳細な部分まで表現できるようになった。

先行研究と比べてどこがすごい？

従来のText to photohはテキストデータから目標の解像度である256×256などを目指していたが、StackGANは2ステージに分けるようなモデル構造をしており、StageIでは64×64のおおまかな線と配色を行った画像を生成するGAN, そこで作成された64×64の画像と文章を入力データとして、StageⅡでは256×256の画像を作成するGANのモデルとなっている。

技術や手法のキモはどこ？

直接生成するのではなく、1段階置くことでデータを拡張した
ConditionalAugumentationのアイデアをもとに変数を別に入力として入れることで効果を発揮した

どうやって有効だと検証した？

Datasets

Caltech-UCSD Bird(CUB)
Oxford-102 flower

比較対象

GAN-INT-CLS
GAWWN

評価指標

Inception Score
Human Rank