【环球聚看点】一秒把大象P转身!清华校友论文引爆AI绘图圈,Diffusion黯然失色

2023-05-20 15:53:25 来源:华尔街见闻 分享到:

5月18日,一颗炸弹在AI绘图圈炸响。


(相关资料图)

从此,AI可以精准修图了,哪里不准修哪里,AIGC,已然到达了全新的里程碑!

这篇引爆绘图圈的核弹级论文,名为「Drag Your GAN」,由MPII、MIT、宾大、谷歌等机构的学者联合发布。目前已被SIGGRAPH 2023录用。

而且因为太过火爆,这个项目一经发布,网页就经常处于崩溃状态。

项目地址:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

顾名思义,通过DragGAN,就可以任意拖动图像了,无论是对象的形状、布局、姿态、表情、位置、大小,都可以做到精准控制。

只要拖拽动作,确定生成图像的起点和终点,再根据对象的物理结构,用GAN生成在精细尺度上符合逻辑的图像,一张挑不出破绽的图就生成了。

拍的照片表情不好?修!脸型不够瘦?修!脸冲镜头的角度不对?修!

(简直就是一个超强版的Photoshop)

轻轻一拖动,就能想把耷拉着的狗耳朵提起来,让狗狗从站着变成趴下,以及让狗狗瞬间张嘴微笑。

现在,甲方提出「让大象转个身」的要求,终于可以实现了。

所以,广大修图师的饭碗是要被端了?

从此,我们正式进入「有图无真相」时代。

准备好,一大波演示来了

这种DragGAN可控图像合成方法,具有广泛的应用场景,只有你想不到,没有它做不到。

Midjourney、Stable Diffusion、Dalle-E等AI绘图工具生成的图像,都可以用DragGAN来微调细节,生成任何想要的效果。

模特的姿势可以随意改变,短裤可以变成九分裤,短袖可以变长袖。

湖边的树可以瞬间长高,湖里的倒影也跟着一起改变。

原图中的太阳没露脸?无所谓,DragGAN会给你造个日出。

猫猫的正脸一下子变侧脸,角度精细可调。

甚至连汽车也能一键「敞篷」。

不得不说,AI绘图圈,真的太卷了。上一个工具还没完全学会呢,下一个革命性产品就又来了。

有了DragGAN的加持,各种AI画图工具的「阿喀琉斯之踵」再也不是弱点。

并且,DragGAN在单颗3090显卡上生成图像,仅仅需要几秒钟。

可以想象,绘图、动画、电影、电视剧等领域,都将迎来大地震。

DragGAN看起来像Photoshop的Warp工具,但它的功能实现了核弹级的增强——它让你不只是在像素周围简单地移动,而是使用AI来重新生成底层对象,甚至还能像3D一样旋转图像。

研究者团队指出,这项工作真正有趣的地方不一定是图像处理本身,而是用户界面。

我们早就能用GAN之类的AI工具来生成逼真的图像,但缺乏足够的灵活性和精度,无法得到我们想要的确切姿势。

但DragGAN提供的,绝不是简单地涂抹和糊化现有像素,而是重新生成主体。

正如研究者所写:「你的方法可以产生幻觉,就像狮子嘴里的牙齿一样,并且可以随着物体的刚性而变形,就像马腿的弯曲一样。」

DragGAN的横空出世表明,GAN模型开始模型了,或许它会比Diffusion模型(DALLE.2、Stable Diffusion和Midjourney)更具影响力。

此前,Diffusion模型一直在AI绘图领域大受欢迎,但生成式对抗网络GAN也引起了人们广泛的兴趣,Ian Goodfellow2017年提出GAN理论后,三年后它再次复兴。

DragGAN:图像处理新时代

在这项工作中,团队研究了一种强大但还未被充分探索的控制GAN的方法——以交互的方式将图像中任意一点精确「拖动」至目标点。

DragGAN主要包括以下两个主要组成部分:

1. 基于特征的运动监控,驱动操作点向目标位置移动

2. 一个新的点跟踪方法,利用区分性的GAN特征持续定位操作点的位置

通过DragGAN,任何人都可以对像素进行精确的控制,进而编辑如动物、汽车、人类、风景等多种类别的姿态、形状、表情和布局。

由于这些操作在GAN的学习生成图像流形上进行,因此它们倾向于生成逼真的输出,即使在富有挑战性的场景下也是如此,例如被遮挡的内容和变形的图像。

定性和定量的对比表明,DragGAN在图像操作和点跟踪任务中,都明显优于先前的方法。

拖拽编辑

在DragGAN的加持下,用户只需要设置几个操作点(红点),目标点(蓝点),以及可选的表示可移动区域的mask(亮区)。然后,模型就会自动完成后续的图像生成,

其中,动态监控步骤会让操作点(红点)向目标点(蓝点)移动,点追踪步骤则通过更新操作点来追踪图像中的对象。此过程会一直持续,直到操作点达到其相应的目标点。

流程

具体来说,团队通过在生成器的特征图上的位移修补损失来实现动态监控,并在相同的特征空间中通过最近邻搜索进行点追踪。

方法

值得注意的是,用户可以通过添加mask的方式,来控制需要编辑的区域。

可以看到,当狗的头部被mask时,在编辑后的图像中,只有头部发生了移动,而其他区域则并未发生变化。但如果没有mask的话,整个狗的身体也会跟着移动。

这也显示出,基于点的操作通常有多种可能的解决方案,而GAN会倾向于在其从训练数据中学习的图像流形中找到最近的解决方案。

因此,mask功能可以帮助减少歧义并保持某些区域固定。

mask的效果

在真实图像的编辑中,团队应用GAN反转将其映射到StyleGAN的潜在空间,然后分别编辑姿势、头发、形状和表情。

真实图像的处理

到目前为止,团队展示的都是基于「分布内」的编辑,也就是使用训练数据集内的图像来实现编辑。

但DragGAN实际上具有强大的泛化能力,可以创建出超出训练图像分布的图像。比如,一个张得巨大的嘴,以及一个被极限放大的车轮。

在某些情况下,用户可能希望始终保持图像在训练分布中,并防止这种超出分布的情况发生。实现这一目标的方法可以是对潜在代码添加额外的正则化,但这并不是本文讨论的重点。

泛化能力

比较分析

首先,与UserControllableLT相比,DragGAN能够编辑从输入图像中检测到的特征点,并使其与从目标图像中检测到的特征点相匹配,而且误差很小。

从下图中可以看出,DragGAN正确地张开了照片中人物的嘴,并调整了下巴的形状来匹配目标的脸型,而UserControllableLT未能做到这一点。

脸部特征点编辑

在DragGAN与RAFT、PIPs和无追踪的定性比较中,可以看得,DragGAN可以比基线更准确地跟踪操作点,进而能够产生更精确的编辑。

定性比较

而在移动操作点(红点)到目标点(蓝点)的任务上,定性比较的结果显示,DragGAN在各种数据集上都取得了比UserControllableLT更加自然和优秀的效果。

定性比较

如表1所示,在不同的点数下,DragGAN都明显优于UserControllableLT。而且根据FID的得分,DragGAN还保留了更好的图像质量。

由于具有更强的跟踪能力,DragGAN还实现了比RAFT和PIPs更精确的操纵。正如FID分数所显示的,如果跟踪不准确的话,很可能会造成编辑过度,从而降低图像质量。

虽然UserControllableLT的速度更快,但DragGAN在很大程度上提升了这项任务的上限,在保持相对较快的运行时间的同时,实现了更靠谱的编辑。

定量分析

结果讨论

DragGAN是一种基于点的交互式图像编辑方法,该方法利用预训练的GAN来合成图像。其中,这些合成图像不仅精确地遵循了用户的输入,而且还能保持在真实图像的流形上。

此外,与之前的方法相比,团队提出的DragGAN还是一个通用框架,并不依赖于特定领域的建模或辅助网络。

这是通过两个新颖的组件来实现的,它们都是利用GAN的中间特征图的辨别质量,来生成像素精确的图像形变和交互性能:

1. 一个优化潜在代码的方法,逐步将多个操作点移向目标位置

2. 一个点追踪程序,真实地追踪操作点的轨迹

总结来说,全新的DragGAN在基于GAN的编辑方面要优于现有的技术,并为使用生成式先验的强大图像编辑开辟了新的方向。

至于未来的工作,团队计划将基于点的编辑扩展到3D生成模型。

模型局限

尽管具有一定的泛化能力,但DragGAN的编辑质量仍受训练数据多样性的影响。

如下图(a)所示,创建一个训练分布外的人体姿势,可能会生成错误的图像

此外,如图(b)(c)所示,在无纹理区域的操作点在追踪时有时会有更多的漂移。

因此,团队建议尽量去选择纹理丰富的操作点。

作者介绍

论文一作Xingang Pan,即将上任南洋理工大学计算机科学与工程学院MMLab@NTU的助理教授(2023年6月)。

目前,他是马克斯·普朗克计算机科学研究所的博士后研究员,由Christian Theobalt教授指导。

在此之前,他于2016年在清华大学获得学士学位,并2021年在香港中文大学多媒体实验室获得博士学位,导师是汤晓鸥教授。

Lingjie Liu

Lingjie Liu是宾夕法尼亚大学计算机和信息科学系的Aravind K. Joshi助理教授,负责宾大计算机图形实验室,同时也是通用机器人、自动化、传感和感知(GRASP)实验室的成员。

在此之前,她是马克斯·普朗克计算机科学研究所的Lise Meitner博士后研究人员。并于2019年在香港大学获得博士学位。

参考资料:https://vcai.mpi-inf.mpg.de/projects/DragGAN/

作者:新智元,来源:新智元,原文标题:《GAN逆袭归来!清华校友论文引爆AI绘图圈,一秒把大象P转身,Diffusion黯然失色》

风险提示及免责条款 市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
标签:

【环球聚看点】一秒把大象P转身!清华校友论文引爆AI绘图圈,Diffusion黯然失色

来源:华尔街见闻 2023-05-20 15:53:25

全球要闻:车辆办理解除抵押手续收费吗 不办理解除抵押有什么影响

来源:转载 2023-05-20 15:10:15

【世界播资讯】飞翔这本书(飞翔的梦 2000年海天出版社出版的图书)

来源:互联网 2023-05-20 14:06:12

万里扬:拟30.6亿元投建新能源汽车合金结构件项目 天天即时看

来源:互联网 2023-05-20 12:46:39

外交部发言人:当今世界面临的最大风险全部来自少数试图给中国贴标签的国家_今日要闻

来源:新华网 2023-05-20 11:43:01

特斯拉电池坏了包换吗_特斯拉八年后电池坏了咋办

来源:互联网 2023-05-20 10:52:47

五月天演唱会“黄牛票”价格狂跌,粉丝胜了?-报资讯

来源:风口财经 2023-05-20 09:54:33

世界信息:野生黑枸杞泡水是什么色(野生黑枸杞泡水是什么颜色)

来源:互联网 2023-05-20 09:19:14

金杯汽车(600609):5月19日北向资金增持35.06万股

来源:证券之星 2023-05-20 08:24:28

amoled屏幕对比lcd屏幕 amoled和ips哪个好|全球速递

来源:城市网 2023-05-20 07:23:57

微信摇一摇在哪个界面_微信摇一摇在哪里关闭

来源:互联网 2023-05-20 06:02:21

中招面对面丨郑州尚美中学校长苏芳:文化课和专业课“双强教学” 选择学校要结合兴趣_全球热议

来源:大河网 2023-05-20 04:46:50

股票行情快报:海源复材(002529)5月19日主力资金净买入13.28万元|全球最新

来源:证券之星 2023-05-20 01:53:40

天天快报!榆树市气象局发布雷电黄色预警【III级/较重】【2023-05-19】

来源:九派新闻 2023-05-19 23:15:26

微头条丨山东威海经开区法院成功化解一起劳动合同纠纷

来源:民主与法制网 2023-05-19 22:14:11

第五届西洽会|让出行更智能更便捷 交通领域这3项技术成亮点-焦点日报

来源:上游新闻 2023-05-19 21:06:23

你如何去除铸铁上的锈迹?_送对象妈妈什么礼物好-环球今头条

来源:礼物网 2023-05-19 20:36:59

今起三天,河东区这个主题市集喊你来玩!

来源:津云 2023-05-19 20:01:40

世界快资讯丨杭州拱墅区房价2023年最新房价_杭州拱墅区

来源:互联网 2023-05-19 19:08:47

不换卡、不换号! 全球首个5G异网漫游试商用正式启动

来源:央广网 2023-05-19 18:17:29

热资讯!12万人挤进山东广饶,两天签单219亿!

来源:车辕车辙网 2023-05-19 17:59:42

国家级+1,宿迁骆马湖旅游度假区入选国家级旅游度假区

来源:新华报业网 2023-05-19 17:03:45

焦点观察:港交所拟于6月19日推出港币-人民币双柜台模式

来源:证券时报网 2023-05-19 16:55:07

热点在线丨津药达仁堂33款中成药入选新冠后长期症状中医诊疗专家共识

来源:证券时报网 2023-05-19 16:15:26

上海、黑龙江两地分别查办非法出版物案_环球即时

来源:扫黄打非 2023-05-19 15:38:05

当前简讯:海晨股份(300873.SZ):已规划在常州投建一个大型的供应链物流服务基地

来源:格隆汇 2023-05-19 15:13:55

“中国旅游日”快来山西晋中打卡!

来源:央广网 2023-05-19 14:32:04

爱你所爱行你所行的含义_爱你所爱行你所行是什么意思

来源:互联网 2023-05-19 13:57:07

英国电信公司计划2030年前裁员5.5万人 目前拥有13万员工-天天观焦点

来源:21经济网 2023-05-19 12:52:44

青岛多条路段、路口施工,五四广场、中山路市场三路交通优化

来源:青岛新闻网房产 2023-05-19 12:12:10

Copyright   2015-2032 华西知识产权网 版权所有  备案号:京ICP备2022016840号-35   联系邮箱: 920 891 263@qq.com