带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

【新智元导读】微软提出文本图像轨迹条件视频生成模型DragNUWA,支持手绘轨迹驱动图像动态化,实现复杂运动及场景控制。

微软开发的视频生成模型DragNUWA让清明上河图动起来了!

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

只要用拖动的方式给出运动轨迹,DragNUWA就能让图像中的物体对象按照该轨迹移动位置并生成连贯的视频。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

DragNUWA能同时控制摄像机和多个对象的移动以及复杂的轨迹,从而生成具有现实世界场景和艺术绘画特色的视频。

近年来,可控视频生成技术备受关注。但现有可控视频生成仍存在两大局限:

1. 现有的大多数工作都集中在文本、图像或基于轨迹的控制上,导致无法在视频中实现细粒度控制。

2. 轨迹控制的研究仍处于早期阶段,大多数实验都是在Human3.6M等简单数据集上进行的。这种局限性限制了模型处理开域图像和有效处理复杂曲线轨迹的能力。

来自微软的研究人员提出了基于开域扩散的视频生成模型: DragNUWA。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

论文地址:https://arxiv.org/abs/2308.08089

DragNUWA针对现有研究中控制粒度不足的问题,同时引入了文本、图像和轨迹信息,从语义、空间和时间角度对视频内容进行精细控制。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

为了解决目前研究中开域轨迹控制有限的问题,研究人员从三个方面提出了轨迹建模:

首先,通过轨迹采样器(TS)实现对任意轨迹的开域控制;其次,通过多尺度融合(MF)控制不同粒度的轨迹;最后,通过自适应训练(AT)策略以根据轨迹生成一致的视频。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

工作原理

DragNUWA支持三种可选输入:文本p、图像s和轨迹g,并侧重于从三个方面设计轨迹。

首先,轨迹采样器(TS)从开域视频流中动态采样轨迹。

其次,多尺度融合(MF)将轨迹与文本和图像深度融合到UNet 架构的每个区块中。

最后,自适应训练(AT)可根据光流条件调整模型,使轨迹更友好。

最终,DragNUWA 能够处理包含多个物体及其复杂轨迹的开域视频。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

DragNUWA的训练过程概览

为了验证轨迹控制的有效性,研究人员从摄像机移动和复杂轨迹两个方面对DragNUWA进行了测试。

在视频制作中,摄像机移动在为观众创造动态和引人入胜的视觉效果方面发挥着重要作用。

不同类型的镜头移动有助于叙述故事或强调场景中的元素。常见的镜头移动不仅包括水平和垂直移动,还包括放大和缩小。

如下图所示,DragNUWA虽然没有明确对摄像机运动进行建模,但它可以从开放域轨迹建模中学习到各种摄像机运动:

利用相同的文字和图像,同时改变拖动轨迹,可以实现各种摄像机移动效果。例如,可通过在所需缩放位置绘制方向轨迹来表达放大和缩小效果。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

视频中的物体往往具有复杂的运动轨迹。面对多个运动物体、复杂的运动轨迹以及不同物体之间不同的运动幅度,视频生成中的运动建模是一个巨大的挑战。

研究人员通过使用相同的文字和图片,同时改变拖动轨迹,实现了各种复杂的轨迹效果。

这证明了DragNUWA具有复杂运动进行精确建模的能力:支持复杂的曲线轨迹,允许轨迹长度可变,并支持同时控制多个对象的轨迹。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

DragNUWA通过整合三个基本控制来实现精细视频生成:文本、图像和轨迹,分别对应语义、空间和时间方面。

这三个条件是不可或缺的:

s2v和p2v说明了图像和文本控制作为单独条件使用时的限制:

如s2v所示,虽然图像本身提供了一些潜在的语义和动力学信息,但它并不能实现对背景和角色运动的精确控制。

如p2v所示,当只提供文本时,模型能成功生成与文本相关的视频,但外观和动态仍完全无法控制。

gs2v和ps2v强调了文本(p)和轨迹(g)的重要性。在没有文本的情况下,无法确定模糊图像 (s) 代表的是海上冲浪还是雪地冲浪。在没有轨迹的情况下,模型会自动假定人物正在向左移动。

在三个基本条件都满足时,pgs2v中实现了在雪地上冲浪和向右移动的控制。

带你穿越清明上河图!DragNUWA惊艳亮相:一拖一拽让静图秒变视频

数据集

在训练过程中,研究团队利用WebVid和VideoHD数据集来优化 DragNU。

作者简介

吴晨飞博士是微软亚洲研究院的高级研究员。他的研究重心是大规模预训练、多模态理解和生成。主要研究工作包括多模态生成模型NUWA(女娲)系列(NUWA, NUWA-LIP, NUWA-Infinity, NUWA-3D, NUWA-XL)、多模态理解模型Bridge Tower(桥塔)系列(KD-VLP, Bridge-Tower)以及多模态对话系统Visual ChatGPT。在CVPR, NeurIPS, ACL, ECCV, AAAI, MM等会发表多篇论文。

段楠博士,微软亚洲研究院资深首席研究员,自然语言计算团队研究经理,中国科学技术大学、西安交通大学兼职博导,天津大学兼职教授,主要从事自然语言处理、多模态基础模型、代码智能、机器推理等研究,多次担任NLP/AI学术会议程序主席和领域主席,发表学术论文100余篇,Google Scholar引用10000余次,持有专利20余项。他被评为中国计算机协会(CCF)杰出会员、CCF-NLPCC青年科学家(2019年)、DeepTech中国智能计算科技创新人物(2022年)。

参考资料:

https://arxiv.org/abs/2308.08089

声明:本文内容整理自网络,观点仅代表原作者本人,投稿号仅提供信息发布服务。如有侵权,请联系管理员。

(0)
上一篇 2023年9月6日 18:13
下一篇 2023年9月6日 18:13

热点推荐

  • 38岁老师被骗百万仍想和骗子结婚 说明智商和收入确实没有什么关系

    上海,38岁的袁女士是一位兢兢业业的单身教师。据报道,她在网络上结识了一名看似外表俊朗、家境殷实的男子。两人迅速坠入爱河,男子还为她介绍了一个所谓的“比特币”投资平台。此平台在袁女士投下400万巨资后却突然消失,让她陷入了人生的低…

    热点 2023年10月7日
    99
  • 国米客场0-0桑普多利亚,劳塔罗错失绝杀,卢卡库暴走!赛后评分

    在刚结束的意甲第22轮最后一场比赛中,国米非常遗憾的客场0-0被桑普多利亚逼平! 看起来很无聊的比赛,但是由于各种因素也让这场比赛非常戏剧化。 劳塔罗两次踢空,两次错失绝佳进球机会,特别是最后一秒钟的几乎空门,结果…… 还有卢卡库…

    2023年5月10日 热点
    111
  • 大唐高阳公主闺房情事

    高阳公主私通辩机和尚这件事在网上流传的很广,这个是史上第一八卦,这个案子的始末缘由历史记载真正的样子是什么样呢? 这个案子把唐朝初期君臣佛三家都有代表性的人物囊括在其内,先把案子涉及到的当事人列举一下。 第一个是和尚辩机,都知道这…

    热点 2022年10月22日
    165
  • 如何更好地入睡

    简要回答 需要及时关闭干扰光线,人造光源会导致入睡激素受到影响,所以在卧室内尽可能不要放电脑,智能,手机,电视等会产生人造光源的物品,养宠物的家庭,也应该将宠物放在其他的地方,不要放在卧室。 01 保持凉爽的睡眠温度非常重要,一般…

    热点 2023年8月24日
    93
  • 酒店财务部岗位职责(财务部岗位职责)

    大家好,今天给各位分享财务部岗位职责的一些知识,其中也会对酒店财务部岗位职责进行解释,文章篇幅可能偏长,如果能碰巧解决你现在面临的问题,别忘了关注本站,现在就马上开始吧! 财务部门职责是什么 问题一:财务部基本职能是什么财务部基本…

    热点 2023年4月17日
    110
  • 文明6地图全开秘籍_文明6地图全开

    文明6地图全开秘籍 文明6中可通过控制台秘籍的途径开启全图显示,其操作方法并不困难,下面深空高玩带来“白蛉星辰”分享的文明6地图全开秘籍、文明6地图及控制台全亮视频教程,喜欢刷图的玩家赶紧来看一下吧。 在我的文档My GamesS…

    热点 2023年6月26日
    144
  • 2023年中国网剧(2023年网剧排名)

    最近什么网剧最火最好看? 1、好看的短剧、网剧推荐:《虚颜》、《当我飞奔向你》、《盲心千金》、《亲爱的隐居先生》、《契约新娘》。 2、《侠探简不知》。热播时我竟然完全不知道还有这部剧,看到好多评论在安利,剧荒就看了。 3、今年好看…

    热点 2023年11月9日
    128
  • 请问pdca循环的四个阶段是什么?

    01 PDCA循环的含义是将质量管理分为四个阶段,即Plan(计划)、Do(执行)、Check(检查) 和 Act(处理)。这四个过程不是运行一次就结束,而是周而复始的进行,一个循环完了,解决一些问题,未解决的问题进入下一个循环,…

    热点 2023年8月24日
    119
  • 四川景点排名前十名有哪些(四川景点排名)

    四川省十大旅游景点排名,四川旅游景点前十 1、四川景点排行榜前十名分别是:稻城亚丁、都江堰、武侯祠、杜甫草堂、九寨沟、峨眉山、青羊宫、贡嘎山、明蜀王陵、昭觉寺。 2、峨眉山:峨眉山是中国四大佛教名山之一,也是世界文化与自然遗产。这…

    热点 2023年10月30日
    92
  • 排名操作方法(搜狗微信搜索订阅号及公众号)

    微信现在已经成为人们生活中必不可少的交流软件了,而且微信的功能变得越来越强大和完善,所以很多人会利用微信进行内容搜索,那么微信公众号内容搜索怎么操作?下面由拓途数据说一下。 微信公众号内容搜索   电脑浏览器怎么搜索微信公众号及内…

    热点 2022年10月13日
    220

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注