北大、快手开源视频生成模子Pyramid Flow,1分钟生成5秒视频
编译 | 杨蕊伃剪辑 | 漠影
智东西10月11日音尘,据VentureBeat报谈,北京大学、北京邮电大学和快手科技在本周蚁合开源了一款名为Pyramid Flow的高清视频生成模子。Pyramid Flow能把柄文本刻画制作长达10秒、分别率为1280×768、每秒24帧的视频。
Pyramid Flow弃取了金字塔流匹配算法,优化了视频生成的效果和质地。这一算法将视频生成经由判辨为多个阶段,每个阶段对应着不同的分别率。
在推理阶段,Pyramid Flow模子简略以相当快的速率生成视频。具体来说,它不错在56秒内生成一段时长为5秒、分别率为384p的视频,这一速率与市面上很多全序列扩散模子相当,以致更快。
当今,该表情依然在Hugging Face和GitHub上开源。
开源地址:
1、https://github.com/jy0205/Pyramid-Flow
2、https://huggingface.co/rain1011/pyramid-flow-sd3
一、金字塔流匹配算法:高质地AI视频新技巧,逐层提高分别率
文生视频范围有一个额外难的技巧挑战,即是奈何灵验地惩处和生成高维度的视频数据。
针对这一技巧挑战,Pyramid Flow研发团队提倡了金字塔流匹配算法。
金字塔流匹配算法的中枢念念想是将视频生成经由判辨为多个阶段来灵验惩处高维度的视频数据。这些阶段从低分别率驱动,冉冉升级到高分别率,从而冉冉进步视频的了了度。
这个经由就像是先画一个浅显的草图,然后小数点地加上口头和细节,直到画出一幅齐备的画。
▲金字塔流匹配算法:视频的生成是在不同的分别率头绪上冉冉进行的(图源:arxiv论文截图)
二、开源数据集现实,Pyramid Flow生成5-10秒高清视频
Pyramid Flow模子通过分阶段的方式生成视频,大大减少了盘算老本。
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
与传统的扩散模子比较,Pyramid Flow的金字塔流匹配算法将token数目减少了4倍。
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
据官网先容,该模子不错在768p分别率和每秒24帧的条目下生成5至10秒的视频,况且是基于开源数据集进行现实的。
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
具体来说,Pyramid Flow在现及时用到的数据集包括LAION-5B、CC-12M、SA-1B以及WebVid-10M和OpenVid-1M等。
1、LAION-5B:一个用于多模态AI有计划的大型数据集。
2、CC-12M:一个由汇聚爬虫采集的图像文本对的数据集。
3、SA-1B:具有高质地、无暧昧图像的数据集。
4、WebVid-10M和OpenVid-1M:两个被平凡用于文本到视频生成的视频数据集。
三、宽松许可,Pyramid Flow开源营业用途,温柔竣事视频微调
Pyramid Flow是开源的AI视频生成器具,它允许用户用在营业表情里,但须保留版权声明。
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
通过使用Pyramid Flow,用户不错免费养息视频细节,这项功能关于电影制片厂来说很有诱骗力。
电影制片厂不错通过使用Pyramid Flow来提高视频制作效果、镌汰视频制作老本,并探索新的视频创意器具。
不外,要想充分行使好这一模子,电影制片厂还需要具备一定的缔造东谈主才和盘算资源。
当今,Pyramid Flow穷乏像Runway Gen-3 Alpha这么的模子所具备的一些高档微调功能,比如精准为止录像机角度、要道帧和东谈主体姿态等电影元素。
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
▲Pyramid Flow生成的视频展示(图源:Pyramid Flow官网)
开端:VentureBeat、Pyramid Flow官网、arxiv
热点资讯
- 济南戒瘾中心:你知说念
- 苹果厚爱上线Apple Intelli
- 《王者荣耀转区共享》
- 大好意思顺义丨秋景胜春
- 以茶结缘!里约植物园有
- 11月22日基金净值:中证
- 社教|高明花坛冬季闭园
- 股票行情快报:东亚药业
- 原神:纳塔真有新东谈主
- 出海公证和国内公证有哪