热点资讯
人妖 女優 Sora强敌!Meta最强千里浸式AI媒体模子来了,300亿参数模子援助Movie Gen视频
发布日期:2024-10-05 13:35 点击次数:100
本文作家:李丹人妖 女優
开始:硬AI
OpenAI的Sora迎来强敌,Meta推出堪称起先进的媒体基础模子Movie Gen。
Meta称,Movie Gen是公司“针对媒体的冲破性生成式AI商榷”,它囊括了图像、视频和音频等模态,用户只需输入文本,就不错制作自界说的视频和声息、裁剪现存视频,以及将个东谈主图像诊疗为独到的视频。Movie Gen履行这些任务的表当今东谈主类评估中由于业内一样模子。
Meta先容,Movie Gen是“起先进、千里浸式效果最好的故事解说模子套件”,综合了公司第一波生成式AI媒体商榷的Make-A-Scene 系列模子,即可创建图像、音频、视频和 3D 动画的模子,以及跟着扩散模子出现而针对Llama Image 基础模子进行的第二波商榷模子,即可终了更高质地图像和视频生成以及图像裁剪的模子。
文生视频最长16秒 130亿参数音频生成模子 东谈主工评测视频生成对Sora净胜率8.2
Meta概述,Movie Gen 具有四种功能:视频生成、个性化视频生成、精准视频裁剪、音频生成。
关于视频生成,Meta先容,用户唯有提供一个文本的请示词,Movie Gen就不错支配针对文本转图像和文本转视频进行了优化的聚首模子,创建高清的高质地图像和视频。Movie Gen的视频模子有300亿参数,这个诊疗模子能以每秒16帧的速率生成最长16秒的视频。
Meta称,发现这些模子不错推理物体的通顺、拍摄主体与物体之间的互相作用,以及相机的通顺,而且不错学习各式见解了解有哪些合理的通顺,因此,它们成为同类中起先进的模子。在先容该功能时,Meta展示了多个10秒长度的视频短片,包括一只像萌翻会聚的弹跳猪“Moo Deng”那样的小河马游来游去。
华尔街见闻刺眼到,单从生成视频的最大长度看,Movie Gen还不敌本年2月OpenAI发布的Sora。Sora令业界激荡的少许是,不错创建长达60秒的文生视频,。不外,比拟Meta客岁11月官宣的视频模子Emu Video,Movie Gen确乎越过不小。Emu Video只不错每秒16帧的速率生成最长4秒的视频。
除了径直文生视频,Movie Gen还有出色的个性化视频制作能力。Meta先容,其彭胀了前述基础模子,援助生成个性化视频。用户不错提供某个东谈主的图像,配合文本的请示词,让Move Gen生成的视频包含参考图像中的东谈主物,以及得当文本请示的视觉细节。Meta称,在创建保留东谈主类身份和行动的个性化视频方面,其模子获得了起先进的效果。
Meta展示的一个视频骄横,用户不错提供一个女孩的相片,输入翰墨“又名身穿粉色马甲的女DJ播放唱片,她身旁有一只猎豹”,然后就生成了以相片中女孩形象的DJ打碟,以及一只猎豹奉陪。
在精准视频裁剪方面,Meta称,Movie Gen摄取了淹没基础模子的裁剪变体模子,在用户输入视频和文本请示词后,精准履行任务,生成所需的输出。它将视频生成与高等图像裁剪相取悦,履行局部裁剪,举例添加、删除或替换元素,以及诸如布景或神色修改的全局编削。与需要专科手段或枯竭生成精准度的传统器具不同,Movie Gen 保留了原始实际,仅针对关系像素裁剪。
Meta提供的示例之一是,用户输入,让企鹅穿上有英国女王维多利亚在位时代衣饰作风的服装,Movie Gen生成的企鹅穿上了带蕾丝的红色女裙。
关于音频生成,Meta称,熏陶了一个130亿参数的音频生成模子,该模子不错接受视频和可选的文本请示词,生成长达 45 秒的高质地高保真音频,包括环境音、拟声息效(Foley)和乐器布景音乐,统统这些都与视频实际同步。此外,Meta引入了一种音频彭胀手艺,不错为轻易长度的视频生成连贯的音频,在音频质地、视频到音频对皆和文本到音频对皆方面总体上终赫然起先进的性能。
Meta提供的一个例子是,生成在吉他音乐的伴奏下,全地形车(ATV)引擎轰鸣加快的声息,还有一个例子是,管弦乐声中有树叶沙沙作响和树枝撅断的声息。
Meta还展示了针对以上四种能力进行的A/B对比测试东谈主工评估收敛,下图骄横的净恰好胜率代表,比拟Sora等竞品模子,东谈主类评估者更心疼Movie Gen模子生成的收敛。在径直生成视频这个功能方面,Movie Gen比拟Sora的净胜率达到8.2。
最新av女优基于授权和公开可用数据熏陶 未明确何时发布 扎克伯格称来岁上线Instagram
Movie Gen 是基于哪些信息进行熏陶的?Meta 的声明莫得评释具体细节,仅仅说:“咱们基于授权和公开可用的数据集对这些模子进行了熏陶。”
有斟酌指出,对生成式 AI 器具而言,熏陶数据的开始以及从网上捏取哪些数据合理仍然是有争议的问题,而且公众很少知谈使用哪些文本、视频或音频片断创建了任何大模子。
还有斟酌称,Meta说熏陶用的数据集是“专有/交易明锐”的,未提供细节,那么只可忖度,数据包括许多Instagram 和 Facebook 平台的视频,加上一些Meta合营伙伴的实际,以过火他许多未得到充分保护的实际、也即是所谓的“公开可用”实际。
关于发布时候,Meta本周五并未明确Movie Gen何时面向世界推出,仅仅隐隐地说“可能将来发布”。本年2月OpenAI官宣Sora后迄今还未果然向公众洞开使用,也并未浮现任何探求将要发布的日历。
不外,Meta CEO扎克伯格称,Movie Gen来岁会上线Meta旗下的外交媒体Instagram。他在个东谈主Instagram账号发布了一段Movie Gen生成的视频,骄横他在用腿部推举机,跟着他开动进修,布景发生了变化。先是骄横,他在一家霓虹灯照射的将来作风健身房进修,然后变为,他一稔角斗士盔甲进修,接着变为他激动一台点火的纯金机器,终末变为,他用腿部推举一盒鸡块,周围是一派薯条。
扎克伯格配上翰墨称,Meta新的 MovieGen AI 模子不错制作和裁剪视频,每天都是真金不怕火腿的日子。该模子将于来岁登陆 Instagram。