2024服贸会生数科技求解视频大模型生成主体不共同问题_华体会体育棋牌-华体会体育苹果版-华体会登陆入口

发布者：华体会体育棋牌发布时间：2024-11-28 05:27:19 阅读: 2746 次

　　“当咱们向AI输入一条指令，让它生成一段视频时，实践上，中心诉求是期望AI让咱们完结一个完好的叙事。要完成这个方针，需求让中心元素上坚持统一和可控”，在近来举行的2024年中国国际服务交易交易会（以下简称“服贸会”）上，生数科技董事长兼CEO唐家渝给出处理方案：视频大模型Vidu的主体参照功用，即能完成对恣意主体的共同性生成。为做到这一点，业界曾测验“先AI生图、再图生视频”等办法，但主体参照功用不但能削减工作量，还打破了分镜头画面对视频内容的约束。技能的打破让视频大模型商业化有了更大的幻想空间。

　　大言语模型盛行时，生数科技就瞄准了多模态赛道，并在2024年1月上线了文生视频的才能。按照生数科技的方案，视频才能需求更长时长、更高共同性去开展，但Sora的亮相让这家勇于探索商业模式的公司的方案提早。

　　4月底发布Vidu，支撑一键生成16秒高清视频，6月支撑一键生成32秒视频，一起生成音效，并从单个生成的视频中重构出4D视频。7月底，Vidu正式面向全球上线，开放了图生视频、人物共同性功用以及最长8秒的视频生成才能。

　　此次，唐家渝在2024年服贸会上要点介绍的是Vidu的最新功用“主体参照”。所谓主体参照，便是答应用户上传恣意主体的一张图片，Vidu 就可以确定该主体的形象，经过描绘词恣意切换场景，输出主体共同的视频，其间“恣意”是关键词，即不管是人物、动物、产品，仍是动漫人物、虚拟主体，都能保证其在视频生成中的共同性和可控性。

　　北京商报记者经过查询了解到，在该功用上线前，视频大模型对完成这一方针并不是毫无处理方案，“图生视频”和“人物共同性”等才能也可做到。

　　以先AI生图、再图生视频的办法为例，可以终究靠AI绘图东西如 Midjourney 生成分镜头画面，先在图片层面坚持主体共同，然后再将这些画面转化为视频片段并进行编排组成。

　　但问题在于，AI 绘图的共同性并不完美，往往一定要经过重复修正和部分重绘来处理。更重要的是，实践的视频制造的过程中触及很多场景和镜头，这种办法在处理多组分镜头的场景时，生图的工作量巨大，能占到全流程的一半以上，且终究的视频内容也会由于过火依靠分镜头画面而缺少创造性和灵敏性。

　　Vidu的“主体参照”功用经过“上传主体图+输入场景描绘词”的办法，直接生成视频资料。这一办法大幅度削减了工作量，还打破了分镜头画面对视频内容的约束，让创造者可以根据文本描绘，创造出画面丰厚、灵敏多变的视频内容。

　　中心广播电视总台导演、AIGC艺术家石宇翔共享动画短片《夏天的礼物》创造流程时表明，与根底的图生视频功用比较，“主体参照”功用摆脱了静态图片的捆绑，生成的画面更具感染力和自由度，让创造的连贯性极大的提高。一起协助他节省了七成左右的生图工作量。