人人皆可“拍”电影？南方+独家专访阿里云万相产品负责人

热点资讯

推荐资讯

新闻动态你的位置：十大买球平台排行榜图片 > 新闻动态 >

十大买球平台排行榜图片介绍

产品展示

新闻动态

人人皆可“拍”电影？南方+独家专访阿里云万相产品负责人

发布日期：2025-03-06 14:23 点击次数：106

输入脑海中想要实现的视频场景描述，就能在短时间内获得栩栩如生的视频呈现。这样的“神奇”如今在视频大模型中就成为了现实。

日前，阿里云旗下视觉生成基座模型万相2.1（Wan）宣布开源，同时支持文生视频和图生视频任务。如果通俗点理解这个大模型的厉害之处，就是首先在文生视频领域做到了性能的领先。其中14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出，在权威评测集VBench中，万相2.1的成绩大幅超越Sora、Luma、Pika等国内外模型，稳居榜首位置。其次和Deepseek有异曲同工之妙的是，Deepseek实现了大模型训练成本的大幅降低，万相则是将视频大模型部署推理门槛降到了“消费级”：阿里云方面表示只要消费级显卡就能运行，也就是说如果家里的显卡还过得去，在家的电脑也能部署体验。

“性能出众，平易近人。”的万相2.1一时间成为了为视频大模型带来了“Deepseek时刻”。

面对视频大模型开源带来的新一波热潮，南方+记者独家采访了阿里通义万相产品负责人张宁奕，就视频大模型的技术发展和未来趋势展开了探讨。

“事实上，我们在模型结构、预训练策略以及推理等全链路进行了创新。”在谈到万相2.1如何能够做到“实现高性能与低硬件需求”这样的提升时，张宁奕认为是通过大模型底层开始的全面创新，带来的技术进步。“例如，在模型架构优化上：通过「3D VAE模块」实现时空压缩（时域4倍、空域64倍，总计256倍压缩率），显著降低显存占用；采用「分块特征缓存策略」支持长视频生成，消费级显卡（如RTX 4090）即可运行1.3B模型。”

从万相2.1的进化中不难看出，作为一项全新的技术，即使目前已经处于“百模大战”的格局，同样具有弯道超车的机会。

“从模型表现来看，万相正在成为视频生成领域的新标杆。”据张宁奕介绍，在权威评测VBench的16项指标中，万相的综合得分稳居第一，尤其在物理模拟（如流体、碰撞）和复杂运动（体操、击剑）生成上超越多数开源模型，其中，1.3B模型仅需8.2GB显存生成480P视频，对比同类模型显存需求降低30%，处于“消费级友好型视频模型”前沿。“社区的反馈更加直观，我们开源两天不到，就登上了Hugging Face热度榜单第三，大量开发者在部署和体验万相模型。”

Deepseek在火出圈后，“服务器忙”成为了大家对其的“第一印象”。而作为对算力要求更高的视频大模型而言，也提出了更高的要求。张宁奕表示，为应对GPU算力的指数级增长需求，尤其是正在爆发的推理市场，阿里云已全面重构底层硬件、计算、存储、网络、数据库、大数据，并与AI场景有机适配、融合，加速模型的开发和应用，打造一个AI时代的最强AI基建。据张宁奕透露，阿里云已经打造出一套稳定和高效的AI基础设施，连续训练有效时长大于99%，模型算力利用率提升20%以上。

值得留意的是，与Deepseek同走“开源路线”，也是万相大模型迅速出圈的重要原因。张宁奕就表示，此次开源的14B/1.3B双模型，可以进一步和学术界探索长视频生成技术，同时与产业界一起推动大模型技术在千行百业的应用。“阿里云最早提出MaaS（模型即服务）理念的科技公司，阿里云魔搭社区为AI开发者提供模型体验、下载、调优、训练、推理、部署等一站式服务。截至目前，魔搭社区已上架千问Qwen、万相Wan、DeepSeek-R1、Llama等国内外知名模型，服务超过1000万开发者。”

开源两天不到，万相就登上HuggingFace热度榜单第三

在业内人士看来，开源的路径将大模型的应用门槛进一步降低，而如今视频大模型的到来，将会带来比此前Deepseek只能实现文字对话要大得多的应用价值。

“过去两年，各个模态的大模型性能取得了巨大提升，但要实现大规模落地，将高效率的模型开源是重要途径。我们希望万相大模型能让个人创作者、中小团队无需专业设备/团队即可生成影视级内容，推动“创意普惠”。”张宁奕表示，随着模型能力的进一步提升，未来视频生成大模型将有力推动影视与动画、电商与营销、教育与科普：将抽象概念（如物理规律、生物生长）动态可视化、游戏开发等领域的发展，用大模型快速生成预演镜头，辅助分镜设计，一键生成商品展示视频等将成为现实。

对于大模型进入视频时代后将带来的变革和影响，张宁奕坦言将会推动内容创作领域的彻底变革。“未来普通人可以通过自然语言生成短视频，冲击传统UGC/PGC边界；另外，还将催生更丰富的个性化体验，可以通过创作者+协作模型共同成长来获取优质内容，沉淀一套更定制化的优质内容生产模型。从技术角度看，大模型未来仍将持续创新，同时会朝着多模态融合的方向发展，例如视频与语音/3D模型联动（如生成带旁白的教学视频）。”

采写：南方+记者叶丹

剪辑：南方+记者龙达洋

上一篇：景甜淡颜系嘟嘴甜甜

下一篇：和平典范！一国变两国，情谊更浓，谱写和谐发展新篇章