ai短视频制作 清华 那些用AI“拍”的影视剧

用户投稿 23 0

那些用AI“拍”的影视剧

迅猛发展的AI技术,正在颠覆许多行业的格局,当然也包括影视业。从《2001太空漫游》中的“哈尔”到《流浪地球》的“莫斯”,我们发现,AI已然不是影视作品中的某一个角色形象,甚至一种辅助生产技术。它,正在成为荧幕画面背后,那只游走在创作、拍摄、剪辑等产业全流程的“手”——

《乌鸦》

2022年,由爱尔兰艺术家主导、使用OpenAI工具生成的短片《乌鸦》讲述了一个舞者变乌鸦的故事,获得戛纳电影短片节最佳短片奖。尽管这一奖项不算特别权威,但该短片凭此奖,获得角逐英国电影学院奖的资格。这给一些艺术创作者也带来了“可能被AI替代”的焦虑。

《冰霜》

2023年,美国“路标”公司推出了世界上第一支影像完全由AI生成的故事短片,长度不到13分钟。故事讲述了一个全球极端气候变迁背景下的灾难片剧情。为了制作生成这部影片,该团队运用了多项主流的AI生成技术,包括大语言模型协助制作脚本、利用图像模型生成画面、人脸图像识别技术让人物“活起来”,以及AI语音合成配音等。

ai短视频制作 清华 那些用AI“拍”的影视剧

《中国神话》

2024年3月,国内首部AI全流程微短剧《中国神话》上线。该剧由央视频、中央广播电视总台人工智能工作室联合清华大学新闻与传播学院元宇宙文化实验室合作推出,其美术、分镜、视频、配音、配乐全部由AI完成。全剧共六集,分别为《补天》《逐日》《奔月》《填海》《治水》《尝百草》,由一个个经典神话故事起笔,借助AI技术拓展人们对神话的常规想象,再通过经典意象和当下人类社会的深度链接,展现民族精神的时代回响。

《三星堆:未来启示录》

2024年7月,由北京市广电局指导,博纳影业出品制作的AI全流程制作科幻短剧集《三星堆:未来启示录》上线,并同步亮相北京大运河博物馆举行的“探秘古蜀文明——三星堆与金沙”展览。该短剧第一季共12集,每集时长3至4分钟。故事放在了近未来,围绕地球古文明遗迹的异变展开,讲述了三股力量在数字重建的古蜀国中探寻解救文明危机的密钥,并逐步揭开古蜀国神秘面纱的传奇故事。从场景、人物到道具,剧集应用了十几种最先进的AIGC视频技术。

作者:严粒粒

来源: 浙江日报

清华大学推出视频生成技术:让AI看懂"注意力"背后的秘密

ai短视频制作 清华 那些用AI“拍”的影视剧这项由清华大学王宇教授团队与字节跳动种子联合实验室合作完成的突破性研究,于2025年6月发表在计算机视觉领域的顶级期刊上。研究团队包括来自清华大学的赵天辰、洪科、杨欣昊等多位研究者,以及字节跳动的肖雪峰、李会霞、凌峰等工程师。这篇题为"PAROAttention: Pattern-Aware ReOrdering for Efficient Sparse and Quantized Attention in Visual Generation Models"的论文,为解决AI视频生成中的计算效率问题提供了全新的思路。对这项研究感兴趣的读者可以通过arXiv:2506.16054v1访问完整论文。

当我们谈论AI生成视频时,很多人可能会想到那些令人惊叹的效果,比如几秒钟就能制作出一段高清视频。然而,在这些炫目效果的背后,隐藏着一个巨大的技术挑战:计算资源的消耗简直是个"无底洞"。想象一下,如果你要手工制作一部6秒钟的720P视频,需要处理约17,000个独立的信息片段,每个片段都要与其他所有片段进行"对话",这意味着要进行近3亿次的计算。这就像是在一个17,000人的聚会上,每个人都要和其他所有人握手交谈一样复杂。

这种复杂性主要来源于AI模型中一个叫做"注意力机制"的核心组件。用烹饪来比喻,注意力机制就像是大厨在准备一道复杂菜肴时,需要同时关注锅里的每一种食材,判断它们之间的搭配关系。在AI视频生成中,模型需要理解画面中每个像素点与其他所有像素点的关系,这个过程的计算量会随着画面分辨率的增加而呈指数级增长。

一、传统优化方法的困境

面对这个计算瓶颈,研究者们已经尝试了很多解决方案,主要分为两大类:稀疏化技术和量化技术。稀疏化技术类似于在那个17,000人的聚会中,让每个人只与部分重要的人交谈,而不是和所有人都聊天。量化技术则像是简化对话内容,用更简单的方式表达相同的意思。

然而,当研究团队深入分析这些传统方法时,发现了一个令人困惑的现象。在文本处理的AI模型中,这些技术工作得很好,但在视觉生成模型中却经常表现不佳。这就像是同样的社交策略在不同的文化背景下效果完全不同。

通过大量的实验和分析,研究团队终于找到了问题的根源:视觉AI模型中的"注意力模式"与文本模型完全不同。在文本模型中,信息的关注点通常比较集中和规律,就像阅读一本书时,我们的注意力主要集中在当前句子和相邻的几个句子上。但在视觉模型中,注意力模式变得极其复杂和分散,呈现出各种奇特的几何图案:有些像斜线条纹,有些像方格子,还有些像复杂的马赛克。

这种复杂多样的注意力模式给传统优化方法带来了巨大挑战。稀疏化技术难以设计出适合所有模式的"筛选规则",就像试图用一个固定的模板去裁剪各种不同形状的布料,总会有不合适的地方。量化技术则面临"数据不均匀"的问题,在同一个处理单元中,有些数值可能非常大,有些却很小,这种巨大的差异导致信息压缩时损失严重。

二、突破性的解决思路:重新排列的智慧

面对这些挑战,清华大学的研究团队提出了一个全新的思路:既然传统方法难以适应复杂多样的注意力模式,为什么不试试重新整理这些模式,让它们变得更加规整和易于处理呢?

这个想法的灵感来自于对视觉信息处理本质的深入思考。研究团队发现,虽然AI模型中的注意力模式看起来千变万化,但它们都有一个共同点:都反映了视觉信息的"局部聚集"特性。简单来说,就是相邻或相关的视觉元素倾向于相互关注,就像马赛克画中相邻的小块通常颜色相近一样。

问题在于,当AI模型处理三维视频信息时,原本在空间中相邻的信息被"拉平"成一维序列,就像把一个魔方拆散后排成一条线。这种转换破坏了原有的邻近关系,导致那些本应相邻的信息在处理序列中被分散到很远的位置。

基于这个洞察,研究团队设计了一种叫做"模式感知重排序"(PARO)的技术。这种技术的核心思想是通过重新排列信息的顺序,让那些需要相互关注的信息重新聚集在一起,从而将复杂分散的注意力模式转化为规整的块状模式。

具体来说,对于视频这种三维信息(帧数、高度、宽度),存在6种不同的排列方式,就像整理书架时可以按照作者、年份、主题等不同方式分类一样。研究团队开发了一套评估系统,能够为每个注意力头(AI模型的处理单元)选择最适合的排列方式。这个选择过程考虑了两个关键因素:稀疏化的友好程度和量化的友好程度。

三、定制化的优化策略

有了重新整理后的规整注意力模式,研究团队进一步设计了专门针对这种模式的优化技术。这就像为整理好的书架设计专门的管理系统一样。

在稀疏化方面,团队采用了"静态稀疏"策略,这意味着注意力的筛选规则是预先确定的,而不是在运行时动态生成的。这种方法的优势是避免了在线计算的开销,就像提前准备好菜谱,做饭时就不需要临时思考每个步骤。

为了进一步提高效率,研究团队还开发了"时间步骤感知的稀疏掩码共享"技术。他们发现,在视频生成的不同阶段,注意力模式的变化有一定规律:早期阶段变化较大,后期阶段趋于稳定。基于这个发现,他们为前半段时间步骤设计了独特的稀疏掩码,而后半段则共享同一个掩码,这样既保证了效果,又减少了存储开销。

在量化方面,团队采用了"块对齐量化"策略。传统的量化方法通常按行或列进行处理,但这在块状注意力模式中会导致严重的信息不均匀问题。新方法将量化单位改为64×64的方块,每个方块内的数据经过重排序后变得更加均匀,大大减少了量化误差。

四、令人惊叹的实验结果

研究团队在多个主流视频生成模型上测试了他们的技术,包括CogVideoX、Wan和Flux等。实验结果令人印象深刻,可以说是在效率和质量之间找到了一个近乎完美的平衡点。

在视频生成任务中,使用PAROAttention技术的模型能够在保持几乎相同的视觉质量的情况下,将计算密度降低到原来的20%-30%,数据精度从16位浮点数降低到8位甚至4位整数,整体推理速度提升了1.9到2.7倍。这就像是把一台耗油的大卡车改造成了高效的混合动力车,不仅速度更快,燃料消耗也大大降低。

更具体地说,在生成720P分辨率、6秒长度的视频时,原本需要处理17,000个信息单元的完整注意力计算,现在只需要处理其中的30%,而生成质量几乎没有下降。在一些关键指标上,比如文本-视频匹配度、视觉质量评分等,优化后的模型表现甚至略有提升。

在图像生成任务中,技术的表现同样出色。1024×1024分辨率的图像生成速度提升了近2倍,而生成的图像在专业评估指标上与原始模型几乎没有差异。

五、技术创新的深层价值

这项研究的价值不仅仅在于提升了计算效率,更重要的是它为整个AI视觉生成领域提供了一种全新的思考方式。传统的优化思路是"适应现有模式",就像为各种不同形状的物品设计专门的包装盒。而PAROAttention提出的思路是"重塑模式本身",就像把各种形状的物品重新整理成标准形状,然后用统一的包装方式处理。

这种思路的转变具有深远的意义。它揭示了视觉AI模型中注意力机制的本质规律,为未来的模型设计和优化提供了新的指导原则。同时,这种重排序的思想也可以扩展到其他类型的AI模型中,比如多模态大语言模型、视觉感知模型等。

从工程实现的角度来看,PAROAttention技术具有很好的通用性和易用性。它不需要重新训练模型,可以直接应用到现有的模型中,就像给汽车安装一个提高燃油效率的装置,不需要更换整个引擎。研究团队还开发了相应的GPU计算内核,确保理论上的优势能够在实际硬件上得到体现。

六、面向未来的技术展望

当然,任何技术都有其局限性和改进空间。目前的PAROAttention主要针对的是后训练优化,也就是在模型已经训练好之后的效率提升。未来的研究方向可能包括将这种重排序思想融入到模型的训练过程中,让AI模型从一开始就学会更高效的注意力模式。

另外,目前的重排序策略相对简单,主要是在有限的几种排列方式中选择。未来可能会开发更复杂、更自适应的重排序算法,能够针对不同类型的视觉内容设计专门的排列策略。

从应用前景来看,这项技术的影响可能会很快体现在我们的日常生活中。随着AI视频生成技术的普及,越来越多的内容创作者、教育工作者、娱乐产业从业者都在使用这类工具。PAROAttention技术的推广应用,意味着这些用户能够以更低的成本、更快的速度生成高质量的视频内容,从而降低了创意表达的门槛。

说到底,这项研究的核心价值在于它提醒我们,面对复杂的技术挑战时,有时候最好的解决方案不是设计更复杂的工具去适应复杂性,而是重新审视问题本身,找到简化复杂性的方法。正如那句古老的智慧所说:"最聪明的解决方案往往是最简单的那一个。"清华大学团队的这项研究,正是这种智慧在AI技术领域的完美体现。

对于普通读者来说,这项技术的意义在于它让AI视频生成变得更加普及和易用。在不久的将来,我们可能会看到更多平价的AI视频创作工具,让每个人都能成为视频创作者。而对于科研工作者来说,这项研究开启了一个新的研究方向,可能会催生更多创新性的AI优化技术。

有兴趣深入了解技术细节的读者,可以通过论文的arXiv链接arXiv:2506.16054v1查阅完整的研究报告,其中包含了详细的实验数据、算法描述和代码实现等信息。

Q&A

Q1:PAROAttention技术会不会影响AI生成视频的质量? A:不会。实验结果显示,PAROAttention在大幅提升计算效率的同时,生成视频的质量几乎没有下降,在一些评估指标上甚至略有提升。这是因为该技术并没有简单地删除信息,而是通过重新组织信息来提高处理效率。

Q2:这种技术是不是只适用于特定的AI模型? A:不是的。PAROAttention具有很好的通用性,可以应用到多种主流的视觉生成模型中,比如CogVideoX、Wan、Flux等。而且它不需要重新训练模型,可以直接集成到现有系统中,这大大降低了应用门槛。

Q3:普通用户什么时候能体验到这种技术带来的改进? A:虽然这项技术目前还处于学术研究阶段,但考虑到其实用性和易于集成的特点,预计很快就会被各大AI视频生成平台采用。用户可能会发现视频生成速度明显加快,同时对硬件的要求降低,让更多人能够使用高质量的AI视频生成服务。

相关问答

清华大学将推出AI辅修学位,你怎么看?-ZOL问答

从“首都教育”公众号获悉,继今年3月清华大学宣布适度扩招、成立新书院后,学校教学委员会近期审议通过了AI辅修学位培养方案,决定今年秋季学期起推出新的AI...

清华人工智能属于哪个系

清华人工智能属于计算机系。清华大学计算机系,全称计算机科学与技术系(英文简称CST),成立于1958年,是全国最早开设的计算机专业之一。清华的计算机系有别于...

2022年清华大学人工智能考研科目?

清华大学人工智能考研科目,政治,英语,数学,人工智能,专业课12。清华大学人工智能考研科目,政治,英语,数学,人工智能,专业课12。

清华智班是什么?清华智班和姚班哪个好?-红网问答

清华智班的成立是清华大学在人工智能整体学科布局上的重要举措,清华智班全名“清华学堂人工智能班”,智班既是对清华乃至国家在人工智能领域优化科...

如何看待因想从自动化转AI专业,男生从清华退学重读,今年高考699分?你认同这种做法吗?

男儿当自强,不喜欢及时放弃止损,清楚自己喜欢什么,而且对于喜欢的东西敢于努力去争取,好样的,将来必成大器。也许会有很多人说都已经考上清华了,虽然专业...男...

清华唐杰老师的课程内容有哪些?-ZOL问答

唐老师课程内容偏技术一点,像AI原理、算法优化这些都会讲到,适合有一定基础的人听唐杰老师的课好像有讲人工智能、大数据那些,具体名字我忘了,但内容挺前沿的...

如何评价清华大学新成立的人工智能学堂班(“智班”)?

不请自来,对于题主提出这个问题。做一位曾经有过相关培训机构的经历的答主有一定的看法,这两年人工智能的概念非常的火,以及大量的企业和资本进入到这个行业,...

清华大学ai华智冰是机器人吗?

清华大学AI华智冰是机器人。华智冰是一个由清华大学的精英们协同其它智能公司一起科学研究培养的机器人,它的原形是悟道2.0,功能齐全,着力打造中国十分领先的...

如何高效使用AI写作软件提升写作效率?-ZOL问答

这个平台已接入讯飞星火、文心一言、谷歌Gemini、ChatGPT、GLM及清华智谱等模型。每个AI都能生成文章,但你需要清晰表达自己的需求。这篇文章介绍了程序员与自...

清华大学人工智能哪个导师好?

张捷导师好张捷,清华大学人工智能博士生导师,教授,自然语言处理、知识图谱和智能问答领域的知名专家。曾领导清华在CCF-ConferenceonNLP评测中屡获佳绩,...

抱歉,评论功能暂时关闭!