发布日期:2025-12-11 23:46点击次数:167
允中 发自 凹非寺
量子位 | 公众号 QbitAI
12月来源,可灵AI接连放出大招。
大家首个长入的多模态视频及图片创作器具“可灵O1”、具备“音画同出”才气的可灵2.6模子、可灵数字东谈主2.0功能……
5天内5次“上新”,径直让生成式AI范围的竞争“卷”出新高度。
可灵O1,从图片到视频,带来更强的“可控性”可灵2.0发布的时候,就翻新性地刻薄过一个全新友互理念——Multimodal Visual Language(MVL),让用户莽撞王人集图像参考、视频片断等多模态信息,将脑海中包含身份、外不雅、格调、场景、动作、神采、运镜在内的多维度复杂创意,径直高效地传达给AI。
基于MVL理念,在最新的一次迭代中,可灵O1将通盘生成和裁剪任务交融于一个万能引擎之中,为用户搭建全新的多模态创作流,完了从灵感到制品的一站式闭环。
就像a16z投资合股东谈主Justine Moore在居品发布后第一时分点评的那样:
咱们终于迎来了视频界的Nano Banana。

以可灵视频O1模子为例,它阻挠了传统单一视频生成任务的模子范围,将参考生视频、文生视频、首尾帧生视频、视频内容增删、视频修篡改换、格调重绘、镜头延展等多种任务,交融于褪色个万能引擎之中,使得用户无需在多个模子及器具间跳转,即可一站式完成从生成到修改的一王人创作经过。
不管是创作家们“头疼”已久的主体一致性难题,还是视频画面的可控性问题,都在此次模子迭代里找到了相对无缺的处置决策。
在图片生成这件事上,可灵AI也翻新性地完成了迭代。
最新上线的图像O1模子,不错完了从基础图像生成到高阶细节裁剪全链路无缝连结,对用户来说,既可通过纯文本生成图像,也可上传最多10张参考图进行交融再创作。
“音画同出”才气也有了!可灵2.6模子完成里程碑式迭代尽人皆知,可灵领有一多量诚笃的“发热友”。他们既是居品的深度使用者,也能从功能层面刻薄我方的倡导。
O1发布之后,就有不少网友列队“许诺”居品功能,名次靠前的,的确都在祥和可灵什么时候会推出作陪视频画面的语音及音效直出功能。
谜底很快就揭晓了。
12月3昼夜晚,可灵AI接着“放大招”,负责推出2.6模子。
此次更新中,可灵AI上线里程碑式的“音画同出”才气,透顶篡改了传统AI视频生成模子“先无声画面、后东谈主工配音”的责任经过。
它莽撞在单次生成中,输出包含当然语言、动作音效以及环境氛围音的完整视频,重构了AI视频创作责任流,极大进步创作遵循。
可灵AI国际超等创作家、AI电影导演Simon Meyer制作的这支宣传片,天真诠释了此次可灵2.6的才气翻新之处。
关于创作家来说,输入文本或是输入图片王人集指示词文本,均可径直生成带有语音、音效及环境音的视频。
语音部分,可灵现在接济生成汉文以及英文,生成视频长度最长接济10秒(外传,更万般的语言体系以及固定声线等功能正在研发中)。
通过对物理天下声息与动态画面的深度语义对王人,可灵2.6模子在音画协同、音频质地和语义会通上发达亮眼。
对“音画同出”才气感有趣的一又友,不错迅速试试,说不定你会和Simon Meyer相似产生热烈共识。
密集更新背后,可灵AI不才一盘若何的大棋?
除了全新推出的可灵O1及2.6模子这两大重磅更新,可灵还在上周接踵推出了数字东谈主2.0、可灵O1主体库&对比模板等功能,从AI内容生成的骨子经过开拔,带来愈加方便的操作体验。
5天内5次“上新”,功能层面的精进背后,是可灵关于生成式AI时代的极致追求。
比如12月1日推出的视频O1模子,就阻挠了视频模子在生成、裁剪与会通上的功能割裂,构建了全新的生成式底座。
交融多模态会通的Multimodal Transformer和多模态长高下文(Multimodal Long Context),完了了多任务的深度交融与长入。
笔据可灵AI团队的里面测评,在“图片参考”任务上,可灵AI对Google Veo 3.1的合座成果赢输比为247%;在“指示变换”任务上,与Runway Aleph对比的合座成果赢输比达到230%。
尤为贫乏的是,看成国产视频生成大模子范围的代表,从2024年6月负责推出以来,可灵AI的每一次迭代的确都能让业界迎来一次“集体怡悦”。
从早期东谈主们津津乐谈的吃面条的案例,到特斯拉首创东谈主马斯克的点赞,再到可灵AI这一波“批量上新”操作,视觉生成时代迟缓走向熟悉的过程里,可灵AI无疑是阿谁经常唤起共识的重要脚色。
△X网友Min Choi发布的著作,对比了不同时代才气之下“威尔·史姑娘吃意大利面”的经典场景
在合手续激励照看的同期,能否激动时代的粗俗诈欺落地,亦然生成式AI平台不得不濒临的问题。
数据露出,可灵AI现在粉饰的企业用户数高出2万家,涵盖影视制作、告白、创意蓄意、自媒体、游戏、电商等等诸多范围。
多元的行业客户组成,意味着可灵AI必须合手续阻挠时代诈欺的上限。
就像此次升级的可灵2.6模子,不错接济包括谈话、对话、旁白、唱歌、Rap、环境音效、羼杂音效等多种声息的单独或羼杂生成,莽撞粗俗地诈欺于五行八作的骨子创作场景中,极大进步创作遵循;
再比如数字东谈主2.0功能的迭代,关于创作家而言,只需要上传脚色图,添加配音内容并神情脚色发达,就不错获取发达力天果然“自界说数字东谈主”,更令东谈主怡悦的是,视频内容最长可达5分钟。
快手高档副总裁、可灵AI功绩部负责东谈主兼社区科学线负责东谈主盖坤曾在不同阵势暗意:
咱们的初心,是让每个东谈主都能用AI讲出好的故事,咱们也清晰地但愿这一天更快到来。
在可灵AI年末的这一系列更新中,咱们感受到,这一天更近了。