[summary]
国内首个支持角色扮演功能的视频模型
从影视质感到 影视级创作能力
支持音画同步、多镜头生成及声音驱动、支持生成15秒视频,实现更完整叙事
图文一体化生成,实现有层次、有逻辑的视觉化叙事[header-link]
https://bailian.console.aliyun.com/?tab=api#/api/?type=model&url=2867393
API 体验链接[video]
https://cloud.video.taobao.com/vod/EQaKS7b4xxJN1yDYF_6oUBRvFJUw48fWcfGwSufu1EY.mp4
https://img.alicdn.com/imgextra/i1/O1CN01aY2F7S1SJ6MNkntXP_!!6000000002225-49-tps-3360-1890.webp近日,新一代万相2.6系列模型正式发布。涵盖文生视频、图生视频、参考生视频、图像生成、文生图五大模型,该系列模型面向专业影视制作和图像创作场景进行了全面升级,其中,通义万相2.6视频生成模型的全新视频参考生成功能,可将人或任意物作为主角,生成单人表演或多人合拍。多镜头叙事,智能调度,更稳定多人对话、更长时长、更强的指令遵循和声画同步。

此次发布的万相2.6进一步提升了画质、音效、指令遵循等能力,单次视频时长可达15秒,万相2.6还新增了角色扮演和分镜控制功能,不仅能一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场景需求。
万物皆可入戏,万相2.6能参考输入视频中的角色外观和音色,实现角色扮演,按照提示词生成单人、多人、人与物合拍的视频。
[video]
https://cloud.video.taobao.com/vod/IPuVj0vmjsmE0FB9xFTya0_mAAUVT7zIXwAFFtQgiA4.mp4
https://img.alicdn.com/imgextra/i1/6000000002814/O1CN01LfRqkv1WerdowCz9s_!!6000000002814-0-tbvideo.jpg提示词:角色1和角色2在一场宫廷剧场景中表演
万相2.6可将用户简单的提示词转换为多分镜脚本,生成包含多个镜头的连贯叙事视频,并且保持多镜头间的主体、场景等关键信息的一致性。
[video]
https://cloud.video.taobao.com/vod/NV_QXJz97bk6BKKTt-_JbCKewtE3F2sYqiTTUryxeAA.mp4
https://img.alicdn.com/imgextra/i1/6000000002545/O1CN016fnh7r1Uff6Enjh6f_!!6000000002545-0-tbvideo.jpg提示词:一段超现实、电影感十足的3D动画:一颗巨大的成熟石榴在巴黎城中滚动。场景1:低机位广角镜头,巴黎街道,奥斯曼风格建筑林立,远处可见埃菲尔铁塔,蓝天白云。场景2:极近距离特写,石榴表皮质感丰富、细节清晰,滚过一块白色路牌,浅景深效果。场景3:石榴滚过横跨塞纳河的巴黎桥梁。场景4:侧面视角,石榴停立在桥上,背后是巴黎城市天际线,阳光在表面闪耀反光。场景5:动感镜头,画面略带运动模糊,石榴沿着石质墙面滚动,突出速度感与重量感。场景6-7:现代巴黎场景中,巨大的石榴主宰宽阔大道,两侧是时尚的玻璃摩天大楼,车流繁忙。场景8:石榴裂开,在高楼之间爆裂成成千上万片发光的红色半透明花瓣。场景9:花瓣汇聚融合,化为一只现代感十足的红色玻璃汽水瓶,置于街道中央,瓶身倒映着天空与城市。字幕:Wan汽水·石榴口味。
多人对话场景稳定生成,真实自然的人声表达,声音质感提升,更好听的音乐和歌曲生成。
[video]
https://cloud.video.taobao.com/vod/f6BZUWWMKNEv5oNlrNLpukxu1dtXKBRYIWoLq28IeKk.mp4
https://img.alicdn.com/imgextra/i3/6000000001004/O1CN01g37aWM1JHslJR2GXe_!!6000000001004-0-tbvideo.jpg提示词:微风吹起湖边的芦苇,黄金时刻逆光,法式独立电影 + 日系自然光写实风格,低饱和柔和色调。湖面细波,芦苇在前景虚化中随风摇曳,character1 站在岸边,衣摆与碎发被风轻抬,皮肤被夕阳勾亮出细腻高光。远处 character2 迎着逆光走来,背后形成柔和光环,两人在风声与光影间缓缓靠近,站得很近,character1 的碎发被风吹起,轻擦过 character2 的脸侧,身体距离文艺且极简、克制含蓄。character1 不经意伸手,轻触 character2 的手背,确认彼此仍然存在。环境音只有轻柔风声与湖水声,整体情绪温柔、微妙、克制。
生成视频最长15s(参考生视频10s),提升画面时空内容容量,支持更完整叙事。
[video]
https://cloud.video.taobao.com/vod/OxfBkhrpUmanyhL55O0OoMSww7M3nczy5Pkh-p4aSM4.mp4
https://img.alicdn.com/imgextra/i1/6000000004402/O1CN01Qd1Nvk1iOAas1xSDN_!!6000000004402-0-tbvideo.jpg提示词:客观视角,后工业未来主义美学,冷峻金属色与黎明暖光渐变交织,超广角镜头与动态音效营造史诗级科技感与强烈视觉压迫感:一台 50 米高人形机甲矗立在崩解的金属支撑台上,平台迸发火花,机械关节缓缓启动,晨光从后方斜上方照射,剪影轮廓被顶光与背光勾勒,焦点上移至机甲眼部,双眼骤然亮起锐利红光,扫视前方汹涌海面,伴随金属解锁声、低频启动嗡鸣、电弧噼啪与晨风环境音。机甲迈出沉重第一步,巨大脚掌踏碎混凝土基座引发地面震颤,火花照亮机体底部,尘沙卷动与结构断裂声密集爆发,无语音无音乐。机甲笔直朝海岸前进,每一步震颤大地,海风呼啸、尘沙飞扬、远处浪涛翻滚,天际由深蓝渐变橙灰,顺光转侧光勾勒其庞大剪影,宏大电子交响乐与合成低音渐强,伴随持续引擎声与震颤声。最终机甲踏入大海,海水轰然炸起数十米巨浪,波纹扩散至地平线,背光下水雾散射辉光,机甲眼部成为红色光源,镜头拉远,从炸裂浪花切换至炽烈红光,入水巨响与电子交响乐高潮叠加低频引擎与海浪翻滚声,营造史诗般科技降临氛围,无语音、无文字信息。
万相2.6可根据用户输入的文本和音频,驱动生成视频,并实现多镜头演绎。
[video]
https://cloud.video.taobao.com/vod/sTi6ZzG_Z9URTUjMBgragADPazCBnwsl-bziJwrUBY0.mp4
https://img.alicdn.com/imgextra/i4/6000000006730/O1CN01ENPMru1zaOdQ6GPWW_!!6000000006730-0-tbvideo.jpg提示词:A beaver walks around the kitchen of an apartment. He looks at the camera anxiously and says, \"Where are my nuts?\" The beaver finds a box of nuts on the table and says joyfully, \"Here are my nuts!\"
多张图片的任意参考、组合或替换,融合多重视觉灵感,生成全新创意图像

提示词:美妆护肤产品宣传图,主体是图一和图二的商品,产品垂直摆放在浅白色平台表面,背景为图三。场景中,平台上及周围分布着多朵盛放的浅粉色玫瑰花,花瓣质感柔软且带有自然纹理,部分花瓣散落。以平视视角拍摄,运用三分构图技法,将主体置于画面中右侧区域,突出场景的空间感与层次。场景设定为户外自然的美妆护肤产品展示场景。整体色彩以浅粉色、白色、浅蓝色为主色调,营造出清新自然、浪漫唯美的色彩氛围,突出产品的护肤与自然成分质感。
保持角色、风格或元素的高度一致,拓展商业级使用场景

提示词:将图1中的茶壶替换成成图2中的瓶子
多提取参考图的颜色、风格、构图等创意灵感,实现美学参考生成
提示词:给图2的裙子按照图1鸟的颜色进行配色,充满艺术感,衣服款式不变,模特不变
可指定镜头视角、近远景及光影细节,实现对画面空间与氛围的精确调控

提示词:生成一套空旷沙漠中的干净洁白的极简风格别墅,像迪拜Al Maha Desert Resort风格的,看起来非常昂贵,世界顶级奢享品质。参考沙丘电影中的 审美风格;改为夜晚场景,别墅窗户中透露出低调却高级的灯光。
多张图片和文字一体化生成,具备逻辑推理能力,实现有层次、有逻辑的视觉化叙事

提示词:我想创作一个关于“友谊”的绘本,主角是一只小狐狸和一只小熊。故事讲的是他们在冬天来临前闹了别扭。请你为我生成一个分段叙述、图文交错的故事版本,每一段文字都搭配一张详细的插画描述,描绘他们友谊的小插曲和冬日前的和解。
多精准捕捉艺术灵魂:对各类风格关键词理解深入,还原度更高,画面整体风格统一且完整。
风格融合自然流畅:支持多种艺术风格有机融合,过渡平滑,创作出独具一格的视觉作品。
细节刻画生动丰富:对「肌理、色彩、笔触」等细节的呈现更为到位,赋予图像故事感与表现力。

在写实人像生成中,人物神态自然、肤质真实,有效削弱“AI感”。模型综合优化构图与光影,呈现更具表现力的人像视角。

可依据中英文长文本内容,结合美学设计与图文协调性,精准生成海报、图文说明、信息图表等,实现内容与视觉的高度统一。

通义万相模型家族已支持文生图、文生视频、图生视频、人声生视频和动作生成等10多种视觉创作能力,累计生成3.9亿张图片、7000万个视频。自今年 2 月以来,通义万相已连续开源20多款模型,在开源社区和三方平台的下载量已超3000万。
