豆包前段时间新的图片模型的实力大家应该也看到了。
强大的提示词理解能力,加上字体生成能力,再加上营销图片生成能力,直接使每个人都能够生成自己所需要的营销图片,或者进行字体设计。
就在前天,豆包更新了超能创意1.0模式,我被灰度到了,我试了一下,结果给我整麻了。
图片的生成效率得到大幅提升,图片的修改效率也大幅提升,使得本来就不高的设计门槛变得更低了 。
我们可以先看个例子再介绍
我输入的提示词为:
参考下面的提示词,帮我生成十个其他知名品牌的胶囊16:9图片,先根据品牌和主营业务修改提示词中的内容,之后再进行生成。
一个高高的胶囊体水平漂浮着,它外观逼真且充满活力。其左半边是标志性的星巴克绿色,上面标有“Starbucks – Uplifting the Everyday”字样以及经典的美人鱼(Siren)标志。右半边是透明的,里面填充着漂浮的烘焙咖啡豆,有细腻的奶泡漩涡,还有手绘咖啡杯图标,以及代表社区连接的抽象暖色调线条,这一切需要有背景色。
来看看他给我的结果,我根本没有提及要哪些品牌,我也没有提及这些品牌的主营业务,我同样没有提及这些品牌的典型产品。
他直接从LLM模型获取了这些知识,接着还依照要求修改了提示词,这实在太离谱了,并且这十张图片的生成速度比40一张快很多 。
我测试完总结了一下这次的升级主要是三个部分:
智能增强:图像模型能够运用LLM的智能,提示词无需写得很细致,一些知识模型自身清楚;上下文理解:你能够连续对生成的图片予以修改和调整;批量生成:支持批量生成不同的图片,例如不同比例相同提示词的图片,或者相同提示词不同比例的图片。
批量生成
我们先来看看批量生成能力,它支持不同内容的批量生成,也支持不同比例的批量生成,它对提示词的理解很不错,响应也非常好,并且速度十分快。
你能够让他针对同一设计生成不同比例的社交媒体图片,还能够基于同一内容为你提供不同风格的图片,甚至能让他以同一种风格给出不同内容的图片供你选择,老板说再来一版?没关系,给他一百版!
参考这张商品照的拍摄风格,为我生成10张其他化妆品的商品照
这个案例非常离谱,3.0图片模型刚出现时藏师傅就发现自己能做字体设计,如今我直接给他十个字体设计风格提示词,他就能一次性全部生成,并且提示词遵循的都是正确的。
帮我按照16:9的比例,将“幻光潮流”分别生成字体海报,生成时需遵循下面这十个字体风格。
字体看起来好像流动的汞金属,镜面的高光会随着曲面滑动,笔画的边缘柔和地融化,呈现出冷峻的未来感,背景是深灰渐变的。
用8位像素块拼接笔画,利用CRT扫描线,存在微弱RGB偏移,出现故障闪烁,采用霓虹紫蓝撞色,呈现街机复古风格
发光描边遭数字噪声切割,出现 RGB 错位色散,呈现垂直断层,有黑底电光粉蓝的情况,对比强烈且显酸性 。
手撕牛皮纸,使其纤维边缘呈现出来,将这些纤维边缘层叠拼贴,从而拼贴出笔画,制造出轻微投影,设置暖灰背景,展现出手作温度感。
笔画呈现出砂岩的凹凸纹理,其边缘因风蚀而破碎,呈现出暖赭石色的渐变效果,营造出旷野与沧桑之感。
半透明水彩的边界呈现出晕开的效果,色块彼此相互渗透,笔画的毛边显得自然,画面有柔雾留白,属于治愈系风格 。
半透明水彩边界晕开,色块相互渗透,笔画毛边自然,柔雾留白,治愈系
有粗糙的木纹,上面有刻刀的痕迹,油墨深浅不均匀,呈现出复古版画的质感,纸张底色是米色的粗纸,充满文艺怀旧之感 。
亚光塑料材质,颜色鲜艳且饱和度高,色彩相互碰撞,笔画圆润,带有泡泡感,有卡扣接缝,细节之处尽显童趣,呈现潮玩风格
毛玻璃呈现半透字体,背后透出柔和冷光,边缘变得软化,营造出朦胧静谧的氛围。
担心 UI 设计插画不够用?没关系,直接依据一种已有的图片风格,生成一系列其他不同状态的插图,并且这些插图都与主题相关。
根据图片线稿,生成12张同风格的空状态插图,这些插图包括加载失败、无搜索结果、网络中断等情况,背景统一留白。
智能增强
之前,3.0 图像模型与 4o 相比,最大的问题在于,你的提示词必须写得非常详细,且模型不会进行联想,也无法获取知识。而在这次超能创意更新之后,这已不再是问题。
你能够给他一个案例,让他凭借这个案例自行发散出其他案例,并且,一些常识性的内容,即便你不说,他也是知道的,不妨看几个例子。
这里我举了三个例子,没提及其他样机的样子,他依据这三个例子自行想象出了其他样机,并且想象出的样机都还不错。
把下方LOGO放置在8张不同介质的质感Mockup(样机)上,这些介质包括霓虹灯牌、热压皮标、烫金贴纸等,比例均为1:1。
下面这个例子当中,我让他生成具有类似风格的其他地标的图片,他自行脑补了这些地标以及周围应该存在的景色,替换提示词内容之后进行了生成,提示词和图片是在即梦找到的,图片有原作者水印。
帮我生成8个世界其他著名景点的插画,要模仿这个图像的风格,原始提示词为艺术家Yeoniu Choi风格,是简笔画、卡通风格,用粗线条勾勒,属于手绘插画,画面呈现夏天、海边、旅游路上的场景,具有治愈、治愈系画风,风格简洁、干净,颜色是低饱和度的,有丰富细节,背景干净,采用大师构图,是假日氛围,白色背景,类似水彩画、水彩风格,主题是圣托里尼,使用马克笔绘制,是在白纸上的小插画,无明显边界,有白色留白边
除了开头的那个例子,这个例子同样很离谱,我找了一个生成Q版微缩星巴克店面的提示词,我让其基于这个提示词生成四个国内其他茶饮品牌的门店设计 。
他自行寻找到了四个国内的茶饮品牌,之后依据这四个品牌的特性,修改了提示词,进而生成了新的图片。
依据下面这个关于星巴克的创意门店图片提示语,帮我制作四张其他国内茶饮或者咖啡品牌的图片,先将提示语里的相应内容进行替换,接着再去生成
有一家 3D Q 版迷你星巴克门店,其屋顶上有巨型绿色美人鱼标志雕塑矗立着。该建筑采用温馨的苔藓绿配色,还搭配着奶油白边框。其正面装饰着经典的星巴克白绿相间字母标识。透过宽敞的玻璃立面,能看到温暖的琥珀色灯光,灯光映照出内部原木色调的桌椅以及舒适扶手椅。微型盆栽植物与垂挂灯饰共同营造出温馨的咖啡馆氛围。
上下文理解
最后一个能力是上下文理解,现在豆包能进行图片生成,它可以记住上次的内容,基于上一张生成的结果作出修改,还能够跟豆包一起探索并碰撞出新的创意。
最强的使用场景是直接从小说内容转换成分镜图片,甚至不需要说任何提示词,只需要提供内容就行,这实在是太强了。
能够看到,下面几个连续的分镜中,人物的穿着是可以保持一致的,人物的形象也是可以保持一致的。
帮我依据下面我自己创作的小说序章来生成 CG 动画的分镜图片,这些图片是基于分镜脚本生成的,而分镜脚本又是依据小说序章生成分镜脚本后批量生成的,小说序章的内容为:XXXX
然后我先让他基于我的需求设计了一个叫星尘猫的 IP 形象。
之后基于这个原有的形象展开发散与个性化,首先变成蒸汽朋克探险家,接着变成唐朝公子,随后又变成冰雪魔法师,他能够在维持原有设计的前提下添加对应的组件与装饰。
具有上下文还有一个好处,那就是在他自己进行内容规划之后生成,比如说在这里,我让他生成一个洗发水广告脚本图片,这个脚本时长为30秒,有12个分镜。
他自己着手规划画面文案,是一个分镜一个分镜地进行规划,随后生成对应的图片,并且此次的人物穿着场景与上一次完全一致 。
之后我又让他把刚才的写实图片,转变为日式赛璐璐风格的动漫分镜,能够看到人物的动作保持一致,环境保持一致,产品也保持一致,这个太牛了。
好了这次的体验和测试就是这些,希望能够对你有些启发。
每当看到技术突破了原有的边界,总会让人想起Arthur C. Clarke的那句名言:“任何足够先进的技术都与魔法无异。”
豆包超能创意1.0呈现出一种魔法时刻,这种时刻既震撼又让人恍然大悟,我们想要的不只是工具能听懂我们所说的内容,更是工具能理解我们未说出口的东西。