AIGC结合商机的可落地工程化方案探索
自OpenAI发布了chatgpt模型后,犹如平地一声雷,让整个技术圈都在思考如何把AI的能力运用到自身的业务&产品中,来帮助用户获得更好的产品体验和产能提效。本文旨在从直营企划及时性定义出发-探索AIGC能力可落地方案,让AI来赋能业务。
从前场趋势商机切入
从上述的一些前场的热搜榜/热点词中我们可以发现一些共性的商机机会:
明星的同款穿搭
爆火影视的周边
天气气候引发的人群刚需/忧患意识
。。。
但这些能带来单量的商机在直营侧的探知是完全不够的,本文基于此展开分析。
商机变现链路分析
关注商机(企划)覆盖及时性的必要性
从上图可以看出,商机变现链路可能非常短&高效、成熟用户在匹配趋势热点到有购物需求到完成下单仅需要几十分钟~几小时,热点机会带来的订单增益可能稍纵即逝,因此对于企划侧来讲关注企划覆盖商机及时性变成至关重要。
因此,本文主要是探索借助AI能力和前场趋势热点将商机在一些行业/类目域中快速落地变现,通过算法工程化+AI快速生成机会创意企划招商,丰富供给、抓住机会,真正做好供给满足度。
Stable Diffusion生态圈简单介绍
在正式介绍落地方案前先简单给大家普及一下后续会用到的基于Stable Diffusion展开的开源框架&模型&技术。
Stable Diffusion
Stable Diffusion作为在AIGC领域大放异彩的开源框架,想必大家都不陌生。 在我看来Stable Diffusion 并不是一个单一模型,而是由多个部分和模型一起构成的系统,它充分结合当前在图像处理领域、计算机视觉模型等被广泛使用的模型,比如Transformer、CLIP等等,快速实现多风格的文生图、图生图能力。这边就不过多展开了,我们都可以在内网一些文章上看到。
原理
Stable Diffusion是基于发表在CVPR 2022上的一篇论文《High-Resolution Image Synthesis with Latent Diffusion Models》实现的,对具体的原理感兴趣的同学可以参考以下几篇文章,写的都很不错:
ay Alammar 再发新作:超高质量图解 Stable Diffusion ,看完彻底搞懂「图像生成」原理 - IT之家
https://blog.csdn.net/qq_45752541/article/details/129082742
什么是prompt?
在AI领域中,“prompt”通常指的是一种输入文本,用于引导或启动语言模型的生成过程。它通常是一段简短的文本片段,可以是问题、任务描述、提示等。这个文本片段可以激发模型的思考和创造性地生成语言,从而生成符合输入条件的输出文本。在自然语言处理中, prompt 是指用来提示模型生成句子或文本的前缀。在 GPT-3 等大型预训练模型中,prompt 可以直接影响模型生成的结果。通过巧妙设计 prompt,可以引导模型生成特定主题、情感、风格等的文本。 --来自chatgpt
业界有一个说法:prompt是AI炼丹过程中的咒语,我觉得非常贴合。
模型
模型也被称为checkpoint文件,是预先训练的稳定扩散权重模型,旨在生成一般或特定类型的图像。
模型能够生成什么样的图像取决于用于训练它们的数据。举个例子,如果训练数据中从未出现过猫,模型将无法生成一只猫的图像。同样,如果只使用猫的图像来训练模型,模型将只能生成猫的图像。
Fine-tuning models
Fine-tuning是机器学习中的常用微调技术。它会对在大数据集上训练过的模型进行微调,以便在少量的数据集上进行更多训练。
微调模型就是在少量的数据集上微调模型,可以让基础模型学习该数据集的特定特征和模式,从而生成类似于该数据集的图像。同时由于模型最初是在大数据集上训练的,因此它仍然保持基础模型的通用性和泛化能力。
我的理解来看Fine-tuning的目标是在定制和通用性之间取得平衡,以便微调后的模型可以生成既特定于少数据集又适用于更广泛的数据集范围的图像。
为什么需要微调模型?
stable diffusion的确在生成图片上让人很惊艳,但它不是万能的。举个例子,我们可以输入prompt关键词“动漫”让stable diffusion在提示中生成动漫风格的图像,但如果要生成某个子风格的动漫图像(最近比较🔥的二次元人物:makima)可能会非常困难。因此我们可以使用该子风格(makima)的图像输入对模型进行微调生成微调模型,而不是通过调整prompt来实现。另外,stable diffusion可能难以生成高度逼真或具有精细细节的图像。在这些情况下,往往需要依赖其他生成模型如GAN或VAE可能更有效。我们不能期望一个通用的大模型能够满足所有人的需求。相反,我们应该尝试构建适合自己领域的小模型。通过选择合适的数据集、算法和网络结构,快速训练出一个专门用于解决自己问题的小型模型。这个模型不需要太复杂,只需要满足自己的需求即可。这样可以提高模型的效率和准确度,并且减少训练时间和计算资源的消耗。因此根据具体的业务场景和所需输出,选择适当的生成模型非常重要。
模型常用类型
类型 | 模型名称 | 说明 | 事例 |
---|---|---|---|
基础模型 | Stable diffusion v1.4 https://huggingface.co/CompVis/stable-diffusion-v-1-4-original | v1.4模型是由Stability AI于2022年8月发布的,被认为是第一个开源可用的稳定扩散模型。你可以把v1.4看作是一个通用的模型。大多数情况下,直接使用它就足够了,除非你真的很挑剔某些样式。 | ![]() |
Stable diffusion v1.5 https://huggingface.co/runwayml/stable-diffusion-v1-5 | v1.5是Runway公司于2022年10月底发布的,官方文档没有过多的描述这个版本的一些新特性,总的来说画面构成差别不大,差距在图片的色阶对比度和光源渲染。1.5总体比1.4光源效果平滑合理很多 | ![]() | |
Openjourneyhttps://huggingface.co/prompthero/openjourney | Openjourney是基于Mid Journey v4引擎生成的图片作为训练集衍生出的微调模型,它有不同的美学风格,是一个很好的通用模型。 | ![]() | |
Anything v3https://huggingface.co/Linaqruf/anything-v3.0 | Anything V3可生成高质量的动漫风格图像。我们可以在文本提示中使用danbooru标签(如1girl,white hair)。 适用于将名人塑造成动漫风格,然后与插画元素无缝融合。 | ![]() | |
微调模型(Fine-tuned models) | ChilloutMix https://civitai.com/models/6424/chilloutmix | 用于生成亚洲女性的微调模型,类似于F222 | ![]() |
Waifu-diffusion | 日本动漫风 | ![]() | |
Robo Diffusion | 机器人风 | ![]() | |
Mo-di-diffusion | 迪士尼风 | ![]() | |
Inkpunk Diffusion | 插画风 | ![]() |
大家可以在huggingface搜索到大量开源的数据集和模型非常多,只需要记得这些都是SD模型的微调版本即可,这些不同版本的StableDiffusion模型都是基于相同的算法和原理,并且都可以用于生成高质量的图像、音频、视频等数据。具体选择哪个版本取决于我们实际的应用场景和具体需求。
ControlNet
由于生成的姿势是随机的、无法控制,所以stable diffusion引入了 ControlNet 插件 ——用来实现骨骼绑定、精准控线、线稿上色、依据深度图结构透视精准重绘等。正常情况下我们想要控制人物的姿势是十分困难的,并且姿势随机,而ControlNet解决了这个问题。它集成了一些专业的预训练模型,非常强大而多功能,可以与任何扩散模型一起使用。
可用的模型以及说明**:**
模型名称 | 说明 | 案例 |
---|---|---|
OpenPose | 检测人类的关键点,如头部、肩膀、手等的位置。它对于复制人类姿势很有用,但不包括其他细节,如服装、发型和背景。 | ![]() |
Canny | 是一个通用的、老派的边缘检测器。它可以提取图像的轮廓。它对于保留原始图像的构图非常有用。 | ![]() |
M-LSD Lines | 它适用于提取具有直边轮廓的内部设计、建筑物、街景、相框和纸张边缘。 | ![]() |
HED | 擅长像实际人一样生成轮廓。HED适用于重新着色和重新风格化图像。 | ![]() |
User Scribbles | 把你涂鸦的东西变成一张图片 | ![]() |
DreamBooth 个人模型与风格化
融合个人模型是指将训练后的个人风格和特点融入到 AI 绘画模型中,使其生成的画作更贴近个人风格和需求,提高生成画作的个性化和定制化。
诸如在 Stable Diffusion 中,我们可以用自己的头像结合 DreamBooth 等工具训练,以得到一个融合自己风格的模型。在二次元世界里,最常被使用的是 "个人头像",以用于生成动漫或者 idol
主要调校参数
参数名称 | 作用 |
---|---|
CFG Scale | Classifier Free Guidance scale 图像与提示符的一致程度,控制模型听话的程度。 值越高,越遵守prompt,**越低的值产生越有创意的结果。** |
Seed | 种子数,只要中子数一样,参数一致、模型一样图像就能重新被复原 |
Sampling steps | 随着steps的增加,图片的质量会提升,一般20质量就已经足够。 |
Batch size | 每次图片生成的数量,一般来说会单次生成多张图片,然后从中选取一张最好的。 |
Restore faces | 面部修复,它是一个后置处理方法,在生成图片后调整面部区域。 |
denoising strength | 噪声强度,在生成图片的时候,噪声强度越大,生成的内容越随机。 |
前置商机最终落地整体流程
开源技术底座
方案设计大图
方案主要分成预训练细分市场fine-tuning模型产出,以及结合前场商机关键词Prompt、微调模型的最终图片产出两个环节。通过本地部署stable diffusion webAPI服务,通过nodeJS微后端反向代理乐高的http请求,将训练产出的图片上传到OSS,最终简单串起整个链路。
商机聚类归因
商机聚类归因&挂载 | ||||||
---|---|---|---|---|---|---|
前场趋势热搜词 | 拟合机会热点词 | 挂靠行业 | 挂靠叶子类目 | 挂靠品类词 | 挂靠SPU | 挂靠置性度 |
淄博烧烤 | 淄博烧烤卷饼 | 大快消 | 粮油调味/速食/干货/烘焙 > 面点/西式速食 > 面点类速食 > 手抓饼/葱油饼/煎饼/卷饼 | xxx | xxx | 0.9 |
淄博烧烤烤炉 | 大百货 | 厨房/烹饪用具/烧烤/烘焙用具/烧烤炉 | xxx | xxx | 0.8 | |
灌篮高手大电影 | 灌篮高手球衣 | 大服饰 | 运动/瑜伽/健身/球迷用品/篮球/篮球服 | xxx | xxx | 1 |
灌篮高手t恤 | 大服饰 | 男装/t恤 | xxx | xxx | 0.9 | |
赵露思 | 赵露思同款连衣裙 | 大服饰 | 女装/女士精品/连衣裙 | xxx | xxx | 0.9 |
朱一龙 | 朱一龙同款衬衫 | 大服饰 | 男装 > 衬衫 | xxx | xxx | 0.9 |
通过将前场捕捉到的趋势商机拟合挂靠到不同的叶子类目/品类词/SPU下,我们可以通过一些类似置性度的方式快速筛选出可以大概率可以有较好的订单转化的机会。
预训练流程(Fine-tuning模型集维护)
商机挂载细分领域的预训练fine-tuning模型图
初始化图片数据集获取策略:
爬取竞对市场对应叶子类目/spu/细分市场下的白牌爆品主图(分敌有/无的情况)
算法/设计输入一些归一化的对应图片
对这些图片进行归一化、同质化处理后,预训练出挂载到细分领域的fine-tuning模型,用于后续正式产出商机企划图片。
训练流程(Fine-tuning模型应用)
chatgpt泛化提示词
xprompt是用来指导AI绘画模型创作图像的。它们包含了图像的各种细节,如人物的外观、背景、颜色和光线效果,以及图像的主题和风格。prompt的格式经常包含括号内的加权数字,用于指定某些细节的重要性或强调。例如,"(masterpiece:1.5)"表示作品质量是非常重要的,多个括号也有类似作用。
Stable Diffusion是一款利用深度学习的文生图模型,支持通过使用提示词来产生新的图像,描述要包含或省略的元素。 我在这里引入StableDiffusion算法中的Prompt概念,又被称为提示符。 这里的Prompt通常可以用来描述图像,他由普通常见的单词构成,最好是可以在数据集来源站点找到的著名标签(比如仿照例子,并不局限于我给你的单词,给出一套详细描述“一件印有灌篮高手动漫图案的t恤””的prompt,直接开始给出prompt不需要用自然语言描述,注意要有权重)。
下面的prompt是用来指导AI绘画模型创作图像的。它们包含了图像的各种细节,如人物的外观、背景、颜色和光线效果,以及图像的主题和风格。这些prompt的格式经常包含括号内的加权数字,用于指定某些细节的重要性或强调。例如,"(masterpiece:1.5)"表示作品质量是非常重要的,多个括号也有类似作用。此外,如果使用中括号,如"(blue hair:1)"
结合上述prompt和对应权重的描述,按要求以下json中value的要求给出答案,并将用给出答案替换掉value中的值,不要有任何额外的解释
{
"key": "%s",
"basicPrompt":"%s",
"extendPrompt":"结合以上的key和basicPrompt扩展推荐你觉得更有利描述该图片的更多英文提示词prompt,直接开始给出prompt不需要用自然语言描述,多项之间用英文逗号分开,至少要写7项,每项不超过4个单词,注意要英文,注意每个prompt都要有带小括号的权重",
"negativePrompt":"结合以上的key和basicPrompt扩展推荐一些限制生成的图片脱离key和basicPrompt描述的内容的英文提示词prompt,多项之间用英文逗号分开,至少要写7项,每项不超过4个单词,注意要英文,不需要权重",
"title": "结合以上的key和prompt,总结一个中文标题,需要有电商商品标题的氛围,并且表达出产品的特点&优势,要求5~15个字之间"
}
模型权重控制
这边拿Anything-V3.0和Cyberpunk Anime Diffusion两个模型做举例,前者对于生成超高质量的二次元动漫角色非常拿手,后者则是擅长赛博(Cyberpunk)动漫人物及场景的绘制,但由于后者训练集质量不够好人物很容易画崩,因此透过模型权重控制能将两者优点结合(其实缺点也会结合),再透过提示词、反向提示词的调校,就能生成超棒的赛博动漫角色,精致又能维持科技感之角色特征和画风。
AI模特生成
结合ControlNet姿态控制、基于蒙版的inpaint/outpaint我们可以轻松实现比如同一个模特的变装、或者同一件衣服的不同模特、不同姿势的试穿,这极大的解放了生产力。
showcase展示
大牌平替
页面图
趋势卖点融合
页面图
总结
AIGC这种模式虽然可以不需要真人模特就能快速生成模特穿搭图,但非常容易造成货不对版的情况,直接投放到前场还是会有风险,但对于我们做机会性、创意性、丰富性企划来说是ok的,面向商家、内部小二,在某些行业里以点带面地借用AIGC/算法的能力,快速、自动化地创建出一条商机变现的招商招品链路,也是一种很好的探索落地方式。最终本质上还是让商家明白我们直营目前到底需要怎么样的品,他只要匹配提报上来就很容易卖爆,为供给满足度增添一份力量。
Thanks^-^
By dzg