我们如何测试稳定扩散
Posted: Tue Mar 18, 2025 4:31 am
安装这个神经网络后,我们获得了一个具有开放许可和不断更新能力的开源模型,此外,它还非常灵活。
这使得我们可以不受其他生成式人工智能系统所做更改的影响,例如,这些更改并不总是能很好地适应客户的当前任务。与封闭系统(如 MidJourney)不同,在这里您可以选择并安装最适合解决客户在特定时刻问题的生成模型。并且内部不同的采样模型的存在使您能够更准确、更详细地定制所需图像的样式和可视化效果。
例如,我们目前使用几个已建立的模型,这些模型最大限度地专注于获得人物的真实图像。下面您可以看到 Realistic Vision 模型与 Euler_a 采样协同工作的示例:
顺便说一句,调整图像的功能可以让你快速校正你喜欢的图像。比方说,稍微重新配置一下脸部:
除了现实视觉之外,我们还开始使用其他模型,每个模型都可以产生不同寻常的结果。这不仅使我们能够为客户创造独特的形象,而且还鼓励员工尝试新事物并实践他们的工业工程技能。
让我们尝试清楚地展示它。我们提出了一个稍微不寻常的查询,并测试了五个模型,以显示它们对相同查询的不同看法。我们的要求如下:
一幅细节丰富的哑光绘画,描绘了一名男子站在山上,注视着远处的火箭发射,由吉卜力工作室、新海诚创作, 4k 分辨率,在 artstation 上流行,杰作
种子:155355667 步骤:150
那么我们看到了什么?
Dreamlike Photoreal 模型创建了尽可能接近提示文本的图像,使其色彩丰富且细节丰富:
*稳定扩散 1.5 生成图像,梦幻般的照片级真实模型,种子 155355667,步骤 150
相反,Deliberate 模型已经转向更具电影感的 3D 风格:
*稳定扩散1.5生成图像,模型深思熟虑,种子155355667,步骤150
上述真实视觉模型取得了令人着迷的效果。她将这个请求描述成一个轻度赛博朋克风格,城市延伸到地平线:
*稳定扩散 1.5 生成图像,模型真实视觉,种子 155355667,步骤 150
但是基础模型 Stable Diffusion 1.5 和 F222 给出的结果与其他模型的预期和选择非常相似,但同时又有很大不同。这些图片给人的印象是混合了几种风格和不同的视觉系列,而远处计划的细节非常差:
*稳定扩散1.5生成图像,标准模型,种子155355667,步骤150
*稳定扩散 1.5 生成图像,模型 F222,种子 155355667,步骤 150
所提供的示例清楚地显示了对于相同查询和采样方法,使用特定模型会导致结果有很大差异。
鉴于所有生成模型都将走向一定程度的开放性和可供调整的工具数量的增加,因此对于机构和整个市场来说,尽快获得使用提示和不同模型的经验尤为重要。
稳定扩散的视频生成
我想提请大家注意稳定扩散的另一个重要且非常有用的功能——视频生成。当然,现在已经有了可以制作逼真的视频的生成式人工智能。但它们看起来颇具争议且仍引发许多问题。
但是,Stable Diffusion 允许您使用图像变形来创建短视频。这使我们能够为那些需要测试不同视觉风格或新叙事的客户快速创建创意,或者他们可能只是暂时无法制作制作视频。
例如,基于promt查询,生成了一个 中欧数据 相当简单但同时非常引人注目的视频。正如你们所理解的,这仅仅是一个开始。
为了总结稳定扩散的故事及其功能,值得说的是以下内容:
神经网络将继续获得生成和校正图像的额外能力。
大量的可能性和设置将导致出现专家,他们将非常微妙和详细地了解如何为神经网络设置特定请求。
尽管有各种保证说 promts 很快就会面世,但目前除了活生生的语言之外,还没有其他有效的方法可以向 AI 传达你的需求。
开放的神经网络模型是特定任务和想要做得比别人更好、与众不同的爱好者的未来。因此,你不应该害怕尝试。
这使得我们可以不受其他生成式人工智能系统所做更改的影响,例如,这些更改并不总是能很好地适应客户的当前任务。与封闭系统(如 MidJourney)不同,在这里您可以选择并安装最适合解决客户在特定时刻问题的生成模型。并且内部不同的采样模型的存在使您能够更准确、更详细地定制所需图像的样式和可视化效果。
例如,我们目前使用几个已建立的模型,这些模型最大限度地专注于获得人物的真实图像。下面您可以看到 Realistic Vision 模型与 Euler_a 采样协同工作的示例:
顺便说一句,调整图像的功能可以让你快速校正你喜欢的图像。比方说,稍微重新配置一下脸部:
除了现实视觉之外,我们还开始使用其他模型,每个模型都可以产生不同寻常的结果。这不仅使我们能够为客户创造独特的形象,而且还鼓励员工尝试新事物并实践他们的工业工程技能。
让我们尝试清楚地展示它。我们提出了一个稍微不寻常的查询,并测试了五个模型,以显示它们对相同查询的不同看法。我们的要求如下:
一幅细节丰富的哑光绘画,描绘了一名男子站在山上,注视着远处的火箭发射,由吉卜力工作室、新海诚创作, 4k 分辨率,在 artstation 上流行,杰作
种子:155355667 步骤:150
那么我们看到了什么?
Dreamlike Photoreal 模型创建了尽可能接近提示文本的图像,使其色彩丰富且细节丰富:
*稳定扩散 1.5 生成图像,梦幻般的照片级真实模型,种子 155355667,步骤 150
相反,Deliberate 模型已经转向更具电影感的 3D 风格:
*稳定扩散1.5生成图像,模型深思熟虑,种子155355667,步骤150
上述真实视觉模型取得了令人着迷的效果。她将这个请求描述成一个轻度赛博朋克风格,城市延伸到地平线:
*稳定扩散 1.5 生成图像,模型真实视觉,种子 155355667,步骤 150
但是基础模型 Stable Diffusion 1.5 和 F222 给出的结果与其他模型的预期和选择非常相似,但同时又有很大不同。这些图片给人的印象是混合了几种风格和不同的视觉系列,而远处计划的细节非常差:
*稳定扩散1.5生成图像,标准模型,种子155355667,步骤150
*稳定扩散 1.5 生成图像,模型 F222,种子 155355667,步骤 150
所提供的示例清楚地显示了对于相同查询和采样方法,使用特定模型会导致结果有很大差异。
鉴于所有生成模型都将走向一定程度的开放性和可供调整的工具数量的增加,因此对于机构和整个市场来说,尽快获得使用提示和不同模型的经验尤为重要。
稳定扩散的视频生成
我想提请大家注意稳定扩散的另一个重要且非常有用的功能——视频生成。当然,现在已经有了可以制作逼真的视频的生成式人工智能。但它们看起来颇具争议且仍引发许多问题。
但是,Stable Diffusion 允许您使用图像变形来创建短视频。这使我们能够为那些需要测试不同视觉风格或新叙事的客户快速创建创意,或者他们可能只是暂时无法制作制作视频。
例如,基于promt查询,生成了一个 中欧数据 相当简单但同时非常引人注目的视频。正如你们所理解的,这仅仅是一个开始。
为了总结稳定扩散的故事及其功能,值得说的是以下内容:
神经网络将继续获得生成和校正图像的额外能力。
大量的可能性和设置将导致出现专家,他们将非常微妙和详细地了解如何为神经网络设置特定请求。
尽管有各种保证说 promts 很快就会面世,但目前除了活生生的语言之外,还没有其他有效的方法可以向 AI 传达你的需求。
开放的神经网络模型是特定任务和想要做得比别人更好、与众不同的爱好者的未来。因此,你不应该害怕尝试。