《利用Python驾驭Stable Diffusion：原理解析、扩展开发与高级应用 [美]安德鲁·朱》 - [美]安德鲁·朱 - 机械工业出版社 - 香港大書城

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　運費計算　 \|　聯絡我們　 \|　幫助中心　\|　加入書簽
		會員登入新用戶登記

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

臺灣用戶

品種：超過100萬種各類書籍/音像和精品，正品正價，放心網購，悭钱省心

服務：香港／台灣／澳門／海外

送貨：速遞／郵局／服務站

新書上架：簡體書繁體書
暢銷書架：簡體書繁體書
好書推介：簡體書繁體書

『簡體書』利用Python驾驭Stable Diffusion：原理解析、扩展开发与高级应用 [美]安德鲁·朱

書城自編碼： 4113107
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者： [美]安德鲁·朱
國際書號(ISBN)： 9787111780281
出版社：机械工业出版社
出版日期： 2025-05-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：HK$ 119.9

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《校园有戏——中小学戏剧教育实践指南》
售價：HK$ 85.8

《资本的扩张》
售價：HK$ 79.2

《中国古代姓氏与避讳起源（学术文库）》
售價：HK$ 107.8

《以色列史：应许之地的现代叙事 | 看世界 | 区域国别史》
售價：HK$ 94.6

《堂吉诃德（插图珍藏版）（全2册）》
售價：HK$ 437.8

《项目管理一本通（故事版）》
售價：HK$ 74.8

《甲骨文丛书·法兰西美食一千年》
售價：HK$ 75.9

《国际工程黄皮书：国际工程发展报告（2024）》
售價：HK$ 217.8

編輯推薦：

本书是利用Python驾驭Stable Diffusion的实用指南，从原理解析到扩展开发、高级应用全覆盖。含环境搭建、模型优化、图像生成等内容，附大量实战案例，助读者掌握AI图像生成核心技术，适合AI图像爱好者、开发者等。

內容簡介：

本书提供了完整的代码和详细的步骤，让读者可以亲自动手实验，在实践中学习和掌握Stable Diffusion。本书内容涵盖了Stable Diffusion的各个方面，从环境搭建到模型优化，从图像生成到视频制作，从LoRA到ControlNet。作者以清晰的思路和通俗易懂的语言，将复杂的理论知识和代码实现娓娓道来，并辅以大量的示例和插图，使读者能够轻松理解和上手。本书还深入探讨了Stable Diffusion的一些高级应用，例如图像修复、超分辨率、文本反转、自定义提示词、生成视频、模型微调等，为读者打开了更广阔的应用空间。本书适合人工智能图像生成爱好者、程序员、数据科学家、机器学习工程师以及研究人员阅读。

關於作者：

安德鲁·朱（Andrew Zhu）微软资深应用数据科学家，在科技行业拥有超过15年的经验。Andrew擅长将复杂的机器学习和人工智能概念提炼成引人入胜且信息丰富的内容并因此而闻名，他经常为Toward Data Science等知名刊物撰稿。他之前所著的Microsoft Workflow Foundation 4.0 Cookbook在亚马逊上获得了4.5星的好评。作为广受欢迎的Hugging Face Diffusers库（这是一个领先的Stable Diffusion Python库，也是本书的主要聚焦点）的贡献者，Andrew展现了卓越的专业能力。目前，他在一家尚未公开亮相的初创公司领导人工智能部门，凭借广泛的研究背景以及在生成式AI方面的专业能力，重塑在线购物体验，并引领零售业AI的未来。

目　　录译者序序言前言作者简介审校者简介第一部分　Stable Diffusion的旋风第1章　Stable Diffusion介绍　21.1　扩散模型的演变　41.1.1　在Transformer和注意力之前　41.1.2　Transformer给机器学习带来的变革　41.1.3　OpenAI的CLIP产生了重大影响　51.1.4　图像生成　51.1.5　DALL-E 2和Stable Diffusion　61.2　为何选择Stable Diffusion　61.3　使用哪一个版本的StableDiffusion　71.4　为什么选择本书　71.5　参考文献　8第2章　搭建Stable Diffusion的开发环境　92.1　硬件要求　102.1.1　GPU　102.1.2　系统内存　112.1.3　存储　112.2　软件要求　112.2.1　CUDA安装　112.2.2　为Windows、Linux和macOS安装Python　132.2.3　安装PyTorch　142.3　运行Stable Diffusion管道　152.4　使用Google Colab　162.5　使用Google Colab运行Stable Diffusion管道　172.6　总结　192.7　参考文献　19第3章　使用Stable Diffusion生成图像　203.1　登录Hugging Face　203.2　生成图像　213.3　生成器种子　223.4　采样调度器　233.5　更换模型　253.6　引导比例　263.7　总结　273.8　参考文献　28第4章　理解扩散模型背后的理论　294.1　理解图像到噪声的转换过程　304.2　一种更高效的前向扩散过程　334.3　噪声到图像的训练过程　364.4　噪声到图像的采样过程　374.5　理解分类器引导去噪　394.6　总结　394.7　参考文献　40第5章　理解Stable Diffusion的工作原理　415.1　潜空间中的Stable Diffusion　425.2　使用diffusers生成潜向量　445.3　使用CLIP生成文本嵌入　475.4　初始化时间步嵌入　495.5　初始化Stable Diffusion的UNet　515.6　实现一个文本到图像的Stable Diffusion推理管道　515.7　实现一个文本引导的图像到图像Stable Diffusion推理管道　545.8　总结　555.9　参考文献　565.10　扩展阅读　56第6章　使用Stable Diffusion模型　576.1　技术要求　576.2　加载Diffusers模型　586.3　从safetensors和.ckpt文件加载模型的检查点　596.4　在Diffusers中使用.ckpt和safetensors文件　596.5　关闭模型安全检查器　606.6　将检查点模型文件转换为Diffusers格式　616.7　使用Stable Diffusion XL　626.8　总结　666.9　参考文献　66第二部分　通过自定义功能改进扩散模型第7章　优化性能和显存的使用　687.1　设置基线　687.2　优化方案1：使用f loat16或bf loat16数据类型　697.3　优化方案2：启用VAE平铺　707.4　优化方案3：启用Xformers或使用PyTorch 2.0　717.5　优化方案4：启用顺序CPU卸载　727.6　优化方案5：启用模型CPU卸载　737.7　优化方案6：令牌合并　747.8　总结　757.9　参考文献　76第8章　使用社区共享的LoRA　778.1　技术要求　788.2　LoRA技术的工作原理　788.2.1　使用LoRA与Diffusers　798.2.2　使用LoRA权重　818.3　深入探索LoRA的内部结构　848.3.1　从LoRA文件中找到A和B权重矩阵　858.3.2　找到相应的检查点模型层名称　868.3.3　更新检查点模型权重　888.4　创建一个加载LoRA的函数　898.5　为什么LoRA有效　928.6　总结　938.7　参考文献　93第9章　使用文本反转　949.1　使用文本反转进行Diffusers推理　959.2　文本反转的工作原理　969.3　构建一个自定义的文本反转加载器　989.3.1　文本反转的pt文件格式　989.3.2　文本反转的bin文件格式　999.3.3　构建一个文本反转加载器的详细步骤　999.3.4　将所有代码整合在一起　1019.4　总结　1039.5　参考文献　104第10章　破解77个令牌限制和启用提示权重　10510.1　理解77个令牌的限制　10610.2　突破77个令牌的限制　10710.3　启用带权重的长提示　11310.4　验证工作　12210.5　使用社区管道突破77个令牌的限制　12310.6　总结　12510.7　参考文献　125第11章　图像修复和超分辨率　12611.1　理解相关术语　12611.2　使用图像到图像的扩散技术进行图像放大　12811.2.1　一步超分辨率　12811.2.2　多步超分辨率　13111.2.3　超分辨率结果比较　13211.2.4　图像到图像限制　13311.3　ControlNet分块图像放大　13311.3.1　使用ControlNet分块放大图像的步骤　13411.3.2　ControlNet分块放大结果　13611.3.3　更多ControlNet分块放大示例　13611.4　总结　14111.5　参考文献　141第12章　计划提示解析　14312.1　技术要求　14312.2　使用Compel包　14412.3　构建自定义的计划提示管道　14712.3.1　计划提示解析器　14712.3.2　补充缺失的提示　15012.3.3　支持计划提示的Stable Diffusion管道　15112.4　总结　15812.5　参考文献　159第三部分　高级主题第13章　使用ControlNet生成图像　16213.1　什么是ControlNet，它有哪些独特之处　16213.2　如何使用ControlNet　16413.3　在管道中使用多个ControlNet　16713.4　ControlNet的工作原理　17013.5　ControlNet的更多用法　17113.5.1　更多Stable Diffusion与ControlNet结合的例子　17113.5.2　Stable Diffusion XL的ControlNet　17113.6　总结　17513.7　参考文献　176第14章　使用Stable Diffusion生成视频　17714.1　技术要求　17814.2　文本到视频生成的原理　17814.3　AnimateDiff的实际应用　17914.4　使用Motion LoRA控制动画运动　18114.5　总结　18314.6　参考文献　183第15章　使用BLIP-2和LLaVA生成图像描述　18415.1　技术要求　18415.2　BLIP-2—启动语言-图像预训练　18615.2.1　BLIP-2的工作原理　18615.2.2　使用BLIP-2生成描述　18715.3　LLaVA—大型语言与视觉助手　18815.3.1　LLaVA的工作原理　18815.3.2　安装LLaVA　18815.3.3　使用LLaVA生成图像描述　18915.4　总结　19215.5　参考文献　192第16章　探索StableDiffusion XL　19316.1　Stable Diffusion XL有哪些新变化　19416.1.1　Stable Diffusion XL的变分自编码器　19416.1.2　Stable Diffusion XL的UNet　19516.1.3　Stable Diffusion XL中的两个文本编码器　19616.1.4　两阶段设计　19816.2　使用Stable Diffusion XL　19916.2.1　使用Stable DiffusionXL社区模型　19916.2.2　使用Stable DiffusionXL图像到图像来增强图像　20016.2.3　使用Stable DiffusionXL LoRA模型　20216.2.4　使用无限长度提示词的Stable Diffusion XL　20316.3　总结　20516.4　参考文献　206第17章　Stable Diffusion提示词优化之道　20717.1　什么是好的提示词　20717.1.1　明确且具体　20817.1.2　使用描述性的语言　21017.1.3　使用一致的术语　21217.1.4　参考艺术作品和风格　21317.1.5　使用负面提示词　21417.1.6　迭代和改进　21617.2　使用LLM生成更好的提示词　21617.3　总结　22617.4　参考文献　226第四部分　将Stable Diffusion集成到应用中第18章　对象编辑和风格迁移　22818.1　使用Stable Diffusion编辑图像　22818.1.1　更换图像背景内容　22918.1.2　移除图像背景　23218.2　对象和风格迁移　23418.2.1　加载带有IP-Adapter的Stable Diffusion管道　23418.2.2　风格迁移　23518.3　总结　23718.4　参考文献　237第19章　生成数据持久化　23819.1　探索和理解PNG文件结构　23819.2　在PNG图像文件中保存文本数据　24019.3　PNG数据存储限制　24319.4　总结　24319.5　参考文献　243第20章　创建交互式用户界面　24420.1　Gradio介绍　24420.2　开始使用Gradio　24520.3　Gradio基础知识　24720.3.1　Gradio模块　24720.3.2　输入和输出　24920.3.3　创建一个进度条　25020.4　使用Gradio构建一个Stable Diffusion文本到图像管道　25020.5　总结　25220.6　参考文献　253第21章　扩散模型的迁移学习　25421.1　技术要求　25521.2　使用PyTorch训练神经网络模型　25521.2.1　准备训练数据　25521.2.2　准备训练　25621.2.3　训练模型　25721.3　使用Hugging Face的Accelerate训练模型　25921.3.1　应用Hugging Face的Accelerate　25921.3.2　将代码合在一起　26021.3.3　使用Accelerate进行多GPU模型训练　26121.4　训练Stable Diffusion v1.5LoRA　26421.4.1　定义训练超参数　26521.4.2　准备Stable Diffusion组件　26721.4.3　加载训练数据　26821.4.4　定义训练组件　27221.4.5　训练Stable Diffusionv1.5 LoRA　27321.4.6　启动训练　27821.4.7　验证结果　27821.5　总结　28021.6　参考文献　281第22章　Stable Diffusion与未来　28222.1　这波人工智能浪潮有何不同　28222.2　数学和编程的持久价值　28422.3　跟上人工智能创新的步伐　28522.4　构建负责任、遵守道德、保护隐私和安全的人工智能　28622.5　我们与人工智能不断演变的关系　28722.6　总结　28822.7　参考文献　288

內容試閱：

前　　言当 Stable Diffusion 于2022年8月22日问世时，这款基于扩散模型的图像生成模型迅速吸引了全球的目光。它的模型和源代码全部开源，并托管在GitHub上。随着数百万社区成员和用户的参与，许多新模型和混合模型相继发布，Stable Diffusion WebUI 和 InvokeAI 等工具也随之诞生。尽管使用 Stable Diffusion WebUI 工具能够生成由扩散模型驱动的精美图像，但其适用范围有限。Hugging Face 的开源 Diffusers 包让用户可以通过 Python 完全掌控 Stable Diffusion。然而，它缺少许多关键功能，例如加载自定义的 LoRA 模型和文本反转（Textual Inversion，TI）、使用社区发布的模型/检查点、调度和加权提示、无限提示词、高分辨率图像修复和图像放大等功能。本书将指导你突破 Diffusers 的局限，实现高级功能，打造一个完全自定义的工业级 Stable Diffusion 应用程序。读完本书，你不仅能够使用 Python 生成和编辑图像，还可以利用书中的解决方案为你的业务和用户构建 Stable Diffusion 应用程序。本书适合谁本书适用于希望全面了解图像生成和扩散模型如何工作的人工智能图像与艺术生成爱好者。本书同样适合那些希望全面了解人工智能图像生成，并精确掌控扩散模型的艺术家。希望基于 Stable Diffusion 开发人工智能图像生成应用程序的 Python 程序员也会发现本书非常有用。最后，本书也面向数据科学家、机器学习工程师，以及希望使用 Python 以编程方式控制 Stable Diffusion 过程、自动化管道、构建自定义管道并进行测试和验证的研究人员。本书涵盖的内容第1章简介人工智能图像生成技术Stable Diffusion。第2章讲解如何配置 CUDA 和 Python 环境以运行 Stable Diffusion 模型。第3章是一个快速入门章节，旨在帮助你快速掌握用Python通过 Stable Diffusion 生成图像的方法。第4章深入探讨扩散模型背后的理论。第5章全面探讨Stable Diffusion背后的理论。第6章详细讲解如何处理模型数据，以及如何转换和加载模型文件。第7章教授如何提升性能并减少显存占用。第8章介绍如何将社区共享的 LoRA 与 Stable Diffusion 检查点模型结合使用。第9章介绍如何将社区共享的文本反转与 Stable Diffusion 检查点模型结合使用。第10章讲解如何编写自定义提示处理代码，以使用不受大小限制的提示并赋予权重分数。具体来说，我们将探讨如何为每个提示或令牌（token）分配不同的权重，以微调模型注意力，生成更精确的结果。第11章展示如何使用 Stable Diffusion 技术进行图像修复和放大。第12章展示如何构建自定义管道以支持计划提示。第13章讲解如何将 ControlNet 与 Stable Diffusion 检查点模型结合使用。第14章展示如何将 AnimateDiff 与 Stable Diffusion 结合使用来生成一个短视频片段，并理解视频生成背后的理论。第15章讲解如何利用大语言模型（LLM）从图像中提取描述。第16章展示如何入门并使用这个更新、更先进的Stable Diffusion模型。第17章探讨编写高效Stable Diffusion提示以生成更佳图像的技巧，并介绍利用LLM自动生成提示的方法。第18章讲解如何使用 Stable Diffusion 及相关的机器学习模型进行图像编辑，并将一种图像的风格迁移到另一种图像上。第19章展示如何将图像生成提示和参数嵌入生成的PNG图像中。第20章展示如何使用开源框架Gradio构建一个Stable Diffusion WebUI。第21章介绍如何从零开始训练一个Stable Diffusion LoRA。第22章提供有关 Stable Diffusion、人工智能以及如何了解最新发展的更多信息。如何充分利用本书你需要具备一定的Python编程经验。熟悉神经网络和PyTorch将有助于阅读和运行本书中的代码。免责声明：本书在编写过程中考虑到了道德实践和法规。请避免将在本书中获得的知识用于任何不道德的目的。请参阅第 22 章，深入了解使用人工智能的道德规范。书中涵盖的软件/硬件操作系统要求Python 3.10+ Linux， Windows 或 macOSNvidia GPU（Apple M 芯片可能可用，但强烈推荐 Nvidia GPU）Hugging Face Diffusers请翻到第2章，查看开发环境设置的详细步骤。下载示例代码文件你可以访问https://github.com/PacktPublishing/Using-Stable-Diffusion-with-Python下载本书的示例代码文件。如果代码有更新，那么它将在 GitHub 仓库中更新。我们还在https://github.com/PacktPublishing/上提供了许多书籍和视频资源中的其他代码包。快去看看吧！排版约定本书使用了以下排版约定。代码：表示文本中的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、虚拟 URL、用户输入和 Twitter 句柄。例如：“这里，我们使用controlnet-openpose-sdx1-1.0 作为 Stable Diffusion XL 的姿态控制库。”一段代码如下所示：任何命令行输入或输出都写成如下形式：加粗：用于表示新术语、重要词汇或你在屏幕上看到的单词。例如，菜单或对话框中的单词会以粗体显示。例如：“单击运行按钮后，进度条会出现在输出文本框的位置。”建议或重要的提示会按此格式展示。

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	香港用户　 \|　台灣用户　\|　海外用户

	megBook.com.hk
Copyright © 2013 - 2025 （香港）大書城有限公司　 All Rights Reserved.