谷歌这几天的Gemini 2.0 Flash模型很火,Gemini 2.0 Flash 是谷歌推出的一款多模态人工智能模型,具备强大的图像生成和编辑能力。它能够通过简单的文本提示生成和修改图像,支持多模态输入和输出,包括文本、图像、音频等多种数据类型。Gemini 2.0 Flash 的核心特点是其原生多模态能力,能够在一个模型内同时处理文本和图像生成任务。
在本教程中,我将一步步教你如何在AI Studio来 使用Gemini 2.0 Flash 生成或编辑图片。
打开浏览器,访问 Google AI Studio,使用你的谷歌账号登录。
登录后,你会看到一个界面,可以选择不同的模型。
在“Model”下拉菜单中,找到并选择【Gemini 2.0 Flash (Image Generation) Experimental】模型。
在页面中的【Create prompt】框中输入你想要生成的图片的描述。描述越详细,生成的图片越符合你的预期。例如:“一只在森林中奔跑的白色兔子,阳光透过树叶洒在地上,画面风格是写实的,分辨率1080p。”
输入完成后,点击【Generate】或【开始】按钮,等待模型生成图片。
如果你对生成的图片不满意,或者想进一步编辑,可以在【Create prompt】框中输入新的指令。
添加元素:例如,“在图片中添加一朵红色的玫瑰花。”
修改风格:例如,“将图片的风格改为卡通风格。”
调整细节:例如,“把兔子的眼睛颜色改为蓝色。”
每次输入指令后,点击【Generate】或【开始】,等待模型生成新的图片。
如果你有现成的图片需要编辑,可以点击页面上的【Upload Image】按钮,上传图片。
上传完成后,在【Create prompt】框中输入你想要的编辑指令,例如:“把图片中的背景换成蓝天白云。”
点击【Generate】或“开始”,等待模型完成编辑。
访问 Google AI Studio。
点击“创建 API 密钥”按钮。请记住复制密钥。
将其粘贴到名为.env的文件中,格式如下:
GOOGLE_API_KEY=replace_this_with_api_key如果你使用 Python,可以通过以下命令安装必要的库:
pipinstallgoogle-genaipyautoguipython-dotenvsounddevicenumpy或者,也可以从GitHub 存储库下载requirements.txt文件并使用它来创建 Conda 环境:
condacreate--namegeminipython=3.11condaactivategeminipipinstall-rrequirements.txt使用以下代码示例调用 Gemini 2.0 Flash 的图像生成功能:
fromgoogle.generativeaiimportClient#初始化客户端client=Client(api_key="你的API密钥")#图像生成prompt="一只在森林中奔跑的白色兔子,阳光透过树叶洒在地上,画面风格是写实的,分辨率1080p。"response=client.generate_image(prompt)#保存生成的图片withopen("generated_image.png","wb")asf:f.write(response.image)1. 指明编辑主体
如果图片中有多个主体,你需要明确指明要编辑的对象。例如:
“把图片中的兔子的眼睛颜色改为蓝色。”
“将图片中的背景换成蓝天白云,但保留兔子不变。”
2. 文字结合生成系列图片
如果你想生成一系列相关的图片,可以先输入一个故事的开头,然后逐步扩展。例如:
“生成一个孩子在海边玩耍的场景。”
“接下来,孩子捡起一个贝壳,仔细观察。”
“最后,孩子把贝壳放回海里。”
3. 使用英文提示词
如果生成的图片不符合预期,可以尝试将描述转换为英文。例如:
中文:“一只在森林中奔跑的白色兔子。”
英文:“A white rabbit running in the forest.”
免费额度限制:Google AI Studio 提供的免费使用额度有限制,目前每天最多 50 次请求,每分钟不超过 2 次,如果超出限制,可能需要等待一段时间,或者升级到付费版本。
描述的准确性:描述越详细,生成的图片越符合预期。尽量使用具体的词汇和细节描述。
隐私和安全:不要上传或生成包含敏感信息的图片,确保你的使用符合相关法律法规。
通过以上步骤,你应该可以顺利使用 Gemini 2.0 Flash 来生成和编辑图片了。如果有问题,可以随时参阅官方文档!
Gemini 2.0 的官方文档:https://ai.google.dev/gemini-api/docs/models?hl=zh-cn
下一篇: 最后一页
Privy: 开源本地运行的GitHub Copilot替代方案
2025-05-01
2025-05-01
GenossGPT入门指南 - 一行代码替换OpenAI GPT的开源方案
2025-04-29
AgenticSeek:本地版Manus,支持语音输入,可通过语音交互
2025-04-30
2025-04-30
2025-05-01
MusicInfuser:一个可以根据音乐和文本生成舞蹈视频的模型
2025-05-01