Gemini 2.5 Flash Image: Sáng Tạo Và Chỉnh Sửa Hình Ảnh Thông Minh

Trong bối cảnh công nghệ AI đang phát triển mạnh mẽ, bài viết gốc của Alisa Fortin, Guillaume Vernade, Kat Kampf, Ammaar Reshi giới thiệu một bước tiến mới đầy ấn tượng: Gemini 2.5 Flash Image. Mô hình này không chỉ kế thừa ưu điểm của phiên bản trước về độ trễ thấp và chi phí hiệu quả, mà còn mang đến chất lượng hình ảnh cao hơn cùng khả năng kiểm soát sáng tạo mạnh mẽ. Với vai trò là một chuyên gia từ Ngoc Trai MKT, tôi sẽ phân tích sâu các tính năng nổi bật như pha trộn nhiều hình ảnh, duy trì tính nhất quán của nhân vật, và chỉnh sửa mục tiêu bằng ngôn ngữ tự nhiên, đồng thời đánh giá tiềm năng ứng dụng của mô hình này trong nhiều lĩnh vực khác nhau.

Nội dung

Thank you for reading this post, don't forget to subscribe!

Hôm nay, chúng tôi rất vui mừng được giới thiệu Gemini 2.5 Flash Image (còn gọi là nano-banana), một mô hình AI hình ảnh tiên tiến nhất của chúng tôi chuyên về tạo và chỉnh sửa hình ảnh. Bản cập nhật này cho phép người dùng kết hợp nhiều hình ảnh thành một, duy trì tính nhất quán của nhân vật để kể chuyện phong phú hơn, thực hiện các chuyển đổi có mục tiêu bằng ngôn ngữ tự nhiên, và sử dụng kiến thức sâu rộng của Gemini để thực hiện việc tạo hình ảnh AI và chỉnh sửa hình ảnh AI một cách hiệu quả.

Khi lần đầu ra mắt tính năng tạo hình ảnh gốc trong Gemini 2.0 Flash vào đầu năm nay, chúng tôi đã nhận được phản hồi rằng người dùng yêu thích độ trễ thấp, chi phí hợp lý và sự dễ sử dụng của nó. Tuy nhiên, các bạn cũng cho biết rằng mình cần những hình ảnh chất lượng cao hơn và khả năng kiểm soát sáng tạo mạnh mẽ hơn.

Mô hình này hiện đã có sẵn thông qua API Gemini và Google AI Studio cho các nhà phát triển, cũng như trên Vertex AI cho các doanh nghiệp. Gemini 2.5 Flash Image có mức giá 30,00 USD cho mỗi 1 triệu token đầu ra, với mỗi hình ảnh tương đương 1290 token đầu ra (0,039 USD mỗi ảnh). Tất cả các phương thức khác trên đầu vào và đầu ra đều tuân theo bảng giá của Gemini 2.5 Flash.

Cách Gemini 2.5 Flash Image hoạt động

Để việc xây dựng ứng dụng với Gemini 2.5 Flash Image trở nên dễ dàng hơn nữa, chúng tôi đã thực hiện các cập nhật quan trọng cho “chế độ xây dựng” của Google AI Studio (và sẽ còn nhiều cập nhật khác sắp tới). Trong các ví dụ dưới đây, bạn không chỉ có thể nhanh chóng kiểm tra khả năng của mô hình với các ứng dụng AI tùy chỉnh, mà còn có thể tùy biến chúng hoặc biến ý tưởng thành hiện thực chỉ với một câu lệnh (prompt) duy nhất. Khi bạn sẵn sàng chia sẻ ứng dụng mình đã xây dựng, bạn có thể triển khai trực tiếp từ Google AI Studio hoặc lưu mã nguồn lên GitHub. Việc ứng dụng AI vào sáng tạo không chỉ là một xu hướng, mà còn là một phần trong các Dịch vụ SEO AI của NGOC TRAI MKT nhằm mang lại hiệu quả vượt trội.

Hãy thử một câu lệnh như “Hãy xây dựng cho tôi một ứng dụng chỉnh sửa hình ảnh cho phép người dùng tải ảnh lên và áp dụng các bộ lọc khác nhau” hoặc chọn một trong các mẫu có sẵn và tùy biến lại, tất cả đều miễn phí!

Duy trì tính nhất quán của nhân vật

Một thách thức cơ bản trong việc tạo hình ảnh là duy trì diện mạo của một nhân vật hoặc đối tượng qua nhiều câu lệnh và các lần chỉnh sửa khác nhau. Giờ đây, bạn có thể đặt cùng một nhân vật vào các môi trường khác nhau, trưng bày một sản phẩm duy nhất từ nhiều góc độ trong các bối cảnh mới, hoặc tạo ra các tài sản thương hiệu nhất quán, tất cả đều giữ nguyên được chủ thể.

Chúng tôi đã xây dựng một ứng dụng mẫu trong Google AI Studio (bạn có thể dễ dàng tùy chỉnh và phát triển thêm) để minh họa khả năng duy trì tính nhất quán của nhân vật của mô hình.

Ngoài tính nhất quán của nhân vật, mô hình này còn xuất sắc trong việc tuân thủ các mẫu trực quan. Chúng tôi đã thấy các nhà phát triển khám phá các lĩnh vực như tạo thẻ tin đăng bất động sản, thẻ nhân viên đồng bộ, hoặc các mockup sản phẩm động cho toàn bộ danh mục—tất cả chỉ từ một mẫu thiết kế duy nhất. Đây là một ví dụ điển hình về việc ứng dụng AI để Nâng tầm thương hiệu với nội dung chuẩn SEO, đảm bảo sự đồng nhất và chuyên nghiệp.

Chỉnh sửa hình ảnh AI dựa trên câu lệnh

Gemini 2.5 Flash Image cho phép thực hiện các chuyển đổi có mục tiêu và chỉnh sửa cục bộ chính xác bằng ngôn ngữ tự nhiên. Ví dụ, mô hình AI hình ảnh có thể làm mờ hậu cảnh của một bức ảnh, xóa vết bẩn trên áo thun, loại bỏ hoàn toàn một người khỏi ảnh, thay đổi tư thế của chủ thể, thêm màu cho ảnh đen trắng, hoặc bất cứ điều gì khác bạn có thể tưởng tượng ra chỉ với một câu lệnh đơn giản.

Để thể hiện những khả năng này trong thực tế, chúng tôi đã xây dựng một ứng dụng mẫu chỉnh sửa ảnh trong AI Studio, với cả giao diện người dùng và các điều khiển dựa trên câu lệnh. Những công nghệ này mở ra tiềm năng lớn cho các doanh nghiệp đang tìm kiếm Giải pháp Marketing Kỹ thuật số toàn diện.

Kiến thức thế giới thực

Trong quá khứ, các mô hình tạo hình ảnh thường xuất sắc trong việc tạo ra các hình ảnh có tính thẩm mỹ cao, nhưng lại thiếu sự hiểu biết sâu sắc về ngữ nghĩa của thế giới thực. Với Gemini 2.5 Flash Image, mô hình được hưởng lợi từ kiến thức sâu rộng của Google, điều này mở ra nhiều trường hợp sử dụng mới.

Để chứng minh điều này, chúng tôi đã xây dựng một ứng dụng mẫu trong Google AI Studio, biến một khung vẽ đơn giản thành một gia sư giáo dục tương tác. Ứng dụng này thể hiện khả năng của mô hình trong việc đọc và hiểu các sơ đồ vẽ tay, giúp trả lời các câu hỏi thực tế và tuân theo các hướng dẫn chỉnh sửa phức tạp chỉ trong một bước duy nhất.

Kết hợp nhiều hình ảnh

Gemini 2.5 Flash Image có thể hiểu và hợp nhất nhiều hình ảnh đầu vào. Bạn có thể đặt một đối tượng vào một bối cảnh mới, trang trí lại một căn phòng với một tông màu hoặc kết cấu khác, và kết hợp các hình ảnh với nhau chỉ bằng một câu lệnh duy nhất.

Để giới thiệu tính năng kết hợp nhiều hình ảnh, chúng tôi đã xây dựng một ứng dụng mẫu trong Google AI Studio, cho phép bạn kéo các sản phẩm vào một bối cảnh mới để nhanh chóng tạo ra một hình ảnh kết hợp chân thực. Các doanh nghiệp có thể Tư vấn tích hợp công nghệ AI để tự động hóa các tác vụ này, tiết kiệm thời gian và chi phí.

Bắt đầu xây dựng ngay

Hãy xem tài liệu dành cho nhà phát triển của chúng tôi để bắt đầu xây dựng với Gemini 2.5 Flash Image. Mô hình này hiện đang trong giai đoạn xem trước thông qua Gemini API và Google AI Studio, và sẽ sớm ổn định trong vài tuần tới. Tất cả các ứng dụng demo mà chúng tôi đã giới thiệu ở đây đều được phát triển nhanh trong Google AI Studio, vì vậy bạn có thể tùy biến và chỉnh sửa chúng chỉ bằng một câu lệnh. Đây là cơ hội để các nhà phát triển Tối ưu hiệu suất với AI Automation và tạo ra những sản phẩm đột phá.

OpenRouter.ai đã hợp tác với chúng tôi để giúp đưa Gemini 2.5 Flash Image đến với hơn 3 triệu nhà phát triển của họ trên toàn thế giới, ngay từ hôm nay. Đây là mô hình đầu tiên trên OpenRouter – trong số hơn 480 mô hình đang hoạt động – có khả năng tạo ra hình ảnh.

Chúng tôi cũng rất vui mừng được hợp tác với fal.ai, một nền tảng phát triển hàng đầu cho truyền thông sáng tạo, để đưa mô hình AI hình ảnh Gemini 2.5 Flash Image đến với cộng đồng nhà phát triển rộng lớn hơn. Để hiểu rõ hơn về hiệu quả của các giải pháp này, bạn có thể Khám phá các case study thành công từ những dự án tương tự.

Tất cả các hình ảnh được tạo hoặc chỉnh sửa bằng Gemini 2.5 Flash Image sẽ bao gồm một watermark kỹ thuật số ẩn SynthID, giúp chúng có thể được nhận dạng là do AI tạo ra hoặc chỉnh sửa.

from google import genai
from PIL import Image
from io import BytesIO

client = genai.Client()

prompt = "Create a picture of my cat eating a nano-banana in a fancy restaurant under the gemini constellation"

image = Image.open('/path/to/image.png')

response = client.models.generate_content(
    model="gemini-2.5-flash-image-preview",
    contents=[prompt, image],
)

for part in response.candidates[0].content.parts:
  if part.text is not None:
    print(part.text)
  elif part.inline_data is not None:
    image = Image.open(BytesIO(part.inline_data.data))   
    image.save("generated_image.png")

Chúng tôi đang tích cực làm việc để cải thiện khả năng hiển thị văn bản dài, tăng cường độ tin cậy của tính nhất quán nhân vật, và sự biểu diễn thực tế các chi tiết tinh vi trong hình ảnh. Vui lòng tiếp tục gửi phản hồi cho chúng tôi trong diễn đàn dành cho nhà phát triển hoặc trên X.

Chúng tôi rất nóng lòng được xem bạn sẽ xây dựng những gì với Gemini 2.5 Flash Image!

Gemini 2.5 Flash Image khẳng định vị thế là một công cụ mạnh mẽ trong lĩnh vực tạo và chỉnh sửa hình ảnh bằng AI. Từ khả năng duy trì tính nhất quán của nhân vật đến việc tích hợp kiến thức thế giới và tính năng pha trộn đa hình ảnh, mô hình này mở ra vô số cơ hội cho các nhà phát triển và doanh nghiệp. Tôi tin rằng những cải tiến về chất lượng và kiểm soát sáng tạo sẽ thúc đẩy sự đổi mới trong cách chúng ta tương tác với hình ảnh số. Để khám phá thêm về các giải pháp marketing kỹ thuật số và ứng dụng AI vào thực tiễn, mời bạn truy cập blog https://ngoctraimkt.com/.