AI 繪圖再進化!OpenAI 於本週二正式推出全新影像生成模型「ChatGPT Images 2.0」。新模型大幅強化了「推論能力」與「文字渲染」技術,用戶現在能一次生成多張圖片、自訂極端長寬比,甚至能在圖片中精準生成英文單字。不過外媒實測發現,該模型在處理中文等非英語系文字時,仍會出現難以辨識的「AI 亂碼」。 (前情提要:壽命僅 3 個月!OpenAI 無預警關停科研寫作平台 Prism,戰略大轉向「不再搞副業」) (背景補充:ChatGPT 幕後推手 Srinivas Narayanan 閃辭 OpenAI,一週三已有高層出走) 圖像生成的戰場再度升溫。OpenAI 於週二(21 日)宣布為全球 ChatGPT 與 Codex 用戶推出全新的影像生成 AI 模型 —— ChatGPT Images 2.0,並為付費訂閱者提供更強大的運算版本。 這次的重大更新不僅帶來了更細緻的畫面表現,更試圖解決過去 AI 繪圖最令人頭痛的「文字拼寫(Text rendering)」問題。 結合推論能力,單次提示可產出多張圖片 與過去的模型相比,Images 2.0 最大的突破在於它整合了 ChatGPT 強大的「推論(Reasoning)」能力。這意味著 AI 在生成圖片前,會執行更多的思考步驟,甚至能連上網路搜尋最新資訊(該模型的基礎知識庫截止日期為 2025 年 12 月)。 新模型的亮點升級包含: 多圖連續生成:用戶只需輸入一次提示詞(Prompt),就能讓模型產出一系列圖片,例如一整本學習手冊的視覺內容。 高度客製化尺寸:打破傳統的比例限制,新模型支援從 3:1(極寬)到 1:3(極高) 的長寬比,用戶可直接在提示詞中指定所需尺寸。 更細緻的資訊圖表:外媒實測要求生成「舊金山明日天氣預報與推薦活動」的資訊圖表時,AI 成功將天氣細節與當地地標(如渡輪大廈、卡斯楚戲院、泛美金字塔)精準地融合在同一個畫面中。 官方提示詞:Make a sample page of a colorized Japanese shonen adventure manga. The page should vividly depict our main character found a magical quill. The name of the quill is called the Quill of GPT Image. Make it dramatic. The magical quill has strong power sealed inside it. Additional instructions: Aspect ratio: Portrait 1440×2560. The pen should have an OpenAI logo on it. The language throughout the manga should be Japanese. Think carefully first to make this a good story with good split of manga panels. The page should appear as a photo of a physical page, not a digital page. 英文拼寫完美過關,但「中文海報」慘成亂碼 過去幾年,當主流模型嘗試在圖像中生成文字時,往往會產出扭曲的字元或拼寫錯誤的單字。根據實測,Images 2.0 在英文文字渲染上取得了令人驚豔的進步,畫面中的英文單字變得更加清晰且準確。 然而,當挑戰非英語系語言時,Images 2.0 仍顯得力不從心。外媒測試人員要求 ChatGPT 模仿中國粉絲,為好萊塢男星提摩西·夏勒梅(Timothée Chalamet)製作一張「中文應援海報」。雖然產出的海報視覺極具張力(包含傳統服飾、貓耳、珍珠奶茶與熊貓等元素),且畫面中塞滿了超過 20 處文字,但這些字卻無法閱讀。 當測試員反問 ChatGPT 這些字是什麼意思時,AI 竟展現了極強的「自我批判」能力,誠實地回答: 「這其中大部分是假的,或者是偽裝成中文迷因海報的半胡言亂語 AI 文字,所以無法完全流暢地翻譯出來。還有一些地方明顯是扭曲的,或是混雜了看起來像日文的字元……這些大多是為了模仿東亞粉絲剪輯文字的感覺而捏造的無意義符號,而不是準確的句子。」 總結來說,ChatGPT Images 2.0 在功能多樣性與英文處理上已展現出強大的實力,無疑為生產力工具帶來了實質的提升。至於全球用戶引頸期盼的「多語系精準生成」,或許仍需等待 OpenAI 在未來版本中透過更龐大的全球數據進行強化了。 官方提示詞:Generate a full color Chinese-text manga about this OpenAI 研究科学家, 陈博远 (first picture), who works on improving the text rendering capability of ChatGPT Image 2 model for the upcoming release. (in the background there is boba tea and a banana taped to the wall with a single slice of duct tape). The model can render insanely small Chinese text when he tried generating some detailed and beautiful multilingual infographics handdrawn-style poster about his hometown, 无锡 on his computer scree...