名為 DALL-E 的人工智能軟件將您的文字變成圖片

作者：大宰相時間：2023-07-06 A- A+

最近在瀏覽社交媒體動態時，您很可能會注意到帶有標題的插圖。它們現在很流行。

您所看到的圖片很可能是由名為 DALL-E 的文本轉圖像程序生成的。在發布插圖之前，人們會插入文字，然后通過人工智能模型將其轉換為圖像。

例如，推特用戶發布了一條推文，其中寫道：“生與死，拉比拿著鱷梨，大理石雕塑。” 附圖非常優雅，展示了一個穿著長袍、戴著圓頂禮帽、留著胡須的男子的大理石雕像，手里抓著一個牛油果。

AI模型來自谷歌Imagen 軟件以及由微軟支持的初創公司 OpenAI開發了 DALL-E 2。在其網站上，OpenAI 將 DALL-E 2 稱為“一種新的人工智能系統，可以根據自然語言的描述創建逼真的圖像和藝術”。

但該領域發生的大部分事情都來自相對較小的一群人分享他們的照片，并且在某些情況下產生了很高的參與度。這是因為谷歌和 OpenAI 尚未向公眾廣泛提供該技術。

OpenAI 的許多早期用戶都是員工的朋友和親戚。如果您正在尋求訪問權限，則必須加入等候名單，并注明您是否是專業藝術家、開發人員、學術研究員、記者或在線創作者。

OpenAI 的 Joanne Jang 在該公司的幫助頁面上寫道：“我們正在努力加快訪問速度，但可能需要一些時間才能普及到所有人;截至 6 月 15 日，我們已邀請 10,217 人嘗試 DALL-E 。”網站。

DALL-E Mini是一種公開可用的系統。它利用了組織松散的開發團隊的開源代碼，并且經常超出需求。嘗試使用它時可能會出現一個對話框，顯示“流量過多，請重試”。

這有點讓人想起谷歌的 Gmail 服務，該服務在 2004 年以無限的電子郵件存儲空間吸引了人們。早期采用者一開始只能通過邀請進入，讓數百萬人等待。現在 Gmail 是世界上最受歡迎的電子郵件服務之一。

用文本創建圖像可能永遠不會像電子郵件那樣普遍存在。但這項技術確實正在流行，其部分吸引力在于其獨特性。

私人研究實驗室 Midjourney 要求人們填寫一份表格，如果他們想通過 Discord 聊天應用程序的頻道嘗試其圖像生成機器人。只有少數人在使用 Imagen 并發布其中的圖片。

文本到圖片服務非常復雜，可以識別用戶提示中最重要的部分，然后猜測說明這些術語的最佳方式。除了外部數據之外，谷歌還利用數百個內部 AI 芯片，根據 4.6 億個內部圖像文本對來訓練其 Imagen 模型。

界面很簡單。通常有一個文本框、一個啟動生成過程的按鈕以及下面一個用于顯示圖像的區域。為了表明來源，Google 和 OpenAI 在來自 DALL-E 2 和 Imagen 的圖像的右下角添加了水印。

構建該軟件的公司和團體有理由擔心每個人都會同時闖入大門。使用這些人工智能模型處理網絡請求來執行查詢可能會變得昂貴。更重要的是，這些模型并不完美，并且并不總能產生準確代表世界的結果。

工程師根據網絡上的大量文字和圖片(包括人們在 Flickr 上發布的照片)對模型進行訓練。

總部位于舊金山的 OpenAI 認識到，通過本質上搜索網絡來學習如何制作圖像的模型可能會帶來潛在的危害。為了嘗試解決這一風險，員工從訓練數據中刪除了暴力內容，并且如果用戶提交可能違反公司針對裸體、暴力、陰謀或政治內容的政策的提示，過濾器會阻止 DALL-E 2 生成圖像。

OpenAI 研究科學家 Prafulla Dhariwal 表示：“我們正在持續改進這些系統的安全性。”

研究結果中的偏差也很重要，它代表了對人工智能更廣泛的關注。來自德克薩斯州的開發人員鮑里斯·戴瑪 (Boris Dayma) 和其他參與 DALL-E Mini 工作的人在他們的軟件解釋中闡明了這個問題。

他們寫道：“受教育程度較高的職業(例如工程師、醫生或科學家)或高體力勞動的職業(例如建筑行業)大多由白人男性代表。” “相比之下，護士、秘書或助理通常是女性，通常也是白人。”

盡管存在風險，OpenAI 對這項技術能夠實現的各種事物感到興奮。達里瓦爾表示，它可以為個人開辟創意機會，并有助于室內設計或裝飾網站的商業應用。

隨著時間的推移，結果應該會不斷改善。4 月份推出的 DALL-E 2比 OpenAI 去年宣布的初始版本更逼真，而且該公司的文本生成模型GPT每一代都變得更加復雜。

閱讀排行

91在线亚洲精品专区,久久天天躁夜夜躁狠狠85台湾 ,成人精品一区二区www,的九一视频入口在线观看