幾乎沒有任何在社交媒體上旅行的人(例如Twitter)都會逃脫它們:荒謬的照片,從摩托車上的甜品到噩夢。在它後面文本到圖像模型,即從簡短描述創建圖像的神經網絡。
有時它的工作原理非常好,以至於他們再也無法與照片區分開。也許除了貓通常無法駕駛摩托車的情況下。在本文中,我們說明它的確切起作用以及可用的工具。
您可以找出為什麼視頻遊戲中的人工智能與我們有關遊戲中AI的當前AI炒作無關:
文字到圖像 - 那是什麼?
以前的方法創造面孔,僅在非常特殊的領域(例如面孔)付出了很多努力。當前如此受歡迎擴散 型號相比之下,絕對所有的圓頂者和易於理解的都很容易理解。
想像一下,您有蘋果的照片。現在,這很容易抓住它,也就是說,您將每個像素的顏色值有些混亂。作為一個人,您很容易識別蘋果以前的樣子 - 這正是您可以教神經元網絡的內容。
你拍照,讓它們有點破碎的
然後訓練網絡以完全消除此噪音。您必須想像這個網絡像孩子的盲牛一樣。
您給網絡一張嘈雜的圖片,看看它吐出了什麼,然後說熱的
或者稱為
,或換句話說:什麼是真實的,什麼不是。一點點,網絡然後學習該怎麼做。例如,原本紅蘋果(或火龍果)上的白色像素可能不屬於那裡。
但是,您不會在一步中付出整個事情。對於您的網絡獲得的嘈雜圖片,您只需刪除一點噪音即可。當然,您不僅要為蘋果做這個,而且為各種圖片和各種噪音做到這一點 - 從一點點到完整的雪花,您再也看不到。
因此,這樣的網絡現在生成了全新的圖像,您只需放開一個僅由噪聲組成的圖片,即僅由隨機值組成。然後,該網絡逐步刪除噪聲,從而構建了新圖片。
hideo auf dem omoost
一開始您看不到太多,但是一個人偶然地網絡就會在某個時候變成思考
例如,它識別出一種結構 - 幾乎好像您認為可以在烤麵包hideo kojima上看到。這正是網絡學會僅消除噪音的地方 - 它認為要識別保留它的噪音。然後,您將獲得一千個步驟的有意義的東西。
所有不同的方法都為您做到這一點:如果您想創建一張新圖片,只需將隨機的醉酒送入網絡中,然後逐漸讓它所做的一切,請將其刪除,直到獲得有意義的圖片為止。
因此,網絡不會在黑暗中完全抓住,也有一個文本描述,因此可以更輕鬆地工作。使用關鍵字蘋果
然後,它會注意到外殼上的像素應大約是紅色。
實際上,這些網絡只能學會在文本的幫助下減少陶醉,並有數十億個例子。如果您現在經常隨機使用它,那麼有意義的事情會在某個時候出現。理論上。大多。
所有已知的模型都沒有其他東西,當然可以用更多的方式和使某些隱腳蛋白看起來舊的計算能力搞砸了。網絡可以再次訓練600.000美元費用。
AI工具:您可以自己從文字中生成圖片
目前最好的方法之一是為Google提供圖像與競爭相比,受洗模型甚至可以正確地呈現(主要是)。
這是令人印象深刻的,因為該模型從未了解過字母的實際工作方式 - 它只有在培訓期間認識到,例如,有圖片,例如xy帶銘文z
被標記了,只需顯示圖片中的某些形狀即可。
但是,應該提到的是,Google用數十億(!)標記的圖像餵飽了整個過程,並且從了解輸入文本的部分中的培訓可能已經花費了兩倍的百萬美元數量。只有算術。該模型本身(相對)易於構建,但不幸的是不能自由使用。
如果您想自己生成酥脆的圖像,但既不擁有裝滿圖形卡的服務器農場,這些卡片具有數十個千兆內的內存和自己的發電廠,也可以使用任何編程的想法,可以使用一些可訪問的替代方案:
從2開始
從2開始對於瀏覽器中的每個人來說,都可以訪問和舒適 - 但是,如果您想生成的不僅僅是幾張圖片,還會將其交給收銀機。
Midjourney
Midjourney是最早免費提供的車型之一,在設計領域特別受歡迎。整個過程可以通過Discord機器人方便地操作,但是在這裡,根據一些免費圖像的使用也需要收取費用。
Midjourney甚至在人類的幫助下成功了藝術價格清除。您可以在文章中找到更多AI在藝術比賽中偷偷摸摸 - 真正的藝術家很生氣
。
穩定的擴散
穩定的擴散每個人都可以訪問,代碼在網上完全打開并快速運行。捕獲:您需要一張帶有大量VRAM的現代圖形卡。但是,與此同時,許多人提供網站也在在線使用。
來自迷你
來自迷你從技術上講,沒有像其他模型那樣通過擴散來工作,而是可以自由訪問的。所使用的數據和用戶輸入的過濾量明顯較小,這在對流行文化的更好理解中顯示出來。陌生人事物的demogorgon,例如該系列朋友們
到目前為止,僅與Dall·Mini合作真正準確。
還有許多其他模型,都具有各自的優勢和缺點。但是,列出所有這些都將超出此簡短列表的框架。
還有什麼?
擴散不僅在Twitter上彈出,而且在仲夏的過度成熟水果籃子上的研究中,在研究中的各個地方也彈出。長期以來,它已經超越了令人討厭的照片。
該原理始終保持不變:逐步,教導神經元網絡從純噪聲中消除噪聲的噪音。只要只有足夠的數據,這是通過視頻,音樂還是3D模型完成的,這無關緊要。
當然,首先,下一個邏輯步驟是從圖片中拍照。Google很久以前就完成了,儘管有點像素化且短。但是在幾年後,卡利伯(Kaliber)直到施韋格(Schweiger)或烏韋·博爾(Uwe Boll)可能就足夠了。
另一個方向是通過文本輸入創建3D模型:對我們的世界的外觀和工作方式的了解顯然已經存在於文本對圖像模型中。 Google設法從已經訓練的模型中汲取了這些知識,因此不僅是無聊的圖片,而且是整個圖片3D模型質地。這可能是絕對的錘子,尤其是對於視頻遊戲行業的原型。
當然,月球上的貓的照片很酷 - 但是,如果您能準確地看到您的貓在月球上,那就太酷了!這正是基本起作用的方法:您可以從幾個給定的圖片中獲得描述,然後在文本輸入中使用它們(正是我的貓在月球上!
)。
最終,整個事情甚至可能令人毛骨悚然深擊使用。同樣,您現在可以拍攝一張圖片並更改背景,或繪製粗糙的景觀,然後將模型變成美麗的油畫。
您必須編輯圖片,但不想與Photoshop一起旅行?有些方向新方法從研究中:通過這些方法,您可以很快通過簡單地輸入不同的描述來編輯任何圖片。一匹女孩騎著馬的照片變成了馬上的恐龍騎手。當然,此類方法也可以用於各種划痕和深擊被使用。
對此還有更多無害的目的:您在度假照片上總是看起來太嚴峻了嗎?不用擔心,AI現在也提供解決方案沒有Photoshop知識。您只需要輸入要帶著微笑的同一張照片:
我們只是在開始
現在,從文本中創建圖片現在可怕地工作 - 下一步將朝著新的應用程序邁進,最重要的是,對圖像的生成更加控制。
畢竟,不僅在未來的上古捲軸上都夢想不夢貓男人
要輸入文本字段,但能夠準確地控制我們的角色的實際外觀。
除非我們實際上可以在成品中使用整個物品,至少在諸如Photoshop或Games之類的程序中,不應該花很長時間:Microsoft在此期間已經擁有了各種圖形的設計師工具發表在Beta中。
最後,我們將當前的播客推薦到AI主題,該主題還涉及Chatgpt等聊天機器人:
鏈接到播客內容
您如何看待AI工具的出現?由於新的可能性,或者由於版權和假貨等問題而呈負面影響,您是否認為它是積極的?隨時在評論中寫下它!