文章から画像を生成視覚言語モデルが鍵 - ITpro

全4277文字

2022年夏は「Midjourney」や「Stable Diffusion」が大いに注目された。文章から画像を生成するAI（人工知能）が、誰でも使えるようになったからだ。文章と画像の意味を同じように扱える「視覚言語モデル」が大きな役割を果たした。

（イラストレーション：Hyaku）

[画像のクリックで拡大表示]

　2022年夏は画像生成AIが大いに注目された。人間が記述したテキストに基づいて画像を生成するAIが、商用サービスとして一般公開されたり、学習済み機械学習モデルを含めた画像生成AI一式がオープンソースとして公開されたりしたためだ。

　2022年6月にはテキストから画像を生成するAIのサービス「Midjourney」を、米国のスタートアップである米ミッドジャーニーが公開した。イギリスのスタートアップのスタビリティーAIは2022年8月、画像生成AI「Stable Diffusion」のプログラムや学習済み機械学習モデルをOSSとして公開した。

　2022年9月には、チャットボット「りんな」を開発するrinnaが、日本語に特化した画像生成モデル「Japanese Stable Diffusion」をオープンソースとして公開した。1億枚の日本語のキャプション付き画像でStable Diffusionを追加学習した。ユーザーが日本語の文章をJapanese Stable Diffusionに与えると、その内容に基づいた画像を出力する。日本語のキャプション付き画像を追加学習させることで、日本語の固有名詞や「キラキラ」といったオノマトペ（擬態語や擬音語）を含む文章から画像を生成できるようになった。

　これまでも米オープンAIが2022年4月に発表した「DALL-E 2」や米グーグルが同年5月に発表した「Imagen」など、文章から画像を生成できるAIは論文で発表されていた。しかし一般ユーザーにとっては、自ら試せない縁遠い存在だった。

トレーニング費用は約8000万円

　特に深刻だったのは費用の問題だ。機械学習モデルのトレーニングなどに、一般ユーザーではとても支払えないほど巨額の費用が必要だったのだ。

　スタビリティーAIの創業者であるエマド・モスク氏は2022年8月28日にTwitterで、同社がStable Diffusionの機械学習モデルを訓練（トレーニング）するのに60万ドル（約8000万円）を投じたことを明らかにしている。また同社はStable Diffusionで画像を生成する推論処理を実行する際には、GPUのメモリーが6.9GB（ギガバイト）必要だと説明する。

　スタビリティーAIは巨費を投じてトレーニングしたモデルをオープンソース化した。Midjourneyは月額10ドルから利用できる。これらの施策によってユーザーは、テキストから画像を生成するAIを気軽に試せるようになり、認知度が一気に高まった。

Adblock test (Why?)

from "鍵" - Google ニュース https://ift.tt/V25CEn9
via IFTTT

Bagikan Berita Ini

「ライザのアトリエ３〜終わりの錬金術士と秘密の鍵〜」レビュー新要素の鍵＆オープンフィールドで遊びやすさと ... - GAME Watch 初心者は取っつきやすくなり、経験者には奥深くへと誘う秀逸な鍵システムと共に、ますますやり込めるタイトルに　基本的なシステムは前作までを踏襲しつつも、プレイの幅を広げる方向での新システムが導入された… Read More...
資格試験でまさかの「正解」、賃貸アパートの鍵を壊したら大家の負担？予備校は困惑、国も苦言 - 47NEWS[unable to retrieve full-text content] 資格試験でまさかの「正解」、賃貸アパートの鍵を壊したら大家の負担？予備校は困惑、国も苦言 47NEW… Read More...
neco眠る、6年ぶりのアルバムは「実家の鍵」 - 音楽ナタリーこのページは株式会社ナターシャの音楽ナタリー編集部が作成・配信しています。 neco眠る / 思い出野郎Aチームの最新情報はリンク先をご覧ください。音楽ナタリーでは国内アーティストを中心とした最… Read More...
メンタルコントロールの鍵は“つぼ” 中島啓太「ストレスが減る」 - ゴルフダイジェスト・オンライン男子プロゴルファーの中島啓太が11日、横浜市のパシフィコ横浜で行われたジャパンゴルフフェアに登場。契約を結ぶテーラーメイドゴルフのイベント後に取材に応じ、新シーズンに向けた意気込みを語った。今年は… Read More...
［プレイレポ］「ライザのアトリエ３～終わりの錬金術士と秘密の鍵～」は，立体的なフィールド探索やテンポの良い ... - 4Gamer.net　コーエーテクモゲームスは，2023年3月23日に「ライザのアトリエ３〜終わりの錬金術士と秘密の鍵〜」（PS5/PS4/Switch，PC版は24日）を発売する。2019年の「ライザのアトリエ〜常… Read More...

Search

文章から画像を生成視覚言語モデルが鍵 - ITpro

トレーニング費用は約8000万円

0 Response to "文章から画像を生成視覚言語モデルが鍵 - ITpro"

Post a Comment

文章から画像を生成 視覚言語モデルが鍵 - ITpro

トレーニング費用は約8000万円

Related Posts :

0 Response to "文章から画像を生成 視覚言語モデルが鍵 - ITpro"

Post a Comment

文章から画像を生成視覚言語モデルが鍵 - ITpro

0 Response to "文章から画像を生成視覚言語モデルが鍵 - ITpro"