DALLE 3技术分析 - 训练方式/模型结构
<p>1. 引言:</p><p>从DALLE 3开发者技术轨迹中,以及模型的演示视频,我们可以推导DALLE 3模型的某些架构信息。</p><p><br></p><p>2. DALLE 2的评价:</p><p><br></p><p>DALLE 2的性能不佳,主要归因于CLIP模型的限制。</p><p><br></p><p>CLIP在为后续的diffusion model提供充足内容和详细特征上遇到了困难。</p><p>在生成详细图像方面,该模型遇到了显著的挑战。</p><p><br></p><p>3. GPT模型的作用:</p><p><br></p><p>之前的实验使用GPT 2作为音频/视觉媒体的核心处理系统,任务是解释人类的文本输入并将其转化为diffusion model的视觉表示。</p><p><br></p><p>该基于GPT 2模型的性能超越了其众多同时代的模型,使得这种策略看起来是可行的。</p><p><br></p><p>对于DALLE 3,作为自回归核心的GPT模型的确切版本,是GPT 3还是GPT 4,尚未确定。但为了此次分析,我们假设使用了GPT 4。</p><p><br></p><p>4. GPT 4的图像解读:</p><p><br></p><p>几个月前,GPT 4的图像解读能力已经显著提高,但OpenAI并未公之于众。</p><p><br></p><p>从商业角度来看,OpenAI可能没有足够的计算资源进行图像解释。这引起了一个问题:计算能力被引导到哪里?</p><p><br></p><p>随着DALLE 3的发布,我们猜测GPT 4的图像能力被用于生成适合DALLE 3的训练数据。</p><p><br></p><p>GPT 4的图像模型的架构可能采用与BLIP2/mini GPT 4相似的方法。这可能包括一个额外的视觉编码器(VIT)和几个转换层(例如Qformer)来将图像转换为模型可以理解的格式。</p><p><br></p><p>预计OpenAI的visual encoder/decoder是自行训练的,可能导致更好的结果。</p><p><br></p><p>5. GPT 4图像发布延迟的可能原因:</p><p><br></p><p>GPT 4图像版本发布之久的可能原因:服务器被用于生产image-text pair数据集。</p><p><br></p><p>有了充足的数据,自然就为DALLE 3的创造铺平了道路。</p><p><br></p><p>6. DALLE 3的假设结构和训练:</p><p><br></p><p>OpenAI首先训练了一个高效的visual encoder/decoder。</p><p><br></p><p>之后,他们可能采用与miniGPT 4类似的方法来训练GPT 4进行图像处理。</p><p><br></p><p>拥有了图像能力的GPT 4之后,可以生成一个全面的image-text pair数据集。这也可能是图像(image tokens)到文本(text tokens)的格式。</p><p><br></p><p>text tokens到image tokens的配对可能被用于培养DALLE的主要部分,我们暂时称之为“GPT 4 image creator”。</p><p><br></p><p>接下来的步骤可能涉及将image tokens转换回图像。目前,diffusion model在此任务上表现出色,甚至超过了原生decoder。</p><p><br></p><p>我们猜测使用了一个diffusion decoder进行图像生成。</p><p><br></p><p>7. 最后的话:</p><p>此分析避免深入到模型的复杂细节,例如模型之间是否有潜在的residual结构,或text tokens是否与image tokens同时输入到diffusion model中。确定这些细节需要实际的实验操作。另外由于已经写的太长了,其中部分基于视频内容的推理暂时没有解释。</p>
收藏(2800)
分享
相关标签: