AI 大模型中文网 - 探索顶尖人工智能模型

DeepSeek R1

推理能力强代码生成问答能力强

DeepSeek-R1 是一款强化学习（RL）驱动的推理模型，它在数学、代码和推理任务中与 OpenAI-o1 表现相当。

Context Window 64K

Max Output Tokens 8K

Input

文本

Output

文本

文本推理

文心大模型4.5(ERNIE 4.5)

多模态联网搜索人设增强记忆机制

文心大模型4.5是百度自主研发的新一代原生多模态基础大模型，通过多个模态联合建模实现协同优化，多模态理解能力优秀；具备更精进的语言能力，理解、生成、逻辑、记忆能力全面提升，去幻觉、逻辑推理、代码能力显著提升。

Context Window 5K

Max Output Tokens 2K

Input

文本图片

Output

文本

文本多模态

文心大模型X1(ERNIE X1)

深度推理联网搜索人设增强记忆机制

文心大模型X1具备更强的理解、规划、反思、进化能力。作为能力更全面的深度思考模型，文心X1兼备准确、创意和文采，在中文知识问答、文学创作、文稿写作、日常对话、逻辑推理、复杂计算及工具调用等方面表现尤为出色。

Context Window 32K

Max Output Tokens 16K

Input

文本

Output

文本

文本推理

GPT-4o

多模态推理能力强代码生成问答能力强

OpenAI最先进的多模态大型语言模型，能够处理文本、图像输入，在各种任务上表现卓越。

Context Window 128K

Max Output Tokens 16,384

Input

文本图片

Output

文本

文本多模态

Claude 3.7 Sonnet

理解力强安全性高上下文窗口大编程能力强

Claude 3.7 Sonnet 是 Anthropic 迄今为止最尖端的 AI，引入了“扩展思维”能力。这一特性使模型能够通过系统化、逐步推理的方式解决复杂问题。

Context Window 200K

Max Output Tokens 8192

Input

文本图片

Output

文本

文本多模态推理

Deepseek V3

代码生成中英双语知识丰富

DeepSeek-V3 多项评测成绩超越了其他开源模型，并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。

Context Window 64K

Max Output Tokens 8K

Input

文本

Output

文本

Grok 3

多模态推理能力强实时信息幽默风格

xAI开发的Grok系列最新版本，具备强大的多模态能力和实时信息访问功能，以幽默风格著称。

Context Window 128K?

Max Output Tokens 8,192?

Input

文本图片

Output

文本图片

文本多模态推理

Yi-Lightning

高速推理代码生成长文本处理

01.AI开发的高速大型语言模型，兼顾速度与性能，适合对速度有较高要求的场景。

Context Window 16K

Max Output Tokens 4K?

Input

文本

Output

文本

GLM-4-Flash

高速推理成本效益高长文本处理

GLM-4-Flash是智谱AI推出的高效大模型，支持多轮对话、长文本推理，具有高速生成和低成本优势。

Context Window 128K

Max Output Tokens 4095

Input

文本

Output

文本

Doubao-1.5-Lite-32k

轻量级长文本处理中文优化高效响应

Doubao-1.5-lite，全新一代轻量版模型，极致响应速度，效果与时延均达到全球一流水平。支持32k上下文窗口，输出长度支持最大12k tokens

Context Window 32K

Max Output Tokens 12K

Input

文本

Output

文本

QWQ-32B

推理能力强大参数模型代码生成复杂任务

基于32B参数量的高性能语言模型，具备出色的推理能力和复杂问题解决能力。

Context Window 131,072

Max Output Tokens 8,192

Input

文本

Output

文本

文本推理

Qwen-Plus

通用能力强中英双语高效响应

Qwen-Plus是阿里巴巴在阿里云百炼平台上推出的通义千问GPT-4级主力模型，支持中英文输入。

Context Window 131,072

Max Output Tokens 8,192

Input

文本

Output

文本

GPT-4o-mini

多模态轻量级高效响应低成本

OpenAI推出的轻量级多模态模型，在保持高质量响应的同时提供更高效的性能和更低的成本。

Context Window 128,000

Max Output Tokens 16,384

Input

文本图片

Output

文本

文本多模态

O3-mini

轻量级实时响应边缘部署

o3-mini 是 OpenAI 推出的一款高效推理模型，针对科学、数学和编程等 STEM 领域优化，具备快速响应和高性价比的特点。

Context Window 200,000

Max Output Tokens 100,000

Input

文本

Output

文本

文本推理

o1

多模态推理能力优异数学能力强逻辑思维

o1 是 OpenAI 推出的一款预览版大型语言模型，以卓越的推理能力著称，特别擅长解决复杂的科学、数学和编程问题

Context Window 200,000

Max Output Tokens 100,000

Input

文本图片

Output

文本

文本多模态推理

tts-1

语音合成自然声音多语言支持多音色

OpenAI的文本转语音模型，能够生成自然流畅的语音，支持多种语言和音色选择。

支持语言 20+

音色选择 6种基础音色

Input

文本

Output

音频

Llama 3

开源可本地部署多尺寸模型高效计算

Meta开源的大规模语言模型，提供多种规模版本，适合各种应用和设备部署，性能与商业模型相当。

Context Window 8,192

Max Output Tokens 8,192

Input

文本

Output

文本

Gemini 2.0 Flash

超大规模推理能力强多语言支持多模态

Gemini 2.0 Flash 是 Google 推出的先进 AI 模型，支持大规模多模态推理，具有高效低延迟的响应能力，适用于需要处理大量上下文信息的应用。

Context Window 1M

Max Output Tokens 8192

Input

文本图片

Output

文本图片声音

文本多模态

DALL-E 3

高质量生成文本理解强风格多样化细节控制

OpenAI开发的先进图像生成模型，能根据详细文本描述创建高质量、逼真、符合要求的图像。

Context Window -

Max Output Tokens -

Input

文本

Output

图片

图像

Midjourney V6

艺术性强高清生成风格一致构图精确

强大的AI图像生成工具，以其艺术性和美学质量著称，善于创建写实、超现实和艺术风格的图像。

Context Window -

Max Output Tokens -

Input

文本

Output

图片

图像

Stable Diffusion 3

开源本地部署社区驱动高度可定制

开源的文本到图像生成模型，支持本地部署，能创建多样化的高质量图像，拥有庞大的社区支持。

Context Window -

Max Output Tokens -

Input

文本图片

Output

图片

图像

Sora

视频生成长时间连贯物理现实感场景理解

OpenAI的突破性文本到视频模型，能够创建长达一分钟的高质量视频，保持场景连贯性和物理真实性。

Context Window -

Max Output Tokens -

Input

文本图片

Output

视频

AudioCraft

音乐生成声音效果音频处理开源

Meta开发的音频生成框架，包含MusicGen、AudioGen和EnCodec模型，能创建高质量音乐和声音效果。

Context Window -

Max Output Tokens -

Input

文本声音

Output

声音

音频

Whisper

语音识别多语言支持抗噪性强开源

OpenAI的多语言语音识别模型，擅长多种语言的转录和翻译，准确度高且对背景噪音有较强的抵抗力。

Context Window -

Max Output Tokens -

Input

声音

Output

文本

音频