AI音频
MiniMax
MiniMax 作为上海的 AI 独角兽企业,自 2021 年成立以来,已获得 IDG、高瓴、国寿、阿里、腾讯、米哈游、红杉等知名机构超 10 亿美元融资。其在 AI 领域构建了全面且前沿的技术与产品体系,覆盖基座模型、多模态生成、智能体等核心板块,在全球 AI 竞赛 “下半场” 成为关键变量,推动行业技术革新与应用拓展。
核心技术突破
(一)MiniMax-M1 开源模型
MiniMax 发布并开源的自主研发 MiniMax-M1 系列模型,在 Artificial Analysis Intelligence Index 榜单中位列全球开源模型第二名 。该模型创新采用 “闪电注意力”(Lightning Attention)混合架构与 CISPO 算法,实现业内最高 100 万上下文输入与最长 8 万 Token 推理输出 。这一突破使模型在处理复杂文档分析、长篇代码生成等任务时游刃有余。例如在代码生成任务中,能快速生成高质量、长篇幅的代码,满足开发者复杂项目需求。且在 8 万 Token 深度推理时,所需算力仅为 DeepSeek R1 的约 30%,大幅降低成本,提升效率,为企业和开发者提供高性价比解决方案 。
(二)Hailuo 02 视频大模型
新一代视频大模型 Hailuo 02 在多模态领域表现卓越,凭借创新的 Noise-aware Compute Redistribution(NCR)架构,实现模型参数和训练数据量提升的同时,效率飞跃 2.5 倍 。在国际权威测评榜单 Artificial Analysis 视频竞技场中位居全球第二,领先 Google Veo3 和快手可灵(Kling) 。该模型能生成原生 1080P 高清画质、电影级视频画面,精准还原复杂运动场景,如体操运动员连续翻转、马戏演员喷火等,满足影视制作、广告创意等行业对高质量视频内容生成的需求,以较低成本产出专业级视觉效果 。
(三)语音模型与 Voice Design 音色设计
MiniMax 的 Speech 02 语音模型在国际权威评测榜单 Artificial Analysis 和 Hugging Face TTS Arena 上登顶 ,在语音模型核心指标字错率 WER 和相似度 SIM 上表现领先,发音清晰稳定,逼近真人输出。配套的 Voice Design 音色设计功能,允许用户通过自然语言精准描述期望音色,实现多维度控制,为有声内容创作、智能客服语音定制等场景提供丰富个性化选择,满足不同品牌、项目对独特语音风格的需求 。
产品应用场景
(一)MiniMax Agent——“可执行的数字员工”
MiniMax Agent 定位为可执行复杂任务的智能体,支持多步规划与动态执行 。在金融投资领域,面对 “Mag 7 投资组合双移动平均线策略收益率分析” 任务,它能自动调用多种工具,完成数据搜集、策略验证并生成可视化报告 。在知识科普与导览场景,如介绍 “新世纪福音战士”“卢浮宫” 时,能制作排版精美、内容丰富的 PPT,实现信息清晰可视化呈现,辅助教育、文旅行业提升服务质量与用户体验 。
(二)Hailuo Video Agent—— 成片创作助手
国内首个能实现 “成片直出” 的视频创作智能体,通过自然语言驱动,自动分析、构思并生成专业级完整视频 。用户输入 “制作一段城市延时摄影” 等指令,即可一键获得包含分镜、剪辑、配音的成片 。抛弃传统复杂工具模式,借助 LLM 语言模型拆解任务、调用全流程工具集,并实时展示创作思维链,方便用户监控与介入,极大降低视频创作门槛,适用于自媒体创作者、小型企业宣传视频制作等场景 。
数据统计
相关导航
暂无评论...