关注行业动态、报道公司新闻
正在当下科技飞速成长的时代,AI 范畴的每一次冲破都备受注目。近期,DeepSeek 的狂言语模子正在全球范畴内爆火,再次将 GPU 算力这一环节话题推到了公共视野的核心。这一事务不只激发了科技界的强烈热闹会商,更正在全球范畴内掀起了对 AI 手艺成长标的目的的深刻思虑。跟着人工智能手艺的迅猛成长,狂言语模子的锻炼和使用对 GPU 算力的需求日积月累。然而,美国接连出台的制裁方案,正在 AI 成为中美科技企业争相投入的主要成长标的目的之际,我国正在大模子范畴取美国的差距正逐渐缩小,且正在从动驾驶、机械人等 AI 使用标的目的构成领先劣势,这使得美国正在 AI 相关范畴对我国的制裁持续收紧,试图通过硬件来制制模子上的代差。正在此布景下,GPU 算力的获取和利用成为了我国 AI 财产成长的环节限制要素。
持久以来,英伟达凭仗其 CUDA正在 AI 芯片范畴占领着垄断地位。CUDA 是一种软硬体整合手艺,做为通用编程框架,它能闪开发者操纵英伟达的图形处置器(GPU)进行计较,大大降低了研发大模子的难度。全球 90% 的 AI 论文尝试基于 CUDA,OpenAI 用它搞出 ChatGPT,学术界以至将 CUDA 代码当做 “科研货泉”,这就是英伟达可以或许成为最具价值的美国科技公司,以及其 CEO 黄仁勋敢称 “英伟达就是 AI 根本设备” 的底气所正在。但最新的发觉却令人面前一亮。DeepSeek 正在研发狂言语模子时,做出了一个斗胆且极具立异性的行为 —— 绕过了英伟达的 CUDA 框架。当利用英伟达的 H800 芯片锻炼时,DeepSeek 采用的是英伟达底层硬件指令 PTX言语,而非行业通用的高级编程言语 CUDA。DeepSeek 模子正在当下的人工智能范畴中展示出了诸多劣势,正在机能、开源性、成本等多个方面都有着凸起的表示。取那些专有 AI 模子分歧,DeepSeek 的开源属性意味着企业和开辟者可以或许地利用和定制它。对模子进行个性化的调整和优化,极大地拓展了模子的使用范畴和矫捷性。无论是开辟立异性的使用法式,仍是进行学术研究,开源特征都为利用者供给了便当,推进了手艺的交换取共享,鞭策了人工智能手艺的快速成长。DeepSeek 的旗舰模子 DeepSeek - R1 采用了夹杂专家(MoE)架构,具有 6710 亿参数,通过这种架构实现了较高的计较效率和显著的机能提拔。自从研发深度神经收集模子,并基于留意力机制,通过海量语料数据进行预锻炼,还颠末监视微调、人类反馈的强化进修等体例进行对齐。正在锻炼过程中,DeepSeek 使用了多头潜正在留意力(MLA)等先辈手艺来提高效率,通过夹杂专家(MoE)手艺来优化计较能力。虽然取次要合作敌手比拟,DeepSeek 正在资本利用上相对较少,但凭仗这些先辈手艺,它仍然可以或许供给令人注目的机能。正在美国数学竞赛和全国高中数赛上,大幅跨越了其他所有开源闭源模子,生成吐字速度从 20tps 大幅提高至 60tps,比拟 v2。5 模子实现了 3 倍的提拔,可以或许带来愈加流利的利用体验。DeepSeek 可以或许处置普遍的使命,包罗天然言语处置、代码生成、数学推理等。它就像一个高度智能的帮手,既能够理解和处置人类言语,又能取计较机代码协同工做。正在天然言语处置方面,它能够实现语义阐发、问答对话、篇章生成等使命;正在代码生成范畴,DeepSeek - coder 系列模子正在多种编程言语和各类基准测试中达到了开源代码模子的最先辈机能;正在数学推理方面,DeepSeek - math 也展示出了接近顶尖模子的程度。
DeepSeek 正在锻炼成本上具有较着的劣势。例如,DeepSeek - v3 这个参数量高达 6710 亿的大模子,正在预锻炼阶段仅利用 2048 块 GPU 锻炼了 2 个月,且只破费 557。6 万美元,其锻炼费用比拟 GPT - 4 等大模子要少得多。DeepSeek - v3 的利用价钱也比平均价钱更廉价,每 100 万个 token 的价钱为 0。48 美元,此中输入 token 价钱为每 100 万个 token 0。27 美元,输出 token 价钱为每 100 万个 token 1。10 美元,整个锻炼过程仅用了不到 280 万个 GPU 小时。较低的锻炼成本和利用价钱,使得 DeepSeek 对于企业和开辟者来说更具吸引力,可以或许正在机能的同时,降低研发和利用成本,提高资本操纵效率。对于法式开辟人员而言,CUDA 是一种愈加敌对的高级言语,开辟者只需专注于法式和算法的运转逻辑,无需过多考虑法式正在 GPU 等硬件上的具体施行体例,开辟难度较低。而 PTX 接近汇编言语,答应进行细粒度的优化,如寄放器分派和 Thread / Warp 级此外调整,但这种编程体例极为复杂且难以,这也是行业遍及利用 CUDA 的缘由。DeepSeek 此举,意味着他们将优化做到了极致。
这申明DeepSeek 具有擅长写 PTX 言语的内部开辟者,若之后利用国产 GPU,正在硬件适配方面会愈加驾轻就熟。只需领会国产硬件驱动供给的根基函数接口,就能够模仿英伟达 GPU 硬件的编程接口编写相关代码,让自家大模子更容易适配国产硬件,这为其正在分歧硬件下的普遍使用供给了可能性,有帮于冲破外部手艺。目前,DeepSeek 已正在适配国产 GPU 方面取得了显著,已全面适配华为昇腾系列 AI 处置器,支撑正在昇腾平台长进行高效的推理和锻炼使命;取智芯正在高效协做下,仅用时一天便成功完成了取 DeepSeek R1 的适配工做,并正式上线多款大模子办事;还完成了对摩尔线程 MT 系列 GPU 的适配,支撑正在其硬件长进行深度进修使命,DeepSeek V3 和 R1 模子也完成了海光 DCU 适配并正式上线。韩国的一名阐发师暗示,“这凸显了 DeepSeek 不凡的工程程度,并表白美国对华制裁加剧的‘GPU 欠缺危机’激发了他们的紧迫感和创制力。”正在当前美国制裁的大下,DeepSeek 的这一冲破无疑为我国 AI 财产的成长带来了新的但愿和机缘。它不只展现了我国科技企业正在窘境中冲破手艺的决心和能力,也为国产 GPU 的成长和使用斥地了新的道。DeepSeek 的成功,让我们看到了绕过国外手艺垄断,实现自从立异和手艺冲破的可能性。跟着越来越多的企业关心和投入到这一范畴,将来 PTX 言语无望获得进一步的成长和优化,以至有可能成为上位替代,取 CUDA 分庭抗礼。DeepSeek 绕过 CUDA 的这一创造,不只是其本身手艺实力的表现,更是我国 AI 财产正在应对外部挑和时的一次英怯测验考试和冲破。相信正在将来,跟着手艺的不竭前进和立异,我国的 AI 财产将可以或许脱节外部的,实现愈加自从、高质量的成长。