从大模型走向小模型,谁将是ChatGPT

ChatGPT淘金热

当前,爆发了ChatGPT热潮,吸引众多科技企业陆续加入其中。这与当年美国西部加利福尼亚的淘金热何其相似。

历史总会惊人的相似,ChatGPT聊天机器人好比一座数字化时代的金矿。全世界科技淘金人蜂拥而至,从潮起到潮落,潮水退去之时,能生存下来的可能不是淘金人,而是卖铲子、卖牛仔裤等提供淘金基础工具的那批人。

站在ChatGPT的行业风口,除了超大模型的演进发展,还将诞生更多的小模型专注服务垂直领域,普惠千家万户,将是必然趋势之一。从大模型走向小模型,谁将是未来的大赢家?带着这个问题,我们不妨先来捋一捋ChatGPT背后的算力和经济账。

01

「似乎不止于此」

ChatGPT带动了服务器与GPU增长

事实上,在业内风生水起,ChatGPT带动了不只是互联网、IT、云计算等科技公司发展的新概念,而且可以看到当前聊天机器人也激发了服务器与GPU的市场增长,毕竟并行计算架构的GPU更适合大规模AI训练与推理。眼下国内可见的是,服务器领域的浪潮信息、中科曙光、新华三、长城等也从中受益。

似乎不止于此,一位云计算行业的专业人士分析指出,ChatGPT进而带动了CloudFinancialManagement云财务管理的发展,也就是现在业内热聊的FinOps,这是“Finance”和“DevOps”的综合体,强调运维过程中的成本管理和资源优化。但FinOps要实现更智能的目的,也需要背后算力的强大支撑。

业内人士笑言,什么是人工智能?顾名思义,有多少人工就有多少智能。智能不是凭空诞生,需要凭借深度学习算法对大数据进行“千锤百炼”,而大型语言模型(LargeLanguageModels,LLMs)训练的过程必须依靠强大算力的支撑。在看到ChatGPT被热炒的同时,已经入局的相关科技公司所耗费算力也在不断狂飙。

在清楚ChatGPT背后的算力和经济账之前,需要了解一下大型语言模型(LLMs)是什么?目前业界对大型语言模型(LLMs)有着明确的定义,凭借深度学习算法进行训练,通过大量语料库数据来学习文本的概率分布和语法结构,并自动生成大量与语料库类似的高质量新文本,持续的训练可以提高生成质量。目前大型语言模型(LLMs)已经可以实现如互动问答、文本识别、文本分类、文本生成、代码生成等应用。但是大型语言模型(LLMs)目前无法识别不真实的语料数据。从而在采用正确语料数据过程中,也激发了业界相关数据标准公司的发展。

涉及LLMs的经典模型如BERT、GPT-3、Megatron-TuringNLG、GPT-4等。大型语言模型(LLMs)往往在大数据量的大规模数据集上进行训练,如GPT-3就有约亿个参数,在千兆字节的文本上进行训练。而发展到OpenAI在年3月最新推出的GPT-4,标志着大型多模态AI开始崛起,业内之前有人预估GPT-4会拥有超过1万亿个参数。虽然OpenAI并未公布GPT-4的具体参数,但是据DeepMind研究发现,GPT-4将比GPT-3略大,达到计算最优所需的训练参数将有5万亿个。

实际上,十分惊人的大模型训练,对芯片的浮点计算能力要求超高。当前,ChatGPT采用的就是GPT-3大型语言模型(LLMs)进行训练,进行一次GPT-3训练需要总算力消耗约为PF-days,相当于每秒计算一千万亿次,需要算将近10年时间。这将意味着需要数亿美元投资数个大规模数据中心,每个数据中心算力达到P,才能支撑得住。来自DeepMind的分析显示,为了最小化训练损失,训练GPT-4所需FLOP每秒浮点运算次数将是GPT-3的10-20倍。

从成本上来看,据LambdaLabs首席科学官Chuanli介绍,参数有亿个的GPT-3单次训练成本预计达到数百万美元。对照DeepMind的研究来看,单次训练GPT-4预估达到千万级美元的成本。

据SimilarWeb数据,年1月ChatGPT


转载请注明:http://www.aierlanlan.com/grrz/5450.html