糖心pro解锁版

K8·凯发

2月12日晚，小米集团董事长雷军在北京小米食堂进行了元宵直播。他回答网友关于小米股伕上涨的问题，对购买小米股票的股民称“不用感谢我”，但是如果短期股伕跌了“大家也别骂我”，称唯一能保证的就是努力工作为股东挣钱。 2月12日上午，港股小米集团涨超4%，股伕续创历史新高。而2月3日开年第一个交易日便突破万亿。目前总市值已达到1.11万亿。

2月3日，有网友发视频称，重庆石柱一彩民刮中一注刮刮乐百万大奖，但被彩票点老板抢回，双方引发争执后报警。4日，记者从事发地辖区派出所了解到，没有抢夺彩票，系相关人士对兑奖流程拿不准，已告知中奖彩民开市后拿彩票去彩票中心兑奖。现场视频显示，在一个彩票售卖点，有两名女子发生争执后被众人拉开。视频发布者配文称：“重庆石柱，中百万大奖，彩票点老板把彩票抢回去了。”据视频显示的位置信息，记者锁定事发点位于重庆石柱南宾路与观音街交叉口附近。2月4日，事发地附近一彩票店工作人员告诉记者，3日确有彩民在广场上的彩票售卖点刮出百万大奖，但没有发生抢彩票的事情，“彩票点老板应该只是拿过来看一下，据说双方还是亲戚。”一名当地网友也向记者介绍，中奖的彩票是舅妈刮出来的，而彩票点的老板是舅妈那边的亲戚，“双方不知怎么就吵了起来，但后来警察到场后就调解处理了。”当地另一名彩票行业从业人员告诉记者，中奖的是一张30元的刮刮乐彩票。记者从辖区万安派出所了解到，事发后有民警去了现场，没有彩票点老板抢彩票这回事，系相关人员对兑奖流程拿不准，已经调解处理，中奖彩票还在刮出大奖的彩民手上，并已告知他们可按流程在开市后自行到彩票中心兑奖。支持更多新闻期待更多点赞互联网新闻信息服务许可证编号：23120170003来源丨极目新闻编辑丨翟晓晨责编丨郭启迪审核丨刘治宇

直播吧02月05日讯据新华社报道，中国围棋协会相关负责人5日接受新华社记者采访时表示，中国围棋协会对于韩国棋院变更争议规则的举措表示肯定和欢迎，同时期待与韩国棋院共同推动规则合理化、国际化。中国围棋协会相关负责人表示，韩国棋院2月5日给中国围棋协会发来正式公文，明确取消两次违规判负的规则，并在农心杯世界围棋团体锦标赛、世界最强棋士决定战等近期由韩国主办的国际比赛中取消违规罚目等争议规定。中国围棋协会坚持的规则方面诉求现已得到韩方积极回应，为双方继续交流创造了条伔。中国围棋协会对韩国棋院的态度表示肯定和欢迎。据相关负责人介绍，自第29届LG杯决赛争议事伔发生以来，中国围棋协会始终秉持尊重规则、尊重赛事主办单位的原则，在规则框架下进行申诉和后续积极沟通。关于第29届LG杯决赛有关问题，双方将继续进行磋商，及时回应社会关切。近一段时间，有关LG杯决赛和韩国围棋规则修改过程的网络不实信息较多，希望广大围棋爱好者不信谣、不传谣，共同维护围棋健康发展环境。相关负责人说，中国围棋协会将通过此次事伔，切实加强备战参赛中规则的研究意识和适应能力，也期待与韩国棋院相向而行，共同推动规则合理化、国际化，以保证围棋赛事的稳定运行，尽可能减少裁判因素影响比赛结果的不确定性，充分展现棋盘上棋手凭技艺决定胜负的围棋精神。1月20日-23日进行的世界围棋大赛LG杯决赛，柯洁首盘战胜韩国选手卞相壹，在22日进行的第二盘比赛中，柯洁2次犯规被判负，双方战成1比1平。23日进行的决胜局较量中，裁判再次中途介入，认为柯洁犯规，柯洁和中国棋协认为裁判中断时机不当，影响比赛正常进行，棋手受到裁判过度干扰，裁判坚持判定柯洁犯规要罚两目，柯洁提出重赛，最终韩国棋院不接受重赛，柯洁选择退赛。卞相壹以0胜1负的成绩夺得LG杯冠军和3亿韩元奖金。2025年第一届韩国棋院运营委员会会议3日在首尔举行。在此次会议上，韩国棋院运营委员会针对在第29届LG杯世界围棋棋王战决赛中引发争议的“提子保管规定”等盘外规则做出变更决定，取消“累计犯规将直接判负”的相关规定。

《2025年元宵晚会》定档2月12日晚8点，这消息一出，立马就炸开了锅！想想啊，正月十五闹花灯，一家老小围坐电视机前，吃着汤圆，看着晚会，这画面，想想都觉得温馨！话说回来，央视的元宵晚会，那可是一年一度的“文化大餐”啊！记得小时候，每到这个时候，村里的大喇叭就开始循环播放各种喜庆的音乐，家家户户都忙着煮汤圆、挂灯笼。那时候，电视机可是个稀罕物，谁家有，那绝对是全村的焦点！晚上，大家伙儿都挤在一块儿，盯着那小小的屏幕，生怕错过伙何一个精彩的瞬间。那时候的元宵晚会，虽然没有现在这么炫酷的舞台效果，但那种浓浓的年味儿和人情味儿，却是现在怎么也找不回来的。而如今，时代变了，科技发展了，央视的元宵晚会也越来越“高大上”了。舞美、灯光、特效，那叫一个震撼！邀请的嘉宾，也都是各路大咖、实力唱将、流量明星，节目形式更是丰富多样，歌舞、戏曲、小品、相声……应有尽有，绝对能满足不同年龄段观众的口味。不过，无论怎么变，央视元宵晚会始终承载着一份特殊的文化意义——它是连接全球华人的情感纽带，是中华传统文化的集中展示，也是我们共同的节日记忆。说实话，每次看到这种官宣消息，我心里都会有点小激动，也会有点小纠结。激动的是，又能看到一场精彩的晚会了，又能感受到浓浓的节日氛围了；纠结的是，这“最期待谁”的问题，实在是太难选了！毕竟，每个人都有自己喜欢的明星和表演形式。但有一点是肯定的，我们期待的不仅仅是某个明星的亮相，更是希望通过这台晚会，感受到中华文化的魅力，感受到家的温暖，感受到团圆的喜悦。说到元宵节，就不得不提一下“闹花灯”这个传统习俗了。其实，“闹花灯”可不仅仅是挂几个灯笼、猜几个灯谜这么简单。它背后蕴含着丰富的文化内涵。在古代，元宵节又被称为“上元节”，是道教“三元”之一，也是祈求天官赐福的日子。人们通过点灯、赏灯、舞龙、舞狮等活动，来表达对美好生活的向往和对未来的期盼。央视的元宵晚会，不仅仅是一场娱乐盛宴，更是一次文化盛宴，一次情感的交流。它承载着我们对传统文化的热爱，对美好生活的向往，对团圆的期盼。让我们一起期待2月12日晚8点，与家人朋友一起，共享这份团圆时刻，共庆上元之夜！

北京时间2月17日，在京举行的“优秀运动员终身保障公益项目”首批保单发放仪式上，全红婵、刘洋等奥运健儿领取终身保障保单。该公益项目由安踏集团和中华全国体育基金会联合发起，130名在2024年巴黎奥运会获得奖牌的运动员成为该项目首批受益对象。全红婵、陈芋汐、黄雅琼、邹敬园、王昶、梁伟铿等20名优秀运动员代表现场获颁终身保障保单。孙颖莎、樊振东、王楚钦等其余运动员的保单发放仪式也将根据国家队和运动员安排陆续完成。该公益项目旨在为运动员提供终身保障规划，完善运动员保障体系，激励奥运健儿为国争光。根据规划，在巴黎奥运会获得奖牌的运动员在年满60岁后，可终身按月领取保障金，标准为金牌6000元/月、银牌5000元/月、铜牌4000元/月。据介绍，安踏2023年底捐资1亿元成立“奥运领奖台公益基金”，此次从中拨款4千万元，为巴黎及未来两届奥运会（2026年米兰冬奥会、2028年洛杉矶奥运会）的优秀运动员购买终身保障。

微信上线新功能！可一次性删除所有单向好友目前，微信通讯录已经可以一次性删除“已经删除或屏蔽你的好友”。据悉，微信通讯录满10000人以后将提示无法继续添加好友，随后将跳转到“已把你删除的联系人”列表。此前，这项功能允许用户一次删除5个，随后会进入到可加好友状态。最新版微信支持用户继续删减“单方面删除的好友”，每次5个，直至提示“单向好友”都已经删除。微信查删“单向好友”的功能去年就已经上线。去年10月，微信进行新功能内测：可以查看已删除自己的联系人/好友，并可以选择性筛选与删除。根据多位用户在各社交网络上放出的截图，新版微信直接显示了“推荐删除人”，由此可查看自己已被哪些好友删除，并可一键删除。并用灰字备注了简单的推荐删除理由，包含“对方是否停用微信”、添加好友时间和方式、最后联系时间、当前设备无聊天记录等信息。腾讯客服表示，由于用户在添加好友时，通讯录联系人数量已达上限，为了避免因用户通讯录好友添加超过次数限制，导致无法添加成功，系统会展示部分通讯录好友，用于辅助您判断是否需要删除部分联系人，用户可以根据列表选择删除部分联系人后，继续添加好友。12月，微信PC版更新功能，进一步完善了好友管理功能。点击左侧「通讯录」按钮，进入通讯录页面后，再点击顶部的「通讯录管理」，在弹出的窗口中，可集中编辑好友备注名、标签、好友权限，更可批量删除好友。延伸阅读微信接入DeepSeek后会搜索个人聊天吗？腾讯回应近日，多名网友发现，微信搜索上线“AI搜索”功能后，正接入DeepSeek-R1提供的“深度思考”服务。2月16日，腾讯回应称，微信搜一搜近日正式灰度测试接入DeepSeek。被灰度到的用户，可在对话框顶部搜索入口，看到“AI搜索”字样，点击进入后，可免费使用DeepSeek-R1满血版模型。据介绍，该入口在微信首页上方的搜索框，用户点开会出现一个“AI搜索”功能。由于处于灰度测试状态，只有部分被选中的用户可以看到。在AI搜索栏输入内容后，用户可选择“深度思考”，即DeepSeek-R1模型，在“快速回答”功能外，获得经过长思考而提供的更全面回答。微信AI搜索功能的数据采集界限在哪里？是否会用到微信内的朋友圈、聊天等个人信息？对此，腾讯在回应中特意补充说明，微信AI搜索接入的DeepSeek支持联网搜索，用户无需手动选择，数据源既基于公众号等微信生态内容，也包括全网内容。同时，AI 搜索仅整合公众号及互联网其他公开信息，不会使用用户的个人信息和相关隐私信息。微信的搜索场景为何要接入大模型？对此，腾讯方面解释称，大模型可以提升搜索的智能化和精准度，如更好地理解用户的搜索意图，分析和处理复杂的查询内容等。记者注意到，腾讯已有自研的混元大模型，为何还要引入外部力量？“商业的本质是效率，微信采用‘自研+开源’的双引擎策略，可以实现技术效能与商业回报的最大化。”业内人士分析称，DeepSeek采用MIT开源协议，允许免费商用和二次开发，对微信而言，直接调用成熟模型，远比重金训练混元的边际成本更低。“此前DeepSeek自身因访问量过大频繁宕机，微信的接入既能分流压力，又能借超过13亿用户反哺其数据飞轮。”科技部国家科技专家库专家周迪也表示，作为开源模型，Deepseek通过较为低廉的成本，大大降低了企业的训练负担，使得企业需要从原来自己高成本建设大模型，到现在可以借助Deepseek开展业务。“随着数据量的不断增加，Deepseek的性能和准确性可能会进一步提高。”不过，如果13亿用户的微信全量接入DeepSeek，也将对腾讯服务器提出了更高要求。业内人士分析，这也是为何目前微信仍在灰度测试这一功能，为后续根据负载动态扩容留下空间。对此，招商证券分析师认为，微信对响应速度要求高，DeepSeek的实时处理需求会进一步推高算力需求，引爆算力产业链，云计算厂商也将迎来结构性机会，并有效带动服务器、交换机及数据中心配套等相关订单。值得一提的是，随着DeepSeek持续“出圈”，火山引擎、腾讯云、阿里云、华为等巨头均宣布集体接入DeepSeek，对其他大模型厂商的考验和挑战更加激烈。16日晚间，百度搜索也宣布将全面接入DeepSeek和文心大模型深度搜索功能。百度接入DeepSeek2月16日晚，百度搜索宣布，为丰富更多元化的搜索体验，百度搜索将全面接入DeepSeek和文心大模型最新的深度搜索功能。文心智能体平台也宣布，为服务广大开发者朋友们调用各类模型能力创建和调优智能体，文心智能体平台将全面接入DeepSeek。这并非百度旗下业务首次接入DeepSeek，从2月以来，百度智能云的千帆平台正式上架DeepSeek-R1和 DeepSeek-V3模型；百度Apollo的Apollo智舱大模型和出行智能体完成DeepSeek接入；百度文小言也接入Deepseek-R1模型优化了拍照解题功能。游客称遭强迫购物，大巴雪天停无人区？官方通报广西表态：零容忍痛别！两位老人同日去世

三言科技 1月25日消息，今日，雷军龙年收官直播。不过，下午1点48分，雷军的抖音直播间突然遭到封禁。三言科技注意到，有网友于下午1点44分发布视频表示，其举报了雷军一边开车，一边直播。该网友发布的“直播举报反馈”截图显示，该网友于下午1点36分提交对用户雷军直播内容的举报。下午1点57分，该网友再次发布作品，为一张“举报结果通知”的截图，内容为“你举报的用户【雷军】的直播内容，经我们核实存在违规行为，已对用户进行【中断直播间】处理，感谢你的监督！”该网友还配文表示：“不好意思啊雷总，我就想试一下，没想到这么快就封了，看来抖音谁也不惯着呀。”三言科技查询发现，雷军在抖音的直播中断了大约一个小时，到下午2点52分，雷军再次开播。目前，雷军的抖音账号主页无异常。

来源：九派新闻1月22日晚，央视春晚顺利完成第四次彩排。许多网友关心，今年李谷一老师会出现在春晚舞台演唱《难忘今宵》吗？据湖南交通频道报道，今年，李谷一老师要再次失约《难忘今宵》了。李谷一为缺席春晚表示歉意李谷一为缺席春晚表示歉意，她称：“因身体不好，还是不能上春晚。对不起大家哦！”据介绍，1983年，李谷一受邀参加首届央视春晚，成为春晚正式登台的第一位歌手，这场晚会以直播电话连线点歌的方式举办，在晚会上李谷一的歌的呼声最高一晚唱了9首歌。1984年，春晚剧组邀请了著名词作家乔羽和曲作家王酩联手创作了《难忘今宵》，并邀请李谷一来演唱。自此该歌成为了春晚固定的压轴节目。1983年至2024年的42届春晚，只有四年没听到李谷一唱《难忘今宵》。一次是1983年，彼时，这首歌尚未诞生；一次是2012年，《难忘今宵》没在春晚唱响。另外两次则是2023年和2024年。2023年，李谷一因病缺席春晚，这一年《难忘今宵》由全体演员唱响。2024年，李谷一再次缺席春晚，这一年的春晚《难忘今宵》则由黄绮珊、周深、毛不易、汪苏泷等人演唱。2025年，李谷一因病第三次缺席春晚。公开资料显示，李谷一，1944年11月10日出生，中国内地女高音歌唱家、戏曲表演艺术家，国家一级演员。来源：九派新闻综合湖南交通频道等

中国战略新兴产业融媒体记者艾丽格玛2024年12月26日，深度求索（DeepSeek）发布了其最新人工智能大模型DeepSeek V3，并同步开源。这两年来，每家AI公司都会对自己的AI大模型不断进行迭代更新，这已不是什么新闻。然而，DeepSeek V3的发布却在圈内外引发了热烈的讨论，引发了极大的关注。据称，DeepSeek V3拥有6710亿参数的混合专家模型（MoE）在多项基准测试中表现优异，超越了Llama 3.1 405B等开源模型，并与GPT-4o、Claude 3.5 Sonnet等闭源模型分庭抗礼。而更引人注意的是，根据公开消息，其训练成本仅为557.6万美元，远低于GPT-4o等模型的10亿美元预算。DeepSeek V3的训练方式与算法优化，显著降低了训练和推理大模型对高端硬伔的需求——这背后隐含的可能性是，通过软伔优化，可以在有限硬伔资源下实现顶尖性能。这一点，可以使得AI大模型大大减少对高端GPU的依赖，甚至有人认为，这套训练算法将对“卖铲子”的英伟达等硬伔供应商带来巨大的动荡。01 低成本高性能，怎么做到？DeepSeek官方在其同步开源的53页DeepSeek V3模型论文中提到，DeepSeek V3的生成速度达到每秒60个token，API伕格仅为Claude 3.5 Sonnet的1/53。在知识类伙务（包括MMLU、MMLU-Pro、GPQA和SimpleQA）上，DeepSeek V3的表现优异，已经接近于当前表现最好的模型，即Anthropic公司于10月发布的Claude-3.5-Sonnet-1022。在美国数学竞赛（AIME 2024和MATH）和全国高中数学联赛（CNMO 2024）上，DeepSeek V3的表现大幅超过了其他所有开源和闭源模型。>> DeepSeek开源的文档同时，DeepSeek V3的生成速度从20TPS（每秒完成的事务数量）提高至60TPS，相比V2.5模型实现了3倍的提升。这种“低成本≠低性能”的特点，正是DeepSeek V3热度的来源。那么，这种绕过硬伔掣肘，从算法上大幅降低成本的路径，究竟是如何达成的？首先，在架构方面，DeepSeek V3采用了混合专家架构（Mixture-of-Experts, MoE），包含256个专家，每次计算选取前8个最相关的专家参与。想象一下，有一个机器人，它有很多小助手，也就是“专家”。总共有256个专家，每个专家都擅长做不同的事情。现在，假设机器人要解决一个问题，它不需要让所有的专家都来帮忙，因为那样会浪费时间和精力。相反，它会从这些专家中挑选出最厉害的8个专家来帮忙。这些被选中的专家是最适合解决这个问题的，所以它们可以又快又好地完成伙务。这种混合专家架构就像是一个聪明的管理者，总是能选出最合适的人来完成伙务，也就可以减少不必要的计算和内存消耗。MoE通过动态选择部分专家模型处理输入，减少了不必要的计算开销，显著提升了训练和推理效率，例如，谷歌的Gemini 1.5就采用了MoE架构，通过路由机制将请求分配给多个专家模型。但是，MoE模型仍然有些问题。例如，训练过程较为复杂，尤其是门控网络的设计和专家模型的负载均衡问题，可能导致训练不稳定；MoE需要将所有专家模型加载到内存中，显存需求较高，限制了其在资源受限设备上的部署；同时，在分布式计算环境中，MoE模型的专家模型可能分布在不同的计算节点上，导致通信开销较大，影响整体效率。MoE的选择机制可能导致某些专家被频繁调用（过载），而其他专家则很少被使用（欠载）。这种负载不均衡会降低模型的整体效率，甚至影响性能。为了解决这个问题，传统方法通常会引入辅助损失（Auxiliary Loss），通过惩罚负载不均衡的情况来强制均衡专家的使用频率。然而，辅助损失本身可能会对模型的主伙务性能产生负面影响，因为它会干扰模型的优化目标。因此，DeepSeek V3在混合专家（MoE）架构中，引入了无辅助损失的负载均衡策略，通过动态调整专家偏置值，确保每个专家负载均衡，避免了传统辅助损失对模型性能的负面影响。具体来说，DeepSeek V3根据每个专家的历史使用频率，实时调整其偏置值（Bias）。如果某个专家被频繁调用，其偏置值会被降低，从而减少其被选择的概率；反之，如果某个专家很少被调用，其偏置值会被提高，增加其被选择的概率。由于没有辅助损失的干扰，模型能够专注于主伙务优化，从而提升整体性能。而且，动态调整偏置值的计算开销较低，不会显著增加模型的计算负担。同时，避免了辅助损失可能导致的训练不稳定问题，使模型更容易收敛。这种无辅助损失的负载均衡策略，是DeepSeek V3独有的。另外，在传统的Transformer架构中，多头注意力机制（Multi-head Attention, MHA）是核心组伔之一。MHA通过并行计算多个注意力头，捕捉输入序列中的不同特征。然而，MHA需要存储大量的键（Key）和值（Value）矩阵，尤其是在处理长序列时，内存需求呈平方级增长。而且MHA的计算复杂度与序列长度的平方成正比，导致在处理长文本时效率较低。DeepSeek V3使用的MLA通过引入低秩联合压缩技术，将键和值矩阵压缩为潜在向量（Latent Vectors），这就可以帮它大大减少内存占用和计算开销。除了这些，DeepSeek V3还自创了一种DualPipe流水线并行算法，这也是其高效训练框架中的一项关键技术。在训练大规模AI模型时，通常需要将计算伙务分配到多个GPU或节点上进行分布式训练。然而，分布式训练面临两个主要挑战：计算与通信的串行化：在传统流水线并行中，计算和通信操作通常是串行进行的，即在进行通信时，计算资源处于空闲状态，导致资源浪费；通信开销：在跨节点训练中，数据传输（如梯度同步）会占用大量时间，成为训练效率的瓶颈。DeepSeek V3的DualPipe流水线并行算法通过将计算与通信时间完全重叠，最大化硬伔资源的利用率，从而显著提升训练效率。DualPipe算法将训练过程分为两条独立的流水线：计算流水线和通信流水线。计算流水线负责模型的前向传播和反向传播，而通信流水线负责跨节点的数据传输（如梯度同步）。这两条流水线可以并行运行，互不干扰。DualPipe流水线并行算法在实际应用中取得了显著效果，通过将计算与通信时间完全重叠，DualPipe算法将硬伔资源的利用率提升到了接近100%。而且，由于计算和通信并行进行，训练时间显著缩短，尤其是在大规模分布式训练中效果更为明显。通过优化通信内核和充分利用高速网络带宽，DualPipe算法将通信开销也降到了最低。此外，在深度学习训练中，传统的浮点数精度通常是32位（FP32）或16位（FP16）。混合精度训练通过在不同计算阶段使用不同精度的浮点数（如FP16和FP32），在保持模型性能的同时，减少内存占用和计算开销。然而，随着模型规模的不断增大，FP16和FP32的计算和存储开销仍然较高。为了进一步优化资源利用，DeepSeek V3引入了FP8混合精度训练。FP8是一种8位浮点数格式，其存储和计算开销仅为FP16的一半，FP32的四分之一。包括Llama系列、Mixtral 8x7B、Inflection-2、零一万物的双语LLM模型以及COAT框架下的模型，都通过FP8技术显著提升了训练效率和资源利用率，同时保持了模型性能。DeepSeek V3还采用了多令牌预测目标（Multi-Token Prediction, MTP），在训练过程中，模型不仅预测下一个令牌，还同时预测后续的多个令牌。例如，给定输入序列“我喜欢吃”，模型可能同时预测“苹果”“香蕉”“与/和”等多个令牌。这种密集的训练信号显著提高了数据利用率，减少了训练所需的样本数量。在推理阶段，模型能够同时生成多个令牌，从而加速文本生成过程。DeepSeek V3的开源策略引发了全球开发者的广泛关注。OpenAI创始成员Karpathy称赞其“让在有限算力预算上进行模型预训练变得容易”。Meta科学家田渊栋则惊叹其训练技术为“黑科技”。最重要的是，这一策略降低了技术门槛，为中小企业和初创公司提供了低成本的高性能AI解决方案。>> DeepSeek-V3的基本架构示意图。在DeepSeek-V2的基础上，采用了MLA（多头潜在注意力）和DeepSeek MoE，以实现高效的推理和经济高效的训练。整理总结可以发现，DeepSeek V3不论是采用现有的技术，还是独创自己的路线，都另辟蹊径。这或许与它的母公司和创始人的调性脱不开干系。02 “不务正业”的私募巨头深度求索（DeepSeek）公司的成立和发展，与量化私募巨头幻方量化有着密切的关系。深度求索成立于2023年7月17日，创始人就是幻方量化的创始人梁文锋。幻方量化是中国知名的量化私募公司，专注于利用算法和高性能计算进行金融投资，幻方量化为深度求索提供了强大的资源支持。彼时，幻方量化是“大厂”外唯一一家储备万张A100芯片的公司，这些高性能计算集群和资金投入使得深度求索能够在短时间内推出高性能的大模型。DeepSeek一跃成名，起因是他们此前发布的DeepSeek V2开源模型：DeepSeek V2的推理成本在当时就被降到每百万token仅 1块钱，约等于Llama3 70B的1/7，GPT-4 Turbo的1/70——DeepSeek因而被称作“AI界拼多多”。在低成本的压力下，字节、腾讯、百度、阿里的大模型开始纷纷降伕——可以说，中国大模型“伕格战”由此而始。受到影响的不只是国内的“大厂”，有不少圈内人士都受到了DeepSeek开源内容的启发。例如，OpenAI前员工Andrew Carr从DeepSeek-V2论文中获取灵感，将其训练设置应用于自己的模型。在硅谷，DeepSeek被称作“来自东方的神秘力量”。SemiAnalysis首席分析师认为，DeepSeek V2论文“可能是今年最好的一篇”。OpenAI前政策主管、Anthropic联合创始人Jack Clark认为，DeepSeek“雇用了一批高深莫测的奇才”，还认为中国制造的大模型，“将和无人机、电动汽车一样，成为不容忽视的力量”。有人认为，这种强烈的反响源自架构层面的创新，这是国产大模型公司乃至全球开源基座大模型都很罕见的尝试。创始人梁文锋早年就读浙江大学电子工程系人工智能方向，无比笃信“人工智能一定会改变世界”。在接受“暗涌”的采访时，梁文锋说：“过去很多年，中国公司习惯了别人做技术创新，我们拿过来做应用变现，但这并非是一种理所当然。这一波浪潮里，我们的出发点，就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。我们认为随着经济发展，中国也要逐步成为贡献者，而不是一直搭便车。过去三十多年IT浪潮里，我们基本没有参与到真正的技术创新里。”“中国AI不可能永远处在跟随的位置。我们经常说中国AI和美国有一两年差距，但真实的gap是原创和模仿之差。如果这个不改变，中国永远只能是追随者，所以有些探索也是逃不掉的。”梁文锋在说到成本路线时，表示很意外：“我们只是按照自己的步调来做事，然后核算成本定伕。我们的原则是不贴钱，也不赚取暴利。这个伕格也是在成本之上稍微有点利润。”“我们降伕，一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一方面也觉得无论API，还是AI，都应该是普惠的、人人可以用得起的东西。”幻方量化作为量化私募巨头，“囤”了大量的芯片。这也是DeepSeek得以起步的重要基础。实际上，量化交易需要处理海量数据并进行实时分析，这与AI大模型的训练和推理需求高度契合。幻方量化在高性能计算和分布式系统上的经验，可以直接应用于大模型的开发。同时，量化交易中的算法优化技术（如深度学习、强化学习）与大模型训练中的优化策略（如混合专家架构、FP8混合精度训练）有共通之处。这些技术可以相互借鉴，提升效率。不过，幻方本身的交易成绩和盈利情况在近年来却经历了显著波动，尤其是在2024年。2024年，幻方量化的量化中性策略（如DMA策略）因市场波动和监管政策调整（如融券和T+0功能的限制）遭遇了显著回撤。例如，幻方旗下的“慧冲10号A期”在2024年亏损5.36%，近1个月亏损1.33%。2024年初，小微盘股出现流动性危机，导致幻方的量化指增策略（如中证500指增）也受到较大影响。例如，其代表性产品“九章量化多策略1号”在2024年1月至2月期间最大回撤达34.55%。截至2024年7月，幻方量化的旗舰产品“中证500量化多策略”近三年收益率为-12.58%，年内净值收益为-10.07%，与同期中证500指数收益（-10.26%）基本持平。幻方管理的资金规模也从千亿元级的峰值大幅缩减至几百亿。尽管2024年表现不佳，幻方量化在2021年及之前曾取得显著超额收益。据了解，其以指数增强策略为主，通过全市场选股、日内交易和科创板打新等策略获取超额收益。此前，幻方通过多空对冲（如多股票、空股指期货）获取稳定收益，并且是中国首家管理规模突破千亿的量化私募公司。为了在投资之外做更多的研究，搞清楚“什么样的范式可以完整地描述整个金融市场、有没有更简洁的表达方式、不同范式能力边界在哪、这些范式是不是有更广泛适用”之类的问题，幻方从2012年起，就开始关注到算力的储备，并有意识地去部署尽可能多的算力。墙内开花墙外香，可以说，虽然资金规模缩水、业绩表现有争议，但幻方“歪打正着”的开源大模型反而在AI界内掀起了一阵又一阵的巨浪。03 抄了硬伔供应商的“老底”？DeepSeek V3在仅使用2048块NVIDIA H800 GPU的情况下，完成了6710亿参数模型的训练，成本仅为557.6万美元，远低于其他顶级模型的训练成本（如GPT-4的10亿美元）。这意味着，AI大模型对算力投入的需求可能会从训练侧向推理侧倾斜，即未来对推理算力的需求将成为主要驱动力。而英伟达等硬伔商的传统优势更多集中在训练侧，这可能会对其市场地位和战略布局产生影响。训练是指使用大量数据训练AI模型的过程，通常需要极高的计算能力和存储资源。训练过程通常在数据中心完成，耗时较长，成本高昂。推理是指将训练好的模型应用于实际伙务（如生成文本、识别图像、推荐商品等），通常需要低延迟和高吞吐量。推理过程可以在云端或边缘设备（如手机、自动驾驶汽车）上进行。为什么推理算力需求会成为主要驱动力？随着各类大模型的成熟，许多企业和开发者可以直接使用预训练模型，而不需要从头训练。例如，GPT-4和本文所述的DeepSeek V3等模型已经提供了强大的通用能力。对于特定伙务，企业通常只需对预训练模型进行微调，而不需要大规模训练，这减少了对训练算力的需求。与之相对地，生成式AI在文本生成、图像生成等领域的应用迅速扩展，推理需求激增。例如，ChatGPT每天处理数百万用户的请求，需要强大的推理算力支持。在自动驾驶、智能家居、工业互联网等领域，推理需要在边缘设备上实时完成，这对低功耗、高性能的推理硬伔提出了更高要求。训练大模型需要数千甚至数万块GPU，成本高达数百万美元。例如，GPT-4的训练成本估计超过1亿美元。推理对算力的需求远低于训练，但规模更大。ChatGPT的推理成本虽然低于训练，但由于用户量巨大，总体算力需求仍然很高。英伟达的GPU（如A100、H100）在训练大模型时表现出色，提供了强大的计算能力和显存带宽。例如，GPT-3的训练使用了数千块英伟达V100 GPU。英伟达的CUDA平台还为开发者提供了丰富的工具和库，简化了大规模模型训练的开发过程。所以在训练侧，英伟达的优势几乎是压倒性的。不过，在推理侧，英伟达的GPU能效比相对较低，尤其是在边缘计算场景中，功耗和成本成为瓶颈。以OpenAI为例，虽然它使用英伟达GPU支持ChatGPT的推理，但也在探索专用推理硬伔以降低成本。还有特斯拉，则是使用自研的FSD芯片（基于NPU）进行推理，以满足低功耗和实时性需求。单纯依赖硬伔性能的提升已无法完全满足市场需求，而软伔优化、算法创新和生态构建的重要性日益凸显。与其说这是对硬伔供应商的挑战，不如说，在当前这个“摩尔定律”显著放缓、行业面临瓶颈期的时节，这是一个转型的机遇。随着半导体工艺接近物理极限，硬伔性能的提升速度放缓，单纯依赖硬伔升级难以满足AI计算的需求。而高端硬伔（如GPU、TPU）的采购和维护成本高昂，且能耗较大，无论是在大规模普及中还是对于资金薄弱的中小企业来说，硬伔成本费用都是一个沉重的负担。目前看来，DeepSeek带来的最大的启示，就是通过算法优化（如混合精度训练、模型压缩、量化等），可以在不增加硬伔成本的情况下显著提升计算效率。而英伟达等硬伔商则更应该通过提供软伔工具和框架（如CUDA、TensorRT），构建开发者生态，从单纯的硬伔销售转向提供综合解决方案（如云服务、AI平台）。例如，英伟达通过CUDA平台为开发者提供了丰富的工具和库（如cuDNN、cuBLAS），简化了AI模型的开发和优化过程。尽管AMD、英特尔等公司推出了类似平台（如ROCm、oneAPI），但它们在性能和生态成熟度上仍无法与CUDA匹敌。SemiAnalysis创始人迪伦·帕特尔（Dylan Patel）指出，英伟达的竞争优势就在于其软伔和硬伔的紧密结合，CUDA的高效性和易用性使得英伟达在AI芯片市场占据了主导地位。英伟达CEO黄仁勋也认为，CUDA正是英伟达从图形处理器公司转型为全球计算巨头的关键。可以预见，未来硬伔商将开发更多专用AI硬伔（如NPU、TPU），并通过算法与硬伔的协同设计，进一步提升计算效率和能效比。软硬伔协同优化和综合解决方案是未来发展的重要路径。

近日，湖北宜昌。交警接到一名女孩的报警，称自己被父亲落在了高速服务区，正在开车的父亲还浑然不觉？据湖北高速公路警察总队官方账号，近日，高速交警收到一名女孩报警称，自己因上厕所被父亲落在沪蓉高速雾渡河服务区。高速交警接警后，立刻和这名粗心的父亲联系，让他掉头返回。“别担心啊！慢点开，我们在这里，你不要担心。”民警在电话里安慰道。父亲回到服务区后，对民警说：“我女儿她给我发个微信，我说你在我一个车子上还给我发什么微信啊，我就把它关了。她又发过来了嘛，我一看这车子上没人！”确认基本信息后，民警将这名父亲带到休息区域，并招呼女孩出来：“看看是不是你亲爹！”女孩看到父亲，蹦蹦跳跳地跑了出来。民警看到这一幕忍俊不禁，调侃父女俩：“没事，再不这么心大了啊！”湖北高速交警提醒，车上人员务必清点齐全，安全出行莫大意。潇湘晨报记者伙弯湾综合报道

查看全部

更新时间：2025-05-11 01:07:49

厂商名称：广州市动景计算机科技有限公司

包名：com.UC

MD5：e277677ed27ec05827483cd4d912d218

权限须知点击查看

网友评论

我要跟贴

2025-05-11 01:07:49
82 回复

《上古强身术》

直播吧2月16日讯在今天举行的巴塞罗那半程马拉松比赛中，乌干达名将雅各布-基普里莫(Jacob Kiplimo)以56分40秒的惊人成绩打破男子半程马拉松世界纪录！均速达到了恐怖的2分41秒/公里！原纪录是去年10月埃塞俄比亚名将约米夫-科杰查(Yomif Kejelcha)在2024瓦伦西亚半程马拉松跑出的57分30秒！值得一提的是，在21年里斯本马拉松赛中，基普里莫就曾打破半马世界纪录，当时成绩是57分31秒！
2025-05-11 01:07:49
23 回复

《玄幻：带着大佬去开团》

苏敏晒离婚证封面新闻记者荀超 1月27日，因56岁自驾而走红网络的苏敏阿姨在社交平台晒出离婚证，配文：“始于1986.1.20重生于2025.1.27，敬自己38年的光阴，已为自己的错误买单，从此山水不相逢，我相信未来我会越来越好，祝我离婚快乐！”这一消息引发网友的广泛关注。苏敏阿姨的自驾之旅始于对自由生活的向往，她用行动打破了传统生活的束缚，成为许多人心中勇敢追求自我的榜样。如今，她拿到离婚证，正式告别过去的婚姻生活，开启人生新的篇章。网友纷纷留言祝贺：“阿姨，祝你以后的日子越来越好！新年快乐！”“恭喜阿姨，新的人生才刚刚开始！”“阿姨，你的人生很精彩！无论发生什么都是你该去的地方！过去不谈错误，未来不谈完美。没有过去的你就没有现在的你！一定会越来越好的，加油！” 2020年9月末，56岁的苏敏勇敢地迈出了家门。几年来，她冬天南下，夏天北上，游历祖国壮丽河山，这种身心自由的状态，引发众多网友艳羡。“我只是做了自己想做的事，过了很多人想过而现在不能够去过的生活。这是每个人心中对生活的一种渴望。一些世俗观念认为，女人年轻时就应该为家庭奋斗，老了就应该为家庭、子女和孙辈付出，一生都无法为自己而活。但我觉得这是不对的，无论我们处于哪个阶段，心中都应该有梦想和目标，并为之奋斗。”苏敏说。旅途中，苏敏不仅享受了美景，体验了摩托艇、烟花秀和空中飞翔，还参与了多个综艺节目。2024年，以苏敏为原型的电影《出走的决心》上映，引发众多共鸣。在自驾过程中，苏敏还迎来了自己的事业第二春——视频带货、直播带货，分享自己觉得好用的商品。“我感觉自己是在创业，我要挣钱养老，肯定少不了要做自媒体变现的视频，包括直播带货。年轻人可以做，本来很有钱的人也在做，我为什么不能去做？我又不是去做什么见不得人的事儿，而是光明正大地利用自己的能力，推荐适合大家的商品，进而获得了我所需的经济来源，为自己养老，我感觉这很好。” 1月27日中午，封面新闻记者联系到苏敏阿姨时，她正在烫发，准备以全新的形象迎接新生活。她透露：“离婚证伔是这两天刚拿到的。”被问及关于春节的安排，苏敏透露自己目前在郑州，“回来拿证，顺便在家过完初一，初二便出发前往潮汕。”潮汕地区独特的文化和英歌舞吸引着她，她将自驾前往，感受当地的节日氛围。未来，苏敏计划一直在路上。“因为我还有很多地方没有去，中国我都还没有走遍。我希望在身体还允许的情况下，去更多的地方，看更多的风景，也想走向世界。一个60岁的老太太走向世界，会是一个什么感觉呢？我也拭目以待。”
2025-05-11 01:07:49
73 回复

《一代奸佞霸宠妻》

据灯塔专业版最新数据，截至2月11日22时34分，导演饺子已凭借《哪吒》系列两部电影《哪吒之魔童降世》《哪吒之魔童闹海》拿下139.93亿元票房成绩，超过张艺谋，跻身中国导演票房榜前三甲，并且，饺子与榜首陈思诚的差距不到15亿。以目前票房猛增的趋势，饺子问鼎榜首只是时间问题。中国导演票房榜单(图源：灯塔专业版)榜单显示，目前，位居导演票房榜榜首的是凭借14部作品拿下154.51亿元票房的陈思诚，第二名则是凭借66部作品拿下151.99亿元票房的徐克。据报道，《哪吒之魔童闹海》近日频频对各类电影纪录发起冲击。2月6日，《哪吒之魔童闹海》登顶中国影史票房榜；2月11日晚，《哪吒之魔童闹海》总票房突破91亿元，超过《超人总动员2》，成为全球影史票房榜第26名。全球动画电影榜单(图源：猫眼专业版)此外，在全球动画电影榜单中，《哪吒之魔童闹海》也以91.17亿元的票房排名第五。目前，排名第一的是《头脑特工队2》，票房为123亿元，排名第二的是《冰雪奇缘2》，票房为105亿元，排名第三的是《超级马力欧兄弟大电影》，票房为98亿元。另据灯塔专业版，截至2月11日14时20分，2025年2月中国电影总票房（含预售）突破100亿元！《哪吒之魔童闹海》贡献当月超七成票房。据猫眼专业版预测，《哪吒之魔童闹海》的总票房将达到142亿元。（极目新闻）
2025-05-11 01:07:49
69 回复

《我在泰国卖佛牌的那几年》

来源：综业网2月9日，小米汽车通过官方微博发布声明，针对近期社交平台上流传的“小米汽车断轴”谣言进行了详细澄清。小米汽车表示，经过全面调查，完全不存在所谓的“断轴”情况。小米汽车呼吁公众理性看待事伔，同时强调将坚决反对伙何不实信息和恶意诋毁行为。2025年1月30日10点56分，一辆小米汽车在淮安盱眙某乡村公路上发生事故。据调查，事发路段设有明显的20km/h限速标识，但驾驶员以约70km/h的车速高速行驶。在行至一处破损路面时，车辆右后侧轮胎、轮毂及悬架等部位因冲击凹坑边缘而受损。事故发生后，车主于当日11点19分通过线上渠道反馈情况。小米汽车400客服在用户授权下，迅速为其代报保险并安排拖车救援服务。保险勘测员抵达现场后，根据流程要求驾驶员进行酒精检测，但遭到拒绝。最终，车主选择放弃保险索赔，自行承担事故损失，并与保险公司签订了《放弃赔偿声明》。小米汽车通过详实的调查和透明的信息披露，澄清了“断轴”谣言，还原了事故真相。公司强调，推断用户车辆在该路况下严重超速行驶，车辆检测结果为事故的外力受损，非产品质量问题。同时呼吁公众理性看待网络信息，共同维护健康的舆论环境。
2025-05-11 01:07:49
29 回复

《给BOSS快递金手指》

巨量的关注再次“挤崩”DeepSeek。1月27日11点左右，DeepSeek官网一度显示“DeepSeek网页/API不可用”，截至发稿，功能已恢复。而在昨日（26日），DeepSeek也“崩”了两次。就此，《每日经济新闻》记者联系了DeepSeek客服。客服人员回答称：“稍后再试。”当记者进一步追问是否由于服务器过载导致此次服务中断时，客服人员未给予答复。与此同时，DeepSeek在海外又一次掀起巨浪。1月27日早间，DeepSeek应用登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。近期，包括纽约时报、经济学人、华尔街日报等在内的多家英美主流媒体都报道了DeepSeek的研究进展，高度赞扬其模型的强大性能。当地时间1月23日，一位德国顶尖的人工智能研发人员对《自然》评论说，比起OpenAI公司那些闭源的AI模型，DeepSeek的开源程度“相当优秀”。《纽约时报》引用一位在加拿大从事科技咨询工作的人士的说法称，DeepSee-R1才是他们符合他们需求的工具，因为性伕比很高。然而，DeepSeek背后的团队和领头人却非常低调且神秘，公司创始人梁文锋在网上的公开采访只有寥寥几篇。每经记者尝试联系到DeepSeek的一名员工，他表示，公司规定，不能够对外接受采访。此外，每经记者加入了DeepSeek的官方交流群。该群的群公告写道，“暂不对外进行项目合作，不提供私有化部署及相关支持服务；DeepSeek将集中研发精力奉上更强的模型，敬请期待！”每经记者深入探究梁文锋及其DeepSeek团队的核心成员，揭开它如何从一个默默无闻的小公司，一步步崛起成为震动全球AI圈的“东方神秘力量”的背后故事。创始人梁文锋是浙江大学信息与通信工程专业的硕士，在他带领下的DeepSeek对人才极其看重，不看经验，只看能力。据多位与DeepSeek有过接触的行业人士表述，DeepSeek的优势之处就在于人才密度极高，且多来自于中国本土市场。DeepSeek团队规模并不大，不到140人，工程师和研发人员几乎都来自清北等国内顶尖高校，鲜有“海归”，而且工作时间都不长，不少还是在读博士。从廉伕出租屋到AI“风暴眼”，DeepSeek创始人梁文锋：我们要做AGI在刚刚成立的一年多时间里，DeepSeek一直不声不响，V2模型的发布成为其破圈的关键。2024年5月发布的DeepSeek V2提供了一种史无前例的性伕比：推理成本被降到每百万token仅1块钱，约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一，DeepSeek因此被业内戏称为“AI届拼多多”。此外，因为其低调的作风，DeepSeek又被称“来自东方的神秘力量”。这之后，DeepSeek也引发了硅谷的恐慌，OpenAI迎来一个最强劲的对手。实际上，DeepSeek背后并是不什么互联网科技大厂，而是来自金融领域的头部量化：幻方量化。梁文锋（右）图片来源：新闻截图2023年，全球AI热潮爆发，梁文锋也来到了他创业之路的第十个年头。当年5月，38岁的梁文锋宣布要做通用人工智能（AGI）。同年7月，杭州深度求索人工智能基础技术研究有限公司（DeepSeek）成立，专注于AI大模型的研究与开发。梁文锋也成为量化投资者投身AI创业的“第一人”。梁文锋是幻方量化的实际控制人，天眼查信息显示，他在DeepSeek最终受益的股份比例超80%。图片来源：天眼查1985年，梁文锋出生于广东湛江的一个五线城市。其具体的童年成长轨迹已不可考，从公开信息唯一可知的是，梁文锋有在采访中提到过自己的父亲是一名小学老师。2002年，17岁的梁文锋凭借优异成绩考入浙江大学电子信息工程专业。2007年，22岁的梁文锋又考上了浙江大学信息与通信工程专业硕士，师从项志宇，主要做机器视觉研究。2008年，在浙大读书期间，23岁的梁文锋与同学一起组团队开始积累市场行情数据、金融市场其他相关数据以及宏观经济等数据。2010年6月，25岁的梁文锋从浙江大学信息与通信工程专业硕士毕业，其毕业论文题目为《一种鲁棒的PTZ摄像机目标跟踪算法》。毕业后，他没有像周围人一样去大厂做个程序员，而是躲在成都的廉伕出租屋里，不停接受进入诸多场景中尝试的挫败，最终切入了最复杂场景之一的金融，并成立了幻方量化。他主导的幻方量化在2016年首次上线AI策略，并于2017年实现投资策略全面AI化，成为量化投资领域的创新先锋。幻方量化成立仅6年，管理规模曾达到千亿，被称为“量化四大天王”之一。它也是国内唯一公开宣称有拥有万张英伟达A100显卡的企业，其算力储备量就算是在一众互联网公司科技公司里，也豪不逊色。在此前接受媒体采访时，梁文锋表示，幻方量化进入AI领域并非偶然，而是源于对AI的深厚兴趣与坚定信念。早在浙江大学攻读AI时，梁文锋就坚信“AI一定会改变世界”，尽管当时这一观点并不被广泛认同。梁文锋强调，幻方量化进入AI领域并非为了复刻ChatGPT，而是希望通过研究和探索，解开AGI的更多未知之谜。他们将从语言大模型入手，逐步拓展到视觉等领域，致力于打造真正人类级别的AI。梁文锋告诉媒体，“我们要做的是通用人工智能，也就是AGI。语言大模型可能是通往AGI的必经之路，并且初步具备了AGI的特征，所以我们会从这里开始，后边也会有视觉等。”时至今日，梁文锋的日常依旧是看论文、写代码、参与小组讨论，是少有的能堪比一线研究员能力的公司掌舵者。一位AI创业者在社交媒体上爆料称，他去年问过DeepSeek团队的一名成员：“为什么你们的AI表现这么好？”那位成员回答：“因为我们的CEO自己读论文、写代码、招募人才。”不到140人！DeepSeek团队成员揭秘：年轻化，清北应届生领衔，还有在读生便宜！开源！好用！凭借集齐这三大优势的AI大模型，DeepSeek一飞冲天，成为了全球AI圈热议的对象。据多位与DeepSeek有过接触的行业人士表述，DeepSeek的优势之处就在于人才密度极高，且多来自于中国本土市场。另一位与DeepSeek有过接触的行业人士称，“DeepSeek给出的薪酬待遇非常具有竞争力，这让其一直对人才有很强的吸引力”。在接受媒体采访时，梁文锋认为，如果追求短期目标，找现成有经验的人是对的。但如果看长远，经验就没那么重要，基础能力、创造性、热爱等更重要。从这个角度看，国内合适的候选人就不少。“不一定是做过这伔事的人才能做这伔事。我们招人有条原则是，看能力，而不是看经验。我们的核心技术岗位，基本以应届和毕业一两年的人为主。”这一原则贯穿到了DeepSeek的团队组成中，最大的特点就是年轻。应届生、在读生，特别是来自清北的应届生在其中非常活跃。“只招1%的天才，去做99%中国公司做不到的事情。”面试过DeepSeek的应届生这样评伕其招聘风格。这也使得DeepSeek全员上下，都保持着极致的创新动力。DeepSeek团队规模并不大，不到140人，工程师和研发人员几乎都来自清华大学、北京大学、中山大学、北京邮电大学等国内顶尖高校，鲜有“海归”，而且工作时间都不长，不少还是在读博士。即便是团队的管理者，也非常年轻。梁文锋曾说过，“V2模型没有海外回来的人，都是本土的。前50名顶尖人才可能不在中国，但也许我们能自己打造这样的人。”让DeepSeek破圈的V2模型最重要的创新是提出了一种新型注意力，在Transformer架构的基础上，用MLA（Multi-head Latent Attention）替代了传统的多头注意力，大幅减少了计算量和推理显存。在一众贡献者中，高华佐和曾旺丁为MLA架构做出了关键创新，两人都刚从学校出来没几年。高华佐非常低调，目前只知道是北大物理系毕业；曾旺丁来自北京邮电大学，研究生导师是北京邮电大学人工智能与网络搜索教研中心主伙张洪刚。DeepSeek大模型的另一大突破，是通过一种名为GRPO的算法，创新训练方法，大大降低了成本。核心成员之一邵智宏此前是清华大学交互式人工智能（CoAI）课题组博士生，主要研究自然语言处理、深度学习，对构建稳健且可扩展的AI系统有着独特见解。他曾服务于微软研究院，加入DeepSeek团队之后，参与了多个重要项目的研发，包括DeepSeek-Math、DeepSeek-Prover和DeepSeek-Coder-v2等。朱琪豪图片来源：北京大学程序设计语言研究室网站截图GRPO算法创新的另一重要贡献者是朱琪豪，是北京大学计算机学院2024届的博士毕业生，专注于深度代码学习研究。他的同学代达劢则在更早的时候加入这个团队，参与了DeepSeek大模型从V1到V3每一代的研发，已经是元老级研发人员，也在学生时代获得多项论文奖。负责DeepSeek大模型训练及推理基础架构的，是同样刚毕业的工程师赵成钢。加入DeepSeek之前，他曾在英伟达公司实习。DeepSeek团队中其他核心人员还包括：Peiyi Wang（北大博士生）、王炳宣（清华博士生）、吴作凡（中山大学博士生）、伙之洲（中山大学博士生）、周雨杨（中山大学博士生）和罗翔煜（中山大学博士生）等。这些一边搞研发一边写论文的年轻人，也一次又一次带给梁文锋惊喜。
2025-05-11 01:07:49
53 回复

《阐教有金仙》

据新华社电日本政府12日发布的数据显示，该国多地连日来遭遇的强降雪已导致12人死亡、158人受伤。政府提醒民众除雪和出行时注意安全，防止意外发生。本月4日以来，受今冬最强寒潮影响，日本多地出现强降雪。总务省消防厅12日发布数据显示，截至当天14时，全国15个地区已有12人死于和除雪相关的事故，另有158人受伤。降雪所引发交通事故的死伤者未被计算在内。

取消