那个震惊硅谷的浙大天才, 暴露了中国教育最大的短板(组图)
2024年末,一位年轻的科技创业者火了。
近日,中国科技行业因一位85后青年登上《新闻联播》而彻底沸腾。
作为AI初创公司深度求索(DeepSeek)的创始人,他罕见现身某场国家级高规格座谈会,并在现场发言。
发言照片随即在各大社交平台疯转。
所有人都在好奇:这位年轻人到底分享了哪些可能影响全球科技未来走向的深度见解?
他就是将开源模型做到全球第一、性价比力压估值1570亿美元的独角兽OpenAI的“浙大天才”——梁文锋。
他和DeepSeek曾在一夜之间引爆硅谷,震惊全球,而他们开发的大模型 “DeepSeek-V3” 也被海外称作“来自东方的神秘力量”。
让硅谷失色的中国团队
2024年,斯坦福在大模型评测中纳入DeepSeek-V3。其技术白皮书显示: 综合表现接近GPT-4,但成本仅为后者的1/20。(据SemiAnalysis推测GPT-4成本约1.1亿美元)
“这也太不科学了!”评论区里某硅谷工程师的惊叹瞬间炸开。
更不可思议的是, DeepSeek只用了2048张H100的GPU集群(同行平均约需要1.6万张),用时也仅花了53天!
外媒评价道:“DeepSeek-V3的性价比优势,标志着中国AI公司首次在基础层创新上威胁硅谷主导地位。”
而看到DeepSeek背后的团队,硅谷更是站不稳了——
事实上,网上关于创始人梁文峰的报道非常有限,他17岁考上浙大之前的经历,就像一片空白,查不到公开资料。
根据《人物》杂志报道,梁文峰2002年考入浙大电子信息工程专业,常常泡在实验室研究机器视觉,甚至自费购买零件组装设备。
他的一位校友回忆:“当时AI在国内还是冷门领域,他却坚信这是未来,连毕业论文都聚焦于低成本摄像机的算法优化。”在大模型闻所未闻的时代,他就已经自学成才,成为一位“建模达人”了。
据披露,这支让硅谷色变的核心团队,主要是由两类人组成:
一类是顶尖高校的“学术深耕者”:多位核心成员来自浙大、中科大等国内高校的AI实验室,他们在自然语言处理、强化学习等领域的论文被ICML、NeurIPS等顶会收录;
另一类是产业界的“技术实用派”:包括从华为、阿里转型而来的工程师,擅长将学术成果转化为工业级应用。
此前因为雷军「天价招人」而大火的95后AI天才少女罗福莉,她被挖出曾经是DeepSeek的成员,参与研发了达模型DeepSeek V2。
任凭梁文锋再低调,他的锋芒再也藏不住了。
“不敢”的基因,从商业到教育
梁文峰在2024年DeepSeek的开发者大会上说:“我的父亲是一名小镇数学老师,他从不问我考试排名,只问‘今天解决了什么问题’——这种对解题本能的呵护,是我后来敢于挑战技术无人区的底气。”
在DeepSeek杭州总部的展示厅里,陈列着一台90年代的“飞跃牌”收音机——那是梁文峰初中时拆装过37次的实验品。边上的标签写着:
所有伟大的创新,都始于对现状的“不合理”拆解。
在接受自媒体《暗涌》的记者采访时,梁文峰说:“过去三十多年IT浪潮里,我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律从天而降,躺在家里18个月就会出来更好的硬件和软件。
但其实,这是西方主导的技术社区一代代孜孜不倦创造出来的,只因为之前我们没有参与这个过程,以至于忽视了它的存在。
“创新首先是一个信念问题。为什么硅谷那么有创新精神?首先是敢。”
Chatgpt出来时,整个国内对做前沿创新都缺乏信心,从投资人到大厂,都觉得差距太大了,还是做应用吧。
这种“不敢”的基因,正在从商业领域渗透到教育。
记得去年我在上海某学校旁听“AI创新课”,看到触目惊心的一幕:当学生试图修改代码,老师立刻制止:“你们会搞坏系统!照着教材调用API就行。”
同一时间,在美国MIT媒体实验室里,学生被鼓励拆解GPT-4代码,2024年有17%的AI顶会论文,源于此类“破坏性试验”。
梁文峰在2023年世界人工智能大会上演讲直指痛点:“过去我们总说中国AI落后美国1-2年,但真正的差距是原创与模仿的差距。”
当我们还在教孩子调用API时,硅谷的中学生已在用PyTorch重构transformer。
这种反差让我想起两个中美家庭,一个普通的夜晚:
在硅谷Palo Alto,15岁的华裔男孩在车库苦苦钻研大模型,父亲虽看不懂代码,却默默升级了网络带宽。并在深夜端来一碗云吞面:“你爷爷说广东人最敢闯,别输给老家人啊。”
而在北京海淀,某重点中学学生用大模型帮视障同学开发导航工具,却被母亲嗤之以鼻:“竞赛拿奖才是正经事!做这些事情能申藤校吗?”
“我们这一代人的思维包袱确实太重了。”一位曾反对儿子参加机器人社团的父亲忏悔说,他的孩子后来考上加州理工,却在入学三个月后抑郁休学:“他说感觉自己像台被预设好路径的扫地机器人,永远在别人画的框里打转。”
或许这就是教育的悖论:当我们拼命给孩子安装“成功模组”时,真正的创新者却在笨拙地拆解自己。
作为家长,我们不需要懂transformer架构或Scaling Law,但至少要守护好孩子眼中那簇“敢”的火光。
当他说要造会飞的汽车,别急着计算藤校录取率,先问:“需要爸爸帮你找钛合金材料吗?”
当她在作业本上画满外星代码,别怒吼“好好写作业”,不如说:“妈妈看不懂,但觉得特别酷。”
给错误留一扇门
在深夜的DeepSeek杭州总部,一群工程师正在复盘一场“代价60万美元的事故”:12张H100因非常规参数设置过载损坏,但他们的讨论焦点却是GitHub页面:
“这是我们第47篇开源技术避坑指南,下载量3287次,19个国家开发者提交了改进建议。”
在DeepSeek的文化手册里,写着一条反常识规则:“所有失败实验必须产生两份资产——一份内部技术报告,一份全球开发者可复用的开源指南。”
后来,2023年的数据清洗事故催生了《多语言语料预处理标准》,被团队称为“错误副产品”。
该标准被LlamaIndex、Hugging Face等12个社区引用,并列入斯坦福CS324课程“数据处理”案例库。
“我们不是在为错误买单,而是在投资认知基础设施。”
创始人梁文锋在2024中国人工智能大会上,指着一块烧毁的GPU芯片说:“就像这片硅晶体,它的物理寿命结束了,但催生的安全协议正在保护多个研究机构的训练集群。”
但我们的教育,通常只会歌颂成功,逃避失败。
曾有位硅谷华裔母亲,为让女儿进入天才班投入巨大财力,却因孩子偷偷参加一场几乎没有胜算的辩论大赛,勃然大怒:“你知道斯坦福录取率只有4%吗?有时间不如多刷几套题!”
事实证明,很多看似错误的尝试,恰恰是创新的温床。或许,我们应该允许孩子“多犯一些错误”,给错误更大的宽容。
其实,学习中最宝贵的不是正确答案,而是让每个错误找到其历史坐标。
重新定义优秀:在废墟上点燃野火
公开报道显示,DeepSeek的招聘原则和梁文峰的创业理念高度一致。
首先,拒绝“唯学历论”,据不完全统计,2023年录取的工程师中,有11%来自非985/211院校;
其次,强调“动手能力”,网传面试时会要求候选人现场优化一段开源代码;
同时,独特的“算力自由”政策:网传成员无需审批即可调用千卡级GPU集群,这一机制曾帮助团队在3天内完成关键模型的压力测试。
他招募的工程师可能没有光鲜的履历,但有人会为优化一个算法连续鏖战三年,也有人把调试模型当作解谜游戏。
重新审视一下我们传统教育中的评价体系:当孩子痴迷于“非主流”领域时,我们是否有勇气像梁文锋一样,让他们“随意调用GPU集群”般地尽情探索?
顶尖人才从来不是被筛选出来的,而是被“允许疯狂”的环境滋养出来的。
这让我想起在某个精英家长聚会上,听到的一个似乎很像段子,但却真正发生过的一段对话——
李太太率先说:“我儿子在约翰霍普金斯修双学位,教授说他是十年一遇的天才!”
张总不甘示弱:“我女儿16岁发了SCI,学校还要给她立雕像呢!”
只有角落里的陈先生轻轻说:“我女儿用了三年时间,在非洲村庄搭了12座太阳能AI农场。虽然没什么奖项,但上个月她收到了 Google的实习邀请……”
父母的托举,希望培养出怎样的孩子?我相信大家应该有自己的判断了吧。
结语
作为父母和教育者,我们或许无法预知孩子将来能有多大的成就。但至少可以做到:
当孩子说“我想用AI改变世界”时,不要再回答“先考上清华再说”。真正的教育,从相信每一个“不可思议”开始。
真正的教育者,不需要给出所有答案,只要在孩子说“我想改变世界”时,能轻声回应——
“去吧,记得回家吃饭。”