2023-09-14 04:00:54 來源: 搜虎网
房子起源于奥飞寺
量子比特 | 公众号QbitAI
今年5月在深圳成立的一家公司,团队不到10人。
他们要做的事情非同小可:挑战AGI。
信心在哪里? 一是看过去的简历,二是看当前的赛道成绩。
过去一年,这些人在 CVPR、ICML、ECCV 等顶级会议上总共发表了 16 篇大型模型相关论文,其中一篇获得了顶级会议 ACL 2023 最佳论文提名。
创业后你的成果如何? 成立两个月后,训练好的模型在C-Eval榜单中跻身前三,其中文能力击败了ChatGPT和Claude-v1.3。
这是共生基质的结果。
而其型号GS-LLM自7月底以来首次上榜,在C-Eval榜单的65名选手中一直处于第一梯队。
那么,谁是共生矩阵?
10人挑战AGI
共生矩阵旨在打造基于自主研发AGI技术的行业数据提炼工厂。
团队主要依托自主研发的大模型GS-LLM。
模型参数范围从7B-130B,可根据用户实际需求量身定制。
基于GS-LLM的版本有两个版本在C-Eval上占据一席之地,一个是百亿参数版本GS-LLM-Beta,另一个是百亿参数以下的迷你版本GS-LLM-Beta-Mini参数。
之所以推出迷你版,是因为很多用户发现原有的运行环境(甚至云环境)不足以支持大规模的本地部署。
测试结果发现,数十亿版本的GS-LLM-Beta表现良好,在C-Eval上的最佳排名为第6名。
能够稳居C-Eval榜首的原因之一是共生矩阵构建了完全独立的训练框架,为整个训练提供了相对完善的技术支撑。
第二点是数据,这个公司非常重视。
共生矩阵CEO张林举了一个简单的例子:
将模型训练与人类成长过程进行比较。 如果从小看的都是有营养的小说,这个人的综合能力不会很强。
去年,团队在一次实验中发现,当模型数据达到一定数量级时,数据质量的跃升实际上可以引起一些质的变化。
“换句话来说,如果你有一个规模相对较小(比如数百亿)的模型,并给它喂入高质量的数据,那么训练结果将非常接近于千亿级别的结果。” 张琳说道。
这次实验也让团队更加注重数据质量以及系统化的方式来获取高质量的数据。
事实上,这一点近期越来越受到社会各界的关注。 微软有一项新研究“教科书就是你所需要的”。 这项工作表明,做大并不是唯一的出路,但高质量的数据至关重要。
于是,共生团队构建了数据清洗工程系统,实现24小时不间断的数据清洗。
目前团队已经清理了约20T可用于训练的文本数据。 “这种级别的数据可以支持非常大的系统的模型训练。”
不过,张林也透露,共生矩阵短期内不会向公众公开团队清理的数据。
那么,团队想要打造的数据精化工厂的概念是什么呢?
张林解释说,如果把大模型理解为“信息的压缩”,那么它本身就是一个大的参数数据库。
数据精炼工厂要做的就是将模型训练好之后的参数数据进行共享和交易。
要知道,大模型的功能都是通过参数来承载的。 交易参数实际上是切换函数。 我们需要大型模型函数的多样性。 “参数交易是最有效的途径。”
这里所说的数据并不是大家都能看到的那种数据,而是参数数据。 我们常说的数据是一段文字或者一张图片,而工厂拥有的数据就是训练好的模型的参数,而这些参数是可以进行商业交易的。
“原始数据直接交易,受到数量大和隐私问题的制约。” 张林解释说,数据交易的概念已经提出很多年了,但一直没有被市场完全接受。 团队认为,数据要真正流通,需要更加合理、安全、有效,因此最终确定了参数层面的数据交易。
在团队的愿景中,数据精化工厂跑通后,一些数据就不需要重复训练,效率会提高,成本会降低。
使用更少的人员和资源来完成大型模型系统
在大模型热潮中,如何评价大模型成为了一个重要问题,这也是各种榜单如雨后春笋般涌现的原因。
Symbiotic Matrix在C-Eval上市后,外界主要关注两点:
除了成绩不错之外,另一个有趣的点是,他们是榜单上少有的小团队。
该团队表示,该榜单并不是全球唯一、最权威的榜单,但它在成立一个月后就开始出现在榜单中,并一度进入前三,这可以体现“我们用更少的人力和资源,搞好大型模型系统。”
没错,共生矩阵团队不到10人。
人不多,但战斗力都还不错——
CEO张林、CTO王俊杰等团队核心成员均来自IDEA研究院,在国内风神邦预训练模型开源系统方面拥有丰富的实践经验(据悉风神邦目前已开放超过98个预训练模型)源预训练模型)
张琳毕业于纽约州立大学,获博士学位。 并在计算机顶级会议上发表论文30余篇。 曾任粤港澳大湾区数字经济研究院(IDEA)高级研究员。
王俊杰拥有早稻田大学计算机科学博士学位,曾是封神榜大模型团队的核心成员。
△
张琳
纵观目前的AI市场,一个小团队就能做好AI的先例还没有。 被誉为新时代组织标杆的最著名的文森特图模型Midjourney背后只有11名成员。 AI 2.0时代,国内外涌现出许多强调“小而美”的大模式创业团队。
当然,张林表示,更深层次的原因是,大模型并不是简单的人力堆积工程,需要少量的精英团队来保证效率。
他表示,训练模型时,算子优化、混合精度等技术方面,以及同时支持上百张卡时的通信问题,都考验工程能力。 如果一个小团队能够解决遇到的工程问题并提高效率,就没有必要依赖大团队来解决。
另外,规模较小的技术核心团队更有利于保持思想独立,通过不拘泥于规则来探索更多的可能性。 但人力堆积很容易降低整体效率。
据他估计,全国大型模特领域的顶尖人才“加起来可能只有100人左右”,组建大型团队的空间不大。
因此,团队将在一段时间内维持在“十人以下”的规模。
归根结底,这是对AI 2.0时代和AI 1.0时代背后范式和理念的不同理解。
在沟通过程中,张琳也从另一个层面直接表达了团队与主流声音不同的理解,体现在开源与闭源的理念上。
前段时间,当免费且可商用的LLaMA-2发布时,很多人表示这对市场上的初创公司来说将是一个巨大的打击,因为LLaMA-2可以满足大多数公司对更低成本和个性化的需求。
“LLaMA-2并没有改变市场结构。” 在共生团队眼中,真正领先的团队不会开源核心技术。
张林还补充道,现阶段开源的意义更多在于教育市场,而不是推动商业化。
就像Raspberry Pi对电子爱好者有意义,但不会改变移动电脑市场一样,LLAMA 2对入门级用户更有价值,但对想要商用的用户影响不大。
像这样的“非主流”观点和理解的共生矩阵还有很多。
例如,我们不认为大型模型是通用人工智能的终点,也不认为ChatGPT代表了最终的方向。
他们也对独角兽式的快速扩张持谨慎态度,更注重团队凝聚力和技术积累。
……
对于未来的发展路线,共生矩阵短期内选择闭源,未来在合适的机会下可能会适当开源。
开源需要有明确的业务驱动目标。 目前,大模型技术仍处于快速迭代和竞争阶段,开源核心技术面临失去先发优势的风险。
——联系作者——
搜虎网转载此文目的在于传递更多信息,不代表本网的观点和立场。文章内容仅供参考,不构成投资建议。投资者据此操作,风险自担。
据统计,我国机动车保有量已达4.35亿辆,新注册登记汽车更是连续十年以每年超过20...
讯 www.yule.com.cn 法国当地时间5月18日,第77届戛纳电影节于首周末举办贾樟...
昨天,国家文物局发布安徽淮南武王墩一号墓考古发掘以及文物保护重要成果,墓主人...
本周五,楼市迎来诸多利好,四项重磅政策同时出炉,包括购房首付比例下调、公积金贷...
了2024年金融债券(第一期),发行规模为10亿元;兴业消费金融分别发行了三期金融债...