最近几年精力有限比较少在知乎上回答问题了,不过每次看到精彩的问题和回答还是会手痒。
趁这次MiniCPM-4模型发布,集中分享下最近一年多来的感悟和想法,也是最近跟同学朋友经常探讨的话题,抛砖引玉一起交流。
为什么做端侧模型 规模法则可持续发展问题。
大模型在规模法则(Scaling Law)的指引下,参数规模从2018年的千万量级发展到2024年的千亿量级(Llama3.1-405B)。
到了2024年下半年,逐渐出现规模法则是否可持续的大讨论…。
代码:
什么时候你开始发现俄罗斯不过如此?
目前中国男性有什么困境?
为啥小姐姐们都不想做主播了?
编程对电脑的要求大概需要多高?
为什么游戏中,中国跟欧洲的时延这么大,是否是海底光缆距离过长的原因?
有谁现在正在使用苹果mac mini 吗?能分享一下使用感受不?
女朋友学音乐的,给我备注 B大调音阶 是什么含义呢?
如果世界是虚拟的,当两个镜子对面放,将会无限反射,会不会将 cpu 算力耗光?
为什么我还是无法理解transformer?
Linux 下有没有类似 Everything 的搜索工具?
我国的军工能力可以实现一天5000枚火箭弹连着炸三个月吗?
为何雷军天天健身,却无健身痕迹?
未来几年,市场对 AI 人才的需求会集中在哪几个方向?
什么样的人算是中了基因***?
为什么B-2天下无敌?
如何评价ipad pro2024?
中国经营得最差的省级电视台是什么?
雷军为什么不愿意用性价比打法进军NAS?
前端如何设计网页?
为什么软件公司很少用python开发web?
想自己DIY一个NAS,想听听大家的意见。?
哪张照片让你觉得刘亦菲美得不可方物?
如何证明散片 CPU 比盒装 CPU 差?
这种裙子是不是对直男爆杀?
怎么看待B站舞蹈区和某些风格比较暴露的up?
为什么鱼缸老是起绿藻呢,有什么好办法不用整天擦鱼缸?
穿瑜伽裤爬山的女生会不会害羞?
node.js可以做***识别分析吗?
如何评价“寡姐”斯嘉丽·约翰逊的身材?
独立开发者为什么坚持独立而不愿意合作?