两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
程序员从幼稚到成熟的标志是什么?
macbookair m4 值得入手吗?
女明星究竟可以有多瘦?
如何评价女明星梅根福克斯的身材?
为什么中国人做一顿饭要几个小时,而国外花的时间少得多?
为什么福州吸引不了人才?
高考不能取消“各省为战”,全国同一标准,择优选拔的原因何在?阻力何在?
儿子抑郁四年左右了,他的未来该怎么办?
炫富真的很爽吗?
为什么全世界无一人能实现新mac直接全功能稳定装Win 11 arm,或PC直接装macOS arm?
本人女20,平胸跟男生一样怎么办 ?
为什么那么多人用GO?GO语言的优势在哪里?
苹果 6 月 10 日召开的 2025 年全球开发者大会「WWDC25」,有哪些值得关注的信息?
苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
我国自主研发新一代 CPU 龙芯 3C6000 发布,不依赖国外授权技术和境外供应链,有何技术亮点?
现在个人博客不能备案了吗?
Golang 中为什么没有注解?
为什么不用rust重写Nginx?
编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响?
Mac上有那些你认为极其好用的***?
为什么似乎更多人都在默默支持吴柳芳?管晨辰是否做错了?
国产厂商为什么都不用三星屏幕了?
偶遇曾经发生过关系的异性,会觉得尴尬吗?
成为体育女主播,光「好看」就够了吗?
谁能通俗的解释一下为什么有人怀疑姜萍?
为什么很多人不喜欢海底捞的过度服务?
为什么中国主机带宽比美国贵5倍(原来错误的10000倍),比如阿里云?