两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
为什么Linux用户用sudo命令而不直接使用root用户?
预测一下,下一次阅兵会出现什么武器震惊世界?
为何说香港《稳定币条例》将改写未来世界比特币等数字货币市场格局,港币和人民币的国际化会受益于此么?
软路由是否被过度神化?
数据库查询多少毫秒以下就暂时没有必要优化了?
新买了一台nas,第一个月下载20t+,上传5+,不会被网警盯上吧?
为什么乌龟在长时间未换过的水中反而更活跃?
真的有这种又苗条身材又爆炸的么?
为什么Rust的包管理器Cargo这么好用?
全国各地现理发店倒闭潮,没有电商冲击,理发店为什么自己能干黄?
Mac mini M4,有必要升级24G内存吗?
为什么幼儿园的超前教育被叫停?
为什么有的女生喜欢穿紧身牛仔裤?
在广州,找个对象是不是真的很难?
为什么说Kafka具有高性能?其实现过程又是怎样的呢?
各位前端大触们,一般怎么定颜色的?
为什么 Linux 软件安装包会有依赖关系,而 Windows 软件安装包不需要?
27寸显示器有必要上4K吗?
骑车后腰疼直不起来做什么运动比较好呢?
独立开发者都使用了哪些技术栈?
请问照片里这个人是谁呀?
普通人的电脑配置到底是什么水平?
32寸的电脑显示器会不会太大了,对眼睛好不好?
你生活中做过最自律的一件事是什么?
如何评价高圆圆的身材算是美女类型的吗?
人常说女人味,到底是个什么味?