两年前,GPT-4才出来的时候,大家纷纷给大模型出的题目是小学奥数,什么鸡兔同笼,都会有一定错误率,那时候人看大模型,就像看个傻子。
一年前,GPT-4o来了,模型变小了,性能提高,小学奥数以及普通的中考题正确率大幅度提高,但是中考的解答题仍然不会做。
半年多前,o1出现,首先提供的还是o1-preview和o1-mini,这两个模型已经能做中考解答题了,接下来只剩高考大题做不了。
然后今年,o3、o4-mini、gemini 2.5 pro……终于…。
代码:
2025年现在开发php项目选择lar***el框架好还是thinkphp框架好?
如何看待极客湾评测麒麟X90的性能与表现?
PHP现在真的已经过时了吗?
请问买个nas,能够直接把游戏装进去吗?
“真实承诺-3”,伊朗的报复能打疼以色列吗?
为什么现在很多人推崇国外原版教材?
前端因为像素还原设计稿而离职,这是个别现象吗?
海贼王为什么现在被全网黑?
J***a 除了 Spring 还有什么?
对比「胖东来」和「山姆」,两种模式的区别和优缺点如何?
央行行长潘功胜首次在公开场合谈及稳定币,稳定币是什么?有何深意?
上海首例认定提供爬虫程序抓取公开数据构成提供侵入计算机信息系统程序罪案,该案件有哪些细节值得关注?
如何看待机器之心重测高考数学全卷,Gemini夺冠,豆包DeepSeek并列第二?
为什么剪映是剪辑软件鄙视链的最底层?
为什么一部分 Go 布道师的博客不更新了?
真的有这种又苗条身材又爆炸的么?
为什么苹果手机杀后台现象频繁?是内存不够、后台管理严格还是其他原因呢?
做一个中国的微软到底有多难?
和女生合租,都会发生什么事情?
夸克网盘有可能超越百度网盘吗?
有没有GUI框架开发难度小,***消耗又不多,而且又跨平台?
大家有什么烧钱的爱好吗?
《捞女游戏》发售仅一天同时在线超 6330 人,如何看待游戏的销量?
大家当下的经济形势好转了吗?
Windows 上最应该卸载的三个软件是谁?
《灵笼》第二季中马克与冉冰在灵息籽中的重逢引发了世纪虐恋的讨论,如何评价这种情感设定?
程序员都在用什么显示器写代码?
你看过哪些以为是段子新闻,结果发现居然是真的?
如何评价腾讯元宝桌面端使用 Rust 的 Tauri 框架?
印度是真的烂还是咱们在信息茧房里面?