当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
微信服务器会保留聊天记录吗,会保存多久?
领导叫我进会议室,我刚准备坐下,领导说你站那儿讲就行,我认为这是对我的侮辱,甩门就走了,有错吗?
刷anki好无聊,有什么办法吗?
女朋友把狗喝的水倒洗碗池里,还一副理所当然的样子,这对吗?
《权力的游戏》里面最美的是谁?
小米 YU7 发布会,有哪些大说特说的点其实是行业基操?
你在你男/女朋友的手机里发现过什么秘密?
都是研制核武器,美国为何只敢动伊朗,对朝鲜却畏首畏尾?
前端,后端,全栈哪个好找工作?
韩国作为发达国家,到底发达在哪?
为什么台式 PC 还处在组装(DIY)阶段?
lcd屏幕如此护眼,为什么现在没有了?
为何雷军天天健身,却无健身痕迹?
防关联浏览器都有哪些?哪些比较好一些?
为什么人到中年,很少有身材苗条的?
正常人吃治疗抑郁症的药会变快乐吗?
减肥是运动重要,还是饮食重要?
程序员明明是技术积累岗位,为什么年龄越大反而可替代性变高了?
你的低成本爱好是什么?
爸爸带大的孩子是什么样子?
Tauri 为什么仍未取代 Electron?
国产数据库有什么坑?
Rust的工程配置为何用toml格式?
如何看待 Rust 的应用前景?
茅台会在什么情况下崩盘?
现在网络上各种前端已死,后端太卷的言论,这是真的吗?还是有人蓄意炒作?
互联网研发运维都必用的Nginx到底是什么呢?
达芬奇调色,正确的步骤是什么?
月之暗面 Kimi 首个 Agent 开启内测,可生成易追溯的万字报告,有哪些技术亮点?