当务之急最该解决的问题是大众对于 AI大模型的正确认知以及最基本的AI用法。
你看这是前两天的测试结果,突出了一个政治正确,6款大模型,OpenAI的o3倒数第一,我当时看到的时候就觉得很奇怪,o3好歹也是曾经的一代王者,高考数学这种题它排名这么低怕不是有什么猫腻。
我们就拿单选题的第五题来测试下,因为这道题除了o3,其他的国产模型都答对了。
这是第五题的原题,正确答案是A. - 1/2。
这是之前的第三方的测试结果,6个模型…。
代码:
为什么人到中年,很少有身材苗条的?
国产厂商为什么都不用三星屏幕了?
为什么桔梗陆雪琪这些高冷美女会喜欢想往平凡男主?
在深圳找个男朋友难吗?
苹果为什么要给每代MacOS起个名字,真以为人们记得住分得清吗?
超小团队选择Django还是Flask?
duckdb的性能如何?
为什么老人死了,我的父母等长辈都不难过?
华为自研的仓颉编程语言将于 7 月 30 日开源,这款语言将如何影响未来的开发趋势?
2025年,Gitea 和 GitLab 应当如何选择?
kotlin native 的生态还能起来吗?
是不是大部分女性到了 40 岁,活着特没意思?
PHP初学者,我能不能使用PHP来开发桌面应用?
如何评价“寡姐”斯嘉丽·约翰逊的身材?
2025年6月,到底买油车还是电车?
为什么觉得小米的系统越来越不行了?
公司平面设计师,高度依赖昵图网做广告设计你觉得是在搞设计吗?
为什么任天堂在NS2上没有选择使用OLED屏幕以提升续航能力和显示效果?
腰陆陆续续疼了一年多了,这个是腰突吗?
如何评价《三角洲行动》S5 赛季新地图「潮汐监狱」?
KMS激活到底可不可信,是不是盗版的激活方式?
docker如何查看 容器启动的run命令?
洗衣机洗内衣内裤鞋袜等是否真的不卫生?
软路由怎么没有人玩了?
如何解读穷则独善其身,达则兼济天下?
如何评价华为鸿蒙电脑?
为什么手机动辄都 1T 存储了,为啥电脑还在死磕 512G 呢?
你如何评价小米这个品牌?
编程语言 MoonBit 发布 Beta 版,正式进入企业场景应用,会带来哪些影响?
如何赚美金?