🌙
← 返回首页
RSS订阅
🤖 AI资讯日报
2026年5月22日 星期五
🎙️ AI资讯播客
⚡ 马上能用
👀 值得关注
图灵测试 76 年后首现 AI 通过实证:GPT-4.5 以 73% 判定率超越真人
精选 80
OpenAI
推荐理由
这篇PNAS论文首次用严格实验证明现代AI能通过图灵测试,GPT-4.5装人比真人还像,但重点不是它多聪明,而是它多擅长说谎,线上身份信任被彻底动摇。
Gemini Omni来了,原生多模态体验惊艳
精选 82
Google
推荐理由
Google的GPT-4o时刻终于来了,Gemini Omni原生多模态的体验比想象中更惊艳,普通人也能随手出大片。
DeepSeek 推进 700 亿元融资,梁文锋承诺坚持开发开源AI模型
精选 78
DeepSeek
推荐理由
700亿元首轮融资创下纪录,梁文锋明确表态不追求短期商业化、继续死磕开源,国家队和腾讯都在这轮里,对国内开源生态是个强心针。
OpenAI Codex /goal功能正式发布:AI持续工作数小时甚至数天
精选 76
OpenAI
推荐理由
Codex的goal模式从实验毕业,意味着你可以真的放手让AI去跑长时间任务,做开发的不用再守在电脑前,这是agent落地的真信号。
加州州长纽森签署行政令,为AI带来的劳动力市场冲击做准备
精选 82
政策/监管
推荐理由
这不只是又一个AI政策声明,加州直接把AI失业当成公共政策问题推到了立法前夜。从遣散费到工人持股,方案很激进,这对企业用人策略的影响可能比GPT-5还深远。
美国AI监管令突然告吹内幕:白宫内讧,马斯克、扎克伯格游说特朗普
精选 77
安全/对齐
推荐理由
特朗普的AI监管令在签署前几小时被撤销,马斯克和扎克伯格直接打电话游说,这背后是加速派和监管派的公开角力,未来几个月AI政策只会更乱。
智谱GLM-5.1高速版发布:刷新全球大模型API速度纪录
精选 73
推理
推荐理由
智谱把旗舰模型拉到400 tokens/s,还保持全尺寸能力,不是那种为快阉割的小模型。做实时交互、AI编程的可以认真看看,延迟敏感场景的选型参数要重写了。
Karpathy的CLAUDE.md四条规则让AI编程准确率飙升至94%
精选 76
开源生态
推荐理由
Karpathy这65行不是新模型,是给AI编程装了道刹车,先想清楚再动手这条反直觉规则把准确率从65拉到94,所有用Cursor的都该立刻抄一份。
Claude合作伙伴如何运用Opus强化网络安全
精选 74
Anthropic
推荐理由
Wiz一周扫15万资产零误报,Palo Alto三周完成一年渗透测试量——这些不是蓝图,是Claude Opus正在真实防御中跑出的数字,安全团队值得逐字看完。
Runway发布Aleph 2.0与Edit Studio
精选 76
多模态
推荐理由
Runway的下一代视频模型来了,Aleph 2.0很可能重塑AI视频工作流,做短剧和广告的该关注了。
🔬 AI观察
教导 Claude 理解"为什么":Agentic Misalignment 从 96% 降到 0
精选 79
Anthropic
安全/对齐
论文/研究
影响力
4.5/5
实用性
3.5/5
新颖度
4.5/5
推荐理由
Anthropic 把 Claude 的 agentic misalignment 从 96% 压到零,关键是背后那套「教模型为什么」的方法,这对整个行业解决「幻觉般的不听话」问题是个真信号。
Claude Mythos 安全评估:自主执行时长突破 16 小时
精选 72
Anthropic
安全/对齐
评测/基准
影响力
4.5/5
实用性
2.5/5
新颖度
4.5/5
推荐理由
模型能力逼近失控边缘的信号——自主执行 16 小时,现有评测任务都不够用了。做 AI 安全的必须盯紧这个方向。
工信部启动 AI 伦理审查先导计划,审查从口号变成实卡
精选 71
政策/监管
现象/趋势
影响力
4.5/5
实用性
4.0/5
新颖度
4.0/5
推荐理由
这次不是发文件而是直接落地审,会把伦理审查从口号变成产品上线的实卡。国内做 AI 应用的从业者得开始考虑合规成本了。
📊 今日热词
Anthropic
DeepSeek
Claude
Ring模型
Grok
安全对齐
融资
万亿参数
伦理审查
ERNIE
返回首页
·
RSS订阅
数据来源:
AIHOT