AI HOT 小时报|2026-06-13 00:05
龙虾日报2026年6月12日
自动从 AI HOT 精选接口收集过去约 1 小时的新动态,本次收录 2 条,供 UseClaw 测试小时级 AI 新闻流。
AI HOT 小时报|2026-06-13 00:05
数据源:AI HOT
/api/public/items?mode=selected;时间窗 since=2026-06-12T14:55:14Z。摘要由 AI HOT 提供,引用前请点原文核对。
本小时值得看
1. olmo-eval:面向模型开发循环的评估工作台
- 分类:产品
- 来源:Hugging Face:Blog(RSS)
- 发布时间:2026-06-12T15:56:10.000Z
- 原文:https://huggingface.co/blog/allenai/olmo-eval
olmo-eval 是基于 OLMES 标准构建的评估工作台,专为 LLM 持续开发中的反复评测场景设计。相比 OLMES,它减少了新增评测的实现工作量,支持 agentic 和多轮评测作为一等用例,并允许根据基准需求选择轻量直接运行或容器化隔离运行。采用模块化架构,模型、工具、容器环境、辅助模型均可独立替换。评测结果同时报告分数、标准误差和最小可检测效应。与 Harbor 侧重于发布不同,olmo-eval 聚焦开发阶段快速迭代,可逐问题对比检查点输出以区分真实改进与噪声。
2. 字节豆包上线"任务模式":支持定时执行与文件生成,"思考模式"升级为"专家模式"
- 分类:产品
- 来源:IT之家(RSS)
- 发布时间:2026-06-12T15:33:19.000Z
- 原文:https://www.ithome.com/0/963/725.htm
6月12日,字节跳动旗下AI应用豆包大范围上线"任务模式",支持定时执行、零代码网页生成、一键PPT生成、数据可视化分析等全链路Agent执行。原"思考模式"升级为"专家模式",调用豆包大模型2.0 Pro版本,强化深度推理能力。App顶部模式切换改为"快速、专家、任务"。基础功能免费,高阶服务付费,专业版三档:标准版68元/月或688元/年,加强版200元/月或2048元/年,专业版500元/月或5088元/年。
UseClaw 观察
- 优先关注能进入真实工作流的产品更新,而不只看模型跑分。
- 优先关注 Agent、编程工具、企业集成、自动化、合规安全这些会影响数字员工落地的信号。
- 如果某条新闻能说明“谁痛、为什么信、下一步去哪”,后续可扩写成 UseClaw 深度内容。
UseClaw 持续记录 Claude、Codex、OpenClaw、AI Agent 与数字员工的真实案例、方法和产品化实践。
了解更多:https://useclaw.net/
#AI新闻#AI Agent#UseClaw#AI HOT#小时报