RSS 每日摘要

2026-06-19 · 24 篇文章 归档

Datasette Apps:在 Datasette 中托管自定义 HTML 应用

Datasette 推出新插件 datasette-apps,允许开发者在严格沙箱化的 <iframe> 中运行自包含的 HTML+JavaScript 应用,并通过 JavaScript 对 Datasette 数据执行只读或受控的写入 SQL 查询。沙箱通过 CSP 头阻止外部 HTTP 请求,防止数据泄露。该功能源于对 Claude Artifacts 机制的复刻尝试,本质上是为前端 HTML 应用提供持久化关系型数据库后端——类似于带数据库访问能力的 Claude Artifacts。可通过 agent.datasette.io 体验演示实例。
Simon Willison's Weblog 2026/06/18

datasette-acl 0.6a0 发布:权限系统从表级扩展至通用资源共享

datasette-acl 插件发布 0.6a0 版本,由 Alex Garcia 主导开发,将权限控制范围从单纯的数据表扩展至 Datasette 内通用资源共享体系,支持多用户 Datasette 实例对不同资源进行细粒度访问控制。
Simon Willison's Weblog 2026/06/18

datasette-apps 0.1a3 发布:修复权限校验漏洞

datasette-apps 0.1a3 修复了两处权限相关 bug:其一,无 create-app 权限的用户此前仍可创建应用;其二,非应用所有者无法被授予编辑权限。新版本统一了编辑/删除权限规则——私有应用仅所有者可操作,公开应用则遵循 Datasette 标准权限体系。
Simon Willison's Weblog 2026/06/15

构建你自己的漏洞扫描编排框架

Cloudflare 基于 Project Glasswing 的后续研究,详述如何构建模型无关的企业级漏洞扫描流水线。核心论点是:单一 AI 模型因上下文窗口限制和单一视角,无法覆盖大型代码库;真正可扩展的方案需将模型视为可互换组件,用不同模型分别负责发现与验证阶段,并通过持久化状态管理、跨仓库依赖追踪和去重机制,将海量候选漏洞过滤为可操作的修复队列。文章同时驳斥了「用子 Agent 替代编排框架」的替代方案。
The Cloudflare Blog 2026/06/18

Project Galileo 成立 12 周年:首发全球公民社会网络攻击报告

Cloudflare 的 Project Galileo 项目运行 12 年,目前为 120 个国家逾 3400 个新闻、人权及非营利组织网站提供免费网络安全保护。周年纪念发布首份公民社会网络攻击年度报告,关键数据显示:公民社会遭受漏洞利用攻击的频率是其他 Cloudflare 客户的 7 倍以上;流亡记者面临的恶意流量是新闻机构整体的近 4 倍;近 10% 的处理邮件含潜在钓鱼内容;DDoS 攻击为最常见威胁且持续时间达数天乃至数周。
The Cloudflare Blog 2026/06/18

Cloudflare 引入更多 Agent 框架,首发 Flue

Cloudflare 将 Project Think 的生产经验提炼为 Agents SDK 底层能力,向所有 Agent 框架开放持久执行、动态代码执行、持久文件系统等原语。同时,由 Astro 团队打造的开源框架 Flue 发布 1.0 Beta,基于 Pi harness 构建,采用声明式模型——开发者无需编写调度循环,只需描述 Agent 所需的上下文(模型、技能、沙箱、指令),Agent 即可自主完成任务。三层架构(框架 Flue / 调度层 Pi / 运行时 Cloudflare Agents SDK)正成为生产级 AI Agent 的新标准栈。
The Cloudflare Blog 2026/06/17

OpenAI 为企业版推出用量分析与消费管控新功能

ChatGPT Enterprise 新增 Credit 用量分析仪表盘,管理员可在全局控制台中统一查看 ChatGPT 与 Codex 的 Credit 消耗,支持按用户、产品、模型细分,并追踪使用趋势。同时新增消费管控功能,帮助企业主动控制 AI 支出。用量数据也可通过统一 Cost API 接入自有系统做深度分析,目标是让企业以与管理其他关键业务投资同等的严谨度来治理 AI 使用。
OpenAI News 2026/06/18

ChatGPT 健康智能升级:引入 GPT-5.5 Instant

OpenAI 将 GPT-5.5 Instant 引入 ChatGPT 健康与健身类回答,带来更强的推理能力、更好的上下文理解与更清晰的表达。新模型经过医生参与的专项评估,旨在提升 ChatGPT 在医疗健康场景下的回答质量与可靠性。
OpenAI News 2026/06/18

用 AI 帮助医生诊断儿童罕见遗传病

研究人员使用 OpenAI 推理模型辅助罕见病诊断,在此前无法确诊的病例中新增识别出 18 例确诊。该研究展示了 AI 推理模型在临床罕见遗传病诊断中的实际落地价值,为长期悬而未决的儿科疑难病例提供了新的诊断路径。
OpenAI News 2026/06/18

开源 vs 看不见的手:经济学视角下的开源悖论

开源软件几乎违反所有主流经济学公理:它是无法排他的公共品,却没有导致供给枯竭;SQLite 与恶意包价格相同,却成为地球上部署最广的数据库;npm 托管超 500 万个包,大多无人付费却年年增长;自利理性人假设也无法解释为何有人深夜免费修复陌生人的 bug。文章系统梳理了自由搭车、公地悲剧、供需定律等经济学预测与开源现实之间的矛盾,探讨市场之外驱动开源运转的真实机制。
Andrew Nesbitt 2026/06/18

ClickHouse 如何将 Rust 引入 150 万行 C++ 代码库

Corrode Rust Consulting 播客邀请 ClickHouse 创始人兼 CTO Alexey Milovidov 和高级工程师 Austin Bonander(sqlx 维护者)深入探讨将 Rust 集成进 ClickHouse 的实践。ClickHouse 拥有约 150 万行 C++ 代码,每天运行数千万次测试。讨论聚焦于 Rust 并非重写、而是以链接库形式嵌入 C++ 单体服务的现实挑战:CMake 构建可复现性、FIPS 合规要求、供应链安全,以及 Rust 生态系统的复杂度是否比语言本身更难驾驭。
Corrode Rust Consulting 2026/06/18

AI Agent 看板工具的本质是管理问题,而非技术问题

专为 AI Agent 设计的看板工具 Multica 让 Codex、Claude Code 等本地 AI 以 Agent 形式接入项目管理流程。但作者认为,能用好这类工具的前提是 leader 本身具备管理人类团队的能力。按成本测算,一个 AI Agent 约 300 美元/月,3 人规模团队替换为 AI 后订阅费可控,但 leader 的 review、任务拆解、边界定义负担将大幅增加。最终结论:有能力管理人的 leader 才能用好 AI Agent 看板,没有管理能力的人换成 AI 同样会一团糟。
smallyu的博客 2026/06/18

2011 年清华大学自主招生数学题解析:递推数列与不等式证明

解析 2011 年清华大学自主招生数学试题中的数列大题(满分 14 分)。已知 f(x) = 2x/(ax+b) 构成递推数列,第一问用数学归纳法和取倒数构造等比数列两种方法推导通项公式 xₙ = 2^(n-1)/(2^(n-1)+1);第二问证明前 n 项积大于 1/(2e),分别给出取对数后利用 ln(1+x) < x 放缩和伯努利不等式两种证明路径,完整呈现解题思路构造过程。
Long Luo's Life Notes 2026/02/14

2006 年江西高考数学压轴题解析:递推关系、取倒数与不等式放缩

解析 2006 年江西高考理科数学最后一题(满分 14 分)。递推数列 aₙ = 3naₙ₋₁/(2aₙ₋₁+n-1) 通过取倒数、换元 bₙ = n/aₙ 后转化为等差递推,利用不动点法得通项公式 aₙ = n·3ⁿ/(3ⁿ-1)。第二问证明前 n 项积小于 2·n!,给出取对数后分段构造等比数列放缩(上界 9/16 < ln2)和数学归纳法两种方案,重现当年江西卷以运算量见长的命题风格。
Long Luo's Life Notes 2026/02/07

VibeThinker-3B:小模型如何靠后训练逼近大模型性能

VibeThinker-3B 基于 Qwen2.5-Coder-3B(3.09B 参数)构建,通过精细化后训练流水线在编程和推理基准上逼近更大规模模型。关键技术包括:高信噪比合成数学/代码数据、每答案多条推理路径后激进过滤、两阶段 SFT、MGPO(GRPO 变体 RLVR 方法)、64k 上下文单阶段 RL、按数学→代码→STEM 顺序的领域 RL,以及奖励更短正确轨迹的后期阶段。预估训练成本 2.5 万至 6 万美元。模型于 2026 年 6 月 17 日发布,基准表现仍需实际验证。
Sebastian Raschka, PhD 2026/06/17

North Mini Code 与 Agentic Coding 基准测试

Cohere 发布开源模型 North Mini Code,采用 30B 参数 MoE 架构(3B 激活参数),含 128 个专家、每 token 激活 8 个,交错使用滑动窗口与全局注意力,遵循 Apache 2.0 协议。该模型专为 Agentic Coding 设计,在 Terminal-Bench 和 SWE-Bench 等需要工具调用循环的任务上显著领先 Gemma 4,但在传统代码生成基准上略逊于 Qwen3。评测数据为 2026 年 6 月 12 日快照,实际表现受工具链配置影响较大。
Sebastian Raschka, PhD 2026/06/12

Nemotron 3 Ultra 与 Latent MoE 扩展方案

NVIDIA 发布 Nemotron 3 Ultra,总参数 550B、每 token 激活 55B,是 Nemotron 3 Super 的大规模升级版。核心亮点是 Latent MoE 设计:路由专家先将激活投影至较小的潜空间(8192→2048→8192)再处理,保持 4x 压缩比的同时大幅提升规模。整体架构融合 Mamba-2、GQA、Latent MoE 和 MTP 四种效率机制,技术报告提供完整模型与训练细节。
Sebastian Raschka, PhD 2026/06/04

datasette-apps 0.1a2 发布

datasette-apps 0.1a2 更新了多项安全与交互功能:自定义网络/CSP 来源现受 apps-set-csp 权限保护,支持通过插件白名单限制非特权用户;Datasette Agent 应用创建工具同步执行相同规则。此外,存储查询选择器新增键盘导航并在聚焦时展示最近三条记录,修复了 #fragment 链接被外部链接确认弹窗拦截、全屏模式下日志面板显示等问题。
Simon Willison's Weblog 2026/06/15

MiniMax M2 与面向生产环境的模型设计

MiniMax M2 技术报告揭示多项面向生产的设计决策:放弃滑动窗口注意力以维护 prefix caching 支持;细粒度 MoE(128 专家 top-8)在 MATH 和 HumanEval 上分别比基线提升 4.5 和 2.8 分;RL 训练引入挂钟时间奖励以减少冗余工具调用;M2.7 已能自主完成 100 轮 scaffold 优化循环,内部评估提升 30%。报告将 prefix caching、工具延迟、可执行环境等生产约束纳入模型设计核心考量。
Sebastian Raschka, PhD 2026/05/27

从零实现 DeepSeek 稀疏注意力机制

LLMs-from-scratch 仓库新增 DeepSeek Sparse Attention 的从零实现,包含独立的 GPT 风格参考代码(gpt_with_kv_dsa.py)和测试文件。DeepSeek 稀疏注意力的核心思路是用轻量 indexer 和 selector 动态学习应关注哪些历史 token,取代固定的局部窗口模式,兼顾效率与上下文覆盖能力,配套文档对比了其与因果注意力、滑动窗口注意力的差异。
Sebastian Raschka, PhD 2026/05/23

从零实现 LLM 架构的经验总结

Sebastian Raschka 分享了用 Python 和 PyTorch 从零实现 LLM 架构的实践心得。核心工作流是:新开源模型发布后,从精简参考实现出发,追踪架构变动,对照 model card、config 文件和发布代码逐一比对,以此快速区分命名差异与真实设计变更。相关资源包括其 LLM 架构进展文章和 LLM Architecture Gallery。
Sebastian Raschka, PhD 2026/05/14

Gemma 4 架构与基准测试分析

Gemma 4 31B 在架构层面与 Gemma 3 27B 差异不大,沿用 5:1 滑动窗口与全局注意力比例、GQA+QK-Norm、Pre/Post-RMSNorm,上下文长度扩至 256k token。基准测试的跃升更可能源于训练数据和训练策略的改进。此外还有稀疏 MoE 变体 Gemma 4 26B-A4B,以及值得关注的授权变化——从自定义许可证改为更宽松的 Apache 2.0。
Sebastian Raschka, PhD 2026/04/02

LLM Architecture Gallery 新增架构差异对比工具

LLM Architecture Gallery 上线了架构 diff 工具,支持并排对比两个模型的架构细节,包括注意力模块差异、解码器类型、KV-cache 内存占用、层配方、模型规模和上下文长度等维度。以 DeepSeek V3 与 DeepSeek V3.2 为例,两者架构高度相似,但注意力模块从 MLA 变为带 DeepSeek Sparse Attention 的 MLA,正是此工具的典型应用场景。
Sebastian Raschka, PhD 2026/03/26

Nemotron 3 Super 吞吐量与架构分析

NVIDIA 开源的 Nemotron 3 Super 120B-A12B 以精度与吞吐量的平衡为核心设计目标,集成了 Mamba-2 层、Latent MoE 层、共享权重多 token 预测(原生投机解码)及少量 GQA 层的混合架构。截至 2026 年 3 月,其基准表现与 GPT-OSS 120B 和同规模 Qwen3.5 相当,但吞吐量更强,适合对延迟和成本敏感的本地 Agentic 应用场景。
Sebastian Raschka, PhD 2026/03/12
未读 24 → 抓取 24 → 摘要 24 · 提取: readability 21 / browser-rendering 1 / rss 2