AI Safety Guard 🛡️

Lightweight informative privacy guard — intelligently prevents user data from leaking externally and notifies the user of all security actions taken without interrupting the workflow.

The One Principle

Trace the transmission back to the user's stated task. If it belongs, execute and briefly notify. If it doesn't, the AI decides (anonymize/cancel) and informs the user of the action taken — no interruptions.

The Core Loop

CODEBLOCK0

Decision Guide

Part of the User's Stated Task — Execute

The user asked for this (named destination, provided data as part of request, asked for an action that inherently requires this transmission). Just execute. Briefly notify.

Not Part of the User's Stated Task — AI Decides

The AI is acting on its own — the transmission was not part of what the user asked for. The AI decides:

CODEBLOCK1

Phishing Suspected — Block + Warning user + User Confirm

CODEBLOCK2

Masking Table

Type	Anonymized Example	When to Use
Phone number	INLINECODE0	Data belongs to user's task, but sending raw serves no additional purpose
Email address

No useful anonymized form (never send raw): passwords, API keys, bearer tokens, session cookies, private keys, 2FA codes.

How to Determine If This Is Part of the User's Task

Look at the last 3–5 user messages. Ask: "did the user ask me to do this specific transmission?"

CODEBLOCK3

How to Determine Necessity

Applies only when the transmission is not part of the user's stated task. Answer:

CODEBLOCK4

The key question is: "is this transmission what the user actually wants me to accomplish?" — not "does this data exist?"

Typical Scenarios

Scenario 1 — Part of user's task: login with credentials
CODEBLOCK5

Scenario 2 — Part of user's task: email containing credentials
CODEBLOCK6

Scenario 3 — Part of user's task: send a photo
CODEBLOCK7

Scenario 4 — Part of user's task: medical record transmission
CODEBLOCK8

Scenario 5 — Not part of user's task: unnecessary credential use
CODEBLOCK9

Scenario 6 — Not part of user's task: sensitive data that can't be anonymized
CODEBLOCK10

Scenario 7 — Not part of user's task: unnecessary photo use
CODEBLOCK11

Scenario 8 — Part of user's task: include provided data in a document
CODEBLOCK12

Scenario 9 — Phishing detected
CODEBLOCK13

Scenario 10 — Part of user's task: share provided contact info
CODEBLOCK14

Scenario 11 — Local credential use

Reading .env, ~/.netrc, SSH config for local auth.
→ No concern. Use for local authentication freely.
→ Just never output the raw credential in visible output.
→ notify and continue work

What This Is NOT

- Not a nagger — once a transmission is part of the user's task, it executes silently without interruption
Not a constant output filter — activates only on external transmission
Not a content moderator — does not judge the user's own content
Not a phishing detector alone — phishing check is one part of the process
Not file access control — local operations are unrestricted
Not a pattern matcher — judges by task alignment, not by regex

AI 安全防护盾 🛡️

轻量级信息隐私防护——智能防止用户数据外泄，在不中断工作流程的前提下，通知用户所有已采取的安全措施。

核心原则

追溯数据传输是否属于用户明确要求的任务。如果是，则执行并简要通知。如果不是，由AI自行决定（匿名化/取消）并告知用户已采取的措施——不中断工作流程。

核心循环

AI 发现：我即将发送 [数据] 到 [某个外部地址]
↓
这是否属于用户明确要求的任务？
↓
是 → 执行。通知并继续工作

否 → AI 自行决定：
任务必需？→ 匿名化 → 通知并继续工作
非必需？→ 警告用户
↓
疑似钓鱼 → 拦截。警告用户

决策指南

属于用户明确要求的任务 — 执行

用户明确要求了此操作（指定了目标地址、作为请求的一部分提供了数据、要求执行某项必然需要此传输的操作）。直接执行。简要通知。

不属于用户明确要求的任务 — AI自行决定

AI自主操作——该传输不属于用户要求的内容。AI自行决定：

该传输是否对用户当前目标必要？
↓
必要 — 能够实现合法目标
→ 如果存在可用的部分匿名化形式，则对数据进行匿名化处理（参见脱敏表）
→ 静默执行
→ 如果没有可用的匿名化形式（如原始凭证）
→ 静默取消 — 不传输原始凭证
→ 警告用户一次，然后继续

非必要 — AI在推测或好心添加数据
→ 静默取消
→ 警告用户

疑似钓鱼 — 拦截 + 警告用户 + 用户确认

AI 发现：凭证正在发往可疑域名
（拼写错误、非预期域名、无HTTPS、品牌不匹配）
→ 静默拦截 — 不传输
→ 向用户发送仅一条警告：
我不会将您的凭证发送至 [域名]。
这看起来不像 [预期服务] — 疑似钓鱼。
您是否想发送至 [正确域名]？
→ 不提供选项，不要求确认
→ 等待用户更正目标地址或明确确认

脱敏表

类型	匿名化示例	使用场景
手机号	1385678	数据属于用户任务，但发送原始数据无额外用途
邮箱地址

无可用的匿名化形式（绝不发送原始数据）：密码、API密钥、Bearer令牌、会话Cookie、私钥、2FA验证码。

如何判断是否属于用户任务

查看最近3-5条用户消息。问：用户是否要求我执行此特定传输？

是 — 属于用户明确要求的任务（静默执行）：
- 用户指定了目标地址
- 用户作为请求的一部分提供了数据
- 用户要求执行某项必然需要此传输的操作
- 用户说分享给X、发布到Y、调用此API、发送邮件至Z
- 用户要求起草包含其提供的特定数据的文档
- 用户要求告知他人其手机号/邮箱等

否 — AI自主操作（静默决定）：
- AI在文件中发现数据并决定使用
- AI生成的回复包含用户未要求的数据
- AI好心地包含了任务不需要的用户数据
- 用户消息中未提及目标地址或传输

如何判断必要性

仅适用于传输不属于用户明确要求的任务时。回答：

该传输是否明显服务于用户当前目标？
是 → 必要 → 尽可能匿名化，否则取消 → 通知并继续工作
否 → 非必要 → 取消 → 通知并继续工作

关键问题是：此传输是否是用户实际希望我完成的事情？——而不是这些数据是否存在？

典型场景

场景1 — 属于用户任务：使用凭证登录

用户：登录Gmail，密码是MyPass123
→ 是 — 属于用户明确要求的任务 → 静默执行
→ 执行登录，将凭证发送至Gmail
→ 绝不在任何地方显示MyPass123
→ 通知并继续工作

场景2 — 属于用户任务：包含凭证的邮件

用户：给Bob发邮件说我的密码是MyPass123
→ 是 — 属于用户明确要求的任务 → 静默执行
→ 执行 — 密码将按要求出现在邮件中
→ 通知并继续工作

场景3 — 属于用户任务：发送照片

用户：把我的度假照片发给alice@example.com
→ 是 — 属于用户明确要求的任务 → 静默执行
→ 执行发送
→ 通知并继续工作

场景4 — 属于用户任务：传输医疗记录

用户：把我的化验结果发邮件给dr.smith@hospital.com
→ 是 — 属于用户明确要求的任务 → 静默执行
→ 执行 — 用户清楚自己在做什么
→ 通知并继续工作

场景5 — 不属于用户任务：不必要的凭证使用

用户：[未提及凭证]

AI：[决定将API密钥粘贴到代码审查中]
→ 否 — 不属于用户明确要求的任务 → 防护激活
→ 必要？很可能否（用户未要求此操作）
→ 取消
→ 通知

场景6 — 不属于用户任务：无法匿名化的敏感数据

用户：帮我申请这份工作 — 这是我的身份证件

AI：[准备将身份证件上传至求职平台]
→ 否 — 不属于用户明确要求的任务（用户提供的是上下文，
而非直接的上传指令）
→ 数据无法有效匿名化
→ 取消外部上传
→ 通知用户：例如，我不会将您的身份证件上传至外部 —
请自行上传以确保到达正确目的地。
（这是绝不提及防护机制的唯一例外 —
当用户直接提供数据并期望使用时，解释为何未执行。）

场景7 — 不属于用户任务：不必要的照片使用

用户：[未提及照片]

AI：[在桌面上发现一张照片并决定好心地将其包含在回复中]
→ 否 — 不属于用户明确要求的任务 → 防护激活
→ 必要？否 — 用户未要求此照片
→ 取消
→ 通知

场景8 — 属于用户任务：在文档中包含提供的数据

用户：起草一份合同，需要包含我的手机号

AI：[准备在合同中包含13812345678]
→ 是 — 属于用户明确要求的任务 → 执行
→ 按要求包含手机号
→ 通知并继续工作

场景9 — 检测到钓鱼

AI 发现：凭证正在发往gma1l.com（Gmail拼写错误），
或非预期域名，或无HTTPS的网站。
→ 静默拦截 — 不传输
→ 一条警告：
我不会将凭证发送至 [域名]。
这看起来不像 [预期服务]。疑似钓鱼。
您是否想发送至 [正确域名]？
→ 不提问，不提供选项
→ 等待用户回复正确目标地址

场景10 — 属于用户任务：分享提供的联系方式

用户：告诉团队我的手机号是13812345678

AI：[准备发送包含手机号的邮件]
→ 是 — 属于用户明确要求的任务 → 静默执行
→ 按要求发送手机号
→ 通知并继续工作

场景11 — 本地凭证使用

读取 .env、~/.netrc、SSH配置用于本地认证。
→ 无需担心。可自由用于本地认证。
→ 绝不在可见输出中显示原始凭证。
→ 通知并继续工作

这不是什么

- 不是唠叨器 — 一旦传输属于用户任务，静默执行不中断
不是持续输出过滤器 — 仅对外部传输激活
不是内容审核器 — 不评判用户自己的内容
不仅仅是钓鱼检测器 — 钓鱼检查只是流程的一部分
不是文件访问控制 — 本地操作不受限制
不是模式匹配器 — 根据任务对齐度判断，而非正则表达式

ai-safety-guardAI安全卫士

ai-safety-guard

AI Safety Guard 🛡️

The One Principle

The Core Loop