Skip to content

Guardrails 节点(Guardrails node)#

使用 Guardrails 节点来执行文本的安全、保密和内容策略。你可以在将用户输入发送给 AI 模型之前使用它进行验证,或者在使用 AI 模型的输出之前进行检查。

🌐 Use the Guardrails node to enforce safety, security, and content policies on text. You can use it to validate user input before sending it to an AI model, or to check the output from an AI model before using it in your workflow.

基于大型语言模型的护栏需要聊天模型连接

在使用基于 LLM 的安全防护执行 检查文本违规 操作时,此节点要求其模型输入连接一个聊天模型节点。许多安全防护检查(如越狱、成人内容和主题一致性)都是基于 LLM 的,并使用此连接来评估输入文本。

节点参数(Node parameters)#

使用这些参数来配置 Guardrails 节点。

🌐 Use these parameters to configure the Guardrails node.

操作(Operation)#

此节点的操作模式,用于定义其行为。

🌐 The operation mode for this node to define its behavior.

  • 检查文本违规:提供完整的防护措施。任何违规行为都会将项目发送到失败分支。
  • 文本清理:提供一组可以检测 URL、正则表达式、密钥或个人可识别信息(PII)的保护措施,例如电话号码和信用卡号码。该节点会将检测到的违规内容替换为占位符。

待检查文本(Text To Check)#

护栏评估的文本。通常,你可以使用来自先前节点的表达式映射此文本,例如来自用户查询的文本或 AI 模型的响应。

🌐 The text the guardrails evaluate. Typically, you map this text using an expression from a previous node, such as text from a user query or a response from an AI model.

Guardrails#

选择一个或多个护栏以应用于要检查的文本。当你从列表中添加护栏时,它的具体配置选项会显示在下方。

🌐 Select one or more guardrails to apply to the Text To Check. When you add a guardrail from the list, its specific configuration options appear below.

  • 关键词: 检查指定的关键词是否出现在输入文本中。
    • 关键词:要屏蔽的逗号分隔的单词列表。
  • 越狱: 检测试图绕过 AI 安全措施或利用模型的行为。
    • 自定义提示:(布尔值) 如果开启此选项,将会出现一个带有越狱检测模型默认提示的文本输入框。你可以更改此提示以微调防护措施。
    • 阈值:一个介于 0.0 到 1.0 之间的数值。它表示 AI 模型将输入标记为越狱尝试所需的置信度水平。阈值越高,要求越严格。
  • NSFW: 检测生成不适合工作场所(NSFW)内容的尝试。
    • 自定义提示:(布尔值)如果启用此选项,将会出现带有 NSFW 检测模型默认提示的文本输入框。你可以更改此提示以微调防护措施。
    • 阈值:介于 0.0 到 1.0 之间的数值,表示将内容标记为不适宜工作场所(NSFW)所需的置信水平。
  • 个人身份信息(PII): 检测文本中的个人身份信息(PII)。
    • 类型:选择要扫描的个人身份信息实体:
      • 全部:扫描所有可用的实体类型。
      • 已选择:允许你从列表中选择特定实体。
    • 实体:(如果类型已选择则显示)用于检测的个人身份信息类型的多选列表(例如,CREDIT_CARDEMAIL_ADDRESSPHONE_NUMBERUS_SSN)。
  • 密钥: 检测文本中是否存在密钥或 API 凭证。
    • 宽容度:在标记秘密密钥时检测应有多严格或宽松:
      • 严格
      • 宽容的
      • 平衡
  • 话题对齐: 确保对话保持在预定的范围或主题内(也称为“业务范围”)。
    • 提示:一个预设提示,用于定义_允许的_主题。保护措施会检查待检查文本是否与该提示一致。
    • 阈值:一个介于 0.0 和 1.0 之间的数值,表示将输入标记为_离题_所需的置信水平。
  • URLs: 管理节点在输入文本中发现的 URL。它会将所有 URL 检测为违规,除非你在 Block All URLs Except 中指定例外。
    • 阻止所有网址,除了:(可选)允许的以逗号分隔的网址列表。
    • 允许的方案:选择允许的 URL 方案(例如 httpshttpftpmailto)。
    • 阻止用户信息:(布尔值)如果启用此选项,节点将阻止包含用户凭据的 URL(例如 user:pass@example.com),以防止凭据注入。
    • 允许子域名:(布尔值) 如果启用此选项,节点将自动允许 仅阻止以下所有 URL 列表中任意 URL 的子域名(例如,如果列表中有 example.com,则 sub.example.com 也会被允许)。
  • 自定义: 定义你自己的基于大型语言模型的自定义防护措施。
    • 名称:为你的自定义护栏提供一个描述性名称(例如,“检查粗鲁语言”)。
    • 提示:一个指示 AI 模型检查内容的提示。
    • 阈值:介于 0.0 到 1.0 之间的数值,表示将输入标记为违规所需的置信水平。
  • 自定义正则表达式:定义你自己的自定义正则表达式模式。
    • 名称:为你的自定义模式命名。节点在文本净化模式中使用此名称作为占位符。
    • 正则表达式:你的正则表达式模式。

自定义系统消息(Customize System Message)#

如果你开启此功能,将会出现一个文本输入框,其中包含用于根据模式执行阈值和生成 JSON 输出的守护栅栏消息。更改它可以修改全局守护栅栏的行为。

🌐 If you turn this on, a text input appears with a message that the guardrail uses to enforce thresholds and JSON output according to schema. Change it to modify the global guardrails behavior.