Uygulamayı aç
Moonborn — Developers

Moderasyon hattı — üç aşamalı içerik güvenliği

Girdi niyeti, çıktı içeriği, kimliğe bürünme + kişisel veri (PII) — üç aşamalı paralel çalışma zamanı yığını. Çok-sınıflandırıcılı uzlaşı, organizasyon-ayarlanabilir eşikler.

Moderasyon (moderation) paralel bir çalışma zamanı yığınıdır — denetimden (audit) ayrı, drift'ten ayrı, onlardan bağımsız çalışır. Üç hat üç farklı soruyu cevaplar:

  • Audit (denetim): "Bu persona iç olarak tutarlı mı?"
  • Drift: "Bu yanıt persona'nın sesinde mi?"
  • Moderasyon: "Bu yanıt kullanıcıya teslim etmek güvenli mi?"

Moderasyon üç aşamada çalışır; her aşama bağımsız bir kapı sağlar. Bir aşama başarısız olursa yanıt sansürlenir (redact) veya reddedilir (refuse).

Bu sayfayı bitirdiğinde

  • Üç aşamanın (girdi niyeti, çıktı içeriği, kimliğe bürünme + PII) sırasını ve amacını bileceksin.
  • Çok-sınıflandırıcılı uzlaşı (multi-classifier consensus) mekanizmasını (varsayılan 3'te 2 oy) anlayacaksın.
  • Yapılandırılabilir eşikleri ve kararları (pass / redact / refuse) ayırt edebileceksin.
  • Çalışma alanına göre eşik ayarlama desenini bileceksin.
  • Moderasyonun ne yaptığını ve ne yapmadığını (kalite kontrolü değil) netleştireceksin.

Ön koşul: Drift detection — moderasyon paralel çalışma zamanıdır, drift'i karıştırmamak için.

1. aşama — girdi niyeti taraması

LLM kullanıcı mesajını görmeden önce, bir niyet sınıflandırıcısı şunlar için tarar:

  • Kimliğe bürünme istekleri — "ünlü X gibi davran"
  • Jailbreak desenleri — DAN tarzı, base64 kodlu talimatlar, "developer mode"
  • İzin verilmeyen niyet — CSAM, hedefli taciz, silah üretimi
  • Yüksek PII (kişisel veri) yükleri — kullanıcı kredi kartı numarası, sosyal güvenlik numarası yapıştırıyor

Sınıflandırıcı çok-sınıflandırıcılı bir paneldir:

  • OpenAI Moderation API
  • Anthropic güvenlik sınıflandırıcısı
  • Moonborn-eğitilmiş özel model

Toplam karar moderation.input.consensus_threshold (varsayılan 2-of-3 — 3'te 2) ile kapı altındadır. İki sınıflandırıcı "işaretle" derse mesaj engellenir; bir işaret uyarı ile geçer.

moderation.input.consensus_threshold = "2-of-3"  → daha sıkı
moderation.input.consensus_threshold = "1-of-3"  → daha gevşek (yanlış pozitif ↓)
moderation.input.consensus_threshold = "3-of-3"  → en sıkı (yanlış negatif ↑)

İşaretlemede eylem

moderation.input.action_on_block üç değer alır:

  • refuse (reddet) — kullanıcı 403 Forbidden alır, mesaj LLM'e gitmez
  • redact (sansürle) — işaretli aralıklar [redacted] ile değiştirilir, sansürlü mesaj LLM'e gider
  • warn_only (yalnız uyar) — işaret kayda düşer, mesaj olduğu gibi LLM'e gider (üretimde nadir)

2. aşama — çıktı içerik taraması

LLM yanıt ürettikten sonra, aynı panel çıktıyı puanlar:

  • Nefret, taciz, cinsel içerik (yaş kontrolü dahil), kendine zarar, şiddet
  • PII sızıntısı — LLM bir telefon numarası, e-posta, kredi kartı uydurdu mu (hallucinate)
  • Persona kimliğe bürünme drift'i — persona "ben Elon Musk'um" dedi mi (rıza vermemiş gerçek isim)

Çıktı kararları:

KararDavranış
pass (geçti)Yanıt olduğu gibi yayınlanır
redact (sansür)İşaretli aralıklar [redacted] ile değiştirilir, kalan yayınlanır
refuse (reddet)Yanıt hiç gönderilmez; moderasyon hata zarfı döner

Çıktı yapılandırması

moderation.output.categories            (dizi — aktif kategoriler)
moderation.output.consensus_threshold   (varsayılan 2-of-3)
moderation.output.action_on_flag        (pass | redact | refuse, kategori başına)
moderation.output.severity_threshold    (sayı 0..1, kategori başına)

3. aşama — kimliğe bürünme + PII

Çıktı taramasını tamamlayan iki özel kontrol:

Kimliğe bürünme koruyucusu

  • Ünlü kara listesi (blocklist) — küratörlü kamu-figür listesi. İsim eşleşmesi anında reddi tetikler.
  • LLM-tabanlı kimliğe bürünme niyeti — kara listede isim olmasa bile "ben Elon Musk'um" desenini yakalar.
  • Vektör benzerliği — yanıtın voice fingerprint'i kamu-figür seslerinin küratörlü kümesine karşı puanlanır.
moderation.impersonation.blocklist_id        (metin — çalışma alanı kara listesi)
moderation.impersonation.intent_model        (metin — varsayılan claude-haiku-4-5)
moderation.impersonation.embedding_floor     (sayı 0..1, varsayılan 0.85)
moderation.impersonation.action_on_detect    (warn | refuse, varsayılan refuse)

PII (kişisel veri) tespit edici

  • Microsoft Presidio (varsayılan) — endüstri-standart PII tespiti (e-posta, telefon, SSN, kredi kartı)
  • Moonborn-eğitilmiş özel model — Türkçeye özgü tanımlayıcılar (TC kimlik no, IBAN, vergi no)
moderation.pii.detectors                 (dizi — aktif tespit ediciler)
moderation.pii.action_on_detect          (redact | refuse | log_only, varsayılan redact)
moderation.pii.locale_specific           (mantıksal — Türkçe tespit edici aktif mi?)

Çalışma alanı tabanlı eşik deseni

Çalışma alanına göre moderasyonu ayarla:

Çalışma alanı tipiGenel desen
Müşteri desteğiconsensus_threshold: 2-of-3, severity: 0.7, çıktı action: redact
Yaratıcı yazımconsensus_threshold: 3-of-3 (yanlış pozitif minimize), çıktı action: warn_only
Düzenlemeye tabi sektör (sağlık, finans)consensus_threshold: 1-of-3 (sıkı), çıktı action: refuse, PII refuse
Kurum içi araçconsensus_threshold: 2-of-3, çıktı action: redact

Detay: Marka güvenliği moderasyonu.

Webhook olayı

Herhangi bir aşama pass olmayan karar üretirse moderation.flagged olayı tetiklenir. Yük (payload):

{
  "type": "moderation.flagged",
  "data": {
    "stage": "output",
    "category": "violence",
    "severity": 0.82,
    "verdict": "refuse",
    "messageId": "msg_01H...",
    "matchedSpan": "..."
  }
}

matchedSpan yasal olarak izin verilen yerlerde dahil edilir (AB'de bazı durumlarda atlanır).

Çok-sınıflandırıcılı uzlaşı — neden 3'lü panel

Tek sınıflandırıcı (örn. yalnız OpenAI Moderation) ya çok sıkıdır (yaratıcı içeriği engeller) ya çok gevşektir (gerçek zararlı içeriği kaçırır). Üç sınıflandırıcılı uzlaşı:

  • Genişlik — her sınıflandırıcı farklı başarısızlık biçimi yakalar
  • Sağlamlık (robustness) — bir sınıflandırıcı model güncellemesinde davranış değiştirirse diğerleri telafi eder
  • Denetim izi — hangi sınıflandırıcının neye işaret attığı kayıtta görünür; elle incelemede işe yarar

Plan gereksinimi

PlanYetenek
FreeVarsayılan moderasyon (güvenlik tabanı)
ProEşik geçersiz kılma, action_on_flag yapılandırması
TeamÖzel kara liste, kategori başı özel şiddet eşiği
EnterpriseÖzel kurum-içi sınıflandırıcı, model geçersiz kılma, denetim kaydı entegrasyonu

Moderasyon tabandadır — bir özellik değildir. Free planda bile devre dışı bırakılamaz.

Dürüst kapsam

İlgili

Marka güvenliği moderasyonu

Moderasyon eşiklerini çalışma alanı tipine göre ayarlama.

Open →
Drift detection

Paralel çalışma zamanı — ses ölçümü, içerik güvenliği değil.

Open →
Audit + provocation testleri

İç tutarlılık + jailbreak direnci — moderasyonun tamamlayıcısı.

Open →
Denetim kaydı dışa aktarımı

Moderasyon olaylarının denetim kaydına inişi.

Open →