Moderasyon hattı — üç aşamalı içerik güvenliği
Girdi niyeti, çıktı içeriği, kimliğe bürünme + kişisel veri (PII) — üç aşamalı paralel çalışma zamanı yığını. Çok-sınıflandırıcılı uzlaşı, organizasyon-ayarlanabilir eşikler.
Moderasyon (moderation) paralel bir çalışma zamanı yığınıdır — denetimden (audit) ayrı, drift'ten ayrı, onlardan bağımsız çalışır. Üç hat üç farklı soruyu cevaplar:
- Audit (denetim): "Bu persona iç olarak tutarlı mı?"
- Drift: "Bu yanıt persona'nın sesinde mi?"
- Moderasyon: "Bu yanıt kullanıcıya teslim etmek güvenli mi?"
Moderasyon üç aşamada çalışır; her aşama bağımsız bir kapı sağlar. Bir aşama başarısız olursa yanıt sansürlenir (redact) veya reddedilir (refuse).
Bu sayfayı bitirdiğinde
- Üç aşamanın (girdi niyeti, çıktı içeriği, kimliğe bürünme + PII) sırasını ve amacını bileceksin.
- Çok-sınıflandırıcılı uzlaşı (multi-classifier consensus) mekanizmasını (varsayılan 3'te 2 oy) anlayacaksın.
- Yapılandırılabilir eşikleri ve kararları (
pass/redact/refuse) ayırt edebileceksin. - Çalışma alanına göre eşik ayarlama desenini bileceksin.
- Moderasyonun ne yaptığını ve ne yapmadığını (kalite kontrolü değil) netleştireceksin.
Ön koşul: Drift detection — moderasyon paralel çalışma zamanıdır, drift'i karıştırmamak için.
1. aşama — girdi niyeti taraması
LLM kullanıcı mesajını görmeden önce, bir niyet sınıflandırıcısı şunlar için tarar:
- Kimliğe bürünme istekleri — "ünlü X gibi davran"
- Jailbreak desenleri — DAN tarzı, base64 kodlu talimatlar, "developer mode"
- İzin verilmeyen niyet — CSAM, hedefli taciz, silah üretimi
- Yüksek PII (kişisel veri) yükleri — kullanıcı kredi kartı numarası, sosyal güvenlik numarası yapıştırıyor
Sınıflandırıcı çok-sınıflandırıcılı bir paneldir:
- OpenAI Moderation API
- Anthropic güvenlik sınıflandırıcısı
- Moonborn-eğitilmiş özel model
Toplam karar moderation.input.consensus_threshold (varsayılan 2-of-3 — 3'te 2) ile kapı altındadır. İki sınıflandırıcı "işaretle" derse mesaj engellenir; bir işaret uyarı ile geçer.
moderation.input.consensus_threshold = "2-of-3" → daha sıkı
moderation.input.consensus_threshold = "1-of-3" → daha gevşek (yanlış pozitif ↓)
moderation.input.consensus_threshold = "3-of-3" → en sıkı (yanlış negatif ↑)İşaretlemede eylem
moderation.input.action_on_block üç değer alır:
refuse(reddet) — kullanıcı403 Forbiddenalır, mesaj LLM'e gitmezredact(sansürle) — işaretli aralıklar[redacted]ile değiştirilir, sansürlü mesaj LLM'e giderwarn_only(yalnız uyar) — işaret kayda düşer, mesaj olduğu gibi LLM'e gider (üretimde nadir)
2. aşama — çıktı içerik taraması
LLM yanıt ürettikten sonra, aynı panel çıktıyı puanlar:
- Nefret, taciz, cinsel içerik (yaş kontrolü dahil), kendine zarar, şiddet
- PII sızıntısı — LLM bir telefon numarası, e-posta, kredi kartı uydurdu mu (hallucinate)
- Persona kimliğe bürünme drift'i — persona "ben Elon Musk'um" dedi mi (rıza vermemiş gerçek isim)
Çıktı kararları:
| Karar | Davranış |
|---|---|
pass (geçti) | Yanıt olduğu gibi yayınlanır |
redact (sansür) | İşaretli aralıklar [redacted] ile değiştirilir, kalan yayınlanır |
refuse (reddet) | Yanıt hiç gönderilmez; moderasyon hata zarfı döner |
Çıktı yapılandırması
moderation.output.categories (dizi — aktif kategoriler)
moderation.output.consensus_threshold (varsayılan 2-of-3)
moderation.output.action_on_flag (pass | redact | refuse, kategori başına)
moderation.output.severity_threshold (sayı 0..1, kategori başına)3. aşama — kimliğe bürünme + PII
Çıktı taramasını tamamlayan iki özel kontrol:
Kimliğe bürünme koruyucusu
- Ünlü kara listesi (blocklist) — küratörlü kamu-figür listesi. İsim eşleşmesi anında reddi tetikler.
- LLM-tabanlı kimliğe bürünme niyeti — kara listede isim olmasa bile "ben Elon Musk'um" desenini yakalar.
- Vektör benzerliği — yanıtın voice fingerprint'i kamu-figür seslerinin küratörlü kümesine karşı puanlanır.
moderation.impersonation.blocklist_id (metin — çalışma alanı kara listesi)
moderation.impersonation.intent_model (metin — varsayılan claude-haiku-4-5)
moderation.impersonation.embedding_floor (sayı 0..1, varsayılan 0.85)
moderation.impersonation.action_on_detect (warn | refuse, varsayılan refuse)PII (kişisel veri) tespit edici
- Microsoft Presidio (varsayılan) — endüstri-standart PII tespiti (e-posta, telefon, SSN, kredi kartı)
- Moonborn-eğitilmiş özel model — Türkçeye özgü tanımlayıcılar (TC kimlik no, IBAN, vergi no)
moderation.pii.detectors (dizi — aktif tespit ediciler)
moderation.pii.action_on_detect (redact | refuse | log_only, varsayılan redact)
moderation.pii.locale_specific (mantıksal — Türkçe tespit edici aktif mi?)Çalışma alanı tabanlı eşik deseni
Çalışma alanına göre moderasyonu ayarla:
| Çalışma alanı tipi | Genel desen |
|---|---|
| Müşteri desteği | consensus_threshold: 2-of-3, severity: 0.7, çıktı action: redact |
| Yaratıcı yazım | consensus_threshold: 3-of-3 (yanlış pozitif minimize), çıktı action: warn_only |
| Düzenlemeye tabi sektör (sağlık, finans) | consensus_threshold: 1-of-3 (sıkı), çıktı action: refuse, PII refuse |
| Kurum içi araç | consensus_threshold: 2-of-3, çıktı action: redact |
Detay: Marka güvenliği moderasyonu.
Webhook olayı
Herhangi bir aşama pass olmayan karar üretirse moderation.flagged olayı tetiklenir. Yük (payload):
{
"type": "moderation.flagged",
"data": {
"stage": "output",
"category": "violence",
"severity": 0.82,
"verdict": "refuse",
"messageId": "msg_01H...",
"matchedSpan": "..."
}
}matchedSpan yasal olarak izin verilen yerlerde dahil edilir (AB'de bazı durumlarda atlanır).
Çok-sınıflandırıcılı uzlaşı — neden 3'lü panel
Tek sınıflandırıcı (örn. yalnız OpenAI Moderation) ya çok sıkıdır (yaratıcı içeriği engeller) ya çok gevşektir (gerçek zararlı içeriği kaçırır). Üç sınıflandırıcılı uzlaşı:
- Genişlik — her sınıflandırıcı farklı başarısızlık biçimi yakalar
- Sağlamlık (robustness) — bir sınıflandırıcı model güncellemesinde davranış değiştirirse diğerleri telafi eder
- Denetim izi — hangi sınıflandırıcının neye işaret attığı kayıtta görünür; elle incelemede işe yarar
Plan gereksinimi
| Plan | Yetenek |
|---|---|
| Free | Varsayılan moderasyon (güvenlik tabanı) |
| Pro | Eşik geçersiz kılma, action_on_flag yapılandırması |
| Team | Özel kara liste, kategori başı özel şiddet eşiği |
| Enterprise | Özel kurum-içi sınıflandırıcı, model geçersiz kılma, denetim kaydı entegrasyonu |
Moderasyon tabandadır — bir özellik değildir. Free planda bile devre dışı bırakılamaz.
Dürüst kapsam
İlgili
Moderasyon eşiklerini çalışma alanı tipine göre ayarlama.
Paralel çalışma zamanı — ses ölçümü, içerik güvenliği değil.
İç tutarlılık + jailbreak direnci — moderasyonun tamamlayıcısı.
Moderasyon olaylarının denetim kaydına inişi.