medium 2026-06-12

Douyin Launches AI Anti-Cyberbullying Agent

抖音上线AI反网暴Agent

观察者网 guancha
Douyin has introduced an AI-powered anti-cyberbullying agent that combines detection and assessment models with human review to proactively identify and mitigate online harassment, including disguised forms such as sarcastic memes and homophonic attacks. The system also optimizes outreach and protection mechanisms, resulting in a 91.5% increase in daily identification of potential victims and a 147% rise in assisted cases.
Document Text 1,073 characters
6月12日,观察者网从抖音方面获悉,针对网络暴力呈现的新形态,抖音近日推出了AI反网暴行动,上线AI反网暴Agent,让网暴识别模型、研判模型与人工协同工作。 <br> 此外,抖音还优化了外呼救助机制,覆盖风险发现、事件研判、主动治理到外呼救助,建立起早干预、早保护的治理体系。 <br> 数据显示,系统升级后,平台日均识别出的潜在被网暴风险人群扩大91.5%,每天有数千名用户收到预警后主动开启防网暴功能,因风险等级高而被人工外呼援助的受害者数量增长147%。 <br> 据悉,抖音此次上线AI反网暴Agent,是因为如今的网暴早已不是直白的辱骂,更多是表情包阴阳怪气、谐音梗攻击、断章取义带节奏,这些隐蔽的恶意很难被传统审核识别。 <br> 传统“人工审核+举报处置”治理策略已难以适配复杂的网络生态:一方面,依赖用户举报,往往等处理时,伤害已经造成;另一方面,常规审核只能筛查数天内的内容,容易遗漏持续时间长、跨热点周期的攻击,也无法兼顾未成年人、老年人等不同群体的心理承受能力。 <br> AI反网暴Agent可以让网暴识别模型与研判模型同时工作,在一些风险发酵的早期就捕捉到用户的求助“信号”。其中,网暴识别模型不再只盯着单条评论的关键词,而是会关注用户的整体互动情况。 <br> 当评论区突然涌入大量负面言论、有人频繁访问某个人的主页、@某账号的异常信息增多时,系统就会开始计算“网暴风险得分”。并且,AI会全天候复盘误判案例,自主学习新的网暴手段,包括刚流行起来的新梗攻击。 <br> 网暴研判模型则会从事件维度展开全局分析,整合用户近30天内的文字、图片、视频、音频等互动数据,还原完整的事件脉络,区分正常的观点讨论和恶意攻击,避免误判影响用户的正常交流。 <br> 针对未成年人、老年人等特殊群体,模型还设置了梯度化识别标准,适当提高风险敏感度。同时,模型会输出包含事件经过、风险来源、关键证据的结论,让人工研判专家能更快了解情况,及时开展外呼救助。 <br> 比如:低风险用户只会收到App端内提醒,一键就能开启一键防护等;如果风险较高,或是属于特殊保护群体,平台会通过智能外呼联系用户,安排专人一对一提供帮助。 <br> 对于施暴者,平台则会根据情节轻重采取梯度化处置,包括下架违规内容、限制互动功能、永久封禁账号等措施。对于跨账号持续骚扰、情节恶劣的行为,会酌情升级处置;涉嫌违法犯罪的,将主动配合公安机关提供相关证据,依法追究法律责任。 <br> 抖音相关负责人表示,网络生态治理是一项长期且复杂的工作,没有一劳永逸的解决方案。平台将持续迭代AI反网暴系统的技术能力,提升主动保护效果。
Topics
artificial intelligence cyberbullying online governance
Metadata
Publisher 观察者网
Site guancha
Date 2026-06-12
Category report
Policy Area 网络治理
CMS Category 媒体报道