引言
2026年5月,复旦大学社会学副教授沈奕斐在镜头前平静却难掩疲惫地坦言:她因一场免费的家庭教育直播连麦,被一位小学生家长持续举报长达两个月,几近“被逼疯”。事件的起因并不复杂——一位母亲在直播中哭诉孩子遭遇“校园霸凌”,沈教授依据专业判断,认为所描述的情形不符合校园欺凌的认定标准,并指出家长可能存在“受害者逻辑”。直播结束后,沈教授团队对连麦内容进行变声处理后发布公益科普切片。然而,该家长认为变声后的声音仍可被识别,以“侵犯名誉权、隐私权”为由,向平台及沈教授所在单位反复投诉举报。
这一事件迅速引发舆论热议,争议焦点直指声音权保护的核心难题:经过变声处理的声音,是否仍受法律保护?一方认为,只要声音能够被特定人群识别,就应属于声音权范畴;另一方主张,彻底的变声处理已使声音丧失可识别性,且基于公益目的的使用不构成侵权。
类似争议并非孤例。2023年,B站上涌现大量“AI孙燕姿”合成的翻唱视频——UP主用AI技术模仿孙燕姿的音色演唱其他歌曲,播放量高达百万,引发“AI合成声音是否侵犯声音权”的全民讨论;同年,某直播平台也发生过主播将连麦观众的声音变声处理后剪辑发布,观众以“变声后仍能被亲友识别”为由起诉侵权的案件。技术发展使得声音的录制、篡改、合成变得轻而易举,而法律的回应却常常滞后。2021年《民法典》虽首次将声音权纳入人格权保护范畴,并确立“参照肖像权保护”的规则,但实践中,“可识别性”如何判断、变声处理后是否仍受保护、合理使用的边界在哪里,仍缺乏明确的裁判指引。
本文聚焦声音权法律规定与司法实践,重点剖析“可识别性”的核心地位与适用规则。通过分析相关典型案例,解读声音权的法律基础、可识别性判断标准及裁判逻辑,探讨当前保护困境并提出完善路径,以推动数字时代人格权保护体系的完善。
一、声音权的法律基础:《民法典》框架下的界定与保护逻辑
(一)《民法典》确立:参照肖像权保护
在2021年《民法典》施行前,我国法律未将声音明确列为独立的人格权,声音侵权案件多依附于肖像权、名誉权或《反不正当竞争法》寻求救济,保护路径零散且不确定。《民法典》第一千零二十三条第二款的出台填补了这一空白:“对自然人声音的保护,参照适用肖像权保护的有关规定。”
这一规定完成了两项法律使命:第一,确认声音为独立的人格权,与肖像、姓名并列,任何自然人的声音都受法律保护,无论其是否为公众人物;第二,为声音权保护提供了成熟的法律参照系,肖像权保护中的“可识别性”标准、合理使用规则、侵权责任承担方式等,均可类推适用于声音权。
(二)声音权的核心保护内容:专属关联性的保护
声音权的核心保护内容,是自然人对自身声音的支配、控制及排除他人侵害的权利,其本质是保护声音与特定自然人的专属关联性。具体而言,声音权的保护内容主要包括以下几个方面:
第一,声音的支配权。自然人有权决定自己的声音是否被使用、如何被使用,包括是否允许他人录制、传播、修改自己的声音,以及使用声音的范围、方式、期限等。例如,自然人可以许可他人将自己的声音用于商业广告、影视配音、音频节目等,也可以拒绝他人未经许可使用自己的声音。这种支配权是声音权最核心的内容,体现了自然人对自身人格利益的自主处分。
第二,声音的控制权。自然人有权对自己的声音进行保护,防止他人擅自篡改、丑化、歪曲自己的声音,确保声音的完整性和真实性。例如,他人未经许可,将自然人的声音进行恶意变声、剪辑,导致声音失去原有特征,或者将声音用于低俗、违法的场景,损害自然人的人格尊严,均属于侵犯声音权的行为。
第三,排除侵害权。当自然人的声音权受到侵害时,有权请求侵权人停止侵害、排除妨碍、消除影响、恢复名誉、赔礼道歉,并赔偿相应的损失。这一权利是声音权保护的重要保障,能够为权利人提供有效的法律救济,弥补侵权行为造成的损害。
需要明确的是,声音权的保护范围涵盖声音的所有独特特征,包括音色、语调、发音风格、语言习惯、口音等。这些特征共同构成了自然人声音的独特性,使得声音能够与特定自然人建立专属关联。例如,配音演员的声音具有独特的音色和发音风格,能够被公众清晰识别,其声音就具有较高的商业价值和人格价值,应当受到法律的严格保护;普通人的声音虽然商业价值较低,但同样具有专属关联性,未经许可擅自使用,也可能构成侵权。
(三)典型案例:AI合成声音也受保护
殷某桢诉北京某智能科技公司等人格权纠纷案被誉为“国内AI声音侵权第一案”,由北京互联网法院在2023年审理并判决。原告殷某桢是一名专业配音演员,其声音具有较高辨识度。被告公司利用AI技术,对殷某桢的原始声音进行学习、合成,生成与殷某桢声音高度相似的AI语音包,用于其开发的智能阅读软件中,未获得殷某桢授权。法院经当庭勘验,认定被告合成的AI声音与殷某桢的原始声音在音色、语调、发音风格上高度一致,普通听众能够识别出该声音指向殷某桢,因此具有可识别性。被告未经许可,擅自使用原告声音进行AI合成并用于商业用途,构成对声音权的侵害,法院最终判令被告停止侵权、赔礼道歉并赔偿损失。
该案明确了两项重要规则:第一,AI合成声音只要具有可识别性,同样受声音权保护,技术手段不能成为侵权的“避风港”;第二,声音权的侵权不以“完全复制原始声音”为前提,只要能指向特定人,即便经过技术加工,仍可构成侵权。这一裁判规则,直接回应了沈奕斐教授事件中的核心争议:变声处理后的声音是否受保护?关键就看变声后还能不能让人听出来是谁。
二、可识别性——声音权保护的关键判断标准
(一)可识别性的司法判断标准
“可识别性”作为声音权保护的核心标准,其判断在司法实践中并非凭直觉,而是有相对明确的考量维度。综合近年典型案例,法院通常会从以下几个角度进行审查。
首先是声音本身的独特性程度。配音演员、主持人、歌手等公众人物的声音往往具有鲜明的音色、语调特征,能被广泛公众识别,其可识别性自然较高;而普通人的声音独特性相对较弱,可能只有亲友、同事等特定范围内的人能识别,但这并不意味着普通人的声音不受保护,只要在特定范围内能够被识别,同样具有可识别性。
其次是技术处理的程度。声音经过变声、剪辑等技术处理后,其可识别性会随之变化。轻微变调、局部剪辑但保留核心听觉特征的,仍可能具有可识别性;而彻底改变音色、调整为机械音或卡通音且无任何辅助信息的,则可能丧失可识别性。
再次是辅助信息的存在。即使声音本身经过一定处理,但如果发布时附有权利人的姓名、肖像、文字说明,或者发布渠道与权利人存在明确关联(如官方账号发布),那么公众仍然可以将该声音与特定自然人联系起来,此时声音仍具有可识别性。
最后是判断主体的范围。法院通常以“一般公众”或“特定范围内的相关公众”(如粉丝、亲友)的认知水平为准,而非专业技术人员。换句话说,普通人听不出来是谁,即便技术人员能通过频谱分析识别,法院也可能认定不具有可识别性。
这一判断逻辑在肖像权案件中已有成熟体现,并可类推适用于声音权。以熊某与重庆某有限公司肖像权纠纷案为例,被告擅自使用了熊某在小红书发布的肖像图片,但裁去了头部,仅保留了身体和服饰。被告辩称无头像无法识别,但法院认为,熊某作为拥有大量粉丝的网络博主,其发布的图片具有鲜明的场景、服饰、肢体动作等特征,熟悉她的粉丝及一般公众通过对比原始图片与使用图片,仍然能够识别出人物是熊某,因此认定图片具有可识别性,构成侵权。同理,在声音权案件中,即使声音被裁剪或轻微变调,只要结合其他特征仍能被特定人群识别,同样应认定具有可识别性。
(二)三种典型场景的裁判结论
基于上述判断维度,可以将司法实践中常见的声音使用场景归纳为三种类型,并得出相应的裁判结论。
第一种场景:原始声音、轻微变声或高精度AI合成声音,具有可识别性受到法律的保护,未经许可使用即构成侵权。前文所述殷某桢案即为典型。此外,如果某主播将连麦观众的原始声音直接剪辑发布,或者仅做了音调微调但仍能被识别,未经观众同意,同样构成侵权。沈奕斐教授事件中,若法院经审理认定变声后的声音仍能指向该家长,则沈教授团队的行为就可能构成侵权;反之,若变声处理达到了任何人都听不出来是谁的程度,则不构成侵权。
第二种场景:彻底变声处理(如机械音、卡通音)且无任何辅助信息指向特定人,丧失可识别性,不受保护,使用不构成侵权。司法实践中,这类情形常通过类推肖像权案件中的“脱敏处理”规则进行判断。施某某等诉徐某某肖像权纠纷案即为适例。该案中,徐某某为保护未成年人施某某的利益、揭露可能存在的虐童行为,在微博上发布施某某受伤的照片,但对照片进行了模糊处理,使其丧失可识别性。法院认定其行为符合社会公共利益原则,不构成肖像权侵权。同理,若对声音进行彻底变声处理,使其无法指向任何特定人,且用于公益目的,则不构成声音权侵权。
第三种场景:虽具有可识别性,但属于法律规定的合理使用情形,不构成侵权。《民法典》参照肖像权合理使用的规定,列举了若干情形:为个人学习、艺术欣赏、课堂教学或科学研究,在必要范围内使用他人已公开的声音;为实施新闻报道,不可避免地使用他人声音;国家机关为依法履行职责在必要范围内使用;为展示特定公共环境,不可避免地使用;以及其他法定情形。例如,新闻媒体在暗访报道中,即使录入了某官员具有辨识度的声音,只要属于新闻报道的必要范围,仍可主张合理使用豁免。
综上,法院判断声音权侵权的核心逻辑可以概括为:先问是否可识别,再问是否有合理使用事由。若可识别性存在,则进入保护范畴;若可识别性丧失,则不受保护。即便具有可识别性,若属于新闻报道、公益目的等合理使用情形,也可免于侵权责任。这一裁判规则,既保护了自然人的人格尊严,也为技术发展与公共利益留下了空间。
三、声音权保护的现实困境与完善路径
尽管《民法典》确立了声音权的保护规则,明确了“可识别性”作为核心判断标准,且司法实践中已有诸多典型案例提供指引,但在数字技术快速发展的背景下,声音权的保护依然面临着诸多现实困境,这些困境既源于立法的不完善,也来自实践中的技术难题和认知偏差。唯有精准识别这些困境,针对性地提出完善路径,才能推动声音权保护体系不断健全,实现人格权保护与技术发展、社会公共利益的有机平衡。
(一)声音权保护面临的现实困境
1、立法层面:规则模糊,缺乏针对性细化规定
《民法典》仅用一条规定明确声音权参照肖像权保护,虽然确立了声音权的独立人格权地位,但相关规则过于原则化,缺乏针对性的细化规定,导致实践中诸多问题无法可依。一方面,“可识别性”的判断标准缺乏具体操作规范,虽然前文结合案例总结了判断因素,但立法层面并未明确可识别性的具体判断方法、举证责任分配等核心问题,容易出现同案不同判的现象。
另一方面,声音权的合理使用范围界定模糊。《民法典》参照肖像权的合理使用情形,规定了声音权的合理使用范围,但这些情形多针对传统场景,难以适应数字时代的新型传播形式。例如,AI合成声音的合理使用、公益传播中声音的脱敏处理边界、短视频创作中声音的合理引用等问题,立法均未作出明确规定,导致实践中很多行为处于“灰色地带”,既可能导致权利人的声音权被侵害,也可能过度限制内容创作者的合法权益。此外,声音权侵权的赔偿标准也缺乏明确规定,对于经济损失、精神损害赔偿的计算方法,立法未作出细化指引,导致法院在确定赔偿金额时,缺乏统一标准,赔偿金额差异较大,难以充分弥补权利人的损失。
2、实践层面:技术发展带来的侵权难题凸显
随着AI变声、声音合成、语音克隆等技术的快速发展,声音侵权的形式日益隐蔽、多样,给声音权的保护带来了巨大挑战。
首先AI技术导致侵权行为门槛降低、传播速度快。借助AI工具,普通人可以轻松合成、篡改他人声音,且合成声音的相似度越来越高,难以辨别真伪,侵权行为的实施成本极低;同时,互联网的传播特性使得侵权声音能够在短时间内广泛传播,造成的损害范围极大,且难以追溯侵权源头。例如,有人利用AI技术克隆公众人物的声音,用于网络诈骗、恶意调侃,不仅侵犯了公众人物的声音权,还可能危害社会秩序,但侵权人往往隐藏在网络背后,难以被发现和追责。
其次,声音侵权的取证难度大。声音作为一种无形的载体,具有易篡改、易灭失的特点,一旦被篡改、删除,很难留下原始证据;同时,对于AI合成声音与原始声音的相似度判断,需要专业的技术鉴定,而专业鉴定的成本较高、周期较长,很多权利人因无力承担鉴定费用,难以完成举证,导致侵权行为无法被认定。此外,对于变声处理后声音的可识别性判断,需要结合具体场景、特定人群的认知水平,举证难度较大,进一步增加了权利人的维权成本。
再次,公众对声音权的认知不足。很多人认为,声音是“无形的”,不属于受法律保护的权利,或者认为只有公众人物的声音才受保护,普通人的声音无需保护;还有人认为,未经许可使用他人声音,只要不用于营利,就不构成侵权。这种认知偏差导致声音侵权行为频发,且很多权利人在自身声音权被侵害后,不知道如何维权,进一步加剧了声音权保护的困境。
3、司法层面:裁判标准不统一,维权效率偏低
尽管司法实践中已有诸多典型案例,但由于立法规则的模糊性,不同法院在审理声音权侵权案件时,对“可识别性”的判断标准、合理使用的边界、侵权责任的承担等问题,存在不同的理解和裁判思路,导致同案不同判的现象较为突出。例如,对于AI合成声音的可识别性判断,有的法院以“普通人能否识别”为标准,有的法院则以“专业技术鉴定相似度”为标准,裁判标准的不统一,不仅影响了司法公信力,也给当事人的维权带来了不确定性。
同时,声音权侵权案件的维权效率偏低。一方面,此类案件多涉及技术问题,审理周期较长,需要专业的技术鉴定作为支撑,进一步延长了审理时间;另一方面,侵权行为的传播范围广、侵权主体隐蔽,权利人需要花费大量的时间和精力取证、溯源,维权成本较高,很多权利人因难以承受维权成本,选择放弃维权,导致侵权行为无法得到有效规制。此外,对于网络平台的责任认定,立法未作出明确规定,导致网络平台在面对声音侵权行为时,往往采取消极应对的态度,未及时采取删除、下架等措施,进一步扩大了损害范围。
(二)声音权保护的完善路径
1、立法层面:细化规则,完善声音权保护的法律体系
针对立法层面的模糊性问题,应当进一步细化声音权保护的相关规则,构建完善的法律体系。首先,明确“可识别性”的具体判断标准和举证责任分配规则。立法应当结合声音的独特性、技术处理程度、辅助信息、判断主体等因素,明确可识别性的具体判断方法,例如,规定AI合成声音的可识别性判断,以“普通人在正常聆听情况下能否识别出指向特定自然人”为核心标准,同时明确专业技术鉴定的适用场景和程序;此外,明确举证责任分配,规定权利人应当举证证明声音具有可识别性、侵权行为存在,侵权人应当举证证明其行为属于合理使用或无过错,减轻权利人的举证负担。
其次,细化声音权的合理使用范围,适应数字时代的发展需求。立法应当结合AI技术、短视频、直播等新型传播形式,明确声音权合理使用的具体情形,例如,明确AI合成声音用于个人学习、公益传播且丧失可识别性的,属于合理使用;明确短视频创作中,合理引用他人已经公开且丧失可识别性的声音,不构成侵权;同时,明确合理使用的边界,防止滥用合理使用规则,侵害权利人的合法权益。
最后,明确声音权侵权的赔偿标准。立法应当细化经济损失、精神损害赔偿的计算方法,例如,规定经济损失可以根据侵权人的获利、权利人的实际损失、声音的商业价值等因素综合确定;精神损害赔偿应当根据侵权行为的情节、损害后果、侵权人的主观过错等因素确定,确保赔偿金额能够充分弥补权利人的损失,同时发挥赔偿的惩戒作用,遏制侵权行为的发生。此外,还可以引入惩罚性赔偿制度,对于恶意侵权、情节严重的行为,依法判令侵权人支付惩罚性赔偿金,加大侵权成本。
2、实践层面:强化技术监管,提升公众认知
针对技术发展带来的侵权难题,应当强化技术监管,同时提升公众对声音权的认知,形成全方位的保护体系。一方面,加强对AI变声、声音合成等技术的监管。相关部门应当出台技术监管规范,要求AI技术服务商落实主体责任,建立声音素材的授权审核机制,禁止未经授权使用他人声音进行AI合成;同时,推动声音识别、溯源技术的研发和应用,建立声音侵权溯源平台,实现对侵权声音的快速识别、溯源和处置,降低取证难度,提高维权效率。例如,建立AI合成声音备案制度,对用于商业用途的AI合成声音进行备案,便于后续监管和追责。
另一方面,加强声音权保护的普法宣传,提升公众认知。通过媒体、网络平台、社区宣传等多种形式,普及声音权的相关法律知识,明确声音权是自然人的合法权利,无论是否为公众人物,其声音都受法律保护;明确擅自使用、篡改、合成他人声音的行为属于侵权行为,需要承担相应的法律责任;同时,普及维权知识,告知权利人在声音权被侵害后,如何取证、维权,提升权利人的维权意识和能力。此外,引导内容创作者、网络平台树立合法使用声音的意识,规范自身行为,避免侵权。
3、司法层面:统一裁判标准,提升维权效率
针对司法层面的裁判标准不统一、维权效率偏低的问题,应当采取有效措施,统一裁判标准,提升维权效率。首先,加强案例指导,统一裁判思路。最高人民法院应当及时发布声音权侵权的典型案例,明确“可识别性”的判断标准、合理使用的边界、侵权责任的承担等核心问题,为各级法院提供裁判指引,减少同案不同判的现象;同时,建立案例数据库,供法官、律师、权利人参考,提升裁判的一致性和公正性。
其次,优化审理程序,提升维权效率。对于声音权侵权案件,法院应当简化审理流程,缩短审理周期;建立专业的技术鉴定机制,引入专业的声音鉴定机构,降低鉴定成本、缩短鉴定周期,为案件审理提供技术支撑;同时,推行小额诉讼程序,对于事实清楚、权利义务明确、争议不大的声音权侵权案件,适用小额诉讼程序,快速审结案件,提升维权效率。
最后,明确网络平台的责任,强化平台监管。立法应当明确网络平台在声音权保护中的责任,规定网络平台应当建立健全侵权投诉处理机制,及时处理权利人的投诉,采取删除、下架、屏蔽等措施,制止侵权行为的继续传播;对于明知或应知存在声音侵权行为,未采取有效措施的,应当承担连带责任。同时,加强对网络平台的监管,督促平台落实主体责任,规范声音内容的传播,从源头遏制侵权行为的发生。
结语
沈教授连麦事件的核心争议,说到底只有一个问题:变声后的声音,法律还认吗?答案不复杂——关键看“可识别性”。如果变声后仍能让人听出是谁,就受保护;如果彻底听不出来,就不构成侵权。无论是原始声音、AI合成声音,还是经过技术处理的声音,法律的天平只问一句:这声音,还能不能指向你?
本文从《民法典》第1023条出发,明确了声音权作为独立人格权的法律地位,并梳理了其核心保护内容——对声音的支配、控制与排除侵害。在此基础上,重点论证了“可识别性”的司法判断标准:法院通常会从声音独特性、技术处理程度、辅助信息、判断主体范围四个维度综合考量,并归纳出三种典型场景的裁判结论,即具有可识别性的声音受保护、彻底变声丧失可识别性的不受保护、符合合理使用情形的可豁免侵权。殷某桢案、熊某案、施某某案三个典型案例,分别从AI合成声音、辅助信息增强识别、脱敏处理不侵权等角度,佐证了这一裁判逻辑。
我们也看到,声音权保护仍面临立法规则模糊、技术侵权取证难、公众认知不足、裁判标准不统一等现实困境。对此,本文从立法细化、技术监管与司法统一三个层面提出了完善建议。
技术不会停下脚步,AI可以复制声音,却复制不了人格尊严。法律要做的,不是挡住技术的浪潮,而是在浪潮中划出一条清晰的底线:你的声音,只属于你。对权利人而言,维权要趁早、取证要规范;对内容创作者而言,最安全的做法永远是——要么取得授权,要么彻底脱敏。这,才是数字时代声音权保护应有的智慧与温度。




