A-A+

Deepfakes

2022年09月14日业界资讯暂无评论阅读 579 次

Deepfakes，姿势检测和“看见相信”的死亡

我们说眼见为实，但实际上，我们相信比看到更好。事实上，我们一直在看到我们所相信的东西，偶尔会看到我们无法相信的东西。
- 罗伯特安东威尔逊

如果更改图像，则更改历史记录。
- Hany Farid

介绍

照片处理，甚至视频素材操作的想法并不是什么新鲜事。在阿甘正传中，汤姆汉克斯在总统被暗杀31年后与总统约翰肯尼迪会面。在1999年的电影“ eXistenZ”中，两个角色穿过虚拟现实的各个层面，失去了区分游戏中的内容和不区分内容的能力。今天，仅仅是电影想象与现实之间的差距比以往任何时候都要窄。

照片和素材可以将对象剪切并粘贴到其中或移除; 面孔可以互换; 音频可以替换; 拍摄图像或素材的时间和地点可以看起来像是完全来自另一个时间或地点。在过去，可靠的照片编辑需要高水平的技能，这是一个耗时的过程，但“技术正在民主化”，几乎任何有足够时间，耐心和电力的人都可以在他们的家里做到这一点。电脑。从“深刻的伪造”中讲述一段真实的视频已经很难了，这种差距每天都在缩小。这给政府实体带来了重大问题，政府实体不仅对新技术反应迟钝，而且在国际法律公约的回应水平上也受到限制。

什么是Deepfake以及它是如何工作的？

深度视频是一种视频，其中人工智能（AI）用于替换电影胶片中的一个或多个面部，声音甚至身体移动，具有所需的替代方案，称为“目标替换”。此过程主要是自动化的，仅需要基本编码技巧。一个假设的deepfake创建者有几个选项可以从哪里下载免费软件，它可以作为AI的训练算法。训练算法将告诉AI不仅如何替换或交换面部，而且还告诉AI图像的哪个部分是面部，如何调整在视频内围绕框架移动的面部，以及如何解决一些问题模糊的图像。目前，最新的之一是通过GitHub提供的DeepFaceLab程序。FaceSwap和FaceIt是其他免费提供的选项。

deepfake程序在许多操作系统上运行，包括Windows，Linux和MacOS，免责声明“现代[图形处理单元或”GPU“]与CUDA [（计算统一设备架构）]支持”是最好的“性能。“Reddit用户”derpfakes“建议，在创建深度伪造的YouTube教程中，创作者使用的是Nvidia GPU，这款产品的商用价格低至沃尔玛88.69美元。

一旦创建者下载了该软件，除了下载页面上提供的指导设置之外，还有许多YouTube教程可用于如何入门。首先，必须将许多照片或来自可用视频的静止帧加载到两个数据集文件中。一组告诉程序哪个面是目标，另一个是目标将替换的面。根据所得到的视频的长度，面部角度的数量和拍摄类型（宽，近距离等），将需要不同数量的照片用于目标，但是可以使用as作为相当令人信服的深度伪装。很少有300张图片。

最简单的选择是将替换目标的视频镜头加载到程序中，该程序将自动将帧提取到图像中。如果视频的标准帧速率为每秒24帧，则每分钟的素材将在提取后生成1,440个静止帧图像。鉴于合理假货只需要300张图像，每分钟的标准视频片段几乎提供了必要数据的三倍。较新的视频标准每秒可支持多达300帧，即每分钟18,000帧，这使得创建公共数据的深度非常容易。或者，面部发现程序可以“自动[下载]来自Google的训练图像”和“[服务]作为网络引擎，以在用户定义的图像数据集上执行面部搜索。”一旦下载，

将两个数据集加载到程序文件后，可以开始自动化培训过程。对于具有良好数据集的较短视频，此过程可在48至72小时内完成。处理完数据集后，下一步就是在两个数据集上运行程序的面部提取部分。面部提取告诉AI准确地要替换每个图像的哪些元素。

在训练期间，AI从面部提取元件创建目标面部的面罩。然后将这个蒙版锚定到被替换的面上的几个点，以模仿用于好莱坞大片电影的动作捕捉和CGI效果的方法。培训完成后，批处理文件将在程序的另一个子部分内转换为可用的合并帧，可以重新组合成新的deepfake视频。对于没有时间或倾向于提取自己数据的用户，可以在线获得一些面部集，包括Elon Musk，Nicolas Cage和Vladimir Putin。

已经有不同的训练模型可用于不同类型的镜头。H64“非常适合作为演示的直面”，H128也是如此，H128提供“更高的分辨率和细节。”LIAE模型“可以部分修复不同的脸部形状，但会导致脸部识别不太清晰。”截至2019年初，最好的免费培训模式是灵活的SAE，它结合了所有其他模型。不同的型号根据可用的VRAM（计算机显示卡中使用的RAM类型）提供不同的选项，允许具有不同系统的最终用户获得可比较的结果。

一旦模型被训练，实际上只有创造者的想象力来限制可能性。Deepfakes不再局限于现有视频的假货。Detector-Pose软件创建一个所需身体动作的线框，并将其渲染成一个新视频，同步目标身体以匹配这些动作。与像ImageNet这样的系统相结合，这个系统“汇集了大约一千四百万张普通场所和物体的照片。。。发布到Flickr，eBay和其他网站，“完全有可能在一个人从未去过的地方创建一个人在做或说出创作者想要的任何东西的视频。“这种无趣的巨大档案使合成现实主义的新水平成为可能。”

还有另一个程序可以拍摄某人的静止图像，并让该人看起来与某些提供的音频同步。该方法不需要在特定目标面或语音上进行AI训练，并且能够实时运行。用于同步音频和视频的另一选项是称为“Out of Time”的程序，其声称“[移除]视频中的音频和视觉流之间的时间滞后”和“[确定]在视频中的多个面部之间说话的人。 “Adobe的Project Voco可以允许更好地伪造声乐录音，或者与Lyrebird这样的程序相结合，用于创建虚假对话。如果目标是创建一个看似逼真的对话，

新兴的在线市场

如果一个系统无法运行该程序，或者用户没有Python编程技能来自己创建一个deepfake，那么很容易找到愿意创建一个人的在线人员。虽然公共在线空间中的许多创作者只愿意为另一个人制作一个名人的喜剧替代品，但要找到愿意制作不那么美味的视频的人并不难。有针对deepfake创作者的Reddit论坛和私人Discord服务器，有近2,000名用户订阅了“安全工作”的深度Reddit页面。

在论坛之外，一些深陷创作者已开始通过各种网站以最低费用提供服务。Derpfakes有一个Patreon.com个人资料，用户可以在这里提供一定的月度金额以换取奖励等级。这些奖励等级包括教程，动手辅助，预制面部或数据集，甚至每月的深度创作。在另一个“演出”网站上，Derpfakes使用至少100张照片，以20美元的价格提供长达一分钟的个性化深度假设。Patreon.com profile，用户可以保证每月的金额以换取奖励等级。这些奖励等级包括教程，动手辅助，预制面部或数据集，甚至每月的深度创作。在另一个“演出”网站上，Derpfakes使用至少100张照片，以20美元的价格提供长达一分钟的个性化深度假设。

虽然互联网用户Derpfakes的工作是由美国有线电视新闻网，英国广播公司和其他各种新闻媒体推出的，但其他人提供相同价格的相同服务，没有尊重的外表。一位用户提供30美元的deepfake创作，对视频长度没有限制。10美元，另一位用户将把一个人的脸放入Shia LaBeouf“Do It”视频中。取决于期望的最终结果，以及一个人必须花多少钱，很明显有很多创作者愿意为他们制作。

Deepfake技术的下一阶段

就像政府和学术界开发技术来检测深度伪造并保护机器学习以达到有益目的一样快，另一方也可以快速开发出更复杂的假货来避免这种检测。“虽然许多操纵是良性的，为了娱乐或艺术价值而进行，但其他操纵用于对抗目的，例如宣传或误传活动。”由于俄罗斯干预2016年选举的指控仍未得到解决，在此期间深陷技术的发展铸就了即将到来的2020年选举的阴影。

这场军备竞赛的下一个阶段是实时深度探测的发展。研究人员开发了一种自动编码器神经结构，它通过转换第一个人脸部的“代码”并将其转换为第二人脸的实时输出来工作。用于实时假冒的AI培训的初始步骤与更“传统”的深度假法相同。通过48小时的培训，程序员能够通过简单的网络摄像头在实时视频会议中获得John Oliver的实时渲染视频。虽然最终视频中仍有明显的“关闭”质量，但该节目的特定版本已经有近一年的历史了。古老的尖端技术。结合Adobe Project Voco或Lyrebird，可以与任何公众人物进行“实时”视频会议，

虽然没有广为人知，或者至少没有广泛宣传，但有一套免费的深度技术软件称为“姿势检测”。姿势检测软件将特定数据点与各种关节和身体部位配对，以创建线框木偶，然后可以用来控制视频中人的身体动作。姿势检测技术程序OpenPose也可免费下载，其中30人或更少的图像的运行时间不到3秒。这意味着姿势估计软件适用于实时视频，并且可以与简单的网络摄像头一起使用。YouTube上的一个例子使用希拉里克林顿和唐纳德特朗普之间辩论的镜头，但是应用舞蹈视频中的姿势模型，在两个候选人之间创造一个相当现实的“舞蹈之战”。用于已发布示例的GPU可以699美元的价格在市场上买到。该程序是“第一个用于多人2D姿态检测的开源[实时]系统”，开发人员已经发布了该软件的几个更新，以提高准确性和实用性。

其他姿势检测软件可用，更有限的模型为只有某种镜头的视频提供更好的结果。类似于用于创建深度伪造的公开可用的面部集合数据，已经开发并且发布用于跟踪视频中的上半身的软件模型作为姿势检测算法的训练模型。由于大多数新闻广播仅显示各种名人，政治家和记者的上半部分，具有仅在必要的上半部分训练算法的高级能力，可能会缩短新闻广播中姿势检测的渲染时间，从而加快创作速度。伪造的视频。由于大量的镜头可供大众记者使用，将Anderson Cooper这样的人编入虚假新闻报道的深刻报道中会很简单。

一篇文章推测随着智能手机技术的发展和GPU功能的智能手机的开发，理论上在未来，这项技术可以由任何拥有足够强大手机的人运行。智能手机已经能够通过神经网络对照片进行数字处理，iPhone的“肖像模式”就是一个很好的例子。在将当前的OpenPose软件转换为智能手机可以运行的格式方面已经取得了进展。另一种可以通过智能手机进行深度创建的替代方案是开发外包技术，这些技术允许程序通过具有比用户自己的系统更强大的GPU的中央服务器进行处理。

这些技术可以进一步与现有的凝视跟踪技术相结合，以确保假人在人们的眼睛需要关注或花费最多时间的区域中最有说服力。Visage Technologies提供面部跟踪和分析程序，并声称其“易于使用的API”可以“轻松地将眼睛和凝视跟踪技术集成到任何应用程序中。”如果一个深陷的创建者知道某人在寻找时会集中注意力在深陷的时候，创造者知道哪个区域花费最多的努力来获得更有说服力的整体结果。

检测和打击Deepfakes

无论是否意识到，每天的人们也在探测和深度创造者之间的军备竞赛中做出贡献。通过将假期快照上传到公共Instagram帐户，或者使用像Ganbreeder这样的网站，每个互联网用户都在为数据集和神经网络的培训做出贡献。每天有超过300,000,000张照片上传到Facebook，每分钟有46,740张照片上传到Instagram，假货看起来如此逼真也就不足为奇了。

一些公司正试图阻止其产品的使用。Lyrebird的既定目标之一是提高公众对其AI语音替换技术的可用性的认识，以确保其仅用于道德目的。在发布初期，这种特殊使用的深度伪装最初爆炸性增长后，深度伪造的Reddit页面禁止在色情视频中未经同意使用身体部位。这些努力如何影响技术的实际用途还有待观察。

学术界和政府研究人员是反对深陷创造者的军备竞赛中的主要战斗人员。研究负责人Hany Farid表示，他们并不是试图“赢得”这场比赛，而只是试图让它成为普通人无法创造出一种逃脱检测的令人信服的假货。DARPA的计划MediFor（代表Media Forensics）试图“开发用于自动评估图像或视频完整性的技术，并将这些技术集成到端到端媒体取证平台中。”两种早期公知的最佳方法2019年包括放大人脸的色彩饱和度，以显示心跳的微小时间变化，并追踪不自然的眨眼量。另一种检测方法可追踪微小的颜色变化，称为“色差，

关于如何阻止深度伪造潮流的一个可能现实的建议，至少在很小程度上，将删除公众人物的公开上传的面部集。例如，通过提供弗拉基米尔·普京（Vladimir Putin）的现成面部装置，大约一半的创建深度伪装的工作由在线数据库提供。在理论上，如果为目标设定的面部是另一个公开可用的数据集，那么在理论上，时间可能会缩短到12小时。随着在线新闻周期的速度和病毒媒体的强大，一个令人信服的伪造视频可以被数百万人看到并被认为是虚假的。

为了在数字媒体中保持一定的准确性，像Truepic这样的新公司已经开始出现。使用“专利的受控捕获技术和图像取证工具，Truepic旨在提供可验证的数字图像和视频。”该公司使用区块链技术作为此过程的一部分，理论上检查特定文件的每次访问的准确性，并记录每个验证的数据指出链条的一部分。但是，可以欺骗区块链验证检查或欺骗它接受错误数据。确定的媒体操纵器至少在理论上可以获得经验证的更改图像，即使区块链安全措施到位也是如此。即使使用区块链验证，图像的元数据是否准确也不太可能影响其对普通观众的影响。

与法律相比，打击深度伪造的一个主要困难是技术发展的速度。在试图应对快速发展的技术问题时，法律通常太慢而无法转变并面对威胁。在使用深度伪造来影响选举或洞察广泛恐慌的情况下，军队可能是最合适的响应者，但根据国际法律惯例，其可能采取的回应受到限制。不太清楚的是，如果私人公民对前合伙人或私人雇主造成了声誉受损，那么谁应该做出回应。许多地方执法部门无法处理此类案件，FBI等国家执法机构不太可能处理这些事实。

Deepfakes的法律问题

每个人都知道在拥挤的剧院里喊“火！”是危险的，互联网是世界上最大，最拥挤的剧院。在线发布的信息没有集中的事实核查权限，病毒媒体可以在一天内被观看数百万次。对新闻周期的信任和媒体近年来已经受到严重侵蚀，随着深层次的激增，这个问题可能会升级。“在没有商定的现实的情况下，解决国家和全球问题的努力将陷入不必要的困境。。。问题。“事实验证将成为一个艰难，乏味的过程，任何观点都有多个”可信“的来源，而且普通公民陷入了大量矛盾的故事。

政治并不是唯一可能引起重大动荡的社会舞台。根据深陷的内容，像2008年的崩溃这样的另一场金融危机很容易引发。误导或不正确的新闻报道已经导致股市下跌和飙升。完全合理的做法是，一种深刻的伪造会放大市场上的这些影响，特别是如果与其他市场新闻一起发布，或者在股票价格已经不稳定的时候。

恐怖组织广泛使用社交媒体作为招聘工具。从逻辑上讲，他们将采用深层伪造作为这些努力的一部分，并将制造材料以进一步激化其成员对抗西方。对于仍然在阿富汗的地面部队，这可能会产生致命的后果。由于深刻的假设允许更有说服力和更有魅力的宣传，从美国境内招募的恐怖主义努力也可能增加，造成一种几乎无法追踪的嵌入式危险。这场长距离转换的影响已经在2015年的San Bernardino大规模射击和2016年的奥兰多夜总会射击中占据了主场。

这种社交媒体策略的使用也意味着恐怖组织拥有所需的镜头和图像集来创建高级别成员的深度伪造。如果西方情报部队无法发现视频被伪造，那么生命可能会成为不必要任务的一部分。此外，报告的部队活动的可信度可能受到攻击，恐怖分子发布声称显示西方部队已杀死或俘获的目标的视频。

Deepfake创作者

联邦政府对深度技术和创造者所带来的风险并不是无动于衷。DARPA计划之一MediFor的目标是追踪深度创造者，并通过归因，尝试并发现为什么某个特定的创造者做出了某种深刻的伪造。私营公司也试图限制机器人和宣传材料的传播，结果好坏参半。

即使在检测到深度伪造仍然存在许多问题。那些将其视为合法视频的人可能看不到或不相信有关它被伪造的声明。此外，即使当局能够追踪特定的深度伪造者，也存在对该人提出的指控（如果有的话）的问题。从技术上讲，创建大多数深度犯罪并不构成犯罪，除非它们被归类为诽谤，或者在具有相关法规的司法管辖区被视为“复仇色情”。

除了特定的创造者能够或不能被指控之外，在法庭上迅速出现的一个重要问题是深刻见证对证据的影响。一般而言，根据FRE规则801，计算机不是声明者，计算机生成的记录不被排除在传闻之外。在针对深度伪造者的案件中，控方试图引入的任何计算机记录可能需要进一步的认证和基础支持才能作为证据。

这不是影响理论试验的唯一领域。如果一个深陷的创作者改变了监控录像或匿名发布虚假的在线犯罪镜头，这可能会导致审判期间的严重问题。在大多数情况下，计算机生成的证据被认为是自我认证的，可以将虚假视频引入证据，并对陪审团的判决产生重大影响。由于许多公司在过时的，因此易受攻击的系统上运行，因此构建犯罪人员的深陷创建者很可能在伪造电子证据方面遇到很少的障碍。

使用deepfake来构建某人的想法不仅仅是猜测。一位南卡罗来纳州的女性制作了一个视频，以回应她在推广一本书时的服务在线请求，然后该视频被用来暗示她参与加拿大炭疽病的恶作剧。加拿大警方不相信这个视频，但如果他们有，南卡罗来纳州的女性可能会面临83项与假性炭疽包和多次假炸弹威胁相关的指控。

如果一个深陷的创造者在美国以外的地方，问题会变得更加复杂，特别是如果该创作者位于欧盟。“一般数据保护条例”（GDPR）第一条“保护欧盟公民的个人数据的基本权利和自由”。根据GDPR第4条，任何控制，分析或处理包含个人身份信息的数据的实体均受本法规的隐私要求的约束，并且根据第2条，任何包含个人姓名或识别信息的文件通常都包含在内。通过GDPR保护。第6条和第7条有额外的同意和同意证明要求，包括同意控制人使用个人数据。

如果创建deepfake所涉及的数据位于欧洲，那么GDPR很有可能使访问该数据具有挑战性，特别是如果可以通过它确定数据的所有者。虽然第2条确实限制了GDPR的实质范围，但声明该条例不适用于“由主管当局处理......调查，......或起诉刑事犯罪”的个人数据，这可以回到这一问题的背后。一个深陷的创造者可能被指控。

隐私问题不仅限于国际创作者。第四修正案保障个人“论文和效果”中的隐私，判例法将此保护应用于个人数据。Riley诉加利福尼亚州， 573 US 373（2014），明确将第四修正案保护应用于手机数据，重点关注个人数据隐私期望的合理性。暂不考虑哪些刑事指控适用于一个深陷伪造者，第四修正案下的手令要求将是任何可能起诉的另一个必要障碍。

对于位于美国境内的创作者，还有第一修正案的表达自由考虑因素。在更多创意使用的情况下，并且可能在一些非同意的用例中，可能会认为深度伪造受到保护。一些深刻的伪装是模仿或其他变革性作品，受第一修正案和版权法的特别保护。但是，如果“伪造”是指“煽动或制造迫在眉睫的无法无天的行动并可能煽动或制造此类行为”，那么它就不会受到第一修正案的保护。

如果无法找到创建者，那么托管这个虚假网站的在线平台会被起诉吗？在圣贝纳迪诺和奥兰多袭击之后，受害者的家属就是这样做的。Twitter定期暂停涉嫌发布某些恐怖主义内容的帐户，但也经常无法阻止其他呼吁暴力的帐户。不幸的是，对于受害者的家庭而言，由于社交媒体帐户在发布之前没有主机网站对其进行编辑而发布内容，因此主机不会对该内容承担责任。如果没有明确的联邦制裁来传播这类内容，公司将继续声称他们正在尽最大努力禁止它，而不是真正确保将其从平台上移除。只要该公司举行禁止某些帐户的节目，

国家安全问题

传播宣传，即使是一个主权国家为了另一个主权国家的利益而进行宣传，也不构成武装攻击或使用武力，可以通过相应的反应攻击轻易或简单地作出反应。相反，网络攻击往往落在干扰和干预之间的阴暗区域，假设它们完全属于主权行动的框架内。如果可以明确地发现一个国家已经部署了一个深刻的伪造，那么可能会被视为干涉，而且反应将仅限于反措施。

这并不是说任何级别的干扰都是无害的。众所周知，美国本身将宣传作为国际运动的一部分，以促进美国在国外的利益，往往效果显着。今天，宣传和虚假信息的传播往往无法追溯到国家行为者，而是将调查人员引向平民和其他私人行为者。“现代互联网的结构......创造了尽可能多地传播虚假新闻的动力，不是通过有议程的外国国家的集中努力，而是通过提供轻松赚钱的机会。”很容易理解为什么看到美国所使用的宣传策略如此有效地转变将使政府更加关注，特别是如此高的部分归因于私人行为者。

结论

在电影eXistenZ中，其中一个人物说：“我们在这个未知的世界里磕磕绊绊，他们的规则和目标在很大程度上是未知的，看似难以理解，甚至可能不存在，总是处于被我们不理解的力量杀害的边缘。 “虽然单独使用深渊不可能杀死任何人，但这句话的其余部分以令人担忧的有先见之明的方式适用。深度伪造和相关技术的世界正在快速增长，普通人越来越不可能将伪造的视频与真实的视频区分开来。“规则”基于用户计算机可以完成的任务。deepfake创作者的“目标”是他们自己的，并且在深度伪造发布到网络之前基本上是不可知的。即使在出版后，

一方面，对于曾经仅限于大预算的好莱坞电影公司的各种技术，存在许多娱乐和无害的用途。另一方面，让普通公民随时可以使用它们开辟了一个可能滥用的全新世界。专家们担心，在一个没有人信任媒体的世界里，真正的危险会成为合理的否定之一，任何人都能否认录音是准确的。特别是在政治舞台上，以不当行为指控为特征的攻击广告可以用伪造的镜头进行篡改，或者对手可以否认可信的指控。

目前的法律制度无法有效处理这种深刻的威胁。其平台托管用户内容的社交媒体公司受法定保护免受责任。需要对第一修正案对在线空间的言论自由保护的应用进行新的评估，因为这可能是在越来越多的新闻在线传播的时候保持信息完整性的最有效方式。

拥有更广泛的用户使用深度技术也可以隐藏那些将其用于“坏”目的的人。深度伪造的创造者只会因为使用它而变得更加匿名，特别是如果该技术被完全转化为通过智能手机使用。即使政府能够继续开发新的检测方法，任何创造者都会越来越不可能被捕或被指控犯有任何刑事罪，假设可以找到一个被认为适用的人。由于美国政府自己的宣传策略遭到国际行为者的反对，很明显，需要尽快对这种新兴技术做出反应。

原文：这里

浩然东方

浩然东方关注微信、android、IOs、app 致力于服务端数据优化、分析、智能