
价值主张
制作有声读物的成本很高,因此自动化有声读物创建的吸引力很容易理解。传统的过程可能需要两个小时或更长时间在工作室完成一个小时,而有声读物的平均长度为八小时。成本中的一个重要因素是人才:有声读物每完成一小时 (PFH) 向品牌人才支付 1,0000 元或更多,加上工作室时间和后期制作,成本迅速攀升。
另一方面,以很成熟的acx为例
使用 Amazon/Audible 的 ACX(有声读物创作交换)创建的有声读物可以采用两种模式定价:版税分成或收费。有了版税份额,(通常是自行出版的)作者找到愿意在项目中投入时间和才能的配音演员,以换取大约 20% 的版税。直接费用可协商。
Findaway 是另一家采用 ACX 风格混合模式的公司,它指出“使用 Findaway Voices 创建的有声读物平均约有 50,000 个单词,成本在 1,000 到 2,000 美元之间。”
如果出版商能够摆脱“人才”并缩短漫长的制作周期,按下按钮,即刻有声读物,准备出售,那不是很好吗?对于较小的出版商和销量不大的作者来说,毫无疑问会是这样。以 500 美元制作有声读物怎么样?或更少?
自动化有声读物创作的价值主张是成本和便利性的结合,而便利性是简化和大大加快生产过程的结合。一些新的初创公司声称能够在几天甚至几小时内制作有声读物,而不是几个月。
数字语音技术
今天对支持 AI 的有声读物自动旁白的关注是由教 Siri 说话和 Alexa 听的相同技术促进的。嘿 Siri,你几乎单枪匹马地创造了对用户选择的人工声音的需求。
“在过去的几年里,文本到语音在变得更加人性化方面取得了一些非常好的突破,”VUX World 的创始人 Kane Simms 说。“你只需要听一些名人 Alexa 的声音,包括 Samuel L. Jackson、Shaquille O'Neal 和 Melissa McCarthy。”
数字语音音频下面是文本——文本转换为语音。Siri 知道一些东西,因为 Siri 正在阅读维基百科。Google 的助手可以轻松访问通过 Google Books 扫描和索引的数百万本书的文本。
文本到语音 (TTS) 会创建人工生成的音频,听起来像是一个人在说话。这方面的完美应用是智能手机上的语音机器人和家中的语音助手。圣杯是让他们的声音与人类的声音没有区别。而且不仅仅是一种声音,而且正如我们在 Siri 和 Google Assistant 中看到(和听到)的那样,多种声音。
以此为目标,使相同的技术适用于长音频,例如有声读物,似乎是合乎逻辑的下一步。问题在于,在播报天气时听起来栩栩如生的声音在经过一个小时的旁白后不一定听起来那么逼真。或者是吗?
“创造一种能够长时间吸引人类注意力的合成声音——这是一个相当大的挑战,”西姆斯说。“例如,有声读物叙述者阅读有声读物的方式与回答诸如‘现在几点了?’之类的简单问题的方式完全不同。在一本书中,你可能需要一个新闻阅读者的声音、一个激动的声音、一个悲伤的声音、一个缓慢的声音、一个快速的声音、一个高亢的声音,而你可能需要将所有这些都放在一个页面上。”
Project Voice 和 Digital Book World 的首席执行官 Bradley Metrock 有不同的看法。“对于目前的高端合成声音,95% 的人不会认识到它们是人工生成的,”他说。“在 12-24 个月内,它们将达到人类水平。”
什么样的书最好?
人们普遍认为,这种技术最适合叙事非小说类作品,节奏稳定。叙事很重要,因为更复杂的非小说类作品,有时插图繁多且充满图表和图表,对于当前这一代技术来说几乎不可能顺利处理。尽管如此,DeepZen 和 Scribe 这两家初创公司专门针对小说。
人才问题
演员是有声读物的核心;知名演员本身就很吸引人。录制令人愉悦的有声读物需要大量技巧。这不仅仅是大声朗读这本书,它本身也不像演戏。伟大的有声读物叙述者属于他们自己的一类。
该行业的专业人士由一个强大的工会 SAG-AFTRA(美国电视和广播艺术家联合会)代表,该工会将自己描述为“世界上最大的代表表演者和广播公司的工会”。该组织提供完整的工会福利:培训、保证最低录音费率以及健康和人寿保险。人工声音不需要这些好处。
工会对人工智能有两个担忧。一方面,用计算机化的声音代替现场演员对企业不利。人工智能克隆人类声音的能力也越来越大,这也是一个非常令人担忧的问题,声音所有者要么得不到足够的补偿,要么根本没有得到报酬。
当被问及人工智能如何影响对配音演员的需求时,一位工会代表回答说:“有声读物叙述是一种人类讲故事的事业,总的来说,讲述这些故事的出色专业人士对人与人之间的故事讲述有着强烈的感觉。但除此之外,他们希望确保他们得到公平的补偿,并且他们可以控制基于他们自己创建的数字化声音的使用。他们还希望他们的粉丝,即消费者,意识到他们正在购买一场非人类表演,而不是他们最喜欢的叙述者提供的表演。”
各个供应商大多不遗余力地向客户保证他们非常尊重人类叙述,同时致力于使真人成为有声读物创作中不必要的,或者至少是可选的组成部分。
谷歌能赢得这场比赛吗?
高质量的 TTS 是谷歌的圣杯,对大多数其他大型科技公司来说也是如此,包括亚马逊、苹果、Facebook、IBM 和微软。他们都将语音界面视为其软件平台未来的核心。虽然主要用例是语音助手,但这些不可避免地会演变成更丰富的语音挑战,例如阅读网站上的文章、为播客配音,然后同样不可避免地会出现视频或书籍长度的内容。
事实上,公司可以使用这些平台的一些底层技术以很少或免费的成本构建自己的 TTS 平台。新的人工智能公司 Speechki 就是这样建立的,这似乎是最有意义的——充分利用已有的东西,进一步增强它以满足长篇音频的要求,然后专注于书籍的特定需求出版商及其作者。
谷歌一直在推出大量与语音相关的软件、TTS、语音到文本(转录),以及最近推出的 Translatotron 2,它的语音到语音翻译 (S2ST) 软件,它结合了多种音频技术:语音识别、机器翻译,以及翻译文本的外语语音合成。
去年秋天,Google 介绍了一项名为“使用机器学习将 PDF 转换为有声读物”的实验(可以在 Google Cloud Tech YouTube 频道上看到),该实验不仅解析了具有复杂页面格式的科学文章,还使用 Google 的 DeepMind WaveNet 阅读了文章。 TTS 软件。
Simms 认为谷歌有可能成为人工智能有声读物市场的参与者。“亚马逊和谷歌的优势在于巨大的资源和收集大量训练数据的能力,”他说。“然而,从根本上说,亚马逊和谷歌是云服务提供商,他们的大部分技术将成为他们云产品的一部分。”
“他们有钱,”Metrock 说。“他们可以为所欲为。你会看到亚马逊和谷歌在这个领域有所作为。”
听觉问题
ACX 是 Audible 有声读物自助出版平台,其网站的 ACX 音频提交要求部分中包含以下警告,作为指导:“您提交的有声读物必须由人工讲述。不允许 TTS 录音。听得见的听众选择有声读物来表现材料和故事。为了满足这一期望,您的有声读物必须由人工录制。”
Audible 控制了多达 50% 的有声读物市场(取决于内容类型),其当前的语音政策是所有希望进入旁白领域的公司的主要关注点。
DeepZen 的首席执行官 Taylan Kamis 说:“随着技术的发展和变得越来越主流,我们认为 Audible 接受这些标题是一个‘何时’的问题,而不是一个‘如果’的问题。” DeepZen 建议其客户“放眼多年”,并在 Audible 改变其立场时尽可能多地分发可用的标题。
没有其他供应商有与 Audible 相同的限制,因此出版商可以在大约 50 家零售和图书馆供应商上销售使用 AI 生成的声音制作的内容,包括 Apple Books、Google Play、Kobo、OverDrive、Scribd、Spotify 和 Storytel。
供应商
在这个新兴的自动音频转换领域,有两家供应商似乎领先于其他供应商:DeepZen 和 Speechki。他们背后有几个——在其他情况下,在旁边,有不同的语音技术和服务。
有趣的是,致力于将英语书籍翻译成英语有声读物的初创公司的供应商位于美国以外的任何地方:瑞典博登;巴基斯坦伊斯兰堡;基辅,乌克兰;还有一些来自俄罗斯,其中一个来自西伯利亚。
深禅

DeepZen 于 2018 年在伦敦成立,是该领域的老牌玩家之一。它提供了一个自助门户:上传图书(仅限 EPUB 格式),软件将估算长度并报价(约 160 美元 PFH)。平均一本书估计为 50,000 字,价格为 800 美元。
它远非“自动”。加载发布文件后,将执行以下步骤:
• 对稿件进行审查,并要求对任何不熟悉的单词进行发音指导。
• 第一个版本需要五到七天的时间来制作。
• 更正需要一到两个工作日。
• 后处理需要一到两个工作日。
• 目标是在三周内完成一个项目。
根据 DeepZen 出版商合作伙伴负责人 Marzia Ghiselli 的说法,所有 DeepZen 的声音都是从人类叙述者那里获得许可和克隆的。该公司不使用来自亚马逊或谷歌的通用现成语音。使用化名来明确有声读物是用人工智能技术发声的。
使用假名的一个值得注意的例外是爱德华·赫尔曼的声音。Hermann 于 2014 年去世,他是一位多产的音频解说员,也是 Audiofile 杂志受人尊敬的“黄金之声”之一。根据 Ghiselli 的说法,“我们真的很喜欢他的声音,并决定尝试授权它。我们找到了他在纽约市的经纪人,然后他作为与他的遗产的联络人。他的妻子和儿子认为这是纪念他的遗产的合适方式。”
DeepZen 能够使用旧录音克隆他的声音,任何 DeepZen 客户都可以让 Hermann 以数字方式讲述他们的工作,只要他们在录音中给予他的声音信用。
这无疑回避了 SAG-AFTRA 的直接担忧:它实际上为 Hermann 的庄园带来了其他任何方式都无法获得的收入。可以说的最糟糕的是,一个在世的演员没有机会获得一本特定的书。
今年 9 月,DeepZen 宣布与一家出版机构签订第一份实质性合同:Ingram Content Group 的出版商客户现在拥有一个访问 DeepZen 服务的特殊门户,并获得大约 7% 的生产定价折扣。
Holly-Blue Ross 是英国 SpringerNature 的翻译版权主管,也是 DeepZen 的早期客户。“与 DeepZen 合作让我们有机会在选择以有声读物格式制作的内容方面发挥更积极的作用,”罗斯解释道。“它还可以更深入地了解特定学科领域和学科在这种格式中的表现。我们希望在 2022 年底之前使用 DeepZen 平台再制作 10 本有声读物。”

Speechki
DeepZen 需要一个多月的时间来制作有声读物,而 Siberia 的 Speechki 承诺只需 500 美元就能“在几天内”将一本书转换为有声读物。它还提供“在 15 分钟内使用人工智能创建您的有声读物”。
Speechki 的联合创始人兼首席执行官 Dima Abramov 说:“出版商花费数千美元和至少几周的时间来制作一本有声读物。” “这个过程缓慢、昂贵且高度复杂。出版商的单位经济不适用于传统的有声读物制作方法。” 由于这些因素,阿布拉莫夫估计只有 5% 的已出版作品以有声读物的形式发行。
Speechki 的使命包括以他们选择的语言向每个人提供有声读物。它有 72 种语言的 251 种声音,其中包括 50 多种美国声音。它已经处理了超过 1,000 本书,主要是瑞典语和俄语。
有两个级别的声音:所谓的“普通声音”每本书 500 美元,而听起来更自然的“高级声音”每本书 1000 美元。两者都包括免费的“试听”(由人工)和处理请求的更正。
Speechki 驻纽约的出版顾问 Bill Wolfsthal 说:“出版商对我们很感兴趣,并且正在与十几家美国公司开展试点项目。” 除了与所有五大出版商进行交流外,Speechki 还与少数独立和大学出版社会面,Wolfsthal 表示 Speechki 正在努力定制其服务以满足特定需求。

语音包
Speechkit 针对短格式内容——博客文章、新闻和播客。它提供了一个出色的自助工具来评估 TTS 的当前状态。该服务由亚马逊、谷歌、微软和 Yandex 提供的语音构建而成,然后“借助我们的自然语言处理算法”得到增强,该公司表示。注册了 14 天免费试用的出版商可以使用一系列自然声音测试书籍章节。
Speechkit 正在制作有声读物,目标是独立图书出版商,但目前主要面向非小说类,它定义为“数字教科书”。该公司从 Newark Venture Partners 获得了早期融资,Audible 是该公司的高级投资合伙人。

描述
Descript 是一个功能齐全的 DIY 解决方案,包括从屏幕录制和视频编辑到语音转录和音频编辑的所有内容。Overdub是其产品中最有趣的。配音演员复制自己的声音,可用于编辑阶段的更正和遗漏。使用 90 分钟的录制语音创建专业级语音克隆(尽管该公司表示可以在短短 10 分钟内生成)。
没有可用于导入完整书籍文件的功能,因此该服务逐章构建书籍。
据商业和企业发展主管 Jay LeBoeuf 说,Descript 与 Audible、HarperCollins、国际圣经事工和普希金工业公司合作。
火山灰
Pozotron 是一种已经存在了几年的音频校对服务,随着行业对自动转换质量的不确定性感到不安,它的价值只会增加。Pozotron 的系统可以检测单词不匹配、误读、缺失单词、翻转单词和重复句子。
Pozotron 的首席执行官 Adam Fritz 解释说,该服务将发现明显的错误,因此当人工通过最终质量控制时,将更容易找到剩余的错误。该软件具有三种设置——正常、特别敏感和放松——因此操作员可以决定标记多少潜在错误,以及他们愿意应对多少误报。
弗里茨对当前自动有声读物技术的局限性非常清楚。“在艺术中,算法的黑白性质永远无法解决灰色阴影,”他说。“它会变得越来越好。它将改进技术的本质。但他们永远不会完全复制人类的声音。”

抄写音频
Scribe Audio 是另一家避开“假”机器生成的声音,转而支持人类演员发出的声音的供应商,与亚马逊、谷歌和其他公司打包的声音不同。
根据创始人兼首席执行官 Ali Zia Khan 的说法,Scribe 的一些声音出现在流行电视剧、好莱坞电影甚至超级碗广告中。该公司以未指明的“收入分享基础”与这些参与者合作。
使用人类声音和“多层人类在环系统”——不仅仅是合成整本书的算法——Scribe Audio 能够模拟人类情感、角色声音和其他参数的整个频谱,“让我们不仅可以写非小说,还可以写小说,”Khan 说。
“非小说类是唾手可得的果实,”他补充道。“我们专攻小说。” 每本书的定价将低于 1,000 美元,具体取决于数量。Scribe 计划于 2021 年底推出。
法布拉
Fabula 定位在市场的低端:初学者和学生的起价为每月 1.99 美元,或“每本有声读物”的起价为 499 美元。语音实现了适度的定价:Fabula 仅使用 Microsoft Azure 和 Amazon Polly 语音,而不是大多数其他服务所提供的更高质量的语音。
该公司是瑞典游戏公司 Wanderword 的子公司,该公司的语音技术最初是为基于 Alexa 的游戏设计的。它说,Fabula 提供“同步的语音、音乐和音效”。
演讲者
总部设在基辅的 Respeecher 位于纯语音空间。正如首席执行官 Alex Serdiuk 所说:“我们不是在文本到语音,而是在语音到语音。” 他说,即使是复杂的 TTS,也不能让你控制说话者的情绪。
在 Respeecher,人类通读整个文本,软件能够定义语音模式、语速和语调变化。从这些语音模式中,克隆语音被匹配。
Respeecher 最著名的技术使用是作为 Disney+ 的 The Mandalorian 的一部分。20 岁的卢克·天行者将出现在第二季的最后一集中;马克·哈米尔当时 68 岁。使用它的技术,Respeecher 能够发出年轻天行者的对话。
Respeecher 技术的一个有趣用例是使用与英语叙述者相同的声音创建有声读物的外语版本。

可访问性
有声读物的一切都与阅读障碍读者的可访问性问题相交。在许多关于自动有声读物发展方向的讨论中,这一点奇怪地被忽视了。阅读障碍读者的基本价值主张是显而易见的:听到他们看不清楚的文本。
一个大型的可访问性生态系统,包括 DAISY 和 Benetech Bookshare 等组织,已经在为印刷品阅读障碍者推广电子书。DAISY 提供标准和有用的工具和资源;Benetech 提供多种可访问格式的书籍。有超过一百万种图书可供使用,但仍有数百万本从未转换为数字格式的图书。
此处介绍的初创公司可能会在可供印刷障碍者使用的专业品质有声读物的数量上产生巨大差异。
展望未来
支持人工智能的有声读物创作是一个有前途的发展,任何出版商都不应忽视。完美吗?当然不是。能不能够好?如果出版商愿意在项目的语音编辑阶段花费必要的时间,则可能。显然,它最适合非小说类,尽管一些供应商也为小说类提供了令人信服的案例。
Audible 阻止分发非人类叙述者的有声读物是一个真正的问题,可能需要一些时间才能解决。但 Audible 并不是镇上唯一的游戏。
这里介绍的供应商清楚地表明,他们并没有试图取代最畅销的前列表和后列表标题的旁白。机会在更深的后备名单中,其中 500 美元或 1,000 美元的有声读物投资可能具有经济意义。
无论如何,有声读物的制作正在进入一个新阶段,人工智能技术是其核心。
