この科学者はスティーブン・ホーキングに自分の声を与えたが、その後自分の声を失った

「聞こえますか？」ビデオ通話の開始時にブラッドストーリーに質問します。このような単純なフレーズを発声するということは、後で知ることになるが、おそらくあらゆる種に知られている最も複雑な運動行為、つまり音声を実行することである。

しかし、言語学者であるストーリーが耳を指さして首を振ると、この特定の言語行為はそれほど印象的ではないようです。技術的な不具合により、私たちは事実上無言になってしまいました。私たちは別の現代的な音声配信システムであるスマートフォンに切り替え、トーキングマシンの進化についての会話を始めます。このプロジェクトは、1000年前に真鍮の頭がしゃべるという魔法のような物語から始まり、今日も私たちの多くにとって次のようなテクノロジーで続いています。 Siri と Alexa、音声クローン AI、および私たちの日常生活に浸透しているその他すべての音声合成テクノロジーは、魔法と同じかもしれません。

テクノロジーによって引き起こされる短期間の無言は、多くの人にとって、これまでに声を失うことに最も近い状態かもしれません。だからといって、音声障害が稀であるというわけではありません。米国の約 3 分の 1 の人々が、発声障害として知られる音声障害が原因で、人生のある時点で言語異常に苦しんでいます。しかし、完全かつ永久に声を失うことははるかにまれで、通常は外傷や神経疾患などの要因が原因です。

スティーブン・ホーキング博士の場合は後者でした。 1963年、21歳の物理学生は筋萎縮性側索硬化症（ALS）と診断された。これはまれな神経学的病理であり、今後20年間にわたって随意の筋肉制御が損なわれ、ほぼ完全な麻痺に至ることになる。 1979年までに、物理学者の声は非常に不明瞭になり、彼をよく知っている人だけが彼のスピーチを理解できるようになりました。

「個人の声は非常に重要だ」とホーキング博士は回想録に書いている。「ろれつが回らないと、人々はあなたを知的障害者として扱う可能性があります。」

1985年、ホーキング博士は重度の肺炎を発症し、気管切開手術を受けた。それは彼の命を救ったが、彼の声を奪った。その後、ホーキング博士は退屈な 2 人でのプロセスを介してのみコミュニケーションをとることができました。誰かがカード上の個々の文字を指差し、正しい文字が当たったときにホーキング博士は眉をひそめました。

「科学論文を書くことはおろか、そのような会話を続けることはかなり難しい」とホーキング博士は書いた。彼の声が消えたとき、彼のキャリアを継続することや、スティーブン・ホーキング博士の名を一躍有名にするベストセラーとなった二冊目の著書『時間の歴史: ビッグバンからブラックホールまで』を完成させる希望も消え去った。

しかしすぐに、ホーキング博士は再びスピーチをするようになった。今度は彼がロンドン北西の郊外で育ったBBCの英語のアクセントではなく、どことなくアメリカ的で、明らかにロボットのような英語だった。アクセントをどのように表現するかについて全員が同意したわけではありません。スコットランドと呼ぶ人もいれば、スカンジナビア人と呼ぶ人もいます。ピンク・フロイドのニック・メイソンは、この曲を「ポジティブに星間的なもの」と呼んだ。

記述が何であれ、このコンピューターで生成された音声は地球上で最も認識できる抑揚の 1 つとなり、ブラックホール、時間の性質、そして最大の疑問についてホーキング博士が話すのを熱心に聞きたがっていた無数の聴衆とホーキング博士の心の橋渡しをしました。私たちの宇宙の起源。

歴史上の他の有名な講演者とは異なり、ホーキング博士のトレードマークの声は完全に彼自身のものではありませんでした。これは、1970 年代と 1980 年代に事実上あらゆる英語テキストを合成音声に変換できる最先端のコンピュータシステムを開発した、もう一人の先駆的な科学者デニスクラットの実際の声を再現したものでした。

Klatt の音声合成装置とその派生製品は、MITalk、KlatTalk、DECtalk、CallText など、さまざまな名前で呼ばれていました。しかし、これらの機械が生み出した最も人気のある音声、ホーキング博士が生涯の最後の 30 年間に使用した音声は、パーフェクトポールというただ 1 つの名前で呼ばれていました。

「それは非常に有名になり、スティーブン・ホーキング博士のあの声で具体化されました」とアリゾナ大学音声言語聴覚科学科のストーリー教授は語る。「しかし、その声は本当にデニスの声でした。彼はそのシンセサイザーのほとんどを自分自身に基づいて作成しました。」

Klatt の設計は音声合成の転換点となりました。コンピューターは、ユーザーがコンピューターに入力したテキストを受け取り、非常に明瞭な方法で音声に変換できるようになりました。これらのシステムは、私たちが単語だけでなく文全体を発音する微妙な方法を厳密に捕捉することに成功しました。

1980年代後半、ホーキング博士が新たに見つけた声で生き、仕事をすることを学んでいると、クラット自身の声はますますかすれてきました。これは彼を長年悩ませていた甲状腺がんの影響でした。

「彼は、しわがれたささやき声のような話し方をしていました」と、1970年代から1980年代にかけてクラット氏がMITの音声通信グループで働いていたときの同僚であり、言語科学者のジョセフ・パーケル氏は語る。「これは一種の究極の皮肉でした。ここには音声プロセスの再現に取り組んでいる男性がいますが、彼にはそれを自分で行うことができません。」

コンピューターを使って音声を構築する方法を学ぶずっと前、クラットは子供の頃、ウィスコンシン州ミルウォーキー郊外で建設労働者が建物を建設するのを見ていました。そのプロセスが彼を魅了した。

「彼は最初は本当に好奇心旺盛な人でした」と、1960年代初頭に隣り合ったオフィスを構えていたミシガン大学のコミュニケーション科学研究室で二人が出会った後、デニスと結婚したメアリー・クラットは語る。

デニスは、パデュー大学で電気工学の修士号を取得した後、ミシガン州に来ました。彼は研究室で一生懸命働きました。しかし、彼の濃い日焼け、一日中テニスをする習慣、そしてマルチタスクの傾向を考えると、誰もが気づいたわけではないかもしれません。

「私が彼のアパートに行くと、彼は一度に 3 つのことをしていました」とメアリーは言います。「彼はヘッドフォンをつけてオペラを聴いていました。野球の試合を観戦していました。そして同時に博士論文を書いていました。」

コミュニケーション科学研究室の所長であるゴードン・ピーターソンが、聴覚生理学理論に関するデニスの論文を読んだとき、その内容の素晴らしさに驚いたとメアリーは振り返る。

「デニスは苦労人ではありませんでした。彼は長時間働いていましたが、それが楽しかったようで、真の好奇心旺盛な科学者でした。」

博士号取得後はミシガン大学でコミュニケーション科学の学位を取得したデニスは、1965 年に助教授として MIT の学部に加わりました。第二次世界大戦から 20 年が経ち、紛争がきっかけとなり、米軍機関は最先端の技術の研究開発に資金を提供し始めました。音声合成と暗号化技術の開発、このプロジェクトは平時まで継続されました。また、言語学者のノーム・チョムスキーが普遍文法理論、つまりすべての人間の言語は共通の基礎構造を共有しており、それは脳に組み込まれた認知メカニズムの結果であるという考えで、行動主義に爆弾を投下してから約10年が経っていた。

MIT でクラットは、パーケルが「人間のコミュニケーションに関する研究の温床」と表現する学際的な音声コミュニケーショングループに参加しました。この研究会には、異なる背景を持った大学院生や科学者が含まれていましたが、音声に関連するすべてのこと、つまり音声をどのように生成し、認識し、合成するのかを研究するという共通の関心を持っていました。

パーケル氏によると、当時、特定のルールを通じて音声をモデル化できるという考えがあり、「コンピュータに[それらのルール]を模倣させて音声を生成し、音声を認識させることができるという考えがあったが、それは音素の存在と関係していた」という。」

音素は音声の基本的な構成要素であり、アルファベットの文字が書き言葉の基本単位であるのと同様です。音素は、単語の意味を変えることができる言語の音の最小単位です。たとえば、「pen」と「pin」は音声的に非常に似ており、それぞれに 3 つの音素がありますが、それぞれ中間の音素 /ɛ/ と /ɪ/ によって区別されます。アメリカ英語には 44 の音素があり、24 の子音音と 20 の母音の 2 つのグループに大まかに分類されます。ただし、南部人はピンとペンの融合と呼ばれる音韻現象により、母音を 1 つ減らして話すことがあります。「何かを書き留めるためにピンを借りてもいいですか」？」

シンセサイザーを構築するために、クラットは、書き言葉の基本単位を音声の基本構成要素に変換するコンピューターを取得する方法、そしてそれを可能な限り最もわかりやすい方法で行う方法を見つけ出す必要がありました。

どうすればコンピュータが話せるようになりますか? 単純だが気が遠くなるアプローチの 1 つは、誰かが話しているすべての単語を辞書に記録し、それらの記録をデジタルライブラリに保存し、入力テキストに対応する特定の組み合わせでそれらの記録を再生するようにコンピュータをプログラムすることです。言い換えれば、音響的な身代金要求の手紙を作成しているかのように、断片をつなぎ合わせることになります。しかし、1970 年代には、このいわゆる連結アプローチには根本的な問題がありました。つまり、話された文章は、単独で発声された一連の単語とは大きく異なって聞こえるのです。

「スピーチは継続的に変化します」とストーリー氏は説明します。「そして、『ある言語のすべての音を誰かに作ってもらって、それをつなぎ合わせればいい』という古い考えはまったく機能しません。」

クラットは 1987 年の論文で、連結アプローチに関するいくつかの問題点を指摘しました。

そこでクラットは別のアプローチを採用しました。つまり、音声合成を集会の行為としてではなく、構築の行為として扱うというものです。このアプローチの中心となるのは、人間の声道と、音声、特にフォルマントがどのように生成されるかを表す数学的モデルでした。

1970 年代後半にデニスの MIT オフィスに顔をのぞかせたなら、彼が、百科事典サイズの書籍が詰め込まれたテーブルの近くに座っている、身長 6 フィート 2 のやせた、白髪交じりのひげを生やした 40 代の男性を見たことがあるかもしれません。スペクトログラム付き。これらの紙片は、彼の合成へのアプローチの鍵でした。時間の経過に伴う音波の周波数と振幅を視覚的に表現するものとして、これらは彼のシンセサイザーをますます自然で明瞭な音声へと導く北極星でした。

パーケル氏は、「彼はマイクに向かって話し、その音声を分析して、自分のマシンに同じことをさせていた」と簡単に述べています。

デニスが自分の声をモデルとして使用したことは、虚栄心ではなく便宜の問題でした。

「彼は誰かの真似をしようとしなければならなかった」とパーケルは言う。「彼は最も親しみやすい講演者でした。」

これらのスペクトログラムについて、デニスはフォルマントの特定と分析に多くの時間を費やしました。

「デニスは、どこにフォルマントがあるべきかについて自分の声を何度も測定しました」と、音声認識の専門家で言語学者であり、1980年代にMITでデニスの元同僚だったパティ・プライスは言う。

フォルマントは、音声波形の特定の周波数付近の音響エネルギーの集中です。たとえば、「cat」の母音を発音する場合、顎を低く下げて舌を前に動かして「a」の母音を発音すると、フォルマントが生成され、音声学的には /æ/ と表されます。スペクトログラムでは、この音は波形内の特定の周波数で発生するいくつかの暗い帯域として表示されます。（少なくとも 1 人の言語科学者、パーケル氏は MIT で知り合いだったと述べていますが、その人はスペクトログラムを見て、録音を聞かなくても話者がどのような言葉を発したかを知ることができます。）

「特定の[母音または子音]について何が起こっているのかというと、波がこれらの狭窄と拡張を通って伝播する方法により、[声道の]特定の構成を容易に通過できる一連の周波数が存在するということです」」とストーリーは言う。

一部の周波数が通過しやすいのはなぜですか? オペラ歌手が高音を張り上げてワイングラスを割った例を考えてみましょう。この稀ではありますが実際に起こる現象は、歌手からの音波がワイングラスを励起し、非常に速く振動させるために起こります。しかし、これは、複数の周波数を運ぶ音波が、特にワイングラスの共振周波数を運ぶ場合にのみ発生します。

宇宙のすべての物体には 1 つ以上の共振周波数があり、これは物体が外力を受けたときに最も効率的に振動する周波数です。特定の曲に合わせてしか踊らない人のように、物体は特定の周波数で振動することを好みます。声道も例外ではありません。フォルマントと呼ばれる多数の共鳴周波数が含まれており、これらは声道が「好む」音波内の周波数です。

デニスのコンピュータモデルは、声道がフォルマントやその他の音声をどのように生成するかをシミュレートしました。彼のシンセサイザーは、事前に録音された音に依存するのではなく、各音声の作成に必要なフォルマントを計算し、それらを連続波形に組み立てます。別の言い方をすると、連結合成がレゴを使用してオブジェクトをレンガごとに構築するようなものだとすると、彼の手法は、3D プリンターを使用して、正確な計算とユーザーの仕様に基づいて層ごとに何かを構築するようなものです。

このアプローチから生まれた最も有名な製品は DECtalk で、プリンターと同じようにコンピューターに接続できる 4,000 ドルのブリーフケースサイズのボックスです。 1980 年に、デニスは自身の合成技術を Digital Equipment Corporation にライセンス供与し、1984 年に最初の DECtalk モデルである DTC01 をリリースしました。

DECtalk は、次の 3 段階のプロセスで音声を合成しました。

DECtalk はコンピュータと電話で制御できます。電話回線に接続することで、電話をかけたり受けたりすることが可能でした。ユーザーは、電話機の特定のボタンを押すことで、DECtalk が接続されているコンピュータから情報を取得できます。

最終的にこれを画期的なテクノロジーにしたのは、DECtalk が事実上あらゆる英語テキストを発音でき、文全体を対象としたコンピューターモデルのおかげで戦略的に発音を変更できることです。

「それは本当に彼の大きな貢献だ。スピーチの文章を文字通りに取り入れることができたことだ」とストーリー氏は語った。

デニスが開発した声は完璧なポールだけではありませんでした。 DECtalk シンセサイザーは、大人の男性の声 4 つ、大人の女性の声 4 つ、キットザキッドと呼ばれる子供の女性の声 1 つの計 9 つを提供しました。名前はすべて遊び心のある頭韻でした：ラフ・リタ、巨大なハリー、フレイル・フランク。他の人の声に基づいたものもありました。ビューティフル・ベティはメアリー・クラットの声に基づいており、キット・ザ・キッドは娘のローラの声に基づいています。 (アメリカ音響協会が主催するこのアーカイブでは、その一部と古いスピーチシンセサイザーの他のクリップを聞くことができます。)

しかし、「彼がやっていることの本質を突き詰めると、それは孤独な練習だった」とパーケルは言う。 DECtalk の声の中で、デニスはパーフェクトポールに最も多くの時間を費やしました。彼は、まあ、完璧なポールを完璧にすることは可能、あるいは少なくとも完璧に近づくことは可能だと考えているようだった。

「スペクトルの比較によると、かなり近づいているんです」と彼は1986年にポピュラー・サイエンスに語った。正しいモデルです。」

適切なモデルを見つけるには、人間の声道を最もよくシミュレートする制御パラメーターを見つけることが重要でした。デニスはコンピューターモデルを使用してこの問題に取り組みましたが、彼のずっと前に登場した音声合成の研究者たちは、より原始的なツールを使用して作業する必要がありました。

音声合成は今日私たちの周りに溢れています。「Hey Alexa」または「Siri」と言うと、すぐに人工知能が深層学習技術を通じて人間のような音声をほぼ瞬時に合成するのが聞こえるでしょう。『トップガン: マーヴェリック』のような現代の大ヒット作を観ると、ヴァル・キルマーの声が合成されたものであることに気づかないかもしれません。キルマーの実際の声は気管切開により損傷を受けていました。

しかし 1846 年、最先端の音声合成を聞くためには、1 シリングをかけてロンドンのエジプトホールまで行く必要がありました。その年のホールでは、PT バーナムが制作した展示「驚異的なトーキング・マシン」が展示されており、出席者のジョン・ホリングスヘッドが説明したように、話す「科学的なフランケンシュタインの怪物」とその「悲しそうな顔の」ドイツ人発明家が登場した。

陰気なドイツ人はジョゼフ・ファーバーだった。土地測量士から発明家に転身したフェイバーは、当時世界で最も洗練された会話マシンを構築するのに 20 年を費やしました。彼は実際には 2 基を建設したが、最初の 1 基は「一時的な混乱の発作」で破壊した。しゃべる機械に対する暴力の報告はこれが史上初ではなかった。 13世紀のドイツの司教アルベルトゥス・マグヌスは、単にしゃべる真鍮の頭（他の中世のいじくり職人が作ったとされる装置）だけではなく、「求められたときにすぐに、そして誠実に答える」本格的なしゃべる金属人間を作ったと言われている。マグナスの弟子であった神学者トーマス・アクィナスは、この偶像が黙ろうとしなかったため、粉々に叩きつけたと伝えられている。

フェイバーのマシンはユーフォニアと呼ばれていました。その姿は室内オルガンと人間を融合させたようなもので、「不思議な空洞」の木の顔、象牙の舌、肺用のふいご、そして蝶番でつながった顎を備えていた。その機械本体には 16 個のキーを備えたキーボードが取り付けられていました。ベローズに空気を送り込むフットペダルと組み合わせてキーを特定の組み合わせで押すと、システムは事実上あらゆる子音または母音を生成し、ドイツ語、英語、フランス語の全文を合成できました。 (不思議なことに、その機械は、言語に関係なく、発明者のドイツ訛りのヒントを持って話しました。)

フェイバーの制御下で、ユーフォニアのオートマトンは次のようなセリフでショーを開始する。「遅い発音をお許しください…おはようございます、皆様…暖かい日ですね…雨の日です。」観客はそれに対して質問をするだろう。フェイバーはキーを押したり、ペダルを踏んだりして応答させました。あるロンドンのショーは、フェイバーが自動人形に「女王陛下万歳」を朗読させて終了したが、その様子は幽霊のようなもので、ホリングスヘッドによれば、まるで墓の底から聞こえてくるかのように聞こえたという。

この機械は、18 世紀から 19 世紀にわたる音声合成の機械時代とも言える最高の音声合成装置の 1 つでした。当時の科学者や発明家、特にファーバー、クリスチャン・ゴットリープ・クラッツェンシュタイン、ヴォルフガング・フォン・ケンペレンは、音声を合成する最良の方法は、音声生成に関与する人間の器官を機械的に複製する機械を構築することであると考えました。これは簡単なことではありませんでした。当時、音響理論は初期段階にあり、人間の音声の生成はまだ科学者たちを困惑させていました。

「機械の時代の多くは、人間が実際にどのように話すのかを理解しようと真剣に取り組んでいました」とストーリー氏は言います。「フェイバーや他のデバイスと同じようなデバイスを構築すると、音声言語がいかに複雑であるかがすぐに理解できるようになります。なぜなら、フェイバーがやったことを行うのは難しいからです。」

言語は地球上のあらゆる種によって実行される最も複雑な運動動作であるという主張を覚えていますか? 生理学的にはそれが真実かもしれません。このプロセスはあなたの脳内で始まります。思考や意図は、メッセージをコード化する神経経路を活性化し、一連の筋肉活動を引き起こします。肺は声帯を通して空気を吐き出し、声帯の素早い振動によって空気が一連のパフに切り分けられます。これらのパフが声道を通過するときに、戦略的に形を整えて、明瞭な音声を生成します。

「私たちはこれらの音を発するために、顎、唇、喉頭、肺をすべて非常に絶妙に調整して動かします。そして、それらは1秒あたり10から15[音素]の速度で発せられます」とパーケル氏は言います。

ただし、音響的には、音声の方がより単純です。 (パーケルは、音声と音声の技術的な違いに注目しており、音声は喉頭の声帯によって生成される音を指し、音声は声道と調音器官の協調運動から生じる理解可能な単語、フレーズ、文章を指します。この記事では「声」は口語的に使用されています。)簡単な例えとして、トランペットに空気を吹き込むと音が聞こえると想像してください。何が起こっている？ソースとフィルターという 2 つの間の相互作用。

ソースフィルターモデルは、ギターの弦を弾く音、洞窟で手拍子する音、ドライブスルーでチーズバーガーを注文する音など、あらゆるサウンドに適用できます。この音響的な洞察は 20 世紀に生まれ、科学者たちは音声合成を必要なコンポーネントに要約し、音声生成に関与する人間の器官を機械的に複製するという退屈な作業を省略できるようになりました。

しかし、フェイバーはまだ自動人形から離れられなかった。

ユーフォニアはほとんど失敗でした。エジプシャン・ホールでの勤務を終えたフェイバーは静かにロンドンを去り、ホリングスヘッドが述べたように「彼の唯一の宝物、つまり無限の労働と計り知れない悲しみの子」とともにイギリスの田園地帯で演奏しながら晩年を過ごした。

しかし、誰もがフェイバーの発明が奇妙な余興だと思ったわけではありません。 1845 年、これはアメリカの物理学者ジョセフヘンリーの想像力を魅了しました。ジョセフヘンリーの電磁リレーに関する研究は電信の基礎を築くのに役立ちました。個人的なデモンストレーションでユーフォニアを聞いた後、ヘンリーの心にあるビジョンがひらめきました。

「彼が見たアイデアは、[ユーフォニアのマシン] に座って音声を合成できるが、そのキーストロークを電気を介して別のマシンに送信し、そのマシンが同じキーストロークを自動的に生成して、誰かが遠く、遠くでそのスピーチが聞こえるでしょう。」

言い換えれば、ヘンリーは電話を思い描いたのです。

したがって、数十年後、ヘンリーがアレクサンダー・グラハム・ベルに電話を発明するよう奨励したのは不思議ではないかもしれません。（ベルの父親もフェイバーのユーフォニアのファンでした。父親はアレクサンダーに自分のトーキングマシンを作るよう勧め、アレクサンダーは実際にそれを作りました。それは「ママ」と言うことができました。）

ヘンリーのビジョンは電話を超えていました。結局のところ、ベルの電話は人間の音声の音波を電気信号に変換し、受信側で音波に戻しました。ヘンリーが予見していたのは、音声信号を圧縮して合成できるテクノロジーでした。

このテクノロジーはほぼ 1 世紀後に登場します。デイブ・トンプキンスが 2011 年の著書『素敵なビーチを破壊する方法: 第二次世界大戦からヒップホップまでのボコーダー、マシンが話す』で説明しているように、ベル研究所のエンジニア、ホーマー・ダドリーが、ビーチで横たわりながらスピーチについてひらめいたことがきっかけでした。マンハッタンの病院のベッド: 彼の口は実際にはラジオ局でした。

ダドリーの洞察は、彼の口がヤンキースの試合を放送できるということではなく、むしろ音声生成がソースフィルターモデル、または彼が音声のキャリア性質と呼んだほぼ同様のモデルの下で概念化できるということでした。なぜラジオについて言及するのでしょうか？

無線システムでは、連続搬送波 (ソース) が生成され、オーディオ信号 (フィルター) によって変調されて電波が生成されます。同様に、音声生成では、喉頭内の声帯 (音源) が振動によって生の音を生成します。この音は声道 (フィルター) によって形成および変調され、明瞭な音声が生成されます。

しかしダドリーは電波には興味がなかった。 1930 年代、彼は 2,000 マイルの大西洋横断電信ケーブルに沿って大西洋を越えて音声を送信することに興味を持っていました。 1 つ問題があります。これらの銅線ケーブルには帯域幅の制約があり、約 100 Hz の信号しか送信できませんでした。人間の音声の内容をスペクトル全体に送信するには、最小約 3000 Hz の帯域幅が必要でした。

この問題を解決するには、音声を必要最小限に抑える必要がありました。ダドリーにとって、そして連合軍の戦争努力にとって幸運なことに、音波を形成するために私たちが使用する調音器官、つまり口、唇、舌は、100 Hz の帯域幅制限を通過できるほど十分にゆっくりと動きます。

「ダドリーの優れた洞察は、音声信号内の重要な音声情報の多くが、調音器官の動きによる声道の非常に遅い変調（周波数が約 60 Hz 未満であること）によって音声搬送波に重ね合わされているということでした。」ストーリーと説明します。「何らかの方法でこれらを音声信号から抽出できれば、電信ケーブルを通じて送信し、大西洋の向こう側で音声信号を再作成（つまり合成）するために使用できるでしょう。」

これを行う電気シンセサイザーは、音声エンコーダーの略でボコーダーと呼ばれていました。バンドパスフィルターと呼ばれるツールを使用して、音声を 10 の個別の部分、つまりバンドに分割しました。次に、システムは各帯域から振幅や周波数などの重要なパラメータを抽出し、その情報を暗号化し、スクランブルされたメッセージを電信回線に沿って別のボコーダマシンに送信します。その後、ボコーダマシンがスクランブルを解除して、最終的にメッセージを「話す」ことになります。

1943 年から連合国は、SIGSALY と呼ばれるシステムの一部として、フランクリン D. ルーズベルトとウィンストンチャーチルの間で暗号化された戦時メッセージを送信するためにボコーダーを使用しました。ドイツのエニグマ機械を解読した英国の暗号解読者、アラン・チューリングは、ダドリーとベル研究所の同僚エンジニアがシンセサイザーを音声暗号化システムに変換するのを手助けしました。

哲学者のクリストフ・コックスは2019年のエッセイで、「戦争が終わるまでに、ダグラス・マッカーサーを南太平洋遠征に乗せた船を含め、SIGSALY端末は世界中の場所に設置されていた」と書いている。

このシステムは音声を圧縮するのにうまく機能しましたが、マシンは巨大で部屋全体を占有しており、生成される合成音声は特に理解できるわけでも、人間らしいものでもありませんでした。

トンプキンスは『素敵なビーチを破壊する方法』の中で、「ボコーダーは、声を冷たく戦術的で、砂場のスープ缶のように小さくて乾燥したものに貶め、人間のより非人間的な瞬間の、いわば喉頭を非人間化した」と書いている。 : 広島、キューバ危機、ソ連の強制収容所、ベトナム。チャーチルはそれを持っていたが、FDR はそれを拒否したが、ヒトラーはそれを必要としていた。ケネディはボコーダーにイライラしていた。メイミー・アイゼンハワーは夫に帰宅するように言うためにそれを使用した。ニクソンはリムジンにボコーダーを持っていたレーガンは飛行機の上で、スターリンは崩壊しつつある精神で。」

ボコーダーの賑やかでロボットのような音色は、音楽界でより歓迎されました。ウェンディ・カルロスは、スタンリー・キューブリックの1971年の映画『時計じかけのオレンジ』のサウンドトラックで一種のボコーダーを使用しました。ニール・ヤングは、脳性麻痺で話すことができなかった息子のベンとコミュニケーションを取ろうとしたヤングの試みにインスピレーションを得た1983年のアルバム『トランス』でこの曲を使用した。その後数十年にわたり、クラフトワーク、ダフトパンク、2パック、J ディラなど、電子音楽やヒップホップで最も人気のあるアーティストの曲を聴くと、ボコーダーを聞くことができたでしょう。

音声合成技術にとって、次の大きなマイルストーンは、クラットのテキスト読み上げシステムの実用性と明瞭さによって、コンピュータ時代に到来するでしょう。

「音声研究におけるコンピューターの導入により、これまで録音されていなかった発話を一般化して新たに生成するための新しい強力なプラットフォームが誕生しました」と、クラット氏の友人で同僚であり、現在はスウェーデンの王立王立王立研究所の教授であるロルフ・カールソン氏は言う。テクノロジー。

コンピュータのおかげで、音声合成の研究者は、合成音声を特定の方法で操作してより人間らしく聞こえるようにする制御パターンを設計し、これらの制御パターンを賢い方法で階層化して、声道が音声を生成する仕組みをより厳密にシミュレートできるようになりました。

「これらの知識ベースのアプローチがより完全になり、コンピューターがより小型で高速になったとき、ついに研究室の外でも使用できるテキスト読み上げシステムを作成することが可能になりました」とカールソン氏は述べた。

ホーキング博士は、パーフェクト・ポールが気に入っているのは、ダーレク（『ドクター・フー』シリーズに登場するコンピューター化された音声で話すエイリアン種族）のように聞こえないからだ、と語った。

Daleks がどのような音なのかはわかりませんが、私の耳には、Perfect Paul はかなりロボットのように聞こえます。特に現代の音声合成プログラムと比較すると、人間の話者と区別するのが難しい場合があります。しかし、人間らしく聞こえることは、音声合成装置において必ずしも最も重要なことではありません。

プライス氏によると、音声合成装置のユーザーの多くはコミュニケーション障害を持つ人々だったため、デニス氏は「明瞭さ、特にストレス下での明瞭さに非常に重点を置いた。他の人が話しているときや、他の騒音のある部屋にいるとき、あるいは速度を上げたときのことだろう」まだ理解できる？」

完璧なポールというとロボットのように聞こえるかもしれませんが、少なくとも理解が容易で、単語の発音を間違える可能性が比較的低いロボットです。これは、コミュニケーション障害のある人だけでなく、他の方法で DECtalk を利用する人にとっても非常に便利でした。たとえば、Computers in Medicine という会社は、医師が電話番号に電話すると、DECtalk の音声で患者の医療記録を読み上げ、昼夜を問わずいつでも薬や症状を告げることができる電話サービスを提供していました。

ポピュラー・メカニクスは、1986年の記事で、「DECtalkは、ほとんどの素人が話すよりも、これらの[医学用語]をうまく話すことができた」とコンピューター会社幹部の発言を引用した。

このレベルの理解度に到達するには、音声の微妙な点を捉えた洗練された一連のルールを作成する必要がありました。たとえば、「ジョーはスープを食べました」と言ってみましょう。ここでもう一度同じことを行いますが、「his」の /z/ をどのように変更しているかに注目してください。あなたが流暢な英語話者であれば、おそらく「his」の /z/ と、その隣にある「soup」の /s/ を混同するでしょう。これにより、/z/ は無声音に変換され、声帯が振動して音を生成しなくなります。

デニスのシンセサイザーは、「ジョーはスープを食べた」の /z/ を無声音に変換するなどの変更を加えることができるだけでなく、文脈に基づいて単語を正しく発音することもできました。 1984 年の DECtalk 広告では、次のような例が示されています。

「175 万ドルと 175 万ドルの差を考えてみましょう。原始的なシステムでは、これを「ドル-1-期間-7-5」および「ドル-1-期間-7-5-00 万」と解釈します。 DECtalk システムはコンテキストを考慮して、これらの数字を「1 ドル 75 セント」および「1 ポイント 7500 万ドル」として正しく解釈します。」

DECtalk には、従来の音声規則に反する単語のカスタム発音を含む辞書もありました。一例: 「calliope」は、音声的に /kəˈlaɪəpi/ として表され、「kuh-LYE-uh-pee」と発音されます。

DECtalk の辞書には他にもいくつかの例外が含まれていました。

「彼は、誰かがそれをコピーした場合に、それが自分のコードだとわかるように、音声合成システムにイースターエッグをいくつか入れたと言いました」とプライスは言い、彼女の記憶が正しければ、「スアンラカオスショウ」とタイプしたのはその一つだったと付け加えたクラットのお気に入りの中華料理の名前を言うと、シンセサイザーは「デニス・クラット」と言うでしょう。

DECtalk の明瞭さに関する最も重要なルールのいくつかは、長さとイントネーションに重点を置いています。

「クラットは、単語間の自然な長さが事前にプログラムされており、状況に応じたテキスト読み上げシステムを開発しました」とストーリー氏は述べています。「彼は次のようにプログラムする必要がありました。S が必要だが、それが Ee と Ah の間にある場合は、Ooo と Oh の間にある場合とは異なる動作をすることになります。したがって、これらの文脈上のルールをすべて用意する必要がありました。そこにも組み込まれており、単語間の休憩も組み込まれており、すべての韻律上の特徴が備わっています。つまり、質問の場合はピッチが上がり、発言の場合はピッチが下がります。」

ピッチを変調できるということは、DECtalk が歌えることも意味していました。 1986年にニューヨーク州ニューヨークで機械が歌うのを聞いた後、ポピュラー・サイエンスのTAヘッペンハイマーは「フランク・シナトラにとって脅威ではなかった」と結論付けた。しかし、今日でも、YouTube や /r/dectalk などのフォーラムには、シンセサイザー (またはそのソフトウェアエミュレーション) を使用して、リヒャルトシュトラウスの「ツァラトゥストラはかく語りき」からインターネットに至るまでの曲を歌わせる、少数ながらも熱心な人々のグループが残っています。 - デニスが娘ローラの誕生日に DECtalk に歌わせた、ハッピーバースデートゥユーの有名な「トロロロ」ソング。

DECtalk は決して優雅な歌手ではありませんでしたが、常に明瞭でした。重要な理由の 1 つは、脳が音声をどのように認識するかに焦点が当てられており、クラットもこの研究分野に貢献しました。脳が低品質の音声を正しく処理するには、多大な認知努力が必要です。長時間聞いていると疲れてしまうこともあります。しかし、DECtalk は「非常に明瞭だった」とプライス氏は言います。騒がしい室内でも分かりやすかったです。また、テキストを速く読む機能など、視覚に問題がある人にとって特に役立つ機能も備えていました。

1986 年までに、DECtalk シンセサイザーは 2 年間市場に出され、ある程度の商業的成功を収めていました。その間、デニスの健康状態は悪化していった。この運命のいたずらは「悪魔との取引」のように感じたと彼はポピュラー・サイエンスに語った。

悪魔は取引のより慈悲深い結果を受け入れたに違いありません。ある広告では次のように宣伝されていました。「[DECtalk] は、視覚障害のある人に効率的かつ経済的にコンピュータを操作する方法を提供します。また、言語障害のある人に、直接または電話で自分の考えを言語化する方法を提供します。」

デニスは、障害者のコミュニケーションを支援するという使命を持って科学者としてのキャリアをスタートしたわけではありません。むしろ、彼はもともと人間のコミュニケーションの謎に興味を持っていました。

「そして、それが発展して、『ああ、これは他の人にとって本当に役立つかもしれない』と思いました」とメアリーは言います。「本当に満足でした。」

1988 年、ホーキング博士は、主に『時間の歴史』の驚くべき成功のおかげで、急速に世界で最も有名な科学者の一人になりました。一方、デニスはホーキング博士が完璧なポールの声を使い始めていることに気づいていたが、自分の仕事については常に謙虚で、「みんなに思い出させようとはしなかった」とメアリーは言う。

誰もがリマインダーを必要としていたわけではありません。パーケル氏が初めてホーキング博士の声を聞いたとき、デニスの MIT オフィスから定期的に聞こえていた声である「それがクラットトークであることは私にとって紛れもない事実だった」と述べています。

メアリーは、デニスが人生の終わり近くに声を失ったという皮肉についてはあまり考えたくない。彼はいつも楽観的だった、と彼女は言う。彼は、モーツァルトを聴くのが大好きで、家族のために夕食を作り、人間のコミュニケーションの内なる仕組みを明らかにすることに取り組んでいた、トレンドを生み出す科学者でした。彼は 1988 年 12 月に亡くなる 1 週間前まで、まさにそれを続けました。

パーフェクト・ポールは、1980 年代から 1990 年代にかけて、あらゆる種類の講演役を演じました。 NOAA Weather Radio で予報を配信し、空港でのフライト情報を提供し、『テイルズフロムザダークサイド』の TV キャラクターであるムーキーの声や、『バックトゥザフューチャー Part II』のロボットジャケットの声を担当しました。この曲は、『ザ・シンプソンズ』のエピソードで語られ、ピンク・フロイドの適切な名前の曲「Keep Talking」でフィーチャーされ、オンラインビデオゲーム「Moonbase Alpha」内でのジョークのインスピレーションとなり、「All My Shootings Be Drivebys」のような MC ホーキングのラップトラックにセリフを落とし込みました。（本物のホーキング博士は、パロディに満足したと述べた。）

ホーキング博士は、30年近くにわたって完璧なポールの声を使い続けました。 2014 年の時点でも、彼は 1986 年の CallText シンセサイザーハードウェアを通じてパーフェクトポールを制作していました。このハードウェアは、Klatt のテクノロジーとパーフェクトポールの音声を使用していましたが、DECtalk とは異なる韻律と音韻規則を備えていました。レトロなハードウェアが問題になりました。メーカーは廃業し、世界に残っているチップの数は限られていました。

そこでホーキング博士の声を守るための協調的な取り組みが始まった。キャッチ？

「彼はまったく同じ音を出したかったのです」とプライスは言う。「オリジナルのボードの 1 つが故障していたので、彼はそれをソフトウェアで作りたかっただけです。そして、スペアのボードがないことに不安を感じました。」

ホーキング博士のシンセサイザーのサウンドをソフトウェアで再現する試みは以前にもあったが、機械学習による試みやプライス氏が協力していたチームによる初期の試みなど、ホーキング博士はそのすべてを拒否していた。ホーキング博士にとって、どれもまったく正しいとは思えませんでした。

「彼はそれを何年も使い続けたので、それが彼の声になってしまい、（新しい）ものを欲しがりませんでした」とプライスさんは言う。「彼らは彼の古い録音から彼の昔の声をシミュレートすることができたかもしれないが、彼はそれを望まなかった。これが彼の声になってしまった。実際、彼は著作権や特許、あるいは他の人ができないように何らかの保護を取得したかったのである」その声を使ってください。」

ホーキング博士は音声を自分のトレードマークと呼んでいましたが、この音声の特許を取得したことはありませんでした。

「イギリス訛りのもっと自然な声に変えるつもりはない」と彼は2014年のインタビューでBBCに語った。「コンピューター音声を必要とする子供たちは、私のようなものを望んでいると言われています。」

プライス氏が協力したチームは、何年にもわたるハードワーク、誤ったスタート、拒否を経て、ついにリバースエンジニアリングと古いハードウェアのエミュレートに成功し、ホーキング博士の耳には 1986 年のバージョンとほぼ同じに聞こえる音声を生成することに成功しました。

この画期的な出来事は、ホーキング博士が2018年3月に亡くなるわずか数カ月前に訪れた。

「重大発表をするつもりだったが、彼は風邪を引いていた」とプライス氏は言う。「彼は決して良くなることはなかった。」

今日の音声合成は、1980 年代に比べてほとんど認識されません。現代のテキスト読み上げシステムのほとんどは、人間の声道を何らかの方法で再現しようとするのではなく、深層学習技術を使用しています。この技術では、ニューラルネットワークが膨大な数の音声サンプルでトレーニングされ、そのデータに基づいて音声パターンを生成することを学習します。にさらされる。

それはフェイバーのユーフォニアとは大きく異なります。

「[現代の音声合成装置] が音声を生成する方法は、人間が音声を生成する方法とはまったく関係ありません」とストーリー氏は言う。

今日の最も印象的なアプリケーションには、Microsoft の VALL-E X のような音声クローン AI が含まれます。これは、人の話を数秒間聞くだけでその人の声を複製できます。 AI は元の話者の声を別の言語で模倣することもでき、感情や口調もキャプチャします。

すべての音声科学者が必ずしも現代の合成の真実味を好むわけではありません。

「機械と会話するこの傾向は、実は私にとって非常に不安なのです」とパーケル氏は言い、電話をかけるときは生身の人間と話していることを知りたいと付け加えた。「それはコミュニケーションプロセスを非人間化します。」

デニスは 1986 年の論文で、聞いたり話したりできるますます洗練されたコンピューターが社会にどのような影響を与えるかを見積もることは困難であると書いています。

「トーキングマシンは一時的な流行に過ぎないかもしれない」と彼は書いている、「しかし新しくて強力なサービスの可能性は非常に大きく、この技術は通常の情報収集と転送の性質だけでなく、社会にも広範囲にわたる影響を与える可能性がある」人間とコンピューターの区別に対する私たちの態度です。」

トーキング・マシンの将来について考えたとき、デニスはおそらく、より新しく洗練されたテクノロジーによって、最終的には完璧なポールの声が時代遅れになるだろうと考えたのでしょう。その運命はほぼ果たされました。しかし、デニスにとって予測することは事実上不可能だったのは、55 世紀頃のパーフェクト・ポールの運命でした。その時、ブラックホールがパーフェクト・ポールの信号を飲み込んでしまうのです。

ホーキング博士の死後、ホーキング博士への追悼として、欧州宇宙機関は2018年6月に、地球に最も近い既知のブラックホールの1つが存在する1A 0620-00と呼ばれる連星系に向かってホーキング博士が話す信号を送信した。信号がそこに到着すると、約 3,400 年間星間空間を光の速さで飛び続けた後、事象の地平線を越えてブラックホールの特異点に向かうことになります。

この送信は人類初のブラックホールとの相互作用となる予定だ。

トーキングマシンの構築パーフェクト・ポールの完成トーキング・ヘッズスピーチ・チェーンジョン・ヘンリーと未来のヴィジョンボコーダーとスピーチのキャリアの性質 DECtalk が主流になるパーフェクト・ポールの世界の声パーフェクト・ポールの運命