東京工業大学に在学中の現役大学生・早川尚吾さんが立ち上げたベンチャー企業「CoeFont」(東京都港区)。2020年に創業した同社では「声をフォントのように扱えるようにする」をコンセプトに掲げ、最新のAI(人工知能)技術により、人の話し声と遜色のないデジタル音声をつくり出す「CoeFont」(社名と同名)と呼ばれるサービスを提供しています。
いったい、どんなサービス内容で、今後、わたしたちの生活に役立っていくのでしょうか。同社で広報責任者を務めている山田泰裕さんに話を聞きました。
(取材・文:ライター・大崎 量平)
目次
「喜怒哀楽」も表現できるAI音声合成サービス
2021年7月に提供が開始されたAI音声合成サービス「CoeFont」。その概要ですが、まずユーザーは、約1時間、自身の声を収録することで、その内容をAIが学習(ディープラーニング)して、自分の声とうりふたつの擬似的なデジタル音声が生成されるというものです。収録が終わりオリジナルのAI音声が出来上がったら、ユーザーは、PCやスマホ、タブレットなどのデジタルデバイスに出力したい音声をテキストとして打ち込みます。そうすると、わずか1秒のタイムラグでデジタル音声がデバイスから出力されるという仕組みになっています。
「『わたしは山田です』と打ったら、それがすぐに音声に変換されるイメージです。従来のAI音声合成ではアクセントの上げ下げに対応していないため、『ワ・タ・シ・ワ・ヤ・マ・ダ・デ・ス』というような機械音として発音されるものが一般的でした。ところが、特許も取得している独自開発した弊社のAI技術では、前後の文脈を理解して、アクセントの予測が可能です。たとえば、『箸を持つ』と『橋を渡る』では、〈はし〉のアクセントは異なりますが、前後の文脈に〈料理名〉や〈食べる〉といった言葉があれば、瞬時にAIが〈はし=箸〉と推測して、滑らかな発音を実現しているんです」(山田泰裕さん)
さらに「CoeFont」ではAI音声では再現が難しいと言われていた人間が持つ「喜怒哀楽」の感情を表現できる機能も付いています。
「オリジナルのAI音声を作成したユーザーは、自身のAI音声データを『CoeFont』のプラットフォーム上に共有・公開することで、収益が得られる仕組みも構築しています。すでに、アナウンサーやタレント、声優、アスリートから一般人まで、多種多様の人たちがAI音声を共有・公開しています。AI音声を登録していない人たちでも、プラットフォームに共有・公開されている音声は有償で利用することができます」(山田さん)
1000円(スタンダード・プラン)という低価格でありながら、精度の高いAI音声を生成できるのも「CoeFont」の特徴のひとつに挙げられます。
「従来のAI音声合成は、収録時間が10時間以上もかかり、予算も数十万円というのが一般的でした。われわれが1000円という低価格でサービスを提供できているのは、他社さんが開発している技術に比べて、AIの学習効率が非常に高いためです。具体的には、弊社のサービスでは1時間程度の収録で高品質なAI音声の合成が可能です。さらに前後の文脈を読み取り、わずか1秒でテキストを音声に変換できます。こうした処理スピードの速さによって、サーバーへの負担を大幅に軽減することができ、それによりライトな金額でサービスを提供できているのです」(山田さん)
一方で、AI音声合成という言葉自体まだ聞き慣れない、世間的にもまだあまり浸透していない分野だと言えます。未知の領域のため、その開発には大変な苦労があったと思われます。山田さんが開発秘話を明かしてくれました。
「開発段階において、人間の声によく似たAI音声合成を実現するということは、わたしたちが、これまで蓄積してきた技術やノウハウを活用すれば、十分再現できるという手応えはありました。ただ、AI音声を合成するには500個くらいのセリフの収録が必要になるのですが、どんなセリフを読み上げれば、より人の声に近づくのか、精度の高いAI音声が出来上がるのかというところは、誰もやったことのない領域なので、クオリティを高めるという点においては試行錯誤の連続でした。
また、開発段階での最大の悩みは、AI音声合成を開発し、サービスを提供するにあたって、果たしてニーズはあるのか? 利用してくれるお客さんはいるのだろうか? ということでした。ビジネスとして成立するか否かという部分に関しては、わたしたちも未知数だったので正直、不安はありました」(前出・山田さん)
マネタイズの方法と、拡大する活用領域
こうした中、2021年7月に「CoeFont」のサービスは提供が開始されたのですが、現在、その利用者は月間で20万人以上を超えることもあるといいます。どんな人たちに利用され、マネタイズ(収益化)を実現しているのでしょうか。
「たとえば、オーディオブックであったり、スマホゲームであったり、企業さんが何かしらの音声が必要なコンテンツを開発し、リリースしたいとなったとき、弊社のAI音声合成サービスを有償で活用していただいています。
出版社のプレジデント社さんと連携し、プロフィギュアスケーターの鈴木明子さんの書籍を鈴木さん自身のAI音声でオーディオブック化して販売するなど、さまざまなプロジェクトを展開しています。オーディオブックやスマホゲームという市場は、一番マネタイズしやすい分野なので、そこは特に注力していきたいと思っています」(山田さん)
さらに、企業だけでなく、YouTubeやニコニコ動画といった動画投稿サイトにゲーム実況などの動画を配信している一般ユーザーが「CoeFont」のプラットフォームに公開されている、さまざまなAI音声を有償で利用していると言います。
「『CoeFont』のAI音声がどんなところで役に立つのか、わたしたちもいろいろと熟考している最中です。たとえば、いまテレビ局と連携して、地震などの緊急速報をAI音声で流すことができないか実証実験を行っています。深夜に大きな地震が起きたりしたとき、テレビ局内にアナウンサーがいないため、急きょ、普段は現場で取材する記者が不慣れな口調でニュースを読み上げているという場面を一度は見たことがあるはずです。それなら、人に頼らずにAI音声を活用してニュース速報ができないだろうか、ということで実現に向けて動いています」(山田さん)
声を失った方々から寄せられた感謝の言葉を胸に
今後、わたしたちの生活のさまざまな場面でAI音声が活用されることになるかもしれません。しかし、その一方で、人の声に近いAI音声だからこそ、特殊詐欺などの犯罪に利用されるのではないか、という懸念もあります。
「それについては、わたしたちも開発段階から犯罪に悪用される恐れがあるということは十分認識していました。そこで、犯罪に使われそうな言葉や卑猥な用語などは、そもそも音声として生成することができない仕組みになっています。また、『CoeFont』の利用を許可制にするなど、十分な対策は取っています」(山田さん)
「近い将来、AIに多くの仕事が奪われるかもしれない」。そんなことを耳にすることがありますが、山田さんは「AI技術は、わたしたちの生活を豊かにする」と言います。そこで、同社では、より多くの人たちにAI音声合成サービスについて知ってもらうため、社会貢献活動も積極的に展開しています。
「世の中には咽頭がんなどにより声帯を摘出せざるをえない状況になり、自分の声を失ってしまうという人たちがいます。そこで、手術前にご自身のAI音声を作成していただき、デジタルデバイスを通して、大切な家族や友人たちと会話ができるよう、その支援活動も行っています。実際、すでに複数の声を失った方にご利用いただいています。AI音声は、自分ののどから発生した生身の声ではないかもしれませんが、『スマホから自分の声が発せられることに救われた』という感謝の言葉もいただき、それはわたしたちにとっても大きなモチベーションになっています。世間的にはまだまだ〈AI=無味乾燥で冷たい〉というイメージがありますが、それを最先端のAI技術で覆していきたい」(山田さん)
人とAIが共生する社会は、わたしたちが想像している以上に早くやって来るかもしれません。