Feeds:
投稿
コメント

Posts Tagged ‘Nuance’

耳で聞くようになると、テキスト読み上げに使われる声が気になる。

iPhone の声は「サマンサ」(Samantha)だそうだ。

デスクトップではいちばん自然に聞こえる「アレックス」(Alex)の声が気に入っていた。

アレックスの声の自然さについては、アップル自身が解説を加えている。

Accessibility – OS X – Vision | Apple
アクセシビリティ – OS X – 視覚に障がいのある方に | アップル

     *     *     *

アレックスの声(The Alex Voice)

Macの声、Alexをご紹介しましょう。Alexは、先進的なAppleのテクノロジーを使って、たとえ非常に速い話し方でも英語の自然なイントネーションを再現します。ほとんどのTTS(テキスト読み上げ)システムがテキストを一文ずつ分析して合成するのに対し、OS Xは段落ごとにテキストを分析。その内容をより正確に解読します。さらにAlexは人間の話し言葉のニュアンスをより詳細に反映させるので、本、記事、ニュースなどの長い文章の意味が、より理解しやすくなります。長い文章を読み上げる時は途中でひと呼吸おくので、Alexはとても自然です。

Introducing Alex, the voice of the Mac. Alex uses advanced Apple technologies to deliver natural intonation in English even at extraordinarily fast speaking rates. While most text-to-speech (TTS) systems analyze and synthesize text one sentence at a time, OS X analyzes text a paragraph at a time and deciphers the context more accurately. In addition, Alex more closely matches the nuances of human speech, so you can more easily understand the meaning of longer text passages in books, articles, and news stories. Alex is so natural he even breathes between long passages.

VoiceOverは、キーボードでの操作に加え、Appleのマルチタッチトラックパッドのジェスチャーを使って操作できます。これは画面読み上げ機能では初めてのことです。指先の動きを感知するトラックパッドの表面が、コンピュータスクリーン上のアクティブウインドウの代わりになり、触れた場所の内容を聴くことができます。指を動かしてドラッグしていけば、項目を連続して読み上げます。1本の指でフリックすると、前後の項目に移動できます。ジェスチャーは覚えるのが簡単で、楽しく使えるうえ、練習のためのモードも用意されています。VoiceOverを使えば、ウェブページ、スプレッドシート、プレゼンテーションをはじめ、あらゆる書類上の項目の配置や、複数の項目の位置関係をまったく新しい感覚で把握できるでしょう。

In addition to keyboard control, VoiceOver is the first screen reader you can control using gestures on an Apple Multi-Touch trackpad. The trackpad is a touch-sensitive surface that can represent the active window on your computer screen. So you can touch it to hear the item under your finger, drag to hear items continuously as you move your finger, and flick with one finger to move to the next or previous item. The gestures are easy to learn and fun to use, and there’s even a practice mode. With VoiceOver you’ll have a brand-new sense of how items are arranged and interrelated on a web page, in a spreadsheet, in a presentation, or in any document. Learn more about VoiceOver gestures

     *     *     *

アップルの「テキスト読み上げ」(text-to-speech)の歴史は古いが、音声合成の技術は Nuance 社のものを使っているようだ。

OS X Daily: “Mac OS X Lion Adds Amazing New Text-to-Speech Voices – Listen to Samples“: 15 May 2011

     *     *     *

Nuance の音声技術

Mac OS X Lion には高品質の「テキスト読み上げ音声」(text-to-speech voices)が多数含まれている。多数の言語に対応できたのは、これまでもウワサのあった音声技術の会社「Nuance」とアップルとの協力の賜物だ。新しい音声は驚くほど高品質で、主要な言語(英語、中国語、ドイツ語、日本語、フランス語、スペイン語、タイ語、インドネシア語、ポルトガル語、ヒンズー語、ロシア語、その他の言語)をほぼカバーしている。

Mac OS X Lion is set to include a wide variety of new high quality text-to-speech voices in a multitude of languages, thanks to a long suspected partnership between Apple and Nuance, a speech technology company. The new voices are of surprisingly good quality and speak in major world languages including English, Mandarin, German, Japanese, French, Spanish, Thai, Bahasa, Portuguese, Hindi, Russian, and many more.

     *     *     *

いろいろな音声サンプルを Nuance のサイトで聞くことができる。

「家政婦のミタ」さんみたいな日本語の声は「キョーコ」さんだそうだ。

サマンサ以外にも各国語の声が聞ける。

アメリカ英語:Samantha
英国英語:Serena
フランス語:Virginie
スペイン語:Monica
日本語:Kyoko
中国語:Mei Ling

     *     *     *

技術が自然のことばに近いところまできていることに驚かされる。

語学教材への活用もあっという間だろう・・・

アレックスとサマンサの声については、Erica Sadun が1年ほど前に Ars Technica で詳細に解説している。

Ars Technica: “iPhone VoiceServices: Looking under the hood” by Erica Sadun: n.d.

     *     *     *

アレックスとサマンサ

もしアナタがマックのアメリカ英語「アレックス」(Alex)の声に慣れているなら、「サマンサ」(Samantha)の声は少し機械的に聞こえるかもしれない。それは Alex は音声だけで数百メガバイトを占めるが、アメリカ英語にローカライズされた Samantha は3メガバイト以下しかないからだ。Samantha はシンプルな音声合成技術で、声の質の違いは耳で聞けば明らかだ。

If you’re used to the American English “Alex” voice on the Macintosh, you’ll notice that the “Samantha” voice sounds far more mechanical. That’s because the Alex voice alone occupies several hundred megabytes. In comparison, the US-localized Samantha data on the iPhone clocks in at under 3 megabytes. It’s a simpler synthesis system, and the difference in quality is easily apparent to the ears.

     *     *     *

音声データの量が大きすぎることから、モバイルではアレックスでなくサマンサになったものらしい。

Erica Sadun の記事には彼女が実際にアドレスブックをコントロールする様子のビデオも掲載されている。

これが Siri とどう関係してくるのか大変興味深いところだ。

iPhone の声も慣れてくればまんざらでもない。読み上げスピードの調節でだいぶ聞きやすくなった。

サマンサも、キョーコの声もなかなかのものだ。

・・・おっと、失礼。

ほら、またサマンサが呼んでいる・・・

広告

Read Full Post »


[Why So Siri-ous?:image

MG Siegler の Siri に関する大変興味深い考察がある。

以下、端折ってご紹介。

TechCrunch: “Why So Siri-ous?” by MG Siegler: 16 October 2011

     *     *     *

Siri の話題で持ち切り

この数日、ウェブを見回してみるとブログの世界はたったひとつの話題、Siri の話しかないみたいだ。予想どおり iPhone 4S が百万人の手に渡ったいま、Siri こそその特筆すべき特徴であることは明らかだ。

Looking over the web and especially the blogosphere over the past couple of days, it seems there is only one thing everyone wants to talk about: Siri. With the iPhone 4S now in millions of peoples’ hands, as expected, it’s clearly the stand-out feature of the device.

     *     *     *

またしてもアップルが

理由はいくつかある。しかし過去何年もの間繰り返し目にしてきたことが一番シンプルな答えだ。またしてもアップルがやってのけたのだ。

There are a few reasons. But the simplest answer is one that has played out time and time again over the past several years: Apple did it right.

     *     *     *

システムレベルで iOS に組み込んだ

確かに音声技術を初めて実現したのはアップルではない。電話に実装したのもアップルが初めてではない。実をいえば、アップルが音声コントロールに手を出したのは Siri が初めてではない。iPhone で試した最初の試みは、ハッキリいえばひどいものだった。誰も使わないのは当然だ。ところが Siri(アップルが買収した会社)のやることは、従前のサードバーティ製のスタンドアローンアプリとまったく同じことだ。従前の音声コントロールの試みに競争力はないが、Siri をシステムレベルで iOS と統合すれば魔法の力を持つとアップルが考えたそのビジョンと洞察力が賞賛すべきなのだ。

No, Apple is not the first to implement voice technology. Nor are they the first to do it on a phone. In fact, Siri isn’t even Apple’s first foray into voice controls. But their first attempt on the iPhone, quite frankly, sucked. It’s no surprise that no one used it. As for Siri, it’s a company that Apple acquired — they were actually doing some of the same things as a stand-alone third-party app previously. Credit Apple for having the vision and foresight to realize that their previous voice control offering wasn’t competitive, and that system-level integration of Siri into iOS could be magical.

     *     *     *

人間らしさ

大きな目で見れば、またしてもアップルはライバルが理解し得ないことを理解していたのだ。テクノロジーは誰の生活にとってもますます重要になっている。しかし幅広いユーザーが真にアクセスできるようにするためには、「人間らしさを加える」(humanize)ことが唯一の方法なのだ。それが Siri だ。グーグルもマイクロソフトも、ほかの誰もがこの点で見事に失敗している。

In the bigger picture, this is something that Apple seems to understand time and time again that their rivals do not. Technology is an ever-important part of everyones’ lives, but the only way to make it truly accessible to the vast majority of users is to humanize it. That’s Siri. Google, Microsoft, etc — they all fail miserably at doing this.

     *     *     *

なぜ控え目なのか

奇妙なのは、いつもならすばらしいマーケティングの手腕を見せるアップルが、こと Siri に関してはそれを抑えているように見えることだ。何故だろうか? それは Siri がまだベータ段階だとアップルが考えているからだ。グーグルの製品ならすべてはベータから始まる。アップルはそう軽々にベータということばを使わない。今回の発表にいたるまでアップルと話してみて明らかなことは、今目にしている Siri が第一歩としてはすばらしいものだが、目標とするものには遥かに及ばないと彼らが感じていることだ。そこに至るまでなお半年、あるいは1年かかるかもしれない。しかし準備成れりというときがくれが、大掛かりなマーケティング攻勢をかけることは間違いない。しかもその時には、複数のデバイスでも可能になるかもしれないのだ。

The funny thing is that while Apple are normally brilliant marketers in this regard, they’re actually holding back on Siri right now. Why? Because they consider the product to still be in “beta”. And while every Google product starts in beta, it’s not a tag Apple takes lightly. Talking with them leading up to the launch, they clearly feel that Siri as it stands right now, while a great first step, is nowhere near where they want it to be. It may take six months to get there. It may take a year. But when Apple does get it to where they feel it’s ready, I bet we’ll see a massive marketing push. And we may even see it come to other devices at that point.

     *     *     *

いろいろなデータとの統合

Siri は今の時点ではまだベータ段階だ。しかし直ぐには他のデータ提供パートナーと統合しないなどと考えるひとがいるだろうか。Quora と統合したときを考えてみよ。Twitter(すでにそうなっているかもしれない)と統合したらどうか。Foursquare はどうか。それに・・・Facebook とならどうだ。それが実現した暁には、グーグルは本気で心配するハメになる。

But again, this is a beta product. Does anyone really think Apple isn’t going to work quickly to integrate it with other data partners? Imagine it tied to Quora. Imagine it tied to Twitter (and how is it not already?!). Imagine it tied to Foursquare. Imagine it tied to… Facebook. If and when that happens, Google will have a very legitimate reason to be concerned.

     *     *     *

いずれ検索ビジネスにも

現在のところ、われわれと情報の間を繋いでくれる仲介役がグーグルだ。グーグルがそうしてくれることをみな有難いと思う。各人が自分で情報を見つけようとしてもたくさんあり過ぎて困るのだ。仲介役がどうしても必要となる。だからグーグルが必要なわけだ。しかしアップルが、この状況はモバイルアプリで変わると示唆しはじめてからしばらく経つ。アプリとは、より新しく、よりアクセスしやすい形で情報を包み込んだものに過ぎないのだ。いずれアップルが検索エンジンビジネスに参入するとみんなが考えるのはそういうわけだ。

Right now, Google is a middle man between us and information. And we love Google for it. There’s simply too much information out there for anyone to find by themselves. There needs to be a middle man. We need Google. Apple has been hinting for a while that mobile applications could change this game. But apps are just a new, perhaps more accesible wrapper of information. There still needs to be a search mechanism powering the discovery of information — that’s why everyone keeps insisting that Apple will eventually get into the search engine business.

     *     *     *

あくまで入り口

確かにアップルは参入を果たした。ただし皆が考えるやり方ではない。Siri はあくまで入り口(entry point)に過ぎない。ここでもまた、まだ小さな一歩にすぎないが、しかしいずれ大掛かりなものとなる可能性を秘めている。(もっと喫緊の課題は、スタックの核となるべきものをサードパーティの Nuance に委ねたままでいいのかということだろう。)

Well they have. But not in the way that everyone was thinking. Siri is their entry point. Again, it’s a small step right now, but it has the potential to be massive. (Perhaps the more pressing question: is Apple okay relying heavily on a third party, Nuance, for what may become a core component of their stack?)

     *     *     *

新しい検索パラダイムとしての音声入力

グーグルの音声検索(voice search)ならエキサイティングだと感じないのに Siri ならそう感じる根源的理由もそこにある。グーグル製品とは、つまるところすべてがグーグル検索を使わせる手段なのだ。音声検索も新しく加わったひとつのレイヤーに過ぎない。それが十分からなくても、まったく新しいものだとは感じられないのだ。Siri は完全に新しいものを目指している。Siri によってアップルは情報検索のあり方を変え、新しいパラダイムを創造したいと考えているのだ。それはモバイルによって可能となった進歩であり、音声(voice)という新しくかつ強力な情報入力によって可能となったものなのだ。

And that’s another fundamental reason why people are so excited by Siri where they aren’t by Google voice search. Google voice search, like basically every Google product, is ultimately a way to drive more Google searches. It’s just a new layer. Even if people don’t fully understand that, they sense that it doesn’t point to something totally new. Siri does point to something totally new. With it, Apple wants to change the information search and creation paradigm. It’s an evolution powered by mobile and a new, more powerful input: voice.

     *     *     *


Apple Futureshock | YouTube]

自然言語による音声対話

これはアップルが24年の長きにわたって追い求めてきたビジョンだ。iPad 発表のころから上のビデオが改めて注目を浴びている。「アップルは20年以上も前からタブレットを考えていた」という言葉とともに。しかし大切な点が見落とされている。それは自然言語による音声対話(natural language voice interaction)という点だ。アップルは密かに開発を続けていた。そしてそれが現実のものとなった。まさに未来を告げているのだ。

This is a vision that has been 24 years in the making at Apple. The video below first re-surfaced around the launch of the iPad. “Apple envisioned their tablet 20+ years ago!,” everyone yelled. But at the time, everyone overlooked the arguably more powerful aspect: natural language voice interaction. Apple was quietly working on that too. And now it’s here. Heralding the future.

     *     *     *

われわれが目撃しているのはそういうことか・・・

★ →[原文を見る:Original Text

Read Full Post »