原本想一起寫在本文裡面,不過做了太多測試,需要的篇幅比較大,寫在本文裡面板面太擁擠了,所以只好獨立出來寫一篇

§Siri測試§

網路連線問題

為了測試不同人的口音,尤其是台灣人的發音,所以我找了當時一起去買iphone4的朋友今天來幫我做口音測試,結果他的4s一直遇到網路連線狀況,應該是太多人在玩siri,造成整個服務過載,不過也由此可知道,siri其實也是某種雲端服務,並不像傳統的語音辨識所有的資料都是儲存在本機中,siri應該有透過網路收集來各種的腔調,所以在將來整個語音辨識的辨識度應該會更高


就在我們想用另外一支4s做測試的時候,結果siri一直說出線連線問題,後來只好放棄用這支來測試,不過我自己的卻可以順利的使用,所以我們在猜有可能每個使用者的帳號會連到不同的伺服器,所以才會有這種同一時間下有人能用,有人不能用的狀況產生

對話練習篇...

既然Apple的廣告是想把siri當做一個會對答的虛擬助理,那我們就用日常生活對話的方式來跟助理對話練習一番,這次測試一共有兩個人,基本上兩個人的問題都是類似的,這樣的測試主要是測試siri有沒有辦法跟據不同的口音還有可能是錯誤的文法來猜對問題,畢竟在現實生活中,老外其實還是聽得懂我們的怪腔怪調跟有點怪異的中式文法,但是對於siri是不是一種考驗?測了就知道!


對話測試1


對話測試2

閒聊鬼扯篇...

Apple的廣告讓人非常驚艷Siri的表現,不過如果只測試廣告裡常用的功能,那就真的是不稀奇了,結束了日常對話測試,那就來個鬼扯閒聊吧,看看Siri是不是真的上知天文下之地理,也看看他是不是夠幽默。這個測試也是用兩個人來做,看看不同口音的人對於siri的判對會不會有差異


閒聊測試1


閒聊測試2

Siri判斷機制篇...

從前面的測試看得出來Siri有比目前世面上的語音操控聰明許多,尤其是回答問題的時候相對比較人性,比較不像機器在回答問題,不會死板板的,所以會讓人感覺siri很像是人工智慧。遙想以前大學時代的畢業專題做過手機的智慧型地理旅遊資訊推薦系統,所以對於這類的人工智慧的判斷機制特別敏感,也因為這樣我們的測試中發現siri目前的判斷機制還是有點問題,siri對於文法上的錯誤正確與否其實不太知道,因為即便是在文法正確的情況下,siri還是會給一些很莫名其妙的答案,所以“應該”可以猜測目前siri利用的是關鍵字來trigger(啟動)功能,而不是用context awareness的機制來啟動,又或著是context awareness的機制還不夠完整,造成siri看不懂語意,所以才會出現文法結構正確,siri所抓得內容也全部正確,但是答案卻是怪怪的答案。

英文第一課“你說英文嗎?”

這段影片測試的目的是看看siri啟動的機制,我們問了一連串,你說英文嗎,你說日文,你說西班牙文嗎,siri都會把“語言”當成“那個國家的菜”,所以會一直找吃得出來,Do/Can you speak+"語言"這是一句非常簡單的話,不過siri竟然會判斷成你想找那國的菜,所以從這裡可以猜得出來siri目前沒有建立這句話的判斷,對於siri的判斷機制也可以略知一二

地理第一課



地理第一課第一節~這段影片測試的目的是測試siri能不能正確的聽出地名,然後在地圖上秀出資訊,這測試就像小時後會問父母親,美國在哪裡,日本在哪裡,這種一萬個在哪裡,不過經過測試,siri只要是超過美國的地方就沒辦法提供地圖

地理第一課第二節~為了更嚴謹的驗證前一段的問題,這次我們從美國的城市開始往外擴大,一直到整個美國,siri都能正確的指出城市,每個州的州政府,以及美國首府,不過一旦出了美國就掛了,siri不但沒辦法提供路線,甚至連首都都沒辦法提供,這個部分滿奇怪的,同樣的判斷機制跟回答模式離開了美國就不行,甚至連第一輪開賣的國家日本,siri也沒辦法正確的指出東京。另外值得注意的一點,從第一個問題“siri, where is San Francisco?",siri居然會找在舊金山裡面的"siri",從這裡也可以看得出來siri很難理解“語意”,這句話我想只要是會英文的人都會懂是要問舊金山在哪,而不是問舊金山裡的siri在哪。所以從這裡又可以推測出來siri的判斷機制,只要聽到"地名"+"名稱"siri就會去找這兩個組合,這也再次可以推測出siri是用關鍵字當做trigger的條件,而不是利用語意來判斷。

iphone與android語音輸入PK...

siri這次在iphone4s還沒開賣的時候就已經很受到矚目了,連android的聲控功能也被拿出來被討論一番,不過因為android的聲控運作方式比較不像siri,所以在測試的時候我們就不把這部份考慮進去,畢竟兩種系統的比較基準點本來就不同,拿來比較沒有太大的意義,而android雖然在market有第三方的app類似於siri,但是也因為那不是內建的,所以也暫時排除。不過iphon4s跟android同時都具有voice input,也就是聲控輸入的功能,剛好手上也有一隻hTC的sensation,趁這機會來比較一下這兩個系統的語音辨識功能到底實不實用


測試一~情況假設是要傳簡訊,所以我們對著手機直接講要發送的內容,看看兩者是不是能正確的聽出來並且轉換成文字。裡面一共測試了五個句子,基本上,在測試中,兩支手機基本上都將所說的正確的轉換成文字,沒有什麼大問題,所以如果單純只是想發個簡訊之類的短句子,這兩個系統的語音輸入基本上都可以達到我們想要的目的,算是已經可以實用的功能

測試二~對於簡單的句子,兩種系統都能準確的轉換成文字,所以這段的測試是念一段國寄包裹的寄送須知,看看這種比較正式的書寫用語,兩種系統能不能都能正確的聽出並且轉換成文字。經過測試可以發現兩種系統都沒辦法正確的判讀,但是iphone4s的錯誤明顯比android的少很多,android的基本上整個句子都不太對,所以這階段的測試iphone略勝一籌

測試三~基本上跟測試二用的是一樣的句子,只是為了避免台灣人發音語調的問題,我們改用google小姐來發音,從這測試可以看出來iphone這次完全正確,而且判讀的速度也比sensation快很多,sensation判讀出來的內容還是有很多的錯誤

測試四~這個測試我們用了iphone4s的廣告第一句話來當做測試的句子,原句為"iphone4 was groundbreaking,it's one of the best products we've ever designed, and it's gone on to become the #1 smartphone in the world",讓兩支手機同時聽,看看是否能判讀出廣告講的句子。測試結果發現基本上兩者都有點錯誤,但是iphone的錯誤基本上還不影響閱讀,可是sesation判讀出來的句子基本上已經沒辦法閱讀,因為錯誤太多,造成句子非常的破碎

附註:這些測試基本上是針對之前在網路上看到有些人對於siri的疑問所做的測試,為了解決這些疑惑,所以我用了手邊所找得到的資源盡可能去設計出客觀的測試,上面所看到的影片其實在錄製之前都已經反覆的測試過很多次,發現結果是相似的時候,才會錄製下來,所以有問題的部份都是經過好幾次的實驗下來所發現的,並沒有刻意要讓系統出錯,如果手上有這些手機的人也可以試著去做看看相同的實驗,看看會不會有相同的狀況。

測試結語:

這些影片“真人”發音的部份我們都是用台灣人來講,如果用老美來說的話,雖然語調會正確,但是這就脫離了我們想針對台灣人使用的來測試的目的,雖然在測試中siri還是有點小凸槌,但是以目前還是beta版本來說已經是可以實用的階段,畢竟上面的測試都是為了去測試siri的極限所設定出來情境,這些情境其實有點超過設計的範圍。當然還要考慮到人的問題,現階段Siri本來就是設計給英語系的人使用的,對於台灣人的發音還有語調難免會有不適應的狀況,不過這在之後對siri也是一大挑戰,畢竟在美國有很多新移民或是其他族裔的人,現實生活中的英文有西班牙腔調、東南亞腔、韓國腔、日本腔、印度腔、台腔......等等,對於母語是英文的人來說這些腔調他們基本上都可以聽得懂,就像外國人說中文一樣,雖然有時候語調不對,但是中文是我們的母語,即便那些字句是破碎的,但是基本上大多數人是聽得懂的。另外,可能也是因為beta的關係,在內部測試的時候能夠找到的發音樣本跟句子樣本不夠廣,所以才會出現一些很離題的回答,不過這些狀況也是在我們一直拼命的去玩的時候才發現的問題,對於在設計內的對話都是很ok的,就跟蘋果廣告的影片效果差不多,所以並沒有把影片放上來。

另外,也有很多人會想siri是因為發音還有文法有錯所以聽不懂,但是經過很多次的測試,其實有時候文法錯得嚴重,siri一樣可以提供我們想要的資訊,以要找星巴克為例,說完整的句子“where is starbucks”或是只用單字“starbucks,please”、“starbucks”,不管怎樣說,siri都可以把附近的星巴克給找出來,只要不是說成“starducks”、“starsucks”或是直接用中文說星巴克,我想siri都能正確的提供想要的資訊,因為siri的容錯程度還算滿高的,所以就算想嘗鮮用英文版的siri但是英文又沒很有把握的人可以放心的用

最後,在兩種系統的語音輸入比較中可以發現,除了第一種的簡訊口說輸入測試以外,其他三種測試中,android系統的辨識率其實有點低,當然這跟測試本身就有點超過設計範圍有關,但是從這裡還是可以看得出來,iphone本身在語音輸入上下了不少功夫,因為測試的兩支手機都是我自己的,所以都已經有我的個人發音資料庫在線上了,但是辨識率還是有差,以現階段的語音輸入來說,不得不說iphone的確略勝一籌。但是個人覺得在介面上android的反而比較好用,因為一旦停止講話之後,系統就會開始分析字句,而iphone則需要再去按一下,相對的有點不方便。不過話又說回來,因為除了第一個的測試以外,其他幾個都算是比較挑戰系統極限的測試,就以日常要發送簡訊來說,這兩個系統的voice input都是可用的程度。

後記:

siri畢竟是這次iPhone4s的主打大菜,雖然還是不是很完整,但基本上還算是滿讓人驚艷的,尤其是在系統回應的方面,不像過去傳統的聲控都是死板板的,只會重複一樣的字句,在這裡可以發現,即便是一直用一樣的問題去問,siri都還會用不同的句子回答,就算現階段siri還不算是個完整的AI系統,但是光是這種回應的用語就會讓人覺得比較不像在跟機器講話,而是比較像在跟一個人講話。我想這也是蘋果所最注重的使用者經驗導向下所發展出來的,而siri也跟過去的語音系統不同,siri所有的辨識都會透過雲端的方式去分析所有的字句,因為目前siri服務才剛開始,相信再過一段時間,siri透過雲端收集更多使用者語調跟問題後,整個系統的聰明度會再有一定程度的提升。不過通通透過雲端也會產生一些問題,也就是在沒有網路連線的情況下,siri沒辦法做任何事情,即便是播放手機中的音樂都不行,因為siri沒辦法透過網路送出語音分析,這點跟以前把語音控制的分析放在手機裡面有很大的不同。而從siri服務這裡也可以看到雲端所帶來的好處以及缺點,“好的網路帶你上雲端,爛的網路就準備從雲端掉到地獄去了....”

IMG_2982.PNG
在沒有網路的情況下,siri是完全沒辦法運作的,即便只是要播放存在iphone裡的音樂都沒辦法

延伸閱讀:

[三合一開箱文]iPhone4s 排隊大作戰、開箱&Siri測試

2011.10.06 Steve Jobs上雲端後的Apple Store

arrow
arrow

    genkiboy 發表在 痞客邦 留言(4) 人氣()