반응형

이미지 출처: Apple

 

얼마 전 애플(Apple) WWDC에서 새로운 Siri AI를 발표했다. 키노트 내내 Siri라는 단어가 반복해서 등장했는데 이상하게도 생방송을 시청하던 수많은 기기 중 어디에서도 Siri가 깨어났다는 소식은 들리지 않았다.

 

보통은 누군가 Siri라고 부르기만 해도 옆에 있던 iPhone이 반응하는 경험, 한 번쯤은 겪어봤을 거다.

비밀은 오디오 스펙트로그램(소리의 주파수 변화를 시간에 따라 보여주는 그래프)에 있었다.

 

X(트위터)에서 한 오디오 엔지니어(@luuk58)가 키노트 영상의 스펙트로그램을 분석한 결과 흥미로운 패턴을 발견했다. 발표자가 Siri라고 말하는 순간마다(위로 솟아오른 부분) 네 개의 가로줄이 생겼던 것이다. 정확히는 3kHz, 4kHz, 5kHz, 6kHz 대역이 비어 있었다.

WWDC 2026 키노트 스펙트로그램에 나타난 의문의 가로줄. 이미지 출처: @luuk58

 

이 주파수 대역은 음성 인식이 호출어(wake-word)를 판별할 때 참고하는 중요한 단서 중 하나다. 노치 필터(Notch Filter, 대역 저지 필터)라는 오디오 기술을 이용해 이 주파수 대역만 정교하게 도려내면, 인간의 귀로 들을 땐 거의 차이가 없지만 음성 인식 알고리즘은 Siri 단어를 인식하지 못하게 된다.

 

사실 이런 방식이 처음은 아니다. 2017년 아마존 알렉사(Alexa) TV 광고에도 같은 기법을 적용해서 시청자들의 Echo 기기(음성인식 스피커)가 광고 도중 깨어나지 않도록 했다. 이번 애플 키노트에선 스트리밍 영상 전체에 적용했으니 한 발 더 나아간 셈이다.

 

인간을 향한 발표, 기계를 향한 침묵.

이번 애플 키노트는 둘 사이의 얇은 틈까지 연출한 셈이다.

 

 

참고글


반응형