TTA 간행물 - ICT Standard Weekly

> 표준화 참여 > TTA간행물 > ICT Standard Weekly

기술표준이슈

다운로드 (2018-25호)
트위터 페이스북 미투데이

[제878호] MPEG-I Audio 기술 표준화 동향

New Template

1. 머리말

SC29 WG11 122 MPEG회의가 2018 4 15일부터 20일까지 미국에서 개최되었다. 오디오 분야에서는 MPEG-I Audio를 비롯하여 MPEG-H 3D Audio, MPEG-4 SBR Enhancements, MPEG-D 등에 관해 제출된 38건의 기고서를 검토하였다. 금번 회의에서는 주로 MPEG-I Audio에 대한 18건의 기고서에 대한 활발한 논의가 있었다. MPEG-I Audio의 시스템 구조를 세분화하여 각 블록의 인터페이스에 대한 논의가 있었으며, 여러 기관에서 제출한 Requirements를 하나의 문서로 통합하여 MPEG-I 아키텍처(Architecture) 및 요구사항(Requirements)에 대한 초안 문서를 작성하였다. 오디오 그룹에서는 MPEG-I Audio 서비스를 위해 MPEG-H 3D Audio를 기본 코덱으로 사용하고, 6DoF(6 Degrees of Freedom, 6방향 자유도) 오디오 렌더러와 메타데이터를 추가로 표준화하기로 결정하였다. MPEG-I Audio 요구사항 문서 발간을 위한 초안을 마련하였고, MPEG-H 3D Audio, MPEG-4, MPEG-D 등의 개선 사항 및 정합 시험(Conformance Test)에 대한 논의도 함께 진행하였다.

 

2. 주요 회의 결과

오디오 분야에서는 MPEG-I Audio 표준화를 위한 기고서 검토에 가장 많은 시간을 할애하였다. MPEG-I Audio 테스트 및 테스트 방법론 분야에서는 Fraunhofer-IIS에서 제공한 6DoF 오디오 평가 플랫폼을 이용하여 여러 기관에서 진행된 테스트 결과에 대한 검토가 있었다. 이는 지난 회의 때, MPEG-I phase 2 Audio에서 표준화하고자 하는 오디오 렌더러의 성능 평가를 어떤 방법으로 진행하는 것이 바람직한지 논의하기 위해 새로운 평가 방법론으로 제안된 것이다. 기존 오디오 코덱에서 평가 방법론으로 널리 사용되던 MUSHRA(ITU-R BS.1534-3)로는 6DoF환경에 대한 오디오 평가를 수행하는 데 어려움이 있었기 때문이다.

HMD와 컨트롤러를 사용하여 사용자의 전ㆍ후, 좌ㆍ우, 위ㆍ아래 움직임과 3축 머리 회전이 가능한(6DoF Interaction) 상태에서 테스트 음원에 대한 평가를 진행하는 온라인 테스트 방법과 미리 설정된 사용자의 움직임을 기반으로 오디오와 비디오가 상호작용(Interaction) 없이 제공되는 오프라인 테스트 방법 그리고 오프라인 테스트에서 비디오가 제거된 상태로 오디오만 재생되는 오프라인 오디오-only의 세 가지 방법론이 적용되었다. 각 테스트에서는 네 종류의 서로 다른 오디오 렌더러 조건(GBR:Reference, Delay Offset, Position Offset, Stereo Downmix)이 제공되어 가장 좋은 렌더러를 얼마나 잘 구분할 수 있는지 청취평가가 진행되었다. 각 기관에서 진행된 테스트 중 대표적인 결과는 [그림 1]과 같다.

 

[그림 1] Fraunhofer-IIS에서 진행된 청취평가 결과

(‘Restaurant’, ‘Testroom’, ‘Outside’ 3가지 VR 평가 Scene에 대한 렌더러별 주관평가 평균 점수 및 95% 신뢰 구간)

 

이와 같이 오프라인 테스트에 비해 상대적으로 온라인 테스트에서 개별 오디오 렌더러의 성능을 보다 잘 구분할 수 있는 경향이 나타났으며, 이는 6DoF 환경에서 사용자의 움직임과 머리 회전 등의 상호작용이 평가에 잘 반영되었기 때문이다. 그러나 MPEG-I Audio의 평가 방법론이 아직 확정된 것은 아니며, AR 환경에서의 테스트와 오프라인 테스트 방법의 보완 등 테스트 방법론에 대해서 지속적으로 추가 논의가 진행될 것으로 예상된다.

 

MPEG-I Audio 아키텍처 및 요구사항과 관련해서는 금번 회의에서 MPEG-I 오디오의 시스템 구조를 세분화하여 각 블록의 인터페이스에 대한 논의가 있었으며, 여러 기관에서 제출한 요구사항을 하나의 문서로 통합하여 MPEG-I 요구사항에 대한 초안 문서를 작성하였다. MPEG-I 오디오 서비스를 위해 MPEG-H 3D Audio를 기본 코덱으로 사용하고, 6DoF 오디오 렌더러와 메타데이터를 추가로 표준화하기로 결정하였다. 특히, Social VR의 사용 사례(Use-case)에 대응하기 위해 저지연(Low-Delay) 처리를 위한 별도의 오디오 입력 채널을 지원하고 외부 메타데이터를 효율적으로 활용하기 위한 API를 정의하기로 하였으며, 기존의 상용 렌더러 및 오디오 신호처리 툴과 같은 외부 자원과의 유연한 확장을 가능하게 하기 위한 API도 함께 정의하기로 하였다. 현재까지 논의된 MPEG-I Audio 아키텍처에 대한 전체 구조도는 [그림 2]와 같다.

 

[그림 2] MPEG-I Audio 구조도(Reference Architecture)

 

Requirements 그룹에서 논의되는 MPEG-I 요구사항과 별도로 오디오 서브그룹에서는 오디오에 해당하는 내용만을 대상으로 별도의 요구사항 문서를 먼저 발간하기 위해 이에 대한 기고 검토가 있었으며, 각 기관에서 기고한 내용을 바탕으로 MPEG-I Audio 요구사항의 초안 문서를 정리하였다. 금번 회의에서 정리된 초안의 대표 항목은 다음과 같다. 

 

 

참가 기관 사이에 합의되지 않은 몇 가지 주제에 관해서는 다음 회의까지 추가로 논의하기로 하였으며, MPEG-I Audio에서 표준화하고자 하는 대상에 대해서는 다음과 같이 정리하였다.

 

 

3. 맺음말

3DoF 3DoF+ 미디어/서비스를 다루는 MPEG-I phase 1a, 1b의 표준화는 거의 막바지 단계에 이르러 가고 있으며, 6DoF 미디어에 대한 MPEG-I phase 2의 표준화에 대해 보다 활발한 논의가 이루어질 전망이다. 오디오 분야에서는 MPEG-I phase 2단계의 표준화 진행을 위해 금번 회의에서 요구사항 초안 문서를 작성하였다. 이번 회의에서 작성된 MPEG-I Audio 요구사항 초안 문서를 기반으로 다양한 활용 예에 대해 해당 기술이 적용될 수 있도록 보다 구체적인 논의가 진행될 예정이다.

정현주 (가우디오디오랩 연구원, sc@gaudiolab.com)

* 본 글은 저자의 의견일 뿐 TTA 기관의 입장과는 무관합니다.