표준화 참여안내

TTA의 표준현황

> 표준화 개요 > TTA의 표준현황

표준번호 TTAK.KO-10.1100 구표준번호
재개정일 2018-12-19 00:00:00.0 총페이지 20
한글표준명 대용량 텍스트 데이터 처리 효율 개선을 위한 형태소 품사 태그 세트
영문표준명 Part-of-Speech Tag Set for Improving the Processing Efficiency of Large-scale Text Data
한글내용요약 형태소 분석기에서도 2015년 제정된 말뭉치 작성용 품사 태그 세트를 그대로 사용하는 경우가 많이 있다. 하지만, 실제 자연어 처리 관점에서 어휘활용 기반의 품사 태그가 형태의미 기반의 품사 태그보다 분류하기 용이하고, 이런 결과는 형태소 분석 결과를 자질로 가지는 상위 언어 처리(개체명 인식기, 구문 분석기)에서도 영향을 미친다. 본 표준에서는 형태소 분석기에서 각 형태소가 가지는 품사의 모호성을 줄이기 위해 품사 태그 세트를 어휘활용 중심으로 수정하였다. 특히, 빈도는 높지만 표제어가 적고, 중의적 표현이 가능한 지정사(~이다, ~아니다), 조사(주격조사‧보격조사, 부사격조사‧접속조사), 어미, 어근의 형태소들의 품사를 수정 및 통합하여 총 38개 품사 태그 세트로 수정하였다. 또한, 개체명 인식을 위한 품사 태그 세트와 구문 분석을 위한 품사 태그 세트를 제공한다.
영문내용요약 In morpheme analyzer, there are many cases where the POS tag sets for describing the corpus tag set in 2015 is used as it is. However, in natural language process view, the vocabulary based POS tag is easier to classify than the form-semantic based POS tag and this effects upper language processors such as a named entity recognizer, a dependency parser. In the standard, to reduce the ambiguity in the morpheme analyzer, the POS tag set is modified from form-semantic base to vocabulary-usage base. The POS of morpheme of copula, postposition, end of word and root that appears frequently but with low head words, was revised and integrated into 38 sets of POS tag especially. It also provides a POS tag set for named entity recognizer and dependency parser.
국제표준
관련파일 TTAK.KO-10.1100.pdf TTAK.KO-10.1100.pdf            

이전
수면 관리 서비스 프레임워크 - 제2부: 서비스 참조 모델
다음
기계 학습을 위한 의료 신호 데이터 주석 표현 방식