기본 콘텐츠로 건너뛰기

서평 : 음성처리와 자연언어처리 개론

음성 인식에 관심이 있어서 한글로 된 서적을 찾다가 고른 책인데 C와 Prolog로 작성된 PC용 소스코드가 포함되어 있다고 해서 기대를 했다.

원저인 Introducing Speech and Language Processing이 2005년 출간이고 차례를 읽어봐도 어느 정도 체계가 잡혀 있다고 생각했는데, 결론부터 이야기 하면 매우 실망.
음성 처리 관련한 개론서로는 적합한지 모르겠지만, 실제 음성 인식까지 비슷하게라도 구현해 보려면 이 책의 내용은 출발점만 제공할 뿐 상당한 연구가 더 필요할 듯.
C와 Prolog로 작성된 소스 코드는 꼭 필요한지 의문이 든다.
이 책을 교재로 강의할 때에는 음성 인식이 학기 목표가 되지는 않을 것 같다. 단지 음성 처리 관련 지식 일반에 대한 이해를 확인하는 수준이 될 것 같다.

음성 인식을 구현까지 가보고자 하는 사람에겐 너무 미흡한 책. 프로그래밍 지식이 없는 언어학, 음성과학 분야 초급자를 위한 교과서라는 서평이 적합한 듯.

실제 읽은 것은 원저가 아니라 2009년에 한국문화사에서 발행한 번역본인 음성처리와 자연언어처리 개론. 다 읽는 데 1주일도 안 걸렸다는 점에서 위안. (반대 급부로 영어 서적과 논문에 대한 부담이 점점 커진다.)

이 다음 단계는 어디서 출발을 해야 하나?

댓글

Taehan님의 메시지…
물리 쪽의 경우에는, 저널들에서 한 2년에 한번씩 분야별로 대가들에 의뢰해서 '리뷰' 형식의 논문(이라기보다 리포트에 가까운)을 싣습니다. 이름값이 있는지라 백그라운드부터 최근 결과와 예상되는 진행방향까지 잘 정리되어 있더군요. 세부 전공을 바꾸게 되는 경우 대개 이런것부터 찾아서 시작합니다.
Yoon Kyung Koo님의 메시지…
@Taehan 저널 같은 것들이 있긴 한 것 같은데 음성 인식을 지금 잘 해보려고 하는 것보다는 핵심 알고리즘을 좀 이해하고 응용을 해볼까 하는 거라서 wikipedia와 open source에서 재출발 ㅎㅎ
이호석님의 메시지…
음성인식은 hidden markov modek을 가장 많이 사용하는 걸로 알고 있는데요 혹시 hmm에 대한 스터디는 끝내셨는지요? 안보셨다면 그것부터 먼저 보심이 어떨지요… 더불어 DTW(Dynamic Time Warping) 도 함께요. n-gram도요
Yoon Kyung Koo님의 메시지…
@이호석 네, HMM, DTW, n-gram에 대한 개관은 이 책에 나와 있습니다. 이 책만으로 이해하기엔 좀 어려워 다른 것들을 좀 찾아보긴 했지만 개념적으로는 이해하고 있습니다.
이호석님의 메시지…
그러셨군요. 저도 요즘 HMM을 좀 알아보려고 하는데 너무 어렵더군요. Hidden 이라 어렵다는 이야기도…ㅎㅎ
꼭 찾으실수 있으실거예요. 수고하세요.
Yoon Kyung Koo님의 메시지…
HMM을 꼭 써야 하나 하는 게 처음의 문제의식이었는데요. 이전 상태와의 관계가 음성과 같은 신호를 분석하는 데 중요하기 때문이란 점은 이해하고 있습니다.

이 블로그의 인기 게시물

[Java] Java G1 GC의 특성에 따른 Full GC 회피 튜닝 방법

Java 6 중반부터 G1 GC가 나오면서 이 새로운 Java VM GC 정책을 두고 성능 튜닝을 어떻게 할지 고민이 많은 것 같다.

일단 생소하기 때문에 어렵다.

그런데 경험들이 조금씩 쌓이면서 문제점도 꽤 발견되는 것 같다.

먼저 G1GC를 이해하는 데 유용한 사이트이다.

Garbage-First CollectorGetting Started with the G1 Garbage CollectorUnderstanding G1 GC LogsTuning Garbage Collection for Mission-Critical Java ApplicationsControlling GC pauses with the GarbageFirst CollectorG1: One Garbage Collector To Rule Them AllGarbage First (G1) Garbage Collection Optionscompare JVM options for public메일 : G1 GC clean up time is too long
JDK 7부터 기본이 된 G1(garbage first) GC는 JVM의 Heap 메모리를 1MB 정도 크기의 region들로 나눠서 region별로 generation을 지정하여 상당히 효율이 좋지만 튜닝하는 게 까다롭다.
(새로운 메모리 처리 구조에 대한 튜닝 경험도 많이 부족해서 더욱 까다롭게 느껴지는 것 같다.)

지금까지 널리 알려진 문제로는 첫째, perm generation collection을 full gc때만 하는 문제가 있다.
즉, 클래스 언로딩을 full gc때만해서 자주 재배포가 발생하는 코드가 있는 경우 문제가 될 수 있다.
앞으로는 perm generation을 완전히 없애도록 JVM의 방향을 잡고 있기 때문에 당분간 이 문제는 해결하지 않을 것으로 보인다.

둘째, G1 GC에서 거대 객체(humongous object)라고 부르는 메모리 사용량이 큰 객체들에 대한 처리는 아직 최적화되지 않았다. 보통 한 region의 50% …

[Java] Heap Dump 분석을 통한 Perm Area Memory Leak 원인 진단

Software 특히 Java 언어를 사용하는 Software 개발 조직에 몸담고 있지만, 마흔을 훌쩍 넘긴 나이에 이런 글을 쓰는 것이 적합한지 의심되는데 특히 국내 SW 환경을 고려한다면 몹시 우스꽝스럽다.

이젠 개발팀장도 아니고 개발실장도 아니고 그위의 관리자이지만, 아직 완전히 제품 코드로부터 역할을 분리하지 못했고, 이러한 시간이 많이 걸리고 책임 소재가 불분명한 문제를 해결할 전문 인력을 두고 있지 않기 때문에 결국 직접 하는 경우가 생긴다. 이것은 미흡한 관리 능력의 결과라고 봐도 좋겠다.

개인적으로는 이러한 일이 전혀 나쁘지 않다. 즐거운 Software Life의 하나일 뿐이다.
관리자가 이러한 삽질을 직접 하는 것이 관리 체계를 무너뜨리는 것 아니냐고 묻겠지만...

oh, give me a break.. 나중에 교육교재 만드는 데 도움이 될까해서 하는 관리 행위의 하나라고 봐주기 바람~~ ㅠ_ㅠ;;

perm gen 과 class leak
Permanent Generation 은 young과 old를 구분하는 Generational Collector 방식인 Sun (now, Oracle)의 HotSpot JVM에서 Old generation 중 한 영역이다.
lifetime이 길다고 판단된 object들을 old generation으로 옮겨서 빈번한 gc의 대상이 되지 않도록 하는 것이 generational collector의 기본 아이디어인데 permanent generation은 old 중에서도 거의 gc 대상이 될 일이 없다고 생각되는 object들을 딴 영역에서 관리하겠다는 아이디어의 산물이다.

HotSpot JVM의 Perm Area 에는 주로 자바의 클래스 객체들이나 문자열 상수 풀에 속한 String 객체들이 위치한다.
메모리 leak의 대상이 되는 것은 string constants 보다는 주로 class 객체들이다.

(class 객체는 주로 객체의 타입을 나타내는 클래스나 인터페이스를 표현하는 객체로 타입명 뒤에 .class…

맥북프로 13인치 2010년 버전의 하드웨어 업그레이드 산전수전 경험기

혼돈의 시작
2010년에 구입한 맥북프로 13인치.

메모리 4GB,  하드디스크 256GB

2013년에 맥북프로 레티나 13인치를 사면서 아내와 딸이 함께 구형 맥북프로를 사용했다.

2016년에 또다시 맥북프로 레티나 13인치를 딸에게 사주면서 버려질 위기에 처한 맥북프로를 아내가 논문 작성용으로 쓰고 싶다고 해서 고민하다가 하드웨어 업그레이드를 결심.
메모리를 좀 늘리고 HDD를 SSD로 바꾸면 충분히 빨라질 것이라고 당연한 판단.

먼저 여기저기 뒤져서 애플에서는 공식 지원하지 않는 맥북프로 업그레이드 방법을 찾아냈다.
기종을 정확하게 아는 게 핵심.
우리 집 맥북프로의 공식 버전명은 MacBooPro 7.1 혹은 MacBook Pro Mid 2010 이었다.

먼저 메모리를 찾아봤다. 16GB까지 업그레이드 가능하다는 주장도 있었으나 주장들이 좀 엇갈려서 안정적으로 4GB 두 개 즉, 8GB로 업그레이드하기로 했다.

8.0GB OWC Memory Upgrade Kit - 2x 4.0GB PC8500 1066MHz 204 Pin (gmarket에서 9만 2천원. 배송비 포함)

다음은 HDD를 대체할 SSD.
이것도 여기저기 찾아봐서 호환이 확실히 되는 걸 찾았다.

MICRON Crucial MX300 275GB SSD (gmarket에서 9만 7천 2백원. 배송비 포함)

한국에서 구매하는 방법은 G-Market 뿐이었던듯.
아마존은 대부분 한국에서는 구매할 수 없는 곳 뿐이었다.

그리고, 마지막으로 맥북을 분해 조립하기 위한 드라이버들.
메모리와 HDD 교체에 필요한 드라이버는 작은 십자 드라이버 하나였다.
(하지만, 종류별로 다 구매했다는 ㅠ_ㅠ 나중에 나오지만 배터리를 교체하려면 Y자 드라이버도 필요하다. 드라이버는 한 개당 gmarket에서 1800원 정도.)

2016년 8월 10일
자, 이제 20만원 가까운 금액을 gmarket에 입금!

2016년 8월 24일
주문한 부품들이 도착한 것은 2주 후

분해와 조립, 무한 반복...
이제 이 맥북도 곧 날라다니겠…