Thread 동기화 객체 및 IPC의 선택

프로그래밍 2009. 11. 19. 15:47
336x280(권장), 300x250(권장), 250x250, 200x200 크기의 광고 코드만 넣을 수 있습니다.
동기화에 대해 조사할 일이 있어 웹서핑을 하다가 아래의 글을 발견했다.
개인적으로 이런 글이 좋아 정리해둔다.


최근 아래 그림과 같은 구조로 두 프로세스 사이에 통신을 해야하는 코드를 만들어보았다. 먼저 Process A의 스레드 중 한번에 하나씩만 Process B에 요청을 할 수 있고, Process B는 작업 처리 후 다시 돌려주는 것이다. 그런데 별 생각없이 사용하였던 Win32의 semaphore, event가 생각보다 큰 오버헤드로 적지 않은 고생을 하였다.

1. 프로세스간의 통신 (IPC)

IPC에는 무지하게 많은 방법이 있다. 간단하게 SendMessage/Post(Thread)Message를 이용한 방법이 있으며, Mailsot, Pipe 등이 있다. 먼저 메세지를 사용하려고 했으나 여러 문제가 있었다. SendMessage를 사용하려면 윈도우 프로시져가 필요하고, 즉, 윈도우 객체를 만들어야하는 부담이 있었으며, 프로그램의 구조를 비동기적인 구조로 만들어야한다. 즉, 연속적인 스텝으로 Process A와 B가 데이터를 주고 받아야할 때 메세지 루프를 다시 거쳐야하는 거시기한 꼴이 나온다. (물론 시퀀셜하게 GetMessage를 돌릴 수는 있다.) 그러나 무엇보다 오버헤드가 크고 전달할 수 있는 데이터의 크기도 매우 제한적이다. (송신 8바이트, 수신 4바이트) 물론 WM_COPYDATA가 있지만 고려하지 않았다.

그래서 Memory-mapped file(CreateFileMapping)을 이용한 shared memory를 사용하기로 하였다. 그리고 요청과 응답이 도착했다는 사실을 알려주기 위해 event 객체 (CreateEvent)를 가지고 IPC 메카니즘을 만들었다. MMF는 거의 오버헤드 없이 두 프로세스 사이에 데이터를 교환할 수 있으나, 정작 데이터 수신과 송신을 알려주는 이벤트가 생각보다 오버헤드가 컸다. 만약 SendMessage를 두 프로세스 사이에 썼더라면 이런 오버헤드는 피할 수가 없다. 그러나, Process A의 스레드가 Process B로 부터 응답을 받을 때 까지 event 객체를 기다리는 것이 아니라 무식해보이지만 busy waiting을 하면 오히려 throughput이 훨씬 증가함을 직접 확인하였다.(참고 1, 2, 3)
__forceinline static void WaitForHeapServerResponse(HS_QUEUE* pQ)
{
#ifndef _DEBUG
DWORD nSpin = 0;
while (pQ->req.dwSpin == 0)
{
if ((++nSpin & 63) == 0)
SleepEx(0, FALSE);
}
pQ->req.dwSpin = 0;
return;
#else
WaitForSingleObject(g_hEventHSRes, INFINITE);
#endif
}
무식하게 루프를 돌며 잠깐 잠깐 SleepEx를 호출하는 경우가 WaitForSingleObject를 이용하는 것 보다 훨씬 좋은 성능을 보였다. 물론 CPU 점유율이 올라가는 단점이 있어서 문제가 되지만, 최근 많이 사용되는 듀얼 코어 CPU를 생각하면 크게 문제가 되지 않는 것 같다. WaitFor...의 단점은 이 함수는 kernel-user mode state transition을 유발한다는 점이고, 이는 수천 사이클의 시간이 소요된다. 즉, event가 non-signal이라면 스레드는 잠을 자버린다. 그리고 event가 켜지면 이 잠에서 깨어나는데 이 비용이 만만치 않다는 것이다. 물론 두 프로세스 사이의 통신 빈도가 낮으면 문제가 없으나, 초당 저런 통신이 수십만번 일어난다면 (정말 초당 20만번까지 일어나는 경우가 있었다) 이 오버헤드는 상당히 컸다. 반면, spin-lock style의 경우 user-level에서 최대한 머무르고 있기 때문에 오히려 throughput은 올라가는 것을 발견할 수 있었다.

2. 스레드 사이의 동기화

너무나 고전적인 문제이다. Win32에서는 user object로 CRITICAL_SECTION이 있으며, 커널 객체로 semaphore, event, mutex가 존재한다. 아무 생각없이 세마포어로 Process A의 여러 thread들이 IPC 자원을 배타적으로 소유할 수 있도록 하였다. 돌려보았다. 퍼포먼스가 안습이었다 ㅠㅠ... 아차 싶어서 세마포어를 크리티컬 섹션을 바꾸었다. 성능이 훨씬 올라갔다! 책에서만 보았던 커널 객체의 오버헤드를 Core 2 Duo 프로세서에서도 여실히 확인하는 순간이었다.

따라서, CRITICAL_SECTION으로 해결할 수 있는 경우에는 *무조건* 크리티컬 섹션만 사용하여야한다. 불필요한 세마포어, 뮤텍스 사용은 최대한 자제해야할 것이다.

또, CRITICAL_SECTION은 듀얼 코어 및 멀티 프로세서 환경에서는 위의 무식해보이는 spin lock을 지원을 한다. (InitializeCriticalSectionSpinCount) 그래서 스핀락 카운트 만큼 무식하게 while 루프를 돌면서 공유 자원을 가지기 위한 시도를 한다. 그리고 이것도 놀랍게도 전체적인 throughput을 높여주었다.

3. 결론

Jeffrey Richter의 Advanced Windows 책을 보면서 (아니 벌써 7년전 얘기네 ㅠㅠ) 머리 속으로만 담고 있었던 각종 동기화 객체의 성능 차이를 확실히 느낄 수 있었다. 그리고 학부생이면 그냥 "정말", "많이" 라는 부사로 얼버무릴 수 있으나, 대학원생이 되다보니 이 부사를 설명하기 위한 데이터를 직접 정량적으로 뽑아내야만 한다. 정말 피곤하고 힘든 작업이 아닐 수 없다. 대충 이번 경우 IPC 및 동기화 방법만 바꾸어도 수행시간이 반 정도 줄어드는 경우도 있었다. (이 내용을 다시 정리해서 잘 영어로 바꿔서 레포트에 잘 쓰도록 하자...)

참고:

(1) Sleep(0)은 나에게 할당된 남아있는 time slice를 다 쓰지 않고, 나와 우선순위가 같은 스레드에게 넘겨 주는(relinquish) 경우를 말한다. 만약 그런 스레드가 없으면 그냥 리턴한다.

(2) 한 스레드만 spin-lock을 하는 것을 보장할 수 있으므로 while 체크에서 그냥 var == 0 꼴로 쓸 수 있다. 여러 스레드가 기다려야한다면 Interlocked* 계열의 연산을 이용해야한다.

(3) Throughput의 정확한 우리말 번역으로 무엇이 좋을까? 성능은 너무 일반적인 표현이고, 단위 시간 당 처리 능력을 말하는데 어디 좋은 말이 없을까.

출처 : http://minjang.egloos.com/579171

'프로그래밍' 카테고리의 다른 글

MaxUserPort 최대값 변경  (0) 2010.08.02
TCP TIME-WAIT 상태 이해하기  (0) 2009.11.23
CHCP  (0) 2009.11.16
서버성능 측정 시 성능모니터링 카운터  (0) 2009.10.15
MS08-067 점검  (0) 2009.10.08
posted by 어린왕자악꿍