(번역) How does non-blocking IO work under the hood?

개요

Blocking I/O와 Nonblocking I/O의 차이가 무엇인지 궁금해 읽게 됐습니다.

머릿말

논블로킹 I/O에 대해 얘기하기 전 왜 네트워크 I/O에서 논블로킹을 사용하는지에 대해서 설명합니다.

ING에서는 1초에 10000개의 요청을 처리하는 여러 애플리케이션들을 운용하고 있습니다. 전시 애플리케이션은 피크치에 도달했을 땐 거의 2만 리퀘스트가 1초에 찍히기도 하죠. ING팀에서는 Nginx와 Vert.x를 사용해서 피크 시점에 1초에 5만 리퀘스트를 처리하는 TracING 애플리케이션을 구축했다고 합니다.
이런 동시에 엄청난 요청이 들어오는 양을 처리하려면 thread-per-conneciton(스레드와 커넥션이 1:1로 매핑되는) 모델로는 해결이 불가능합니다. 따라서 Ngninx & Vert.x는 높은 동시 처리가 가능한 논블로킹 모델을 채택하게 된거죠.

How does the caller of a non-blocking/asynchronous API gets notified when data is ready? How does this work under the hood, at low level? 어떻게 비동기 논블로킹 API 호출자가 데이터가 준비되었을 때 알림을 받을 수 있을까요? 로우 레벨에서는 무슨 일이 일어나는 걸까요?

논블로킹 API가 호출된 뒤 조금의 시간이 지나고 나면 호출자는 데이터가 준비됐다는 알람을 반드시 받아야 합니다. 그러나 호출자는 어떻게 데이터가 준비됐는지 알 수 있을까요? 신호라도 받는 걸까요? 아니면 데이터가 준비됐는지를 지속적으로 확인하는 어떤 메커니즘이 있는 걸까요? CPU는 인스트럭션을 순차적으로만 실행할 수 있다는 사실을 고려해봤을 때 소프트웨어나 하드웨어에서 어떻게 데이터가 준비되었을 때 **‘수신’**할 수 있는 방법이 뭘까요?
대부분 컴퓨터에서는 일반적으로 하드웨어 인터럽트 프로세서를 사용해서 이를 가능케 합니다. 하지만 하드웨어 인터럽트는 확장성이 부족하고 유연하지 못합니다. (아주 구리죠 왜~?) 만약에 10만 이벤트가 1초에 발생된다면 10만개의 하드웨어 인터럽트가 발생할텐데, 이건 말도 안되니까요.
따라서 위 방법보단 데이터가 준비됐는지 지속적으로 확인하는 어떤 폴링 같은 무한루프가 있어야 하지 않을까요? 하지만 무한 루프는 CPU 타임을 잡아먹기 때문에 비효율적입니다. 우선 이걸 이해하기 전 IO와 블로킹에 대한 기초를 먼저 살펴봅시다.

Blocking IO

하드 드라이브, 네트워크, 데이터베이스와 수행하는 IO 인터렉션 작업들은 일반적으로 CPU가 IO 작업을 호출한 뒤에는 다른 작업이 발생하지 않습니다. IO로부터 데이터를 요청하는 API를 호출했을 때, 아마 응답을 곧바로 받지 못하고 그 사이에 딜레이가 있을테죠. 물론 이런 딜레이는 하드 드라이브에서 파일을 요청했을 때는 아주 짧지만, 네트워크에서는 이보다 훨씬 깁니다.
- (별도 추가)TCP/IP 모델 기준으로 index.html 을 가져오고 싶다고 가정해보겠습니다.
- *하드 드라이브에 저장되어있는 파일들은 SATA 케이블과 메인보드 버스를 통해 CPU로 전송됩니다.
- 서버에 위치한 네트워크의 데이터들은 네트워크 케이블, 라우터, nic을 통해 CPU로 들어옵니다*
IO로부터 데이터를 요청하는 API를 호출하는 것은 실행중인 스레드를 블락 상태로 만듭니다. 리눅스에서는 스레드가 블락되면, 커널에 의해서 호출자에게로 데이터가 반환될 때 까지 sleep 상태로 들어가게 됩니다.
sleep 상태의 스레드들은 즉시 CPU 제어권을 포기하게 되기때문에 CPU 타임을 낭비하지 않습니다. IO가 준비된 뒤에는 스레드는 sleep 상태로부터 벗어나고 runnable 상태로 들어가게 됩니다. 이 상태에 있는 스레드들은 CPU에 실행 가능한 상태로 들어가게 되죠. 이렇게 CPU에게 스레드를 배분하며 on/off를 조작하는 행위를 컨텍스트 스위칭이라고 합니다.

스레드는 다른 상태를 가질 수 있습니다. 여러 언어나 OS에서 각각 상태를 부르는게 다르며, 리눅스 커널에서는 running, not running이 존재하고 자바 스레드에서는 6개의 상태가 있습니다.

Why non-blocking IO?

논블로킹 IO의 주요 장점은 우리가 동일한 양의 IO 요청을 처리할 때 (블로킹 IO보다) 스레드가 적게 필요하다는 것입니다. IO의 다수 호출이 발생했을 때 블로킹 IO는 각 호출마다 새로운 스레드가 생성됩니다.
스레드는 1MB 정도 비용이 발생하고, 컨텍스트 스위칭에 필요한 비용까지 살짝 더 들어갑니다. 만약 50000개의 커넥션을 1초에 핸들링하고 있다고 가정해보면? 커넥션 당 스레드는 엄청 비싸겠죠?