Ningx High Concurrent求解 - Linux

Ula · 2014-10-17

Table of Contents

Post
Comments
Related Posts

手邊有一台Server, 設備大概是16G, 16 Core CPU,
打算拿來建置一台Backend Web Server(只跑PHP),
套件部分使用Nginx(0.8.6)、PHP-fpm,
希望可以達到每秒鐘併發數在200~500之間,
實際架設後並使用ApacheBench測試(-n10000 -c200)的結果是,
只要當系統的TIME_WAIT達到6000(net.ipv4.tcp_max_tw_buckets)之後,
伺服器的反應開始下降(使用tshark觀察), 並且就卡住了,
最後ab會發出apr_socket_recv: Connection timed out (110)的訊息,
尤其反覆測試後, 在先前的TIME_WAIT釋放之前, Server都會處於非常慢的狀況,
請問有哪些細節是沒有注意到還可以持續優化的嗎?
還是這台機器的等級, 沒有辦法處理這麼高併發的數量?

中間, 有使用ss去觀察TIME_WAIT的timer倒數,
發現每次都是從60秒開始倒數,
請問有辦法降低這個數值嗎?
或者讓Nginx的連接在client關閉後,
直接將該資源回收掉嗎?

目前一直著眼在TIME_WAIT的問題,
是否我思考的方向有錯?

還請有經驗的指點迷津,
感謝.

kernel參數調整如下,
net.core.netdev_max_backlog = 262144
net.core.somaxconn = 262144
net.ipv4.ip_local_port_range = 1024 65000
net.ipv4.tcp_fin_timeout = 30
net.ipv4.tcp_keepalive_time = 1200
net.ipv4.tcp_window_scaling = 0
net.ipv4.tcp_timestamps = 0
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_syncookies = 1
net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_max_syn_backlog = 8192
net.ipv4.tcp_max_tw_buckets = 6000
net.ipv4.tcp_mem = 786432 10485760 15728640
net.ipv4.tcp_wmem = 4096 10485760 20971520
net.core.wmem_max = 20971520
net.ipv4.tcp_rmem = 4096 10485760 20971520
net.core.rmem_max = 20971520

/etc/limits.conf調整如下,
* soft nofile 65535
* hard nofile 65535

Ningx的主要相關設定如下,
worker_processes 8;
worker_rlimit_nofile 65535;

events {
use epoll;
worker_connections 51200;
}

PHP-fpm的主要相關設定如下,
backlog = 8192
max_children = 256(static)
rlimit_files = 65535

--
http://www.myspace.com/soundtrack0220

--

All Comments

Isabella2014-10-21

MSL是寫死在kernel的這值除非重新compile不然調不了

Cara2014-10-23

不過可以調整減輕狀況 net.ipv4.tcp_tw_recycle
net.ipv4.tcp_tw_reuse 這兩個設成 1

Susan2014-10-26

看來已經調整了XD

Mary2014-10-30

然後tcp_max_tw_buckets不該調低
這會讓TIME_WAIT允許數量嚴重不足

Lily2014-11-02

痾... 說錯 tcp_max_tw_buckets 還不夠高

Victoria2014-11-06

有試著將tcp_max_tw_buckets調整到10000
發現伺服器回應的時間變長了, ab還是無法送完一萬個請求

Genevieve2014-11-06

並且發送成功的請求數量降低了

Kristin2014-11-07

不過我自己-c1000都能正常過-n10000了

Ida2014-11-10

不管kernel還是nginx參數都沒調過...

Kumar2014-11-15

如果是這樣的話, 會跟軟、硬體防火牆有比較大的關係嗎?

Gilbert2014-11-17

已經在網路上查過各式的調整法, 也都實際試過, 一直無解..

Anthony2014-11-21

手上幾台商用 web 提供大量連線對外方式，一般作法
不是一台撐起全部服務，大多會分散提供大量存取
有考慮虛擬化技術方式分散嗎？高檔 server 不用這個

Tracy2014-11-23

東西其實 cpu 算是相當閒置沒有被大量利用到

David2014-11-28

虛擬化之後 os 本身這類網路負荷問題也可以得以舒緩

Annie2014-12-03

願意試看看, kenduest可以提供相關簡易的資訊嗎? 謝謝

Edward Lewis2014-12-03

你可以網路上爬文一下，目前 linux 都用 kvm 虛擬化技術
ubuntu or rh-based 等 linux 版本網路上都很多資訊

Thomas2014-12-06

不過後續你要搭配其他方式來 loading balance
跑 bridge 網路架構，透過其他硬體平衡負載器分散存取

Jacob2014-12-07

或者是 nat 模式你還要搭配 iptables nat 設定功能

Mary2014-12-11

目前是希望可以先將單台伺服器設置好, 才會去做附載平衡
原本以為設備比較好的機器, 應該有辦法負載這麼大的請求

George2014-12-14

或者是搭配 nginx 的 proxy 方式提供分散到多台虛擬機
這並非是因為你系統的 cpu or memory 多就可以解決問題

Emily2014-12-15

所以才希望試看看, 是否可以單純修改設定就達到一定的成果

Daniel2014-12-18

目前測試時, 都是使用Virtual Box創建測試機
請問這算是你說的KVM技術嗎?

Susan2014-12-21

virtualbox 是一個 vm 實作的軟體，商業的 server 服務

Zora2014-12-23

沒會去用這個提供實際服務，linux kvm 比較可靠

Valerie2014-12-28

樓上... 你用iptables nginx都不重要
現在問題是他的kernel就是吃不下那連線數

Cara2014-12-31

後端分散了負責分散的前端連線問題還是在啊

Ina2015-01-01

問個問題，有沒有想過是 client 端自己的問題
若你測試端都是固定一台機器的話，那 client 端也會導致

Edwina2015-01-06

因為過多的 TIME_WAIT 會導致無法正常連線存取

Andrew2015-01-08

至於平衡負載架構，前端是有所謂瓶頸問題，但是

Edith2015-01-12

NAT 那邊是另外一個處理單純自己連線的諭時問題

Eden2015-01-14

分散可以先減低單一台 WEB server 本身 TIME_WAIT 問題

Franklin2015-01-17

分散還有其他方式，像是 DNS 分散架構

John2015-01-18

所以 dns balance + l4 balancer + multi server 分散

Cara2015-01-20

不過好像與原貼問題已經沒很直接關係了

Jacob2015-01-23

這篇另外也討論到相關議題: http://goo.gl/wllY3P

Yedda2015-01-26

ab 自己要打到那麼高也不是件容易的事