20120830發(fā)現日本服務(wù)器 27和28 有報錯日志。詳細如下:
Aug 31 18:25:36 collect-28 kernel: printk: 58 messages suppressed.
Aug 31 18:25:36 collect-28 kernel: Out of socket memory
故障排查分析:
第一條日志分析:
查找信息,Aug 31 18:25:36 collect-28 kernel: printk: 58 messages suppressed. 此報錯需要修改內核信息如下;
(1) 加大 ip_conntrack_max 值:
查出原本的 ip_conntrack_max 值,指令: cat /proc/sys/net/ipv4/ip_conntrack_max
寫(xiě)入理想的數值 (每一個(gè) ip_conntrack buffer 會(huì )占用 292 Bytes)
指令: echo "數值" > /proc/sys/net/ipv4/ip_conntrack_max
例如: echo "163840" >/proc/sys/net/ipv4/ip_conntrack_max
這個(gè)效果是暫時(shí)的, 如果要每次開(kāi)機都使用新的數值, 需將上述指令寫(xiě)入 /etc/rc.d/rc.local
或是在 /etc/sysctl.conf 加入: net.ipv4.ip_conntrack_max = 數值
或使用指令: sysctl -w net.ipv4.ip_conntrack_max=數值
(2): 降低 ip_conntrack timeout 時(shí)間
重設:ip_conntrack_tcp_timeout_established (原值: 432000, 單位: 秒)
指令:echo "數值" > /proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_established
例如:echo "180" > /proc/sys/net/ipv4/netfilter/ip_conntrack_tcp_timeout_established
開(kāi)機自動(dòng)設置的作法同方法(1).
(3):開(kāi)啟 tcp_syncookies
重設:tcp_syncookies (默認值 0)
例如:echo '1'> /proc/sys/net/ipv4/tcp_syncookies
修改內核配置文件,報錯日志無(wú)效,
第二條報錯日志分析:
查找信息,Aug 31 18:25:36 collect-28 kernel: Out of socket memory,此報錯需要修改內核信息如下;
兩種情況會(huì )出發(fā) "Out of socket memory" 的信息:
1.有很多的孤兒套接字(orphan sockets)
2.tcp socket 用盡了給他分配的內存
首先看看情況 2。對于 TCP socket 來(lái)說(shuō),使用 pages 來(lái)計數的,而非 bytes,一般情況下 1 page = 4096 bytes。page 大小可以通過(guò)下面命令獲得:
$ getconf PAGESIZE
4096
查看內核分配了多少的內存給 TCP:
$ cat /proc/sys/net/ipv4/tcp_mem
69618 92825 139236
第一個(gè)數字表示,當 tcp 使用的 page 少于 69618 時(shí),kernel 不對其進(jìn)行任何的干預
第二個(gè)數字表示,當 tcp 使用了超過(guò) 92825 的 pages 時(shí),kernel 會(huì )進(jìn)入 “memory pressure”
第三個(gè)數字表示,當 tcp 使用的 pages 超過(guò) 139236 時(shí),我們就會(huì )看到題目中顯示的信息
查看 tcp 實(shí)際用的內存:
$ cat /proc/net/sockstat
sockets: used 116
TCP: inuse 3 orphan 0 tw 4 alloc 4 mem 110
UDP: inuse 1 mem 1
UDPLITE: inuse 0
RAW: inuse 0
FRAG: inuse 0 memory 0
可以看到,實(shí)際使用的 mem(110) 遠遠小于 69618,所以,“Out of socket memory”的錯誤是由于第一種情況引起的。
關(guān)于 orphan socket 的解釋?zhuān)埧催@里。orphan socket 對于應用程序來(lái)說(shuō),意義不大,這也是內核要限制被 orphan socket 消耗內存的原因。而對于 web server 來(lái)說(shuō),有大量的 orphan socket 也屬正常,那么多的連接放在那兒了。
查看 orphan socket 限制:
$ cat /proc/sys/net/ipv4/tcp_max_orphans
對比當前系統中的:
$ cat /proc/net/sockstat
sockets: used 14565
TCP: inuse 35938 orphan 21564 tw 70529 alloc 35942 mem 1894
由于內核代碼中有個(gè)位運算,所以實(shí)際的跟最大的是 2x 或者是 4x 的關(guān)系?,F在根據實(shí)際情況,將 tcp_max_orphans 調到一個(gè)合理的值就可以了。原則上該值建議只增大,另外,每個(gè) orphan 會(huì )消耗大概 64KB 的內存。
還有個(gè)叫 tcp_orphan_retries 參數,對于 web server,可以減小。
修改了上面的一些配置參數,報錯日志還是在一直往外報。
####################################################################################################
net.ipv4.tcp_max_orphans = 18000
最后修改值到18000,Out of socket memory報錯解決。
net.ipv4.tcp_max_tw_buckets = 10000
最后修改值到net.ipv4.tcp_max_tw_buckets = 10000,kernel: printk: xxx messages suppressed.報錯解決。
記得參數修改完成執行 sysctl -p
#######################################################################################################
聯(lián)系客服