欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費電子書(shū)等14項超值服

開(kāi)通VIP
IBM小型機日常維護
第一篇 日常維護部分
目  錄
第1章       AIX系統管理日常工作(檢查篇).............................................................................. 1
1.1      常用的命令............................................................................................................... 1
1.2      語(yǔ)法介紹.................................................................................................................. 1
1.2.1      vmstat:檢查內存、CPU、進(jìn)程狀態(tài).................................................................. 1
1.2.2   sar:檢查CPU、IO.............................................................................................. 2
1.2.3      PS:檢查進(jìn)程狀態(tài)命令..................................................................................... 3
1.2.4   svmon:顯示進(jìn)程占用內存................................................................................... 3
1.2.5   iostat:顯示磁盤(pán)IO............................................................................................... 4
1.2.6   netstat, entstat:顯示網(wǎng)卡信息............................................................................. 4
1.2.7   no:顯示tcpip參數設置....................................................................................... 5
1.2.8      其它命令........................................................................................................... 5
第2章       AIX系統管理日常工作(LV篇)................................................................................ 6
2.1      IBM AIX系統管理的日常工作.................................................................................... 6
2.1.1      開(kāi)關(guān)機步驟........................................................................................................ 6
2.1.2      用戶(hù)組及用戶(hù)管理............................................................................................. 6
2.1.3      文件系統維護.................................................................................................... 6
2.1.4      系統日常管理.................................................................................................... 6
2.1.5      系統備份........................................................................................................... 6
2.1.6      定時(shí)清洗磁帶機................................................................................................. 7
2.1.7      定時(shí)檢查設備指示燈狀態(tài)................................................................................... 7
2.1.8      簡(jiǎn)單故障的判斷................................................................................................. 7
2.1.9      熟悉ibm aix操作系統........................................................................................ 7
2.2      關(guān)于IBM AIX的邏輯卷管理...................................................................................... 7
2.3      LVM命令................................................................................................................. 8
第3章       AIX系統管理日常工作(關(guān)鍵參數檢查篇).............................................................. 10
3.1      AIO參數檢查.......................................................................................................... 10
3.2      磁盤(pán)陣列queue_depth參數檢查............................................................................ 10
3.3      用戶(hù)參數檢查......................................................................................................... 11
3.4      激活SSA Fast-Write Cache.................................................................................. 11
3.5      IO參數設置............................................................................................................ 11
3.6      syncd daemon的數據刷新頻率............................................................................... 12
3.7      檢查系統硬盤(pán)的鏡像............................................................................................... 12
第4章       AIX系統管理日常工作(性能分析篇)................................................................ 13
4.1      性能瓶頸定義......................................................................................................... 13
4.2      性能范圍................................................................................................................ 13
第5章       AIX系統管理日常工作(SHUTDOWN篇)............................................................. 14
5.1      概念....................................................................................................................... 14
5.2      關(guān)機命令................................................................................................................ 14
第6章       AIX系統管理日常工作(備份與恢復篇)............................................................. 14
6.1      用SMIT備份.......................................................................................................... 14
6.2      手工備份................................................................................................................ 14
6.3      恢復系統................................................................................................................ 14
第7章       HACMP的 雙機系統的管理和維護..................................................................... 15
7.1      HACMP 雙機系統的啟動(dòng)........................................................................................ 15
7.2      HACMP 雙機系統的關(guān)閉........................................................................................ 15
7.3      察看雙機系統的當前狀態(tài)........................................................................................ 16
7.4      HACMP環(huán)境下的排錯............................................................................................ 17
7.4.1      了解問(wèn)題的存在............................................................................................... 17
7.4.2      判斷問(wèn)題的出處............................................................................................... 18
 
 
第1章    AIX系統管理日常工作(檢查篇)
1.1      常用的命令
 
 CPU
 Memory
 Disk
 Network
 
標準UNIX命令(包括HP、SUN等)
 vmstat, sar, ps
 vmstat, ps
 iostat, sar, vmstat,
 netstat, nfsstat
 
AIX 詳細輸出
 Tprof
 svmon, rmss
 filemon, fileplace
 entstat
 
AIX 非常詳細輸出
 syscalls, trace, emstat
  trace
 trace
 trace, iptrace
 
分析工具
 topas
 topas
 topas
 topas
 
 
1.2      語(yǔ)法介紹
1.2.1  vmstat:檢查內存、CPU、進(jìn)程狀態(tài)
# vmstat 1 15
kthr     memory                   page               faults     cpu    
-----   -----------      ------------------------  ------------  -----------
 r  b   avm   fre    re  pi  po  fr   sr  cy  in   sy    cs  us sy id wa
 1  0 28132 81277   0   0   0   0    0   0 132  375  67 65  1 34  0
 2  0 28132 81277   0   0   0   0    0   0 127  338 131 99  0  0  0
 2  0 28132 81277   0   0   0   0    0   0 132  316 131 99  0  0  0
 2  0 28132 81277   0   0   0   0    0   0 120  317 126 99  0  0  0
 2  0 28132 81277   0   0   0   0    0   0 146  316 127 99  0  0  0
 2  0 28132 81277   0   0   0   0    0   0 130  317 125 99  0  0  0
 2  0 28132 81277   0   0   0   0    0   0 135  316 127 99  0  0  0
 2  0 28132 81277   0   0   0   0    0   0 129  317 124 99  0  0  0
 2  0 28132 81277   0   0   0   0    0   0 133  304 127 99  0  0  0
 
r:正在運行的進(jìn)程
b:被阻擋的進(jìn)程
avm:活動(dòng)的虛內存,單位4kb
fre:自由列表,位4kb
po:頁(yè)換出
pi:頁(yè)換入
sy:系統占用CPU
id:空閑CPU
wa:等待的CPU
1.2.2     sar:檢查CPU、IO
例如:
sar -u 1 30
sar -P ALL 1 10
 
語(yǔ)法:
sar -[abckmqruvwyA] inteval repetition
-b buffer 活動(dòng)
-c 系統調用
-k 內核進(jìn)程統計.
-m 消息及信號量活動(dòng)
-q 正在運行的隊列數及等待隊列數
-r 頁(yè)交換統計
-u CPU利用
-P CPU負載.
 
1.2.3    PS:檢查進(jìn)程狀態(tài)命令
ps:
顯示當前SHELL重所有進(jìn)程
ps -ef :
顯示系統中所有進(jìn)程,-f顯示更詳細信息
ps -u oracle:
   顯示oracle用戶(hù)進(jìn)程
ps –emo THREAD:
顯示線(xiàn)程信息
ps au;ps vg:
按使用時(shí)間顯示進(jìn)程(最近一次調用)
ps aux:
按使用時(shí)間顯示進(jìn)程(進(jìn)程啟動(dòng))
 
1.2.4      svmon:顯示進(jìn)程占用內存
svmon –G:
顯示系統占用內存
svmon -C command_name:
顯示某個(gè)用戶(hù)進(jìn)程占用內存
svmon -P pid
顯示某個(gè)進(jìn)程占用內存
svmon –S:
顯示段占用內存
 
1.2.5     iostat:顯示磁盤(pán)IO
 
tty:  tin    tout   avg-cpu:  % user    % sys     % idle    % iowait
0.0    4.0       0.9  1.3   95.4       2.5   
 
Disks:        % tm_act     Kbps      tps    Kb_read   Kb_wrtn
hdisk0          58.4     218.3      41.2        172       920
hdisk1          16.8      85.6      21.4        428         0
hdisk2          50.6     223.9      55.6       1100        20
hdisk3          16.8      85.6      21.4        428         0
hdisk4           0.0       0.0       0.0          0         0
hdisk5          43.4     279.1      69.8       1396         0
hdisk6           0.0       0.0       0.0          0         0
hdisk7          16.4      27.2      20.2          0       136
hdisk8           0.0       0.0       0.0          0         0
hdisk9           9.4     156.0      11.4          0       780
hdisk10         16.4      27.2      20.2          0       136
cd0              0.0       0.0       0.0          0         0
 
1.2.6    netstat, entstat:顯示網(wǎng)卡信息
netstat en0:
顯示en0信息
netstat –s:
顯示網(wǎng)絡(luò )信息
netstat -m
顯示網(wǎng)絡(luò ) buffers.
netstat -i
顯示網(wǎng)卡狀態(tài)
netstat -I en0 1
顯示eno網(wǎng)卡塞(1秒間隔)
 
1.2.7    no:顯示tcpip參數設置
no –a:
顯示tcpip所有參數當前設置
no -o tcp_keepalivetime=7200000
設置tcp_keepalivetime等于3600000秒
no -d 恢復默認值
 
注:該方法在重啟后失效
 
1.2.8     其它命令
檢查文件系統
 df -k
 
檢查設備
 lsdev -C
 
檢查物理卷
 lspv
 
檢查交換區
 lsps -a
 
檢查配置
 lscfg -vp
 
檢查軟件
 lslpp -l
 
檢查用戶(hù)
 who
 
 
第2章    AIX系統管理日常工作(LV篇)
2.1  IBM AIX系統管理的日常工作
系統管理員對小型機系統的正確管理是系統穩定運行的保障,作為系統管理員應注意以下幾個(gè)方面:
2.1.1    開(kāi)關(guān)機步驟
在系統管理員控制下進(jìn)行正確的操作。(第5章有專(zhuān)門(mén)介紹)
2.1.2    用戶(hù)組及用戶(hù)管理
2.1.3    文件系統維護
發(fā)現文件系統已滿(mǎn),應及時(shí)刪除無(wú)用文件或擴大文件系統。
查看文件系統使用率命令:df –k ,查看%Used和%Iused
Filesystem    1024-blocks      Free %Used    Iused %Iused Mounted on
/dev/hd4            32768     20180   39%     2070    13% /
/dev/hd2          2293760   1230984   47%    33045     6% /usr
/dev/hd9var         32768     15832   52%      367     5% /var
/dev/hd3            32768     23300   29%      110     2% /tmp
/dev/hd1            32768     31384    5%       72     1% /home
/dev/informixlv      524288    199060   63%     3521     3% /home/informix
注意系統文件系統中的/  /var   /tmp使用率不要超過(guò)90%
2.1.4    系統日常管理
系統管理員最好用 smit來(lái)進(jìn)行系 統管理。Smit是以菜單方式工作的工具包,它包括了日常管理工作的所有命令,操作簡(jiǎn)便。
2.1.5    系統備份
備份是保護用戶(hù)數據不丟失的重要手段。一般系統備份的要求如下:
A. 每一臺機器的操作系統至少有一個(gè)全備份。
B. 每天備份用戶(hù)數據。
C. 操作系統配置修改后重新備份操作系統。
(系統備份方法在第六章專(zhuān)門(mén)介紹)
2.1.6    定時(shí)清洗磁帶機
可以每月定時(shí)清洗一次,將清洗帶插入磁帶機,清洗完畢后會(huì )自動(dòng)退出磁帶。
當磁帶機需要清洗時(shí),磁帶機左邊第一個(gè)起綠色指示燈會(huì )亮。
2.1.7    定時(shí)檢查設備指示燈狀態(tài)
RS6000小型機出現硬件故障時(shí),系統前面板上會(huì )亮一個(gè)橙色的告警燈。
液晶面板上面會(huì )有顯示錯誤代碼
2.1.8    簡(jiǎn)單故障的判斷
詳細信息見(jiàn)“第二部分:故障處理指導書(shū)”
2.1.9    熟悉ibm aix操作系統
2.2  關(guān)于IBM AIX的邏輯卷管理
IBM AIX 存儲管理的五個(gè)基本概念:
物理卷Physical Volume,稱(chēng)為PV:指物理上硬盤(pán),一個(gè)硬盤(pán)就是一個(gè)PV,名字為HDISK0、HDISK1。
物理分區(Physical Partitions):物理卷被劃分成大小一樣的物理分區PPs
邏輯卷組 Logical Volume Group,稱(chēng)為VG:一個(gè)VG包含整數個(gè)PV,可理解為一個(gè)大硬盤(pán)。
邏輯卷 Logical Volume,稱(chēng)為L(cháng)V:相當于對大硬盤(pán)進(jìn)行邏輯分區, 一個(gè)VG里可有若干個(gè)LV,對用戶(hù)講,LV上的數據是連續的,但PV上的數據可能是分散的。
邏輯分區(Logical Partitions):每個(gè)LV有若干邏輯分區(LPs)組成,每個(gè)邏輯分區至少有一個(gè)PV組成。
文件系統 File System:在邏輯卷的基礎上,可建立文件系統JFS,然后 MOUNT到一個(gè)目錄下,這樣就可以文件存取的方式來(lái)使用這塊硬盤(pán)了。
當然,您也可以不建文件系統,而直接把LV當作裸設備,以TRUNK方式來(lái)存取數據,許多數據庫都是用這種方式存取數據。
LVM的關(guān)系如下圖:
 

2.3  LVM命令
一般采用smit命令可對PV、VG、LV、JFS等進(jìn)行圖形化管理,命令如下:
smit  lvm
屏幕顯示如下:
Add a Logical Volume
  Logical volume NAME                      [scratch]
* VOLUME GROUP name                         testvg
* Number of LOGICAL PARTITIONS         [64]       #
  PHYSICAL VOLUME names                    [hdisk1 hdisk2 hdisk3]   +
Logical volume TYPE                      [jfs]
POSITION on physical volume               middle  +
RANGE of physical volumes                 minimum   +
MAXIMUM NUMBER of PHYSICAL VOLUMES       []        #
to use for allocation
Number of COPIES of each logical         2      +
partition
Mirror Write Consistency?          yes                     +
Allocate each logical partition copy     yes     +
on a SEPARATE physical volume?
RELOCATE the logical volume during   yes             +
reorganization?
Logical volume LABEL                     []
MAXIMUM NUMBER of LOGICAL PARTITIONS     [512]     #
Enable BAD BLOCK relocation?        yes                     +
SCHEDULING POLICY for reading/writing    parallel    +
logical partition copies
Enable WRITE VERIFY?            no                      +
File containing ALLOCATION MAP           []
Stripe Size?                             [64K]  
 
行命令:
       .lsvg:查看vg名字
查看vg詳細信息:       lsvg <vgname>
查看vg內的LVs:       lsvg -l <vgname>
查看vg內的PV: lsvg -p <vgname>
查看激活的VG:    lsvg –o
 
. lspv:查看物理卷組pg名字
查看PV 詳細信息:                                 lspv hdiskN
查看PV內的LVs                                lspv -l hdiskN
查看PV內的PP :                                lspv -p hdiskN
 
. lslv:查看LV的信息
查看 LV 名字:                      lsvg -l <vgname>
查看LV 詳細信息:                   lslv <lvname>
查看PV 內的LVs :                lslv -l <lvname>
查看PV 內的 PP :                lslv -p <pvname>
查看鏡像的 LV:           lslv -m <lvname>
第3章    AIX系統管理日常工作(關(guān)鍵參數檢查篇)
3.1  AIO參數檢查
# lsattr -El aio0
minservers X         MINIMUM number of servers                True
maxservers 80        MAXIMUM number of servers                True
maxreqs    4096      Maximum number of REQUESTS               True
kprocprio  39        Server PRIORITY                          True
autoconfig available STATE to be configured at system restart True
fastpath   enable    State of fast path                       True
l  MaxServers = 10 * number of disks
l  MinServers = MaxServers /2
其中MaxServers最大為80
可用命令#smitty aioà Change / Show Characteristics of Asynchronous I/O
修改相應的值。
3.2  磁盤(pán)陣列queue_depth參數檢查
假設DATAVG的RAID盤(pán)為hdisk2
# lsattr -El hdisk2
pvid 00019081a0dc91ea0000000000000000 Physical volume identifier  Fal
queue_depth     8            Queue depth                 True
queue_depth值設置為7133硬盤(pán)個(gè)數
可用命令#chdev –l hdisk2 –a queue_depth=x修改,但VG必須為VARYOFF狀態(tài)。
3.3  用戶(hù)參數檢查
#smitty chlicense
修改Maximum number of FIXED licenses為10
#lsattr -El sys0|grep maxuproc
maxuproc  200  Maximum number of PROCESSES allowed per user      True
用#smitty chgsys修改
 
利用lsattr -Elsys0 檢查maxuproc, minpout, maxpout等參數的大小。maxuproc為每個(gè)用戶(hù)的最大進(jìn)程數,當應用涉及大量的順序讀寫(xiě)而影響前臺程序響應時(shí)間時(shí),可考慮將maxpout設為33, minpout設為16,利用smitty chgsys來(lái)設置。
 
3.4  激活SSA Fast-Write Cache
利用smitty ssafastw來(lái)激活每一個(gè)邏輯盤(pán)hdiskn的Fast-Write Cache:選擇硬盤(pán)后,把Enable Fast-Write一項改為Yes后回車(chē)即可。對于OPS必須關(guān)閉,對于GAILOVER或單機必須打開(kāi)。
3.5  IO參數設置 
High water mark for pending write I/Os per file(maxpout) 和Low water mark for pending write I/Os per file
它們缺省值為0,在雙機環(huán)境中一般應設High water mark為33,Low water mark為24,這兩個(gè)參數可用smitty chgsys來(lái)設置。
3.6  syncd daemon的數據刷新頻率
該值表示刷新內存數據到硬盤(pán)的頻率,缺省為60,一般可改為20,也可根據實(shí)際情況更改。該參數通過(guò)vi /sbin/rc.boot更改,其中一行如下:
nohup  /usr/sbin/syncd 60 >/dev/null 2>&1 &
改為:
nohup  /usr/sbin/syncd 20 >/dev/null 2>&1 &
 
3.7  檢查系統硬盤(pán)的鏡像
#lsvg –l rootvg
rootvg:
LV NAME             TYPE       LPs   PPs   PVs  LV STATE      MOUNT POINT
hd5                 boot       1     2     2    closed/syncd  N/A
hd6                 paging     48    96    2    open/syncd    N/A
paging00            paging     32    64    2    open/syncd    N/A
hd8                 jfslog     1     2     2    open/syncd    N/A
hd4                 jfs        1     2     2    open/syncd    /
hd2                 jfs        32    64    2    open/syncd    /usr
hd9var              jfs        5     10    2    open/syncd    /var
hd3                 jfs        4     8     2    open/syncd    /tmp
hd1                 jfs        1     2     2    open/syncd    /home
注意:PPs 為L(cháng)Ps的兩倍,PVs為2
如果系統盤(pán)未鏡像,而系統盤(pán)為18G盤(pán),用命令鏡像
# mirrorvg rootvg hdisk0 hdisk1
(對rootvg進(jìn)行鏡像)
# bosboot –a
(在兩塊盤(pán)上重建bootimage)
# bootlist –m normal hdisk0 hdisk1
(設置機器的啟動(dòng)順序)
 
第4章    AIX系統管理日常工作(性能分析篇)
 
4.1   性能瓶頸定義
項目         檢查命令                           判斷標準
CPU           vmstat                    %user + %sys greater 大于 75%
Disk I/O           vmstat                 %iowait 大于 30% (AIX 4.3.3 or later)
應用程序磁盤(pán)    iostat                         %tm_act 大于 60%
交換區          lsps -a                    大于60%
頁(yè)交換數量     iostat vmstat            大于10×CPU數量    
 
4.2  性能范圍
            好           壞          極差
CPU            60%          75%          90%+
Disk           <30%         <40%         <50%+
Memory         0       10 pages/秒CPU    >50
 
第5章    AIX系統管理日常工作(SHUTDOWN篇)
5.1   概念
IBM AIX的啟動(dòng)分為多用戶(hù)(normal)和單用戶(hù)(service)模式,在正常情況下,一般選擇多用戶(hù)模式。
5.2  關(guān)機命令
快速關(guān)機,不警告用戶(hù)
 shutdown -F ;halt
 
快速關(guān)機并重啟
 shutdown –Fr;reboot
 
警告一分鐘后關(guān)機并重啟
 shutdown -r
 
發(fā)送關(guān)機命令,但不關(guān)機
 shutdown -k
 
關(guān)機并警告用戶(hù)推出
 Shutdown now
 
關(guān)機到單用戶(hù)模式
 Shutdown -m;init s;telinit s
 
 
 
第6章    AIX系統管理日常工作(備份與恢復篇)
6.1  用SMIT備份
#smitty mksysb進(jìn)行系統備份
當COMMAND STATUS頁(yè)面中Command: OK出現后,表示備份成功。
取出制作完畢的磁帶,在磁帶上的標簽上注明備份機器的名稱(chēng)和序列號
6.2  手工備份
# mksysb –i /dev/rmt0
6.3  恢復系統
#bootinfo –e
檢查系統所帶的磁帶機是否能啟動(dòng)系統,如果返回值是1,表示該磁帶機支持啟動(dòng)系統,如果返回值是0,就是不支持。
插入備份帶,檢查設備啟動(dòng)順序:
#bootlist -m service -o
如果需要,將啟動(dòng)順序改為從磁帶啟動(dòng):
#bootlist -m service rmt0
重啟機器,系統從磁帶讀數據,根據提示恢復系統。
第7章    HACMP的 雙機系統的管理和維護
 
7.1  HACMP 雙機系統的啟動(dòng)
要啟動(dòng)HACMP 雙機系統必須要有root 用戶(hù)的特權分別進(jìn)入到系統各節點(diǎn)主機在命令 行上執行下述命令即可。
        # smit clstart         或
        # /usr/sbin/cluster/etc/rc.cluster -boot -N -i
注:在雙機系統中HACMP 雙機軟件先啟動(dòng)的節點(diǎn)將成為主節點(diǎn)擁有資源,后啟動(dòng)的節點(diǎn)將成為備用節點(diǎn)。
7.2  HACMP 雙機系統的關(guān)閉
 
要關(guān)閉某節點(diǎn)上的HACMP 雙機軟件必須要有該節點(diǎn)root 用戶(hù)的特權,以root 用戶(hù)進(jìn)入到該節點(diǎn)主機在命令行上執行下述命令即可。
         # smit clstop
         或
         # clstop -gr
        說(shuō)明:若該節點(diǎn)是主節點(diǎn)并且備節點(diǎn)上的HACMP 軟件亦正常運行,則clstop 關(guān)閉模式的三種選項行為不同。
         。 forced: 是指立即關(guān)閉雙機軟件不調用任何客戶(hù)應用的善后處理例程。
         。graceful 是指在關(guān)閉雙機軟件時(shí)將調用客戶(hù)應用預定義的善后處理例程。
         。takeover 是指該節點(diǎn)將關(guān)閉雙機軟件并釋放資源請求備節點(diǎn)進(jìn)行接管。
         檢查HACMP 雙機軟件在該節點(diǎn)是否已啟,動(dòng)命令如下:
          # lssrc -g cluster
         若是系統顯示出下面類(lèi)似的信息則說(shuō)明HACMP 雙機軟件已正常啟動(dòng).
         Subsystem Group   PID   Status
         Clstrmgr    cluster  22500 active
         Clsmuxpd cluster  23674 active
         Clinfo         cluster 28674 active
7.3  察看雙機系統的當前狀態(tài)
        # /usr/sbin/cluster/clstat -a
       如果雙機系統一切工作正常則系統將顯示下述類(lèi)似信息:
clstat - HACMP for AIX Cluster Status Monitor
-------------------------------------------------------------------------------------
Cluster: cluster(80) Thu Jan 20 08:45:17 TAIST 2000
State: UP Nodes: 2
SubState: STABLE
Node: oracle1 State: UP
Interface: oracle1_svc (0) Address: 10.75.9.41
State: UP
Interface: oracle1_tty (1) Address: 0.0.0.0
State: UP
Node: oracle2 State: UP
Interface: oracle2_svc (0) Address: 10.75.9.41
State: UP
Interface: oracle2_tty (1) Address: 0.0.0.0
State: UP
7.4   HACMP環(huán)境下的排錯
在一般情況下,HACMP 軟件很少需要手工干預,但一旦有問(wèn)題發(fā)生,診斷和恢復的
技巧是很重要的.需要能很快地斷定問(wèn)題然后運用你對HACMP 的理解來(lái)恢復HACMP
的正常運作.
一般地,HACMP 環(huán)境下的排錯包括:
.了解問(wèn)題的存在.
.判斷問(wèn)題的出處.
.解決問(wèn)題.
7.4.1    了解問(wèn)題的存在
您可以通過(guò)以下途徑了解到一個(gè)CLUSTER 環(huán)境下出現了問(wèn)題.
.最終用戶(hù)的投訴,他們無(wú)法訪(fǎng)問(wèn)應用程序.
.控制臺上出現一些HACMP 的信息.
1.應用服務(wù)無(wú)法訪(fǎng)問(wèn)
最終用戶(hù)的抱怨通常預示CLUSTER 出現了問(wèn)題.他們無(wú)法正常執行應用或是無(wú)
法登錄到系統.我們必須采集到詳細的信息以判斷到底那里出現了問(wèn)題.是否有錯誤
的信息提示?如果可能的話(huà),讓用戶(hù)重復步驟以確定那里是錯誤的開(kāi)始.您也可以在
自己的系統上重復.要知道用戶(hù)應用不可用并不代表HACMP 有問(wèn)題.問(wèn)題可能出現在
應用程序本身或是它的啟動(dòng)或終止腳本出現了問(wèn)題.因此應用程序本身的排錯也應
是HA 排錯的一部分.
2.控制臺上出現一些HACMP 的信息
在HACMP 啟動(dòng),終止或出錯時(shí),控制臺上會(huì )出現一些HACMP 的信息,同時(shí)也會(huì )寫(xiě)入相應的文件中.
7.4.2    判斷問(wèn)題的出處
當錯誤出現時(shí),我們應嘗試發(fā)現錯誤的所在.但我們常常被錯誤的表面所誤導.以
下的步驟可以使我們得到更詳細的信息.
1.保存好一些LOG 文件.(/tmp/hacmp.out & /tmp/cm.log).因為它們可能被覆蓋.
2.仔細檢查HACMP 所產(chǎn)生的LOG 文件.它們能提供最初的判斷線(xiàn)索.
3.用HACMP 的工具和AIX 的命令來(lái)檢查HACMP 的部件是否正常.
4.打開(kāi)HACMP 的跟蹤工具來(lái)產(chǎn)生更詳細的信息.
.HACMP 的LOG 文件:以下文件都是文本文件,可以用VI 來(lái)看.每個(gè)日志文件都含有每個(gè)信息的產(chǎn)生時(shí)間.
/usr/adm/cluster.log :記錄了HACMP 的狀態(tài),由HA 的守護進(jìn)程所產(chǎn)生.
/tmp/hacmp.out :記錄了HA 的詳細腳本.
/usr/sbin/cluster/history/cluster.mmdd :記錄了HA 的各個(gè)事件的發(fā)生.
/tmp/cm.log :由clstrmgr 進(jìn)程產(chǎn)生,每次HA 重起時(shí)會(huì )被覆蓋.
.HACMP FOR AIX 的結構
應用層
HACMP 軟件層
LVM & TCPIP 層
AIX 層
物理網(wǎng)絡(luò )層
物理硬盤(pán)層
硬件層
在物理網(wǎng)絡(luò )層,物理硬盤(pán)層,硬件層,LVM & TCPIP 層,AIX 層我們可以用AIX
系統命令來(lái)看是否硬件和系統出現了問(wèn)題.一般地,在用errpt 命令來(lái)看沒(méi)有類(lèi)型為
PH 的錯誤,lsvg -o 來(lái)看我們所須的VG 已varyon,mount 來(lái)看我們所須的文件系統
已安裝, netstat -i 來(lái)看我們所須的service IP 是UP 的狀態(tài)(或用ifconfig
en*),cluster node 之間的service 與service IP ,standby 與standby IP 互
相可以ping 通.在各個(gè)節點(diǎn)上執行stty<</dev/tty* 有相應的信息出現.說(shuō)明硬件
層,LVM & TCPIP 層,AIX 層沒(méi)有問(wèn)題,問(wèn)題可能出現在應用層與HACMP 軟件層上.否
則問(wèn)題就出現在相應的層次上.
在HACMP 軟件層上,我們可以用vi /tmp/hacmp.out 來(lái)看,如果出現event
failed 的字段,則有可能問(wèn)題出現在該層,如果在問(wèn)題出現的時(shí)段,hacmp.out 無(wú)信
息出現,則問(wèn)題可能出現在應用層.
以下是HA 排錯的一些守則:
.在第一時(shí)間保存好相關(guān)的日志文件,特別是那些會(huì )被覆蓋的文件.
.嘗試去重復問(wèn)題的出現.不要被用戶(hù)所反映的問(wèn)題迷惑.
.漸進(jìn)地去重復問(wèn)題,如果有多個(gè)可能導致問(wèn)題的出現,一個(gè)一個(gè)地去重復,而不要一
次重復多個(gè)可能.
.不要憑經(jīng)驗來(lái)判斷問(wèn)題,而是要在各種測試后,由結果來(lái)判斷.
.隔離問(wèn)題的來(lái)源,根據我們上面所敘述的層次關(guān)系,至頂向下地診斷.
.由簡(jiǎn)到繁地做測試,我們先從一個(gè)簡(jiǎn)單的環(huán)境來(lái)做測試,不要嘗試在一個(gè)復雜的環(huán)
境中測試.
.一次做一次改動(dòng),否則我們無(wú)法知道是那個(gè)改動(dòng)解決了問(wèn)題.
.不要忽略各種可能,因小可失大,留心系統的每一個(gè)細節,包括電源,插頭,連線(xiàn)等.
.保持各種測試的記錄以及解決的步驟,用做將來(lái)排錯的參考.
。撥打技術(shù)支持工程師電話(huà),到現場(chǎng)解決問(wèn)題。
 
第二篇:故障處理部分
目  錄
第1章    故障的定義............................................................................................................... 1
第2章    故障信息的收集........................................................................................................ 1
2.1      收集故障信息對于判斷診斷故障原因修復系統非常重要............................................ 1
2.2      系統故障記錄(errorlog)......................................................................................... 1
2.3      控制面板上的LED 代碼............................................................................................ 3
2.4      SMS (System Management Service) 故障記錄......................................................... 4
2.5      MAIL........................................................................................................................ 4
2.6      運行故障診斷程序(Diagnostic) 對系統硬件進(jìn)行檢查和診斷..................................... 4
2.7      其他用于收集系統信息的命令................................................................................... 4
第3章    硬件故障定位方法.................................................................................................... 7
3.1      IPL 流程................................................................................................................... 7
3.2      系統的啟動(dòng)順序:....................................................................................................... 7
3.3      系統不能啟動(dòng)........................................................................................................... 8
3.4      系統停在551555或557........................................................................................... 8
3.5      CDE圖形界面掛死................................................................................................... 9
3.6      系統dump............................................................................................................... 10
第4章       7133-D40SSA磁盤(pán)柜的故障定位........................................................................ 12
第5章    軟件故障定位方法.................................................................................................. 12
5.1      文件系統空間不夠.................................................................................................. 12
5.2      檢查文件系統的完整性........................................................................................... 13
5.3      查看卷組信息(lsvg-lvg_name)............................................................................... 13
5.4      檢查內存交換區(pagingspace)使用率(lsps-s)......................................................... 13
5.5      小型機內存泄漏問(wèn)題............................................................................................... 13
第6章    常用的系統狀態(tài)查詢(xún)命令........................................................................................ 15
第7章    網(wǎng)絡(luò )故障定位方法.................................................................................................. 16
7.1      網(wǎng)絡(luò )不通的診斷過(guò)程............................................................................................... 16
7.2      網(wǎng)絡(luò )配置的基本方法............................................................................................... 16
第8章       HACMP環(huán)境下的排錯......................................................................................... 17
8.1      了解問(wèn)題的存在...................................................................................................... 17
8.2      判斷問(wèn)題的出處...................................................................................................... 17
第9章    附常用命令列表...................................................................................................... 19
 
第1章    故障的定義
根據以下這些方面來(lái)考慮故障定位:
弄清楚系統發(fā)生了什么問(wèn)題
系統現在能做什么不能做什么
故障什么時(shí)候發(fā)生的
有沒(méi)有做平時(shí)不同的操作
故障有沒(méi)有規律定時(shí)還是不定時(shí)發(fā)生的頻率有多高
是一臺機器出現故障還是多臺機器故障故障現象是否相同
最近有沒(méi)有做改動(dòng)如安裝了新的硬件軟件改變了系統的一些設置
第2章    故障信息的收集
2.1  收集故障信息對于判斷診斷故障原因修復系統非常重要
2.2  系統故障記錄(errorlog)
errdemon 進(jìn)程在系統啟動(dòng)時(shí)自動(dòng)運行
記錄包括硬件軟件及其他操作信息
故障記錄文件為/var/adm/ras/errlog 可備份下來(lái)或拷貝到別的機器上分析
errpt 命令的使用(普通用戶(hù)權限也可使用)
#errpt |more 列出簡(jiǎn)短出錯信息
ERROR_ID TIMESTAMP T C RESOURCE_NAME ERROR_DESCRIPTION
192AC071 0723100300 T 0 errdemon Error logging turned off
0E017ED1 0720131000 P H mem2 Memory failure
9DBCFDEE 0701000000 T 0 errdemon Error logging turned on
038F2580 0624131000 U H scdisk0 UNDETERMINED ERROR
AA8AB241 0405130900 T O OPERATOR OPERATOR NOTIFICATION
TIMESTAMP: MMDDHHMMYY (月日時(shí)分年
T 類(lèi)型: P 永久; T 臨時(shí); U 未知永久性的錯誤應引起重視
C 分類(lèi): H 硬件; S 軟件; O 用戶(hù); U未知
#errpt -d H 列出所有硬件出錯信息
#errpt -d S 列出所有軟件出錯信息
#errpt -aj ERROR_ID 列出詳細出錯信息
# errpt -aj 0502f666 <--- ERROR_ID用大小寫(xiě)均可
LABEL: SCSI_ERR1
ID: 0502F666
Date/Time: Jun 19 22:29:51
Sequence Number: 95
Machine ID: 123456789012
Node ID: host1
Class: H
Type: PERM
Resource Name: scsi0
Resource Class: adapter
Resource Type: hscsi
Location: 00-08
VPD: <--- Virtal Product Data
Device Driver Level00
Diagnostic Level00
Displayable MessageSCSI
EC LevelC25928
FRU Number30F8834
ManufacturerIBM97F
Part Number59F4566
Serial Number00002849
ROS Level and ID24
Read/Write Register Ptr0120
Description
ADAPTER ERROR
Probable Causes
ADAPTER HARDWARE CABLE
CABLE TERMINATOR DEVICE
Failure Causes
ADAPTER
CABLE LOOSE OR DEFECTIVE
Recommended Actions
PERFORM PROBLEM DETERMINATION PROCEDURES
CHECK CABLE AND ITS CONNECTIONS
Detail Data
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
2.3  控制面板上的LED 代碼
8 位代碼通常系統故障燈會(huì )同時(shí)亮起某些機型還會(huì )同時(shí)顯示故障設備位置代
4 位代碼通常是Exxx
3 位代碼通常為0yyy 只看后3位
8 位和4位代碼可查看系統服務(wù)手冊(Service Guide)
3 位代碼可查看系統診斷手冊(Diagnostic Information for Multiple Bus
System)
閃動(dòng)的888, 系統崩潰硬件或軟件原因造成按reset 鍵會(huì )顯示更多內容
888-102 一般為軟件故障888-102-207 例外
系統會(huì )產(chǎn)生一個(gè)dump
888-102-xxx-0C9 系統正在做dump, 請等待
888-102-xxx-0C0 系統dump完成可關(guān)電重啟
888-103 或105
硬件故障一般有SRN 代碼及位置代碼
2.4  SMS (System Management Service) 故障記錄
如何進(jìn)入SMS 菜單
當主控臺出現鍵盤(pán)圖標后(LED 顯示E1F1時(shí))按1鍵
選擇"Utilities"
選擇"Error Log", 抄下8位故障代碼
在SMS 中還可以更改系統啟動(dòng)順序表
2.5  MAIL
#mail
系統會(huì )向root用戶(hù)發(fā)mail報告出錯信息通常系統出現故障后沒(méi)有進(jìn)行檢查
修復系統會(huì )定時(shí)提醒root
2.6  運行故障診斷程序(Diagnostic) 對系統硬件進(jìn)行檢查和診斷
當發(fā)現有硬件故障時(shí)應立即使用diag
#diag
> 選高級診斷Advance Diagnostic)
> 選問(wèn)題診斷Problem Determination) 或
選系統檢查System Verification)
(選PD 會(huì )對系統錯誤記錄進(jìn)行分析)
diag運行后會(huì )給出SRN 代碼故障設備名稱(chēng)及百分比地址代碼等
對于PCI機型應在系統報錯7天之內運行diag程序對出錯記錄里的sense數據進(jìn)行分析
2.7  其他用于收集系統信息的命令
lsdev -C 系統設備信息
#lsdev -Cc disk
hdisk0 Available 00-06-00-2,0 45 GB 16 Bit SCSI Disk Drive
hdisk1 Available 00-06-00-1,0 45 GB 16 Bit SCSI Disk Drive
hdisk2 Defined 00-06-00-4,0 16 Bit SCSI Disk Drive
lspv 查看物理卷信息
#lspv
hdisk0 0007821160af3d76 rootvg
hdisk1 000782117f571294 rootvg
hdisk2 0000000045c45bde datavg
lsvg 查看卷組信息
#lsvg datavg
VOLUME GROUP: datavg VG IDENTIFIER: 0000000055e2458b
VG STATE: active PP SIZE: 4 megabyte(s)
VG PERMISSION: read/write TOTAL PPs: 2169 (8676 megabyt
MAX LVs: 256 FREE PPs: 1 (4 megabytes)
LVs: 3 USED PPs: 2168 (8672 megabyt
OPEN LVs: 2 QUORUM: 2
TOTAL PVs: 1 VG DESCRIPTORS: 2
STALE PVs: 0 STALE PPs: 0
ACTIVE PVs: 1 AUTO ON: yes
MAX PPs per PV: 2032 MAX PVs: 16
#lsvg -l rootvg
rootvg:
LV NAME TYPE LPs PPs PVs LV STATE MOUNT POINT
hd5 boot 1 1 1 closed/syncd N/A
 
lv00 jfs 51 102 1 closed/stale /ibmcxx
lv01 jfs 1 1 1 open/syncd /cics_regions
lv02 jfs 4 4 1 open/syncd /var/mqm
lslpp 查看文件組信息
# lslpp -L |grep 23100020
 
devicespci23100020rte 4327 C IBM PCI 10/100 Ethernet Adapt
看某個(gè)文件組是否已安裝如以太網(wǎng)卡驅動(dòng)也用于查詢(xún)補丁程序的版本
lsattr 查看設備參數設置
# lsattr -El ent2
busio 0x7fffc00 Bus I/O address False
busintr 9 Bus interrupt level False
intr_priority 3 Interrupt priority False
tx_que_size 512 TRANSMIT queue size True
rx_que_size 256 RECEIVE queue size True
rxbuf_pool_size 384 RECEIVE buffer pool size True
media_speed 10_Half_Duplex Media Speed True
use_alt_addr no Enable ALTERNATE ETHERNET address True
alt_addr 0x000000000000 ALTERNATE ETHERNET address True
ip_gap 96 Inter-Packet Gap True
lscfg 查看VPD信息Virtual Product Data)
# lscfg -vl ssa1
DEVICE LOCATION DESCRIPTION
ssa1 30-68 IBM SSA Enhanced RAID Adapter
(14104500)
Part Number097H0645
FRU Number097H0645 <-- 備件號
Serial NumberC8217227
EC Level0000F20825
ManufacturerIBM053
ROS Level and ID7201 <-- 微碼版本
Loadable Microcode Level04
Device Driver Level00
Displayable MessageSSA-ADAPTER
Device Specific(Z0)DRAM=032
Device Specific(Z1)CACHE=0
Device Specific(Z2)000000062955dab2
Device Specific(YL)P2-I7 <-- 槽號
不同的硬件設備有不同的VPD 所含的格式和信息都不一樣通常備件號和微碼
版本最有參考價(jià)值注FRU(Field Replace Unit)才是真正的備件號
第3章    硬件故障定位方法
IBM 小型機故障定位方法包括小型機I/O柜上的顯示面板上的Checkpoints信息Error Code 和SRNs
Checkpoints 檢查點(diǎn)是系統加電CMOS初始化程序(initial program load (IPL))運行后顯示在I/O柜的顯示面板上一系列信息
3.1  IPL 流程
當交流電源接到系統后IPL流程就開(kāi)始了IPL流程包括四個(gè)步驟
Phase 1: Service Processor 的初始化
Phase 1 開(kāi)始于交流電源接到系統后直到OK顯示在I/O柜上的顯示面板上為止
在這個(gè)步驟會(huì )顯示8xxx 或9xxx checkpoints代碼
Phase2:由ServiceProcessor引導的硬件初始化
Phase2開(kāi)始于按下I/O柜上的白色電源開(kāi)關(guān)在這個(gè)步驟會(huì )顯示9xxx
checkpoints91FF是最后的代碼標志著(zhù)第三步驟的開(kāi)始
Phase3:系統固件的初始化
在Phase3,一個(gè)系統處理器接管控制并繼續初始化系統資源在這個(gè)步驟會(huì )顯
示ExxxE105是最后的代碼標志著(zhù)第四步驟AIX啟動(dòng)的開(kāi)始在這個(gè)過(guò)程中還會(huì )顯示各種位置碼位置碼代表著(zhù)系統的每一個(gè)部分Phase4:AIX啟動(dòng)當AIX開(kāi)始啟動(dòng)時(shí)顯示面板上的代碼為0xxx同時(shí)位置碼會(huì )出現在第二行當AIX的登錄窗口出現在控制臺上時(shí)第四步驟結束同時(shí)顯示面板上再無(wú)任何信息出現ErrorCode當系統運行有錯誤發(fā)現時(shí)一個(gè)8位碼會(huì )顯示在顯示面板上同時(shí)在第二行顯示相對應問(wèn)題硬件的位置碼SRNsServicerequestnumbers,服務(wù)請求碼當系統運行有錯誤發(fā)現時(shí)SRNs碼會(huì )以xxx-xxx的形式顯示在顯示面板上同時(shí)在A(yíng)IX的errorlog中也會(huì )有記載以上所有代碼都會(huì )有相應的步驟解決由于代碼繁多請在出現問(wèn)題后記錄下代碼并致電IBM服務(wù)熱線(xiàn)
3.2  系統的啟動(dòng)順序:
 
 

 
 
3.3  系統不能啟動(dòng)
系統停在Stage1可能為電源系統板CPU內存等硬件故障記錄故障代碼通知IBM工程師系統停在Stage2可能是啟動(dòng)順序表(bootlist)損壞或I/O子系統故障可嘗試進(jìn)入SMS菜單檢查啟動(dòng)順序表并修改若在選擇bootlist時(shí)沒(méi)有硬盤(pán)設備可選或顯示的硬盤(pán)信息不正確則可能是硬盤(pán)故障若根本沒(méi)有SCSI設備可選則鏈路有問(wèn)題系統停在Stage3可能是硬盤(pán)數據損壞系統設置文件出錯或I/O子系統故障
3.4  系統停在551555或557
發(fā)生在系統啟動(dòng)的第三階段(Stage3)可能是
文件系統損壞
文件系統日志(jfslog)損壞
rootvg中有壞硬盤(pán)
修復方法
用系統光盤(pán)或系統備份帶啟動(dòng)必須與硬盤(pán)中的操作系統版本一致
啟動(dòng)后選擇選項3
"StartMaintenanceModeforSystemRecovery"
>"AccessaRootVolumeGroup"
>"Accessthisvolumegroupandstartashell
beforemountingthefilesystems"
格式化文件系統日志(jfslog)
#/usr/sbin/logform/dev/hd8
檢查修復文件系統
#fsck -y/dev/hd1/home文件系統
#fsck -y/dev/hd2/usr文件系統
#fsck -y/dev/hd3/tmp文件系統
#fsck -y/dev/hd4/文件系統
#fsck -y/dev/hd9var/var文件系統
 
用exit命令退出文件系統會(huì )自動(dòng)mount起來(lái)
重建bootimage
#lslv –m hd5找出bootimage所在的硬盤(pán)如hdisk0
#bosboot –ad /dev/hdisk0
#bootlist –m normal/dev/hdisk0重建啟動(dòng)順序表
重啟動(dòng)系統
#shutdown -Fr
如上述步驟不奏效
用系統備份帶恢復系統
如備份帶不能恢復用診斷光盤(pán)DiagnosticCDROM檢查是否壞硬盤(pán)
3.5  CDE圖形界面掛死
CDE運行時(shí)不要更改網(wǎng)絡(luò )參數如主機名和IP地址
更改網(wǎng)卡設置請先退出CDE圖形環(huán)境選擇命令行方式登錄在字符界面下
更改
如CDE已經(jīng)掛死
遠程telnet登錄
找出所有dt有關(guān)的進(jìn)程用kill命令殺掉
#ps -ef|grepdt
 
#killPID
檢查當前主機名
#hostname
tscf50
查看主機名是否對應有效的IP地址
#netstat -i|greptscf50
tr0*1500918540tscf5050604902824700
更改主機名或IP地址使主機名與當前有效的IP地址存在對應關(guān)系
#smittytcpip
重新啟動(dòng)CDE界面
#/etc/rcdt
HACMP環(huán)境下可把主機名alias到127001上
#cat /etc/hosts
127001_loopbacklocalhosttscf50#loopback(lo0)name/addressbvg
3.6  系統dump
發(fā)生在系統崩潰時(shí)AIX會(huì )做dump(系統內存的快照)
此時(shí)機器會(huì )顯示閃動(dòng)的888102xxx0cx代碼
0c9系統dump進(jìn)行中0c9狀態(tài)可能會(huì )維持超過(guò)2分鐘
不要關(guān)電和按reset,等待dump做完
0c0dump成功完成這時(shí)可以斷電重起
0c2手動(dòng)啟動(dòng)dump功能
0c4dump設備空間不足只有部分信息保存下來(lái)
0c5不明原因導致dump失敗
一般dump是由于軟件出錯引起(888-102-207除外)機器通??梢灾貑⒅貑?/div>
時(shí)可能提示用戶(hù)插入磁帶拷貝dump文件不要選擇退出這樣會(huì )丟失重要的故障信息
dump的有關(guān)設置
估算系統dump的大小在系統最繁忙時(shí)內存使用最多
#sysdumpdev -e
0453-041Estimateddumpsizeinbytes:53477376
#lsps -a
PageSpacePhysicalVolumeVolumeGroupSize%UsedActive
paging00hdisk0rootvg480MB1yes
hd6hdisk1rootvg544MB1yes
當前的設置
#sysdumpdev -l
primary /dev/hd6<--dump的主設備
secondary /dev/sysdumpnull
copydirectory /var/adm/ras<--dump拷貝的目錄
forced copy flag TRUE
always allow dump TRUE
hd6應比估算值稍大
/var/adm/ras是默認的dump拷貝目錄比較估算值保證/var文件系統有足夠的
剩余空間拷貝dump文件否則機器重起時(shí)會(huì )提示用戶(hù)插入磁帶
dump文件名為vmcore#
對PCI機型如要手動(dòng)做dump須把"alwaysallowdump"先設成true
#sysdumpdev -K
dump打包
#snap –a -o/dev/rmt#或
#snap –a -c把/tmp/ibmsupt目錄做成一個(gè)壓縮文件
snaptarZ如果/tmp文件系統空間不夠
可用-ddirectory參數指定別的目錄代
替/tmp/ibmsupt
第4章    7133-D40SSA磁盤(pán)柜的故障定位
當SSA磁盤(pán)柜出現故障時(shí)在磁盤(pán)柜前面板的液晶顯示屏上會(huì )顯示相應的SRNs,同時(shí)
黃色的顯示燈會(huì )閃動(dòng)在A(yíng)IX的errorlog中也會(huì )有記載錯誤信息如DISK_ERR1
DISK_ERR4SSA_ARRAY_ERROR等請在出現問(wèn)題后記錄下代碼并致電IBM服務(wù)熱
線(xiàn)
第5章    軟件故障定位方法
軟件故障情況錯綜復雜下面列舉幾個(gè)常見(jiàn)案例的故障處理方法
5.1  文件系統空間不夠
查看有沒(méi)有_滿(mǎn)_的文件系統特別是//var/tmp不要超過(guò)90%文件系統
滿(mǎn)可導致系統不能正常工作尤其是AIX的基本文件系統如/(根文件系統)滿(mǎn)則
會(huì )導致用戶(hù)不能登錄用df_k查看
#df -k(查看AIX的基本文件系統)
Filesystem1024-blocksFree%UsedIused%IusedMountedon
/dev/hd424576145295%259922%/
/dev/hd26144002806896%2296715%/usr
/dev/hd9var8192454045%64932%/var
/dev/hd31679361579686%891%/tmp
/dev/hd116384533268%140235%/home
除/usr文件系統其他文件系統都不應太滿(mǎn)一般不超過(guò)80%
處理方法1刪除垃圾文件
#du -sk*|sort -rn|head
查找出當前目錄下占空間最大的子目錄逐層往下直到找出占空間最大的文件要
區分哪些目錄是文件系統的mountpoint哪些是文件系統的子目錄刪除文件
釋放空間有時(shí)刪除文件后空間并不馬上釋放這是由于你刪除的文件正被某個(gè)程
序打開(kāi)只有當這個(gè)程序停止后空間才釋放有時(shí)甚至需要重起系統
處理方法2增加文件系統大小
#smitty chjfs
文件系統可以在任何時(shí)候加大前提是卷組(VG)中有剩余空間
5.2  檢查文件系統的完整性
#umount filesystem_name
#fsck –y filesystem_name
注意文件系統必須先umount再做檢查和修復否則可導致未
知的后果
5.3  查看卷組信息(lsvg-lvg_name)
有沒(méi)有"stale"狀態(tài)的邏輯卷若有用syncvg命令修復"stale"邏輯卷
5.4  檢查內存交換區(pagingspace)使用率(lsps-s)
使用率是否超過(guò)70%若有則用chps_sXpgname增加X(jué)個(gè)PP或用mkps –a -n
-sX myvg在myvg上增加一個(gè)PP數為X的內存交換區
5.5  小型機內存泄漏問(wèn)題
小型機出現內存泄漏即系統或應用進(jìn)程無(wú)法將使用過(guò)的內存釋放使可用內存的容量逐漸減少如果可用內存降到某最小值將造成系統或應用程序無(wú)法FORK子進(jìn)程就會(huì )造成系統癱瘓通常我們可以用ps和sar命令來(lái)查看小型機內存和CPU占用率的大概情況以及各進(jìn)程的內存和CPU占用率的發(fā)展趨勢
(a) ps
#psgv|head-n1;psgv|egrep-v"RSS"|sort+6b-7-n-r|head-n5
PIDTTYSTATTIMEPGINSIZERSSLIMTSIZTRS%CPU%MEMCOMMAND
15674pts/11A0:01036108361723276852406240/tctestp
22742pts/11A0:00020748208123276852400140/backups
10256pts/1A0:00015628156923276852400110/tctestp
2064-A2:135646448xx063920040kproc
1806-A0:200166408xx063920040kproc
SIZE virtual size(in the paging space),in kilobytes,
RSS real-memory (resident set) size in kilobytes of the process
通過(guò)不同時(shí)間輸出的比較就能觀(guān)察出內存和CPU占用率的基本情況找出其中占用內存數不斷變大的進(jìn)程這個(gè)進(jìn)程可能就已經(jīng)發(fā)生了內存泄漏
(b)sar指令也可以查看CPU占用率但統計的結果不是很準確通常使用sar令
的格式為
#sar –P ALL 2 10
09:29:37cpu%usr%sys%wio%idle
09:29:39000495
110495
-00495
09:29:41002692
134291
-23492
09:29:43031294
122295
-21294
09:29:45022790
145686
-33688
09:29:47011296
112296
-11296
09:29:490000100
101099
-000100
09:29:51020098
101098
-10098
09:29:53071686
122590
-52588
09:29:550455635
11225532
-845533
09:29:5701681464
11591165
-1581264
Average0321085
143885
-42985
表示2秒鐘輸出一次結果總共有10次結果然后平均
目前如果發(fā)現內存泄漏最好重新啟動(dòng)系統
 
第6章    常用的系統狀態(tài)查詢(xún)命令
#lsdev –C -sscsi
列出各個(gè)SCSI設備的所有相關(guān)信息如邏輯單元號硬件地址及設備文件名等
#ps -ef
列出正在運行的所有進(jìn)程的各種信息如進(jìn)程號及進(jìn)程名等
#netstat -rn
列出網(wǎng)卡狀態(tài)及路由信息等
#netstat -in
列出網(wǎng)卡狀態(tài)及網(wǎng)絡(luò )配置信息
#df -k
列出已加載的邏輯卷及其大小信息
#mount
列出已加載的邏輯卷及其加載位置
#uname -a
列出系統ID號系統名稱(chēng)OS版本等信息
#hostname
列出系統網(wǎng)絡(luò )名稱(chēng)
#lsvg –l rootvg, lsvg –p rootvg
顯示邏輯卷組信息如包含哪些物理盤(pán)及邏輯卷等
#lslv -l datalv,lslv -p datalv
顯示邏輯卷各種信息如包含哪些盤(pán)是否有鏡像等
第7章    網(wǎng)絡(luò )故障定位方法
7.1  網(wǎng)絡(luò )不通的診斷過(guò)程
ifconfig查看網(wǎng)卡是否啟動(dòng)(up)
netstat -i查看網(wǎng)卡狀態(tài)
Ierrs/Ipkts和Oerrs/Opkts是否>1%
ping自己網(wǎng)卡地址(ip地址)
ping其它機器地址如不通在其機器上用diag檢測網(wǎng)卡是否有問(wèn)題
在同一網(wǎng)中subnet mask應一致
7.2  網(wǎng)絡(luò )配置的基本方法
(1)如需修改網(wǎng)絡(luò )地址主機名等一定要用chdev命令
#chdev -l inet0 -a hostname=myhost
#chdev –l en0 –a netaddr='9324058' –a netmask=2552552550_
(2)查看網(wǎng)卡狀態(tài)#lsdev -Cc if
(3)確認網(wǎng)絡(luò )地址#ifconfig en0
(4)啟動(dòng)網(wǎng)卡#ifconfige n0 up
(5)_配置路由
有兩種方式加入路由
永久路由
#chdev –l inet0-aroute=_104700_,_9324059_
臨時(shí)路由
#route add 1047129324059
用命令netstat -rn查看路由表
第8章    HACMP環(huán)境下的排錯
在一般情況下,HACMP軟件很少需要手工干預,但一旦有問(wèn)題發(fā)生,診斷和恢復的技巧是很重要的需要能很快地斷定問(wèn)題然后運用你對HACMP的理解來(lái)恢復HACMP的正常運作一般地,HACMP環(huán)境下的排錯包括:了解問(wèn)題的存在判斷問(wèn)題的出處
解決問(wèn)題
8.1  了解問(wèn)題的存在
您可以通過(guò)以下途徑了解到一個(gè)CLUSTER環(huán)境下出現了問(wèn)題
最終用戶(hù)的投訴,他們無(wú)法訪(fǎng)問(wèn)應用程序
控制臺上出現一些HACMP的信息
應用服務(wù)無(wú)法訪(fǎng)問(wèn)
最終用戶(hù)的抱怨通常預示CLUSTER出現了問(wèn)題他們無(wú)法正常執行應用或是無(wú)
法登錄到系統我們必須采集到詳細的信息以判斷到底那里出現了問(wèn)題是否有錯誤的信息提示?如果可能的話(huà),讓用戶(hù)重復步驟以確定那里是錯誤的開(kāi)始您也可以在自己的系統上重復要知道用戶(hù)應用不可用并不代表HACMP有問(wèn)題問(wèn)題可能出現在應用程序本身或是它的啟動(dòng)或終止腳本出現了問(wèn)題因此應用程序本身的排錯也應是HA排錯的一部分
2控制臺上出現一些HACMP的信息
在HACMP啟動(dòng),終止或出錯時(shí),控制臺上會(huì )出現一些HACMP的信息,同時(shí)也會(huì )寫(xiě)
入相應的文件中
8.2  判斷問(wèn)題的出處
當錯誤出現時(shí),我們應嘗試發(fā)現錯誤的所在但我們常常被錯誤的表面所誤導以下的步驟可以使我們得到更詳細的信息
1保存好一些LOG文件(/tmp/hacmp.out&/tmp/cm.log)因為它們可能被覆蓋
2仔細檢查HACMP所產(chǎn)生的LOG文件它們能提供最初的判斷線(xiàn)索
3用HACMP的工具和AIX的命令來(lái)檢查HACMP的部件是否正常
4打開(kāi)HACMP的跟蹤工具來(lái)產(chǎn)生更詳細的信息
HACMP的LOG文件:以下文件都是文本文件,可以用VI來(lái)看每個(gè)日志文件都含有
每個(gè)信息的產(chǎn)生時(shí)間
/usr/adm/cluster.log:記錄了HACMP的狀態(tài),由HA的守護進(jìn)程所產(chǎn)生
/tmp/hacmp.out:記錄了HA的詳細腳本
/usr/sbin/cluster/history/cluster.mmdd:記錄了HA的各個(gè)事件的發(fā)生
/tmp/cm.log:由clstrmgr進(jìn)程產(chǎn)生,每次HA重起時(shí)會(huì )被覆蓋
HACMPFORAIX的結構
應用層
HACMP軟件層
LVM&TCPIP層
AIX層
物理網(wǎng)絡(luò )層
物理硬盤(pán)層
硬件層
在物理網(wǎng)絡(luò )層,物理硬盤(pán)層,硬件層,LVM&TCPIP層,AIX層我們可以用AIX
系統命令來(lái)看是否硬件和系統出現了問(wèn)題一般地,在用errpt命令來(lái)看沒(méi)有類(lèi)型為PH的錯誤,lsvg -o來(lái)看我們所須的VG已varyon,mount來(lái)看我們所須的文件系統已安裝,netstat -i來(lái)看我們所須的serviceIP是UP的狀態(tài)(或用ifconfig en*),cluster node之間的service與serviceIP,standby與standby IP互相可以ping通在各個(gè)節點(diǎn)上執行stty<</dev/tty*有相應的信息出現說(shuō)明硬件層,LVM&TCPIP層,AIX層沒(méi)有問(wèn)題,問(wèn)題可能出現在應用層與HACMP軟件層上否則問(wèn)題就出現在相應的層次上在HACMP軟件層上,我們可以用vi/tmp/hacmp.out來(lái)看,如果出現eventfailed的字段,則有可能問(wèn)題出現在該層,如果在問(wèn)題出現的時(shí)段,hacmp.out無(wú)信息出現,則問(wèn)題可能出現在應用層以下是HA排錯的一些守則:
在第一時(shí)間保存好相關(guān)的日志文件,特別是那些會(huì )被覆蓋的文件
嘗試去重復問(wèn)題的出現不要被用戶(hù)所反映的問(wèn)題迷惑
漸進(jìn)地去重復問(wèn)題,如果有多個(gè)可能導致問(wèn)題的出現,一個(gè)一個(gè)地去重復,而不要一
次重復多個(gè)可能
不要憑經(jīng)驗來(lái)判斷問(wèn)題,而是要在各種測試后,由結果來(lái)判斷
隔離問(wèn)題的來(lái)源,根據我們上面所敘述的層次關(guān)系,至頂向下地診斷
由簡(jiǎn)到繁地做測試,我們先從一個(gè)簡(jiǎn)單的環(huán)境來(lái)做測試,不要嘗試在一個(gè)復雜的環(huán)境中測試
一次做一次改動(dòng),否則我們無(wú)法知道是那個(gè)改動(dòng)解決了問(wèn)題
不要忽略各種可能,因小可失大,留心系統的每一個(gè)細節,包括電源,插頭,連線(xiàn)等保持各種測試的記錄以及解決的步驟,用做將來(lái)排錯的參考
撥打技術(shù)支持工程師電話(huà)。
 
本文來(lái)自CSDN博客,轉載請標明出處:http://blog.csdn.net/zhaobo0602/archive/2009/04/23/4104839.aspx
本站僅提供存儲服務(wù),所有內容均由用戶(hù)發(fā)布,如發(fā)現有害或侵權內容,請點(diǎn)擊舉報。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
生活服務(wù)
分享 收藏 導長(cháng)圖 關(guān)注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服

欧美性猛交XXXX免费看蜜桃,成人网18免费韩国,亚洲国产成人精品区综合,欧美日韩一区二区三区高清不卡,亚洲综合一区二区精品久久