Wednesday, September 8th 2010, 2:51am UTC+2

You are not logged in.

  • Login
  • Register

Shiro

Beginner

Posts: 10

Number of Nagios server: 2

Nagios Versions: 3.2.1

Distributed monitoring: Ja

Redundant monitoring: Nein

Number of hosts: 45

Number of services: 253

OS: Ubuntu 10.04, Debian 5.04

Plugin Versions: 1.4.14

Other Addons: PNP4Nagios

1

Thursday, September 3rd 2009, 6:22pm

check_esx3 und die Last

Hallo erstmal,



ich habe da ein "Problem" eher gesagt eine Frage zu check_esx3



Ich habe dieses Plugin gemäß der OP5 Seite in Betrieb genommen, es läuft auch wunderbar bis auf eine Sache.

Es erzeugt teilweise so eine hohe Last auf dem System das es zu einem Timeout kommt.



Quoted


USER PID %CPU %MEM VSZ RSS TTY STAT START TIME COMMAND
nagios 14174 148 5.7 32944 29516 ? R 18:06 0:01 /usr/bin/perl -w /usr/local/nagios/libexec/check_esx3 -H *

nagios 14588 82.0 6.1 35224 31856 ? R 18:10 0:01 /usr/bin/perl -w /usr/local/nagios/libexec/check_esx3 -H * -u * -p * -l mem -s usage -w 93 -c 95

Ich hatte zwar schon gelesen, dass das Plugin ein Performance-Fresser ist, aber so extrem hatte ich mir das nicht vorgestellt. Geht das noch jemanden so? Evtl. irgendwelche Abhilfen?

Läuft das Plugin über SSH vielleicht performanter, wie stark belastet es einen ESXi circa?



Noch ein paar Infos, vielleicht liegt es auch nur an meinem System:



Host-OS: Debian Lenny 5.01

Nagios-V: Nagios 3.2.0

Nagios-P: Plugins 1.4.13

Perl-V: perl -v

This is perl, v5.10.0 built for i486-linux-gnu-thread-multi




und das ganze läuft noch auf einem VMWare-Server (ja, ich weiß, das es nur bedingt sinnvoll ist wenn mal der Server ausfällt, ist tote Hose)



Grüße Shiro
Shiro has attached the following image:
  • Unbenannt3.PNG

Debcha

Intermediate

Posts: 165

Location: Düsseldorf

Number of Nagios server: 1

Nagios Versions: 3.0.6

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 240

Number of services: 870

OS: Debian Lenny

Plugin Versions: 1.4

Other Addons: PNP 0.4.14+NPCD, snmptrapd, snmptt, eventdb, smstools

2

Thursday, September 3rd 2009, 7:05pm

Hi,
und das ganze läuft noch auf einem VMWare-Server (ja, ich weiß, das es nur bedingt sinnvoll ist wenn mal der Server ausfällt, ist tote Hose)
heisst das bei dir in einer ESX (i) VM oder (Free) VMware Server ?

Ich habe ungefähr die gleiche Software-Umgebung (Nagios jedoch auf dediziertem Server), bei mir ist check_esx3 (gegen einen ESX 3.5 Host) mit deiner commandline in 3s fertig (mit CPU-Spike von ca. 0,5s)

Wichtig: Am besten immer aktuellsten Plugin-Code (Git) benutzen, da in check_esx3 bisher sehr viele Verbesserungen (auch performancetechnisch) eingeflossen sind.

http://git.op5.org/git/?p=nagios/op5plugins.git;a=summary

Link

Nebenbei: Zu Nagios in einer virtuellen Maschine wirst du hier im Forum viele Beiträge und meist eine einhellige Meinung finden *g

Probiere erstmal mit dem aktuellesten Code und dann sehen wir weiter.

MfG
Debcha

vicodas

Intermediate

Posts: 296

Birthday: Aug 16th 1965 (45)

Gender: male

Location: Deutschland

Occupation: Systemadmin Linux, DMZ

Number of Nagios server: 3

Hobbies: Laufen, Angeln, Computa

Nagios Versions: 3.0.1, 3.0.6

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: ~ 550

Number of services: ~ 4500

OS: Debian Etch, Lenny

Plugin Versions: 1.4.14

NagVis Version: 1.4rc2

NDO Version: 1.4b7

Other Addons: PNP, NC_NET, Dokuwiki, SNMPTT, eventdb, eigene, NSCA

3

Monday, September 7th 2009, 3:24pm

Also, ich habe das gleiche Problem.
Egal ob ich gegen einen ESX oder eine VC Server checke, Performance ist eine Katastrophe!
Sobald mehre checks parallel laufen, bricht die performance zusammen und der load steigt.
Mein Nagios ist ein Blech mit 4 CPU und auch der kommt zum Erliegen :(

Ursache ist der Extrem langsame Webaccess von VMware.
Lt. Aussage VMware Support ist dies bekannt, man soll doch dem Tomcat beim Start mehr Speicher geben...
Leider bringt das auch nicht sehr viel und man ist automatisch unsupportet!

Abhilfe soll das neue vCenter bringen, habs gerade erst installiert und bin noch am Testen.

hth vicodas

Debcha

Intermediate

Posts: 165

Location: Düsseldorf

Number of Nagios server: 1

Nagios Versions: 3.0.6

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 240

Number of services: 870

OS: Debian Lenny

Plugin Versions: 1.4

Other Addons: PNP 0.4.14+NPCD, snmptrapd, snmptt, eventdb, smstools

4

Monday, September 7th 2009, 4:01pm

Hi,

kann ich so nicht bestätigen.

Du schreibst vCenter 4.0 soll Abhilfe schaffen, was hat dies jedoch mit einem einzelnen ESX-Host zu tun?

Mit aktuellstem Plugin-Git-Code probiert ?

Nagios-Hardware: 1 x Pentium 4 3Ghz

Wie oft kommt es bei euch im normalen Nagios-Betrieb vor das mehrere (check_esx3)-Checks in der gleichen Sekunde parallel laufen (ich denke du hast mal manuell getestet)
oder ist euer Nagios sonst schon gut beschäftigt ?


MfG
Debcha

vicodas

Intermediate

Posts: 296

Birthday: Aug 16th 1965 (45)

Gender: male

Location: Deutschland

Occupation: Systemadmin Linux, DMZ

Number of Nagios server: 3

Hobbies: Laufen, Angeln, Computa

Nagios Versions: 3.0.1, 3.0.6

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: ~ 550

Number of services: ~ 4500

OS: Debian Etch, Lenny

Plugin Versions: 1.4.14

NagVis Version: 1.4rc2

NDO Version: 1.4b7

Other Addons: PNP, NC_NET, Dokuwiki, SNMPTT, eventdb, eigene, NSCA

5

Tuesday, September 8th 2009, 7:07am

bei uns laufen manchmal mehr als 10 checks parallel, da fasst alles virtualisiert ist.
Die meisten checks laufen gegen das vc, da ich die vm's halt überprüfe.
Mit den Host checks der ESX habe ich allgemein nicht das Problem sind ja nicht so viele, nur im Zusammenspiel der vielen checks auf dem VC Server.
Die Warteschlange wird eben immer größer.

Ich habe gerade noch einmal das aktuelle Plugin aus dem git gezogen, ?( 40 Zeilen länger.
Die letzte Version ist erst ca. ein Monat alt.
Werde mal diese Version Testen.

vicodas

Intermediate

Posts: 296

Birthday: Aug 16th 1965 (45)

Gender: male

Location: Deutschland

Occupation: Systemadmin Linux, DMZ

Number of Nagios server: 3

Hobbies: Laufen, Angeln, Computa

Nagios Versions: 3.0.1, 3.0.6

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: ~ 550

Number of services: ~ 4500

OS: Debian Etch, Lenny

Plugin Versions: 1.4.14

NagVis Version: 1.4rc2

NDO Version: 1.4b7

Other Addons: PNP, NC_NET, Dokuwiki, SNMPTT, eventdb, eigene, NSCA

6

Tuesday, September 8th 2009, 9:02am

die neueste Version aus dem git hat nichts gebracht.
load und CPU last bleiben gleich :(

boerdy

Beginner

Posts: 12

Gender: male

Location: Muenchen

Number of Nagios server: 6

Nagios Versions: 3.2

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 590

Number of services: 5200

OS: SLES 11, CentOS 5.3

Plugin Versions: 1.4.13

NagVis Version: 1.4.3

NDO Version: 1.4b9

Other Addons: pnp 0.6.3 snmptt, nagtrap, nagvis 1.4.7

7

Tuesday, September 8th 2009, 9:14am

Hallo,

vielleicht hilft das weiter:

http://communities.vmware.com/thread/213…art=45&tstart=0

Gruss
Robert

vicodas

Intermediate

Posts: 296

Birthday: Aug 16th 1965 (45)

Gender: male

Location: Deutschland

Occupation: Systemadmin Linux, DMZ

Number of Nagios server: 3

Hobbies: Laufen, Angeln, Computa

Nagios Versions: 3.0.1, 3.0.6

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: ~ 550

Number of services: ~ 4500

OS: Debian Etch, Lenny

Plugin Versions: 1.4.14

NagVis Version: 1.4rc2

NDO Version: 1.4b7

Other Addons: PNP, NC_NET, Dokuwiki, SNMPTT, eventdb, eigene, NSCA

8

Wednesday, September 9th 2009, 1:29pm

Hi,

interessanter Thread.
Aber op5 hat ja mit diskutiert und die Hinweise in Ihr Plugin schon eingepflegt.

Hauptproblem ist bei mir die parallele Abarbeitung der checks.
Ab einer bestimmten Zahl (fängt meistens bei 3 schon an), geht die Performance in die Knie und die Last des Servers steigt extrem.
Die einzelnen Treads benötigen dann reichlich CPU Last, kann pro Thread schon mal 60% sein.
Bei allen anderen checks (snmp, ssh, http, usw.) gibt es diese Probleme nicht.

Lt. meinen Nachforschungen liegt es nicht am OS.

Noch jemand Ideen ?


thx
vicodas

boerdy

Beginner

Posts: 12

Gender: male

Location: Muenchen

Number of Nagios server: 6

Nagios Versions: 3.2

Distributed monitoring: Ja

Redundant monitoring: Ja

Number of hosts: 590

Number of services: 5200

OS: SLES 11, CentOS 5.3

Plugin Versions: 1.4.13

NagVis Version: 1.4.3

NDO Version: 1.4b9

Other Addons: pnp 0.6.3 snmptt, nagtrap, nagvis 1.4.7

9

Wednesday, September 9th 2009, 2:14pm

Hi,

also bei uns läuft die heck_esx3-forum10.pl ( http://communities.vmware.com/servlet/Ji…art=45&tstart=0) aus dem Thread, deutlich besser. Hab allerdings derzeit nicht zeit zum austesten, und produktiv zu nehmen

Gruß

robertS

Beginner

Posts: 14

Birthday: Jan 26th 1985 (25)

Gender: male

Location: Obersulm

Occupation: IT-Admin

Number of Nagios server: 1

Nagios Versions: 3.06

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 94

Number of services: 522

OS: linux (ubuntu 8.10); windows (2k-2k8)

Plugin Versions: 1.4.x

NDO Version: 1

Other Addons: PNP-0.4.13, NagVis 1.3.2, NRPE

10

Thursday, September 10th 2009, 10:09am

Hi,

ich kann auch nur bestätigen das die Version aus dem VMware Forum besser läuft.
Bringt bei unserer Umgebung ungefähr 30% kürzere Check Zeiten auf die ESX Server!
Gruß robertS

ciscler

Intermediate

Posts: 221

Gender: male

Occupation: Systemadministrator

Number of Nagios server: 1

Hobbies: Reisen, Fitness, Mein Beruf

Nagios Versions: 3.20

Distributed monitoring: Nein

Redundant monitoring: Nein

Number of hosts: 471

Number of services: 1720 (mehrere check_multi abfragen)

OS: Ubuntu 8.0.4

Plugin Versions: 1.4.13

NagVis Version: 1.4.3

NDO Version: 1.4b9

Other Addons: Nagiosgrapher 1.7.1

11

Monday, February 15th 2010, 2:08pm

Hallo,

welches check_esx3 plugin verwendet Ihr nun? Meine CPU Last geht auch richtig in die Höhe?
Ich habe ca. 150 checks gegen das VC am laufen.