К основному контенту

Weblogic Diagnostic Framework Run Bash Script (reboot managed server) - (bad practices)

Вообщем переодически сервер дохнет по: The WebLogic Server encountered a critical failure java.lang.OutOfMemoryError: Metaspace Reason: There is a panic condition in the server. The server is configured to exit on panic И хотя это гавно пишет типа  Reason: There is a panic condition in the server. The server is configured to exit on panic чёт ни хуя он ни куда не exit.... Вообщем т.к разбираться с тем чем он жрётся нет ни времени ни желания (оно обязательно появится)... как вариант можно приделать костыль... костыль будет заключаться в ребуте сервера при возникновении этой ошибки. Что значит для этого надо... Желания и понимание что так жить нельзя, и вообще... Делаем новый модуль называем скажем:  Reboot-OOMMetaSpace Идём в в новый модуль делаем Policy: Называем его OOM-Metaspace и говорит что это Server log: Жмём next в Configuration Policy пишем: log.logMessage.contains('java.lang.OutOfMemoryError: Metaspace'...

Weblogic Diagnostic Framework Run Bash Script (reboot managed server) - (bad practices)

Вообщем переодически сервер дохнет по:


The WebLogic Server encountered a critical failure
java.lang.OutOfMemoryError: Metaspace
Reason: There is a panic condition in the server. The server is configured to exit on panic

И хотя это гавно пишет типа 
Reason: There is a panic condition in the server. The server is configured to exit on panic
чёт ни хуя он ни куда не exit....

Вообщем т.к разбираться с тем чем он жрётся нет ни времени ни желания (оно обязательно появится)... как вариант можно приделать костыль... костыль будет заключаться в ребуте сервера при возникновении этой ошибки.

Что значит для этого надо...
Желания и понимание что так жить нельзя, и вообще...

Делаем новый модуль называем скажем: Reboot-OOMMetaSpace


Идём в в новый модуль делаем Policy:



Называем его OOM-Metaspace и говорит что это Server log:



Жмём next в Configuration Policy пишем:
log.logMessage.contains('java.lang.OutOfMemoryError: Metaspace')




Не надо алярмов:



Next -> Finish 

Делаем терь действие:


Добавляем скрипт:


Пишем чё нить типа RebootMS



Далее
mkdir /opt/oracle/user_projects/domains/test_domain/bin/scripts/
Working Directory: /opt/oracle/user_projects/domains/test_domain/bin/scripts
Path to Script:/opt/oracle/user_projects/domains/test_domain/bin/scripts/reboot.sh


Finish.

Возвращаемся обратно в Policy которое OOM-Metaspace и добавляем созданное действие:


Дальше у нас есть скрипт который срёт в  /tmp/test.log тем что он наделал.
reboot.sh:

#!/bin/bash
echo "-------------`date`------------" >> /tmp/test.log
SERVER_NAME=`awk -v 'RS=\0' -F= '$1=="SERVER_NAME" {print $2}' /proc/$PPID/environ`
echo "PID: $$, PPID: $PPID, SERVER: ${SERVER_NAME}" >> /tmp/test.log
sleep 5
nohup /opt/oracle/mid/weblogic/restartMServer.sh $SERVER_NAME 1>/dev/null 2>&1 &
exit 0

В краце делает примерно следующее получает имя Managed Server на которым был OOM:
SERVER_NAME=`awk -v 'RS=\0' -F= '$1=="SERVER_NAME" {print $2}' /proc/$PPID/environ`

Выводит это в /tmp/test.log
echo "PID: $$, PPID: $PPID, SERVER: ${SERVER_NAME}" 

Запускает скрипт по ребуту managed Server
nohup /opt/oracle/mid/weblogic/restartMServer.sh $SERVER_NAME 1>/dev/null 2>&1 &


Скрипт restartMServer.sh:
#!/bin/bash

$MW_HOME/oracle_common/common/bin/wlst.sh<<EOF
nmConnect('weblogic','TEST','10.64.999.999',5556,'test_domain','/opt/oracle/user_projects/domains/test_domain',nmType='Plain');
nmKill('$1');
nmStart('$1');
EOF
exit 0


-------------------------------------------------
В качесте примера можно найти приложение по генерации StuckThread и в правилах прописать что нить типа:
log.messageId == 'BEA-000337' and log.logMessage.contains('STUCK')

и посмотреть что на StuckThread сервер ребутнётся.


Там кстать надо LogLevel повысить что бы подобные соощения попадали в лог...
Опубликую пожалуй ито вдруг пригодится

Комментарии

Популярные сообщения из этого блога

Backup elasticsearch with curator.

Сжато кратко, в падлу много расписывать... Вообщем пробуем забэкапить elasticsearch 5.0 с помощью curator 4.2 Что имеем: 2 ноды 1) vapp-cn1 2) vapp-cn2 Репозиторий для бэкапа есть на обоих хостах находится в /backup/el_backup/front права для пользователя под который запущен elasticsearch есть, на обоих нодах в конфиге elasticsearch.yml указанно: path.repo: ["/backup/el_backup/front"] Настройка curator, бэкапить будем все индексы поэтому: 1. snapshot-script.yml actions:   1:     action: snapshot     description: >-       Snapshot logstash- prefixed indices older than 1 day (based on index       creation_date) with the default snapshot name pattern of       'curator-%Y%m%d%H%M%S'.  Wait for the snapshot to complete.  Do not skip       the repository filesystem access check.  Use the other options to create       the snapsho...

Oracle Cloud Control 12c/13c modify target setup Life Cycle Status (emcli, multiple targets)

https://pardydba.wordpress.com/2012/10/17/how-and-why-you-should-set-target-lifecycle-status-properties-in-em12c/+&cd=1&hl=ru&ct=clnk&gl=ru Итак есть куча таргетов middleware, host и т.д ... Менять руками  LifeCycle Status для всех таргетов внутри middleware это геморой поэтому сделать надо это скриптом. По ссылке выше предлагается это сделать для хостов. Ниже будет описано как это сделать для всех таргетов. В краце инструкция такова: Ставим emcli: oracle@omshost$ export JAVA_HOME=$OMS_HOME/../jdk16/jdk oracle@omshost$ export PATH=$JAVA_HOME/bin:$PATH oracle@omshost$ export ORACLE_HOME=$OMS_HOME oracle@omshost$ cd $ORACLE_HOME oracle@omshost$ mkdir emcli oracle@omshost$ java -jar $ORACLE_HOME/sysman/jlib/emclikit.jar client -install_dir=$ORACLE_HOME/emcli Oracle Enterprise Manager 12c Release 2. Copyright (c) 1996, 2012 Oracle Corporation. All rights reserved. EM CLI client-side install completed successfully. oracle@omshost$ $ORACLE_HOME/emcli/emcli...