К основному контенту

Weblogic Diagnostic Framework Run Bash Script (reboot managed server) - (bad practices)

Вообщем переодически сервер дохнет по: The WebLogic Server encountered a critical failure java.lang.OutOfMemoryError: Metaspace Reason: There is a panic condition in the server. The server is configured to exit on panic И хотя это гавно пишет типа  Reason: There is a panic condition in the server. The server is configured to exit on panic чёт ни хуя он ни куда не exit.... Вообщем т.к разбираться с тем чем он жрётся нет ни времени ни желания (оно обязательно появится)... как вариант можно приделать костыль... костыль будет заключаться в ребуте сервера при возникновении этой ошибки. Что значит для этого надо... Желания и понимание что так жить нельзя, и вообще... Делаем новый модуль называем скажем:  Reboot-OOMMetaSpace Идём в в новый модуль делаем Policy: Называем его OOM-Metaspace и говорит что это Server log: Жмём next в Configuration Policy пишем: log.logMessage.contains('java.lang.OutOfMemoryError: Metaspace'...

Elasticsearch bootstrap.mlockall (allows the JVM to lock its memory)

Щас усну...
Прекрасный параметр bootstrap.mlockall который как утверждает дока не даст залезть jvm в swap.
Настраивается в файле: /etc/elasticsearch/elasticsearch.yml

т.к машина у нас дохлая как хуй знает что... т.е:
Mem:  12331016k total, 12252560k used,    78456k free,   116456k buffers
Соответственно elastic стартует с минимальны кол-вом оперативки типа:
-Xms4g -Xmx4g
(я блять такого количества оперативки не видел ни в одном вопросе по elasticsearch в интернете, ну да хуй с ним...)

1. bootstrap.mlockall: true 
lock the process address space into RAM, preventing any Elasticsearch memory from being swapped out.

Проверить что elasticsearch успешно применил этот параметр можно выполнив команду:
[oracle@lal elasticsearch]$ curl http://localhost:9200/_nodes/process?pretty
{
  "cluster_name" : "cluster",
  "nodes" : {
    "DPFEI2HPSGm8eWNCrg3tJw" : {
      "name" : "Node",
      "transport_address" : "inet[/1.1.1.1:9300]",
      "host" : "alal.local",
      "ip" : "1.1.1.1",
      "version" : "1.4.0",
      "build" : "bc94bd8",
      "http_address" : "inet[/1.1.1.1:9200]",
      "process" : {
        "refresh_interval_in_millis" : 1000,
        "id" : 2747,
        "max_file_descriptors" : 65536,
        "mlockall" : false
      }
    }
  }
}

Соответственно тут видно что данная опция не сработала.
Проверяем настройки лимитов для пользователя под которым у нас запускается elasticsearch:
[oracle@lal config]$ ulimit -a
core file size          (blocks, -c) 0
data seg size           (kbytes, -d) unlimited
scheduling priority             (-e) 0
file size               (blocks, -f) unlimited
pending signals                 (-i) 96200
max locked memory       (kbytes, -l) 64
max memory size         (kbytes, -m) unlimited
open files                      (-n) 4024
pipe size            (512 bytes, -p) 8
POSIX message queues     (bytes, -q) 819200
real-time priority              (-r) 0
stack size              (kbytes, -s) 10240
cpu time               (seconds, -t) unlimited
max user processes              (-u) 16384
virtual memory          (kbytes, -v) unlimited
file locks                      (-x) unlimited

Для пользователя oracle выделено пиздец как мало, соответственно добавляем в /etc/security/limits.conf следующие строки:
oracle soft nofile 4024
oracle hard nofile 65536
oracle   soft   nproc    16384
oracle hard nproc 16384
oracle soft stack 10240
oracle hard stack 32768
oracle   hard   memlock    134217728
oracle   soft   memlock    134217728

После перезапуска видим что всё впорядке:

[oracle@lal elasticsearch]$ curl http://localhost:9200/_nodes/process?pretty
{
  "cluster_name" : "cluster",
  "nodes" : {
      "DPFEI2HPSGm8eWNCrg3tJw" : {
      "name" : "Node",
      "transport_address" : "inet[/1.1.1.1:9300]",
      "host" : "alal.local",
      "ip" : "1.1.1.1",
      "version" : "1.4.0",
      "build" : "bc94bd8",
      "http_address" : "inet[/1.1.1.1:9200]",
      "process" : {
        "refresh_interval_in_millis" : 1000,
        "id" : 2747,
        "max_file_descriptors" : 65536,
        "mlockall" : true
      }
    }
  }
}

Комментарии

Популярные сообщения из этого блога

Backup elasticsearch with curator.

Сжато кратко, в падлу много расписывать... Вообщем пробуем забэкапить elasticsearch 5.0 с помощью curator 4.2 Что имеем: 2 ноды 1) vapp-cn1 2) vapp-cn2 Репозиторий для бэкапа есть на обоих хостах находится в /backup/el_backup/front права для пользователя под который запущен elasticsearch есть, на обоих нодах в конфиге elasticsearch.yml указанно: path.repo: ["/backup/el_backup/front"] Настройка curator, бэкапить будем все индексы поэтому: 1. snapshot-script.yml actions:   1:     action: snapshot     description: >-       Snapshot logstash- prefixed indices older than 1 day (based on index       creation_date) with the default snapshot name pattern of       'curator-%Y%m%d%H%M%S'.  Wait for the snapshot to complete.  Do not skip       the repository filesystem access check.  Use the other options to create       the snapsho...

Oracle Cloud Control 12c/13c modify target setup Life Cycle Status (emcli, multiple targets)

https://pardydba.wordpress.com/2012/10/17/how-and-why-you-should-set-target-lifecycle-status-properties-in-em12c/+&cd=1&hl=ru&ct=clnk&gl=ru Итак есть куча таргетов middleware, host и т.д ... Менять руками  LifeCycle Status для всех таргетов внутри middleware это геморой поэтому сделать надо это скриптом. По ссылке выше предлагается это сделать для хостов. Ниже будет описано как это сделать для всех таргетов. В краце инструкция такова: Ставим emcli: oracle@omshost$ export JAVA_HOME=$OMS_HOME/../jdk16/jdk oracle@omshost$ export PATH=$JAVA_HOME/bin:$PATH oracle@omshost$ export ORACLE_HOME=$OMS_HOME oracle@omshost$ cd $ORACLE_HOME oracle@omshost$ mkdir emcli oracle@omshost$ java -jar $ORACLE_HOME/sysman/jlib/emclikit.jar client -install_dir=$ORACLE_HOME/emcli Oracle Enterprise Manager 12c Release 2. Copyright (c) 1996, 2012 Oracle Corporation. All rights reserved. EM CLI client-side install completed successfully. oracle@omshost$ $ORACLE_HOME/emcli/emcli...

Weblogic Diagnostic Framework Run Bash Script (reboot managed server) - (bad practices)

Вообщем переодически сервер дохнет по: The WebLogic Server encountered a critical failure java.lang.OutOfMemoryError: Metaspace Reason: There is a panic condition in the server. The server is configured to exit on panic И хотя это гавно пишет типа  Reason: There is a panic condition in the server. The server is configured to exit on panic чёт ни хуя он ни куда не exit.... Вообщем т.к разбираться с тем чем он жрётся нет ни времени ни желания (оно обязательно появится)... как вариант можно приделать костыль... костыль будет заключаться в ребуте сервера при возникновении этой ошибки. Что значит для этого надо... Желания и понимание что так жить нельзя, и вообще... Делаем новый модуль называем скажем:  Reboot-OOMMetaSpace Идём в в новый модуль делаем Policy: Называем его OOM-Metaspace и говорит что это Server log: Жмём next в Configuration Policy пишем: log.logMessage.contains('java.lang.OutOfMemoryError: Metaspace'...