Ha caigut el Pleroma

Nice, vaig comentant si toco.

Per cert, no ho vaig dir, pero vaig mirar el tema de les notificacions que triguen. Es donarli a carregar notificacions i la CPU es posa al máxim casi O.o Hi han coses més urgents que potser ho arreglen, pero em sembla molt extrany.

1 'M'agrada'

Hola,

A mi des de la interfície web em continuen sortint els “500 Internal Server Error” des de fa força temps, de manera que no puc utilitzar realment la web. Només em queden els clients mòbils, dels quals el Husky sembla que va bé, i el Fedilab no (no pot carregar missatges, no sé per què, però sí curiosament enviar-ne).

Sabeu com està la cosa? Teniu disponibilitat per anar gestionant aquestes incidències? Malauradament no tinc gens d’experiència amb això de gestionar aplicacions web complexes i amb un ús més o menys intensiu de recursos (sí he fet coses molt simples amb PHP + MySQL), així que no veig com ajudar sense que impliqui una dedicació molt gran de temps per aprendre (cosa per a la qual ara no tinc disponibilitat). Igual si hi ha alguna cosa que sí pugui fer (testing, per exemple?) estaria encantat de contribuir.

Salut i gràcies per la feina!

3 'M'agrada'

Hola Eudaimon!

Doncs és curiós, jo faig servir web i aplicació mòbil (Husky). A la web a vegades m’apareixen, sobretot quan el tinc obert una estona. Tot i així, en general puc fer-ne un ús més o menys productiu. He de dir que crec que ho reviso més des del mòbil, tot i així.

Doncs alguna cosa vam avançar perquè sembla que ja no salta com abans. Tot i així hi ha marge de millora, és evident. Sí que tinc intenció de ficar-m’hi, però entre que estem migrant alguns dels servidors amb en @tuttle i la feina d’administració que també tinc a anartist tinc el temps limitat. I a més vaig més lent perquè no sóc sysadmin de veritat :confused: . Però sí que m’agradaria provar d’implementar les millores que va apuntar el @drymer .

En qualsevol cas, gràcies per l’interès i per l’oferiment d’ajuda! Intentaré tenir aquest fil actiu perquè no sembli que ho hem abandonat.

2 'M'agrada'

Holi! Sorry, que vaig dedicant temps a ratos molt llargs.

Jo he reiniciat un parell o tres de cops el servei de pleroma en el mes, mes y pico anterior, tots cops amb la mateixa situació. Ahir vaig acabar de configurar cosetes per tenir métriques al meu stack de monitorizació. Recullo métriques a nivell de SO y de postgres. De pleroma també, pero son bastant pobres i tindré que fer algún dashboard.

Si us sembla, si en algún moment algú veu que está pillat el servei y el reinicia, que comenti per aquí pls, per mirar métriques.

Es fan backups a algun lloc de la db? Estaba pensant en fer-ne un i executar les operacions de manteniment que vaig comentar anteriorment.

PD: intentaré en algun moment donar access a qui vulqui per veure les metriques, pero tinc que fer cosetes primer per a fer que es vegi nomes lo referent a barcelona.social, que tinc coses personals i d’altres colectius.

2 'M'agrada'

Ei, merci per dedicar-hi temps!!!

La veritat és que últimament estic més al compte que tinc a anartist. Intentaré estar-hi més per a detectar anomalies.

Els backups els fa el @tuttle, segur que en té de la db.

Perfecte.

Ara que portem uns dies guardant métriques, poso alguna cosa.

No hi han agut problemes últimamente (que sepi) més enllá de que la linea de notificacions es forsa lenta.

El que he vist es que la máquina té molt poc marge de recursos. Miraré a veure el tema de purgar dades com seria, pero ara mateix es sol pasar del Load Average (tot va lent, així en general) i de la RAM está justisima.

Aixó son les métriques dels últims dies.

Faré un backup de la base de dades i aniré aplicant les propostes de la DB de la documentacío de pleroma, que comentava més amunt.

2 'M'agrada'

Sorry doble post, estic executant les ops de manteniment de la DB, segurament no vagin coses o vagin malament.

PD: Ja esta, a les 20:40. Aviam que tal els seguents dies.

1 'M'agrada'

Hola!

El servidor està caigut i no puc accedir-hi via ssh.

El domini no torna la IP de la máquina, em sembla que ha caducat :confused:

Pot ser?

❯ dig barcelona.social

; <<>> DiG 9.18.11 <<>> barcelona.social
;; global options: +cmd
;; Got answer:
;; ->>HEADER<<- opcode: QUERY, status: SERVFAIL, id: 34441
;; flags: qr rd ra; QUERY: 1, ANSWER: 0, AUTHORITY: 0, ADDITIONAL: 1

;; OPT PSEUDOSECTION:
; EDNS: version: 0, flags:; udp: 512
;; QUESTION SECTION:
;barcelona.social.		IN	A

;; Query time: 49 msec
;; SERVER: 192.168.0.161#53(192.168.0.161) (UDP)
;; WHEN: Sun Feb 26 11:33:03 CET 2023
;; MSG SIZE  rcvd: 45
1 'M'agrada'

@blankfosk , tu tenies el domini, no?

he entrat per dir el mateix. El domini no resol :S

1 'M'agrada'

Ja està. No sabem perquè però s’havia desconfigurat la redirecció del domini.

Haurem d’estar atents ara perquè tindrà càrrega retrassada…

1 'M'agrada'

Holi. He estat mirant les métriques i estan exactament iguals que l’últim dia que les vaig posar, amb els canvis a la DB aplicats i tot. Tot i així no ha estat donant problemes, que hagi vist.
Jo diria que simplement hem estem arribant al máxim que la máquina suporta.

Si es va fent el manteniment de la DB i no hi entra gaire més gent al servidor, jo crec que aguantará be. Si ve més gent, potser s’haurá de plantejar pujar la mida de la máquina. Pero bueh, ja es veura si passa.

1 'M'agrada'

Holi de nou.
Em passa que cuan carrego la página de cero, no em carrega el TL principal, i no em deixa anar enrere, em torna errors 500. Pero si deixo la página quieta, si que va carregant tots els posts nous. Us passa a algú més?

1 'M'agrada'

A mi sí que em carrega el timeline principal principal si la deixo quieta. Les notificacions tarden més, però també es carreguen.

El que no em genera bé és el timeline local. Surten entrades de fa mesos però crec que en falten de més recents.

@marcelcosta Vas entrar el divendres per que s’havia caigut la postgres un altre cop? He tingut que entrar ara per aixó u.u

1 'M'agrada'

Sí!

Crec recordar que vaig reiniciar nginx i pleroma.

Ahir vaig tornar-ho a aixecar i ha tornat a caure…

No sé si hauríem de provar això…

Què diuen els logs?

1 'M'agrada'

I un altre cop. Sembla que torna a passar cada cop més…
Els logs diuen que pleroma es queda penjat perque envia moltes peticions a la postgres i aquesta no li respón. “S’arregla” al reiniciar pleroma i per tant tallar les peticions a la DB. Pero en cuan torna a necessitar fer l’operacio que sigui, doncs es torna a quedar enganxada.

Jo crec el que vaig comentar, que s’ha quedat petita la instancia. Hem revisat varies persones la configuració i hem fet tunning de la DB. No hi ha gaire més que podem fer.

No sé hi ha alguna operació “fácil” per fer-ho, pero l’única cosa que crec que es pot fer (a part de pujar el tipos d’instancia) es borrar dades antigues. Posar per exemple que del 2023 (sense incloure) deixi d’existir a la DB. D’aquesta manera la DB no tindria tanta cárrega i seria com al principi.
Tot i així no tinc clar que aixó ho solucionés, si les dades antigues suposen un problema per a consultar dades noves es que pleroma esta fet amb el cul, i no crec que sigui el cas.

2 'M'agrada'