Git Evangelism

sábado, 6 de agosto de 2011

Fusionar commits

No hay excusa para no commitear con la frecuencia que mas nos convenga, ya que existen formas de editar el historial antes de publicarlo.
Uno de los trucos mas utiles es el de fusionar commits, que permite fusionar una serie de commits consecutivos en solo uno. Por ej, si se necesita condensar los ultimos 6 commits, se deben ejecutar los siguientes comandos:

git reset --soft HEAD~6
git commit -m 'mensaje de commit'

Previamente a ejecutar el comando commit, se pueden (o no) realizar los ajustes adicionales que se consideren necesarios

Como disclaimer aclaro que no se deben fusionar commits que ya se hayan pusheado

Deshacer

Para deshacer el efecto de los dos comandos, se debe restaurar el branch a su estado original, asi:

git reset --hard HEAD@{2}

Git reset

git reset es el comando que permite modificar a mismo tiempo el puntero HEAD y el puntero del branch activo.
Si se usa con --soft mantiene el indice y el working tree, por lo que todo queda listo para efectuar el commit, en este caso se reseteo el branch activo a un estado 6 commits previos al que se encontraba manteniendo el contenido del ultimo commit en el indice por lo que el commit posterior sera equivalente en contenido al ultimo commit con la diferencia de que el parent sera el viejo commit y asi este por si solo contendra el cambio hecho por los otros 6
Para deshacer, se utilizo git reset --hard para restaurar el estado del branch a como era antes, --hard indica que no se mantienen ni el indice ni el working copy

HEAD~6

Hace referencia al commit que esta 6 pasos atras del commit HEAD (el commit activo), en el ejemplo se pudo haber especificado otra cosas como un SHA, un branch, un tag, una entrada de reflog, etc... Ejemplos:

Resetea al remote master para que el proximo commit tenga el remote branch como parent

git reset --soft origin/master

Resetea a un commit especifico por SHA para que el proximo commit tenga ese commit como parent

git reset --soft 01abcdef

HEAD@{2}

Hace referencia a una entrada en el reflog, el reflog es un registro de los valores que adquiere una ref, el reflog principal es el de HEAD al que se puede acceder a todos los valores que HEAD ha adquirido historicamente. HEAD@{1} hara referencia al anterior del ultimo valor que adquierio, HEAD@{2} hara referencia al anterior del anterior y asi sucesivamente...
Y sea que se efectuen commits, resets, checkouts o lo que sea las entradas de reflog permiten acceder a los commits previos, muy util para localizar commits "perdidos"

Links

Manual de git-reset: http://www.kernel.org/pub/software/scm/git/docs/git-reset.html
Manual de git-rev-parse (explica el lenguaje de los commits): http://www.kernel.org/pub/software/scm/git/docs/git-rev-parse.html

lunes, 25 de julio de 2011

Branch remotos en git, dos pasos. ¿Y despues?

Anteriormente, en gitevangelism, hice un post que explica como crear un branch remoto en dos pasos, aca un resumen:

Crear un branch de manera local

git checkout -b nuevo_branch

Publicar el branch, y trackearlo local (al especificar -u)

git push -u origin nuevo_branch

Despues, hay que trabajar con el branch, hay cosas que no resultaran tan triviales al principio

Trabajar en el branch, en los branches

Si se ejecutaron los comandos para creacion de branch explicados, habra quedado activo el nuevo_branch, sino se esta seguro se puede utilizar git branch sin argumentos, asi:

git branch

Devuelvera la lista de branch, indicando con un asterisco el branch activo en el momento

Si el branch en el que queremos trabajar no es el activo, entonces ejecutamos el comando checkout

git checkout nuevo_branch

A partir de entonces, todos los commits seran dirigidos al branch activo, actualizando el branch para que apunte a cada commit que se hace.

Si por alguna razon, es necesario dejar el trabajo que se esta realizando en este branch para trabajar en otro (por ejemplo, en master), se utiliza el comando checkout para reactivar master

git checkout master

Si hay cambios no commiteados, seguramente el comando se negara a cambiar el branch activo, si ese fuera el caso hay que commitearlos o stashearlos (stash es un commit temporal que se usa para guardar el indice y los cambios no commiteados y que despues se puede recuperar):

git stash

Para volver, otra vez hay que ejecutar

git checkout nuevo_branch

Y si se tuvo que salvar los cambios mediante stash, hay que recuperarlo haciendo

git stash pop

Por ultimo, se debe ejecutar el comando git push, este sube cada branch trackeado a su correspondiente branch remoto (en este caso subiria el master local al master remoto y el nuevo_branch local al nuevo_branch remoto)

Colaboracion

Si se necesita que otra persona contribuya al branch, desde otra maquina, tiene que trackearlo

git fetch
git checkout --track -b nuevo_branch origin/nuevo_branch

Despues, trabajar de esa manera es lo mismo que trabajar al master, con la diferencia (claro esta) que es el nuevo_branch el que recibe los cambios que se pushean

Otra opcion, para mirar el branch es directamente usar las ref remotas


git fetch
git checkout origin/nuevo_branch

Esto es mas practico si solo se necesita "ver" el contenido del branch, pero para trabajar con el es conveniente trackearlo, de otra manera se tendria que explicitar el branch cada vez que se hace push:


git push origin HEAD:refs/heads/nuevo_branch

Integrar los cambios

Esta es la manera mas practica de integrar, que utiliza el 3-way-merge (otro dia hago un articulo explicando eso), no hay mas que hacer que lo siguiente:

git checkout master
git merge nuevo_branch

Puede ser que master y nuevo_branch no sea divergentes (esto es que una, generalmente master, apuntara a un commit ancestro del otro), en ese caso no habra ningun problema y simplemente master cambiara para igualar a nuevo_branch.
Cuando master y nuevo_branch no son divergentes, se utilizara el algoritmo de merge que
puede no dar conflicto en cuyo caso efectuara un commit automaticamente, ese commit sera un commit de merge (es lo mismo que cuando se hace git pull despues de que un git push fue rechazado)
O puede dar conflicto dependiendo de los cambios que se hayan hecho, para resolver esos conflictos hay que ejecutar git status, ver cuales son los archivos marcados como en conflicto y resolverlos (estan marcados claramente dentro del archivo de texto)
Despues de resolver todos los conflictos, se puede hacer un add de update al indice

git add -u

Y entonces commitear

git commit -m 'merged nuevo_branch into master'

Eliminar el branch cuando ya no se use

Para eliminar el branch local

git branch -d nuevo_branch

NOTA: no funciona si el branch que se quiere eliminar es el activo en ese momento, para evitar eso hay que cambiar a otro branch o commit
NOTA2: si el branch no esta integrado a nada, se negara a borarrlo a no ser que se use la opcion -D en lugar de -d

Para eliminar el branch remoto

git push origin :refs/heads/nuevo_branch

Links

Man page de git-branch: http://www.kernel.org/pub/software/scm/git/docs/git-branch.html
Man page de git-checkout: http://www.kernel.org/pub/software/scm/git/docs/git-checkout.html
Man page de git-push: http://www.kernel.org/pub/software/scm/git/docs/git-push.html
Man page de git-stash: http://www.kernel.org/pub/software/scm/git/docs/git-stash.html

Branch remotos en git, dos pasos

Actualizacion: ¿Y despues?, sigue en este post

En dos pasos se puede crear un branch remoto

Crear branch de manera local

git checkout -b nuevo_branch

Publicar el branch

git push -u origin nuevo_branch

Despues, el branch queda traqueado, con lo que cada push sin parametros envia los commits de nuestro branch local a ese branch remoto sin necesidad de explicitarlo

Tambien se puede trabajar en el branch local antes de publicarlo y por supuesto despues.

Actualizacion: ¿Y despues?, sigue en este post

sábado, 23 de julio de 2011

Publicar el repo y el historial, pero sin contraseñas harcodeadas

El historial, la secuencia de commits detallando todo lo que fue cada "snapshot" es muy util, pero ¿Que pasaria si quisiesemos publicar branches en cuyo historial hay contraseñas que no queremos que el publico las vea ?

Para todo "gitero" el historial es importante, pero tambien lo es evitar la fuga de informacion y mas cuando somos concientes de que si hacemos ese "push", esa contraseña o codigo de acceso sera publico

La respuesta a esto es el comando filter-branch ¿ Que hace filter-branch ? crea un commit inicial aparte (que es como el commit inicial del repositorio, no tiene parent) y va copiando los commits del branch que donde estemos parados al momento de ejecutar el comando, pero esto lo hace aplicandole un filtro que se define como argumento del comando

filter-branch tiene muchas opciones muy interesantes, pero la que mas sirve para el caso que describo en este post, es la opcion --tree-filter, que ejecuta una secuencia de comandos a cada tree de cada commit, esa secuencia podria agregar, eliminar, mover o crear archivos. Asi, el siguiente comando eliminaria un archivo Web.config de todo el historial haciendo que no se pueda recuperar ninguna version de el de ningun commit en el historial:

git filter-branch --tree-filter 'rm Web.config'

NOTA: no olvidar poner la ruta completa si corresponde, el script se ejecutara en el root directory del proyecto

A algunos puristas podria no gustarle esa opcion, ya que eliminar ese archivo vital dejaria invalido y "unbuildeable" esos commits pasados. En lugar de eso se podria usar algo mas especifico y recurrir al amigo "sed" para editar ese archivo y remover la contraseña

git filter-branch --tree-filter "sed 's/mipasswordloco/insert your password here/g' Web.config > Web.config.bkp; mv Web.config.bkp Web.config"

En este caso, en lugar de simplemente eliminar el archivo, se lo esta procesando con sed, una "navaja suiza" de la shell para editar archivos de texto desde la linea de comandos de manera no interactiva.

Hay dos comandos en el script separados por punto y coma, el primero es sed que reemplaza el texto "mipasswordloco" por "insert your password here" y usa el parametro g para indicar que debe reemplazar todas las ocurrencias en cada linea del archivo de texto (ver la man page de sed para mas informacion), el segundo parametro escribe en Web.config los cambios realizados con un move, recalco que esto es asi porque no se debe dejar ningun archivo extra o formara parte del tree tambien (que no es lo que se esta tratando de hacer en este caso)

Aplicando scripts mas complejos como este, despues de ejecutar filter-branch es conveniente revisar el historial para verificar que efectivamente se obtuvo el resultado buscado

Si por casualidad hicieron un git-filter-branch y despues se arrepintieron, se restaura el branch con la penultima entrada del reflog, asi:

git reset --hard HEAD@{1}

Links

Man page de git-filter-branch: http://www.kernel.org/pub/software/scm/git/docs/git-filter-branch.html
Man page de sed: http://unixhelp.ed.ac.uk/CGI/man-cgi?sed

Ahorrando espacio con git gc

Pregunta frecuente ¿Cuanto espacio ocupa un repositorio de git?
Respuesta: Depende, no solamente de los contenidos sino tambien de si los objetos estan empaquetados o no.
Si estan empaquetados pueden llegar a ocupar hasta 10 veces menos cantidad de espacio que si no lo estuvieran.

Para empaquetar los objetos, hay que ejecutar el comando

git gc

NOTA: Despues de que gc limpie y comprima los objetos el repositorio se puede seguir usando de manera transparente. No es necesario ejecutar ningun comando especifico ni nada ya que git trabaja con los objetos empaquetados
NOTA2: por default git viene configurado para correr este comando automaticamente cuando sea necesario, pero puede ser util correrlo a mano algunas veces

Si despues de esto todavia se necesita liberar todavia mas espacio, se pueden eliminar los logs y hacer git gc de nuevo

rm -fr .git/logs

Pero un advertencia, esos logs almacenan los registros que se acceden mediante git reflog y los stashes, con lo que seguramente se perderan cambios que no hayan sido commiteados a alguna rama existente

Como Funciona

Este comando, lo que hace como su nombre lo indica es actuar de "garbage collector", es decir que elimina todos aquellos objetos que son inalcazables, esto es analago a un entorno gestionado como .NET, Java, Ruby, etc... donde el gc borra de la memoria objetos que no estan siendo referenciados por nadie, en este caso las referencias vendrian a ser los branches, los tags, las entradas de logs y los propios objetos que hacen referencia a parent commits (si son commits), blobs y trees. Es decir que git gc no elimina nada que este a nuestro alcance como la informacion referenciada por los branches en los que estamos trabajando e incluso los commits referenciados por los logs.

Pero la accion de git gc no solo se limita a su papel como garbage collector, sino que tambien se encarga de realizar el packing de los objetos, lo cual implica reorganizarlos todos en un solo archivo y comprimirlo usando delta compression, un metodo de compresion optimizado para comprimir snapshots que tiene ligeras diferencias uno con el otro

Para dar un ejemplo, en un repo relativamente nuevo (200 commits aproximadamente) que pesa 1.8 Megabytes, si se examina el directorio .git/objects se podria ver como git almacena los objetos unpacked:

dario@dario-laptop:~/projects/imageruby-devil/.git/objects$ find | head -n 15
.
./71
./71/a0a195d6b9192f3a2ed92afce74600a18d5463
./5e
./5e/d0b14304e16bb8404fc1106923e47b9e8efc65
./11
./11/4db5a061a6a3d9c010c132cc90890bbfe5c8a9
./34
./34/66e89a2fe1078cbd96bccdce9f0525e1039f2c
./06
./06/21559a3294f6d11c7fa80727d8f9dbc8594ad8
./0f
./0f/f89b8482e83ee109dbf2061ea77b436eaa91c8
./0f/ccf20d3f9fc5f92d56ea4f5959218d6a3109eb
./be
...
...
# sigue un monton
...
...

Pero despues de ejecutar git gc, el repositorio pasa a pesar 232 Kilobytes y los objetos ya no estan almacenados de esa forma, ya que se empaquetaron y comprimieron en solo dos archivos:


dario@dario-laptop:~/projects/imageruby-devil/.git/objects$ find
.
./info
./info/packs
./pack
./pack/pack-eaadc1cff53d9b6d8f5a5ba7eb52fe733c61aac6.pack
./pack/pack-eaadc1cff53d9b6d8f5a5ba7eb52fe733c61aac6.idx

NOTA: Para los que no esten enterados, el comando find busca todos los archivos en el directorio y subdirectorios y muestra las rutas de los archivos que encontro por por salida estandar

Links

La pagina del manual oficial de git-gc: http://www.kernel.org/pub/software/scm/git/docs/git-gc.html
Interesante explicacion del tema y de porque aparentemente no conviene usar el parametro --aggressive (el post esta en ingles): http://metalinguist.wordpress.com/2007/12/06/the-woes-of-git-gc-aggressive-and-how-git-deltas-work/

martes, 12 de abril de 2011

Versionamiento individualista

Git sin duda es la mejor solucion a mano para versionar de manera individual (independientemente de cualquier repositorio externo)

Para crear un repositorio, hay que posicionarse en el directorio donde se va a versionar, y ejecutar el siguiente comando

git init

Posteriormente, hay que efectuar el primer commit, primero agregando los archivos que se tienen que versionar (se pueden agregar desde directorios completos con todo su contenido hasta archivo simples, tantas veces como sea necesario)

git add archivo1
git add archivo2
git add archivo3
git add directorio/

Y efectuando el commit

git commit --message 'first commit'

Y sucesivamente sigue el ciclo:

Efectuo las modificaciones en mis archivos
Agrego los archivos que modifique
```
git add -u
```
Y si hay que agregar archivos nuevos que no se estaban versionando:
```
git add archivo
```
Efectuo el commit con el mensaje apropiado
```
git commit --message 'mensaje de commit'
```

En proximos posts:

Como hacer lo mismo con el front-end grafico TortoiseGIT en Windows
Como hacer lo mismo con svn (tambien se puede, es un poco mas complicado)
Git basico: examinar el historial, versiones previas y despues volver a la "ultima"
Dejar de ser individual, migrar a un repositorio en la nube (ejemplo con Github)

domingo, 27 de febrero de 2011

Ad-hoc git infrastructure for team development

En este articulo se va a explicar como crear un repositorio "servidor" de git para poder trabajar en equipos de desarrollo distribuidos en varias maquinas, como nota adicional cabe destacar que si lo que se necesita es usar el git para desarrollo en solitario, es tan sencillo como crear un repositorio (git init), y directamente usarlo.

Para ir mas al tema, se puede ver en el grafico se tienen dos roles, uno es un "server" linux (alternativamente existen maneras de utilizar un servidor windows) y el otro la terminal de desarrollo que puede ser de cualquier OS. Se puede crear este setup en 3 simples pasos:

Crear un usuario en el servidor (Opcional) y crear el repositorio vacio con permisos de escritura para ese usuario
Clonar el repositorio desde otro lugar para hacer el "first commit"
Clonar el repositorio desde las terminales

Crear el usuario (Opcional) y el repositorio en el server


root@server# adduser git

(Va a pedir informacion acerca del nuevo usuario como el password que se pedira mas adelante)

El repositorio debe ser creado en un directorio al que el usuario "git" o el que hayan elegido tenga acceso, para eso tienen que cambiar a ese usuario mediante el comando login:


root@server:~# login

El cual les va a pedir usuario y password, posteriormente se debe crear un directorio para el nuevo repositorio y entrar en el


git@server:~# mkdir repositorio
git@server:~# cd repositorio

Y finalmente, crear el repositorio (Prestar especial atencion al parametro --bare que indica que se esta creando un repositorio "central")


git@server:~/repositorio$ git init --bare

Inicializar el repositorio

Para hacer esto hay que clonar el repositorio desde un client (o puede ser en el mismo servidor) y efectuar el primer commit

user@client:~$ git clone git@server:repositorio
remote: Counting objects: 3, done.
Receiving objects: 100% (3/3), 202 bytes, done.
remote: Total 3 (delta 0), reused 0 (delta 0)
user@client:~$ cd repositorio
user@client:~/repositorio$ touch README
user@client:~/repositorio$ git add README
user@client:~/repositorio$ git commit --message 'first commit'
[master (root-commit) 5b4ee6e] first commit
0 files changed, 0 insertions(+), 0 deletions(-)
create mode 100644 README
user@client:~/repositorio$ git push origin HEAD:refs/heads/master
Counting objects: 3, done.
Writing objects: 100% (3/3), 203 bytes, done.
Total 3 (delta 0), reused 0 (delta 0)
To git@localhost:repositorio
* [new branch]      HEAD -> master

Clonar el repositorio desde las terminales

En cada workstation desde donde se va trabajar con el repositorio, se tiene que ejecutar el siguiente comando

user@client:~$ git clone git@server:repositorio
remote: Counting objects: 3, done.
Receiving objects: 100% (3/3), 202 bytes, done.
remote: Total 3 (delta 0), reused 0 (delta 0)