Padrón unificado de CEDEARs vigentes (BYMA)
Padrón unificado de CEDEARs (Comafi + Caja de Valores) con ISIN y ratio.
Qué incluye
- 27 columnas documentadas
- Formato Parquet y CSV
- Cobertura 0 días (snapshot vigente)
- Actualización semanal
- Acceso por descarga, API y MCP
- Schema versionado y trazable a la fuente
Casos de uso
- ¿Qué CEDEARs vigentes hay hoy en BYMA y quién los emite (Comafi vs Caja de Valores)?
- ¿Cuáles son los CEDEARs de empresas brasileras listadas en B3? (VALE3, PETR3, ITUB3, etc. están todos en Caja de Valores, no en Comafi.)
- ¿Cuál es el ratio CEDEAR/acción de un instrumento específico? Ej. ¿cuántos CEDEARs de Apple equivalen a 1 acción?
- ¿Qué CEDEARs tienen frecuencia de pago de dividendos trimestral, semestral o anual?
- ¿Cuántos ETFs vs acciones tiene el padrón y cuáles son los más relevantes (SPY, QQQ, IWM, EEM)?
- ¿Qué empresas con CEDEAR vigente filean a SEC y tienen estados contables disponibles? (Cross-product con sec.empresas.registro.)
- ¿Distribución de CEDEARs por país de origen e industria? (Comafi tiene 203 USA + 20 Brasil + 14 UK + 10 Canadá + 10 China + 8 México + 8 Alemania + 8 Japón.)
Columnas27
Limitaciones conocidas
Pueden invalidar un análisis ingenuo. Documentadas como parte del control de calidad.
0% overlap entre Comafi y Caja de Valores — invariante crítico
Por construcción regulatoria, un CEDEAR sólo puede tener un emisor
activo a la vez. El scraper valida la intersección de simbolo_byma y
de isin_cedear entre las dos listas y falla con error si encuentra
overlap, antes de publicar snapshot. Cualquier futuro break de este
invariante señaliza cambio regulatorio o bug en la fuente — no
enmascararlo.
Tickers Bloomberg-style con espacios o slash son legítimos
Tickers como BAS GR (BASF, XETRA), BRK/B (Berkshire Hathaway Class
B) usan espacio o "/" como parte del símbolo. El regex de
simbolo_byma acepta ^[A-Z0-9._\- /]{1,12}$ explícitamente para
preservar el formato Bloomberg/NYSE original. NO trimear ni normalizar
estos caracteres en queries downstream — se rompe el match con la
fuente.
isin_subyacente puede ser NULL; el CUSIP va a cusip_subyacente
Comafi publica CUSIP (9 caracteres alfanuméricos) para subyacentes USA
en lugar de ISIN. El scraper preserva esa distinción: si la fuente da
CUSIP, va a cusip_subyacente y isin_subyacente queda NULL. Para
reconstruir el ISIN desde CUSIP USA, prependar US + agregar check
digit ISO 6166 — no es trivial, no lo hacemos automáticamente.
Cualquier código que joinee por ISIN del subyacente debe contemplar
el NULL.
Brasil B3 stocks (VALE3, PETR3, ITUB3) están en Caja de Valores, no en Comafi
Contra-intuitivamente, los CEDEARs de stocks brasileros listados en B3
(VALE3, PETR3, ITUB3, BBDC3, MGLU3, etc.) viven en Caja de Valores,
no en Comafi. Comafi tiene 20 CEDEARs brasileros, pero son los ADRs
cotizando en NYSE (VALE, PBR, ITUB, etc.). Filtrar por pais_origen = 'Brasil' en Comafi devuelve los ADRs; los B3 directos requieren
emisor_cedear = 'caja_valores'. Documentar el caso en cualquier
cliente que pida "todos los CEDEARs brasileros".
ETFs típicamente sólo tienen isin_cedear; no isin_subyacente
Los ETFs (categoria='etf') frecuentemente no exponen el ISIN del
activo subyacente porque el subyacente es una canasta, no un único
instrumento. Aparecen 24 ETFs en Caja de Valores (SPY, QQQ, IWM, EEM,
DIA, etc.) y ~30 ETFs adicionales en Comafi (industria='ETF'). Filtros
por isin_subyacente IS NOT NULL excluyen ETFs silenciosamente —
hacer explícito el filtro categoria = 'accion' si esa es la
intención.
Caja de Valores no expone industria ni país de origen
industria, industria_descripcion, pais_origen, frecuencia_pago,
cusip_subyacente están NULL para todas las filas de
emisor_cedear='caja_valores'. Agregaciones por industria/país solo
reflejan el universo Comafi (342 instrumentos), no el total (401).
Para análisis cross-fuente completos, enriquecer manualmente desde
otros catálogos (ej. Refinitiv RIC, Bloomberg BBG) o aceptar la
cobertura parcial.
ratio_cedear / ratio_subyacente pueden ser NULL si el parseo falla
El campo ratio (String) preserva el formato crudo "X:Y" de la
fuente. ratio_cedear/ratio_subyacente son el parseo numérico —
cuando la fuente publica ratios atípicos ("Variable", "—", o formatos
no estándar), el parseo deja NULL y se preserva el string original
en ratio. Cualquier cálculo de pricing dual debe contemplar NULL.
Snapshot weekly, no daily — no usar para precio intradiario
Este dataset describe el universo de CEDEARs vigentes; NO contiene precios ni volúmenes. Para datos de mercado secundario (precios, volúmenes, spreads BYMA) hace falta otro dataset distinto. El refresh semanal es porque el padrón cambia raramente — altas/bajas de programas suceden trimestralmente como mucho.
first_seen / last_seen tracking requiere histórico de snapshots
Las columnas first_seen y last_seen se calculan diff-eando el
snapshot actual contra snapshots previos almacenados. En el primer
scrape (fresh start) ambas son iguales a snapshot_date. Para
reconstruir altas/bajas históricas hace falta scan de todos los
snapshots — un dataset gold derivado puede hacerlo más eficiente en
el futuro.