France: Exploring Historical Cookbooks: Difference between revisions

From FDHwiki
Jump to navigation Jump to search
Line 111: Line 111:
* ingredient
* ingredient


'''Units'''
'litre', 'litres', 'l', 'cl', 'dl', 'kg', 'g', 'pincée', 'cuil.', 'cuil. café', 'cuil. soupe', 'cuil. à soupe', 'petite cuil.', 'grande cuil.', 'verre', 'verres', 'petit verre', 'verre à liqueur', 'verres à liqueur', 'tasse', 'tasses', 'bout.', 'bouteille', 'bouteilles', 'grande boîte', 'gousse', 'gousses', 'branche', 'branches', 'membre', 'membres', 'tronçon', 'tronçons', 'tranche', 'tranches', 'tube', 'tubes',


'''Units'''
* Spoons: 'cuil. à café', 'cuil. café', 'cuil. à soupe', 'cuil. soupe', 'petite cuil.', 'grande cuil.', 'cuil.',
* Glasses: 'petit verre', 'verre à liqueur', 'verres à liqueur', 'verres', 'verre', 'tasses', 'tasse',
* Bottles: 'bout.', 'bouteilles', 'bouteille',
* Containers:'g rande boîte', 'boîtes', 'boîte', 'tubes', 'tube',
* Spices & Aromatic plants: 'gousses', 'gousse', 'branches', 'branche', 'bâtons', 'bâton', 'pincée',
* Meat related: 'membres', 'membre', 'tronçons', 'tronçon', 'tranches', 'tranche',
* Standard measures: 'litres ', 'litre ', 'cl ', 'dl ', 'kg ', 'g ' , 'l'


'''Categories'''
'''Categories'''
'Viande': ['viande', 'oie', 'canard', 'oiseau', 'lard', 'bœuf', 'veau', 'poule', 'poulet', 'poularde', 'volaille', 'porc', 'caille', 'canard', 'caneton', 'mouton', 'cochon', 'coq', 'chevreuil', 'lièvre', 'levraut', 'lapin', 'faisan', 'gibier', 'jambon', 'chorizo', 'cervelas', 'agneau', 'escargot', 'grenouille'],
* 'Viande': ['viande', 'oie', 'canard', 'oiseau', 'lard', 'bœuf', 'veau', 'poule', 'poulet', 'poularde', 'volaille', 'porc', 'caille', 'canard', 'caneton', 'mouton', 'cochon', 'coq', 'chevreuil', 'lièvre', 'levraut', 'lapin', 'faisan', 'gibier', 'jambon', 'chorizo', 'cervelas', 'agneau', 'escargot', 'grenouille'],
 
* 'Poisson': ['poisson', 'brochet', 'carpe', 'morue', 'lamproie', 'lotte', 'maquereau', 'omble', 'rouget', 'sardine', 'thon', 'truite', 'anchois', 'anguille', 'merlan', 'sole', 'barbue', 'turbot', 'raie', 'perche', 'saumon', 'colin', 'goujon', 'loup', 'congre', 'rascasse', 'grondin', 'merlu', 'merluza', 'hareng', 'alose', 'brême'],
'Poisson': ['poisson', 'brochet', 'carpe', 'morue', 'lamproie', 'lotte', 'maquereau', 'omble', 'rouget', 'sardine', 'thon', 'truite', 'anchois', 'anguille', 'merlan', 'sole', 'barbue', 'turbot', 'raie', 'perche', 'saumon', 'colin', 'goujon', 'loup', 'congre', 'rascasse', 'grondin', 'merlu', 'merluza', 'hareng', 'alose', 'brême'],
* "Fruit de mer": ['crevette', 'langouste', 'moule', 'écrevisse', 'palourde', 'homard', 'chiperon', 'seiche', 'huître', 'coquille', 'poulpe'],
 
* 'Alcool': ['alcool', 'bière', 'vin', 'cidre', 'fine', 'liqueur'],
"Fruit de mer": ['crevette', 'langouste', 'moule', 'écrevisse', 'palourde', 'homard', 'chiperon', 'seiche', 'huître', 'coquille', 'poulpe'],
* "Plante aromatique": ["bouquet garni", 'ail', 'anis', 'aromate', 'angélique', 'basilic', 'persil', 'sarriette', 'cerfeuil', 'ciboule', 'ciboulette', "clou de girofle", "clous de girofle", 'girofle', 'cive', 'câpre', 'estragon', "feuille de vigne", "fines herbes", 'laurier', 'menthe', 'pissenlit', 'romarin', 'thym'],
'Alcool': ['alcool', 'bière', 'vin', 'cidre', 'fine', 'liqueur'],
* 'Epice': ['cannelle', 'coriandre', 'curry', 'safran', 'poivre', 'sel', 'moutarde', 'muscade', 'paprika', 'piment', 'sauge', 'serpolet', 'épices'],
 
* "Produit laitier": ['lait', 'crème', 'fromage', 'gruyère', 'parmesan'],
"Plante aromatique": ["bouquet garni", 'ail', 'anis', 'aromate', 'angélique', 'basilic', 'persil', 'sarriette', 'cerfeuil', 'ciboule', 'ciboulette', "clou de girofle", "clous de girofle", 'girofle', 'cive', 'câpre', 'estragon', "feuille de vigne", "fines herbes", 'laurier', 'menthe', 'pissenlit', 'romarin', 'thym'],
* 'Légume': ['artichaut', 'asperge', 'aubergine', 'bette', 'betterave', 'cardon', 'chou', 'cornichon', 'courgette', 'cresson', 'céleri', 'fenouil', 'légume', 'navet', 'panais', 'poireau', "pomme de terre", "pommes de terre", 'potiron', 'rave', 'salade', 'tomate', 'échalote', 'épinard'],
 
* 'Fruit': ['abricot', 'banane', 'cerise', 'coing', 'fraise', 'framboise', 'groseille', 'raisin', 'olive', 'orange', 'pomme'],
'Epice': ['cannelle', 'coriandre', 'curry', 'safran', 'poivre', 'sel', 'moutarde', 'muscade', 'paprika', 'piment', 'sauge', 'serpolet', 'épices'],
* 'Agrume': ['citron', 'cédrat', "fleur d'oranger", "fleurs d'oranger"],
 
* 'Céréale': ['farine', 'pain', 'pâte', 'riz'],
"Produit laitier": ['lait', 'crème', 'fromage', 'gruyère', 'parmesan'],
* 'Légumineuse': ['févette', 'haricot', 'pois'],
'Légume': ['artichaut', 'asperge', 'aubergine', 'bette', 'betterave', 'cardon', 'chou', 'cornichon', 'courgette', 'cresson', 'céleri', 'fenouil', 'légume', 'navet', 'panais', 'poireau', "pomme de terre", "pommes de terre", 'potiron', 'rave', 'salade', 'tomate', 'échalote', 'épinard'],
* 'Fruit sec': ['amande', 'noix', 'noisette'],
 
* 'Champignon': ['champignon', 'truffe', 'cèpe', 'girofle', 'morille', 'levure', 'oronge', 'duelle']
'Fruit': ['abricot', 'banane', 'cerise', 'coing', 'fraise', 'framboise', 'groseille', 'raisin', 'olive', 'orange', 'pomme'],
 
'Agrume': ['citron', 'cédrat', "fleur d'oranger", "fleurs d'oranger"],
 
'Céréale': ['farine', 'pain', 'pâte', 'riz'],
 
'Légumineuse': ['févette', 'haricot', 'pois'],
 
'Fruit sec': ['amande', 'noix', 'noisette'],
 
'Champignon': ['champignon', 'truffe', 'cèpe', 'girofle', 'morille', 'levure', 'oronge', 'duelle']
 
 
'''Units'''
# Spoons
'cuil. à café', 'cuil. café', 'cuil. à soupe', 'cuil. soupe', 'petite cuil.', 'grande cuil.', 'cuil.',
# Glasses
'petit verre', 'verre à liqueur', 'verres à liqueur', 'verres', 'verre', 'tasses', 'tasse',
# Bottles
'bout.', 'bouteilles', 'bouteille',
# Containers
'grande boîte', 'boîtes', 'boîte', 'tubes', 'tube',
# Spices & Aromatic plants
'gousses', 'gousse', 'branches', 'branche', 'bâtons', 'bâton', 'pincée',
# Meat related
'membres', 'membre', 'tronçons', 'tronçon', 'tranches', 'tranche',
# Standard measures
'litres ', 'litre ', 'cl ', 'dl ', 'kg ', 'g ' , 'l '




'''Region2SubRegion'''
'''Region2SubRegion'''
"Paris, Ile-de-France, Val de Loire": ['Paris', 'Ile-de-France', 'Orléans', 'Touraine'],
* "Paris, Ile-de-France, Val de Loire": ['Paris', 'Ile-de-France', 'Orléans', 'Touraine'],
"Pays de l’Ouest": ['Anjou', 'Bretagne', 'Poitou Vendée', 'Charentes'],
* "Pays de l’Ouest": ['Anjou', 'Bretagne', 'Poitou Vendée', 'Charentes'],
"Sud-Ouest & Pyrénées": ['Bordelais', 'Gascogne', 'Pays Basque', 'Roussillon', 'Périgord', 'Languedoc'],  
* "Sud-Ouest & Pyrénées": ['Bordelais', 'Gascogne', 'Pays Basque', 'Roussillon', 'Périgord', 'Languedoc'],  
"Sud-Est & Méditérannée": ['Provence', 'Nice', 'Corse', 'Dauphiné', 'Savoie', 'Lyon', 'Auvergne', 'Limousin'],
* "Sud-Est & Méditérannée": ['Provence', 'Nice', 'Corse', 'Dauphiné', 'Savoie', 'Lyon', 'Auvergne', 'Limousin'],
"Bourgogne, Champagne, Bresse, Franche-Comté, Alsace, Lorraine": ['Bourgogne', 'Champagne', 'Bresse', 'Franche-Comté', 'Alsace', 'Lorraine'],
* "Bourgogne, Champagne, Bresse, Franche-Comté, Alsace, Lorraine": ['Bourgogne', 'Champagne', 'Bresse', 'Franche-Comté', 'Alsace', 'Lorraine'],
"Nord & Normandie": ['Nord', 'Normandie']
* "Nord & Normandie": ['Nord', 'Normandie']


===Data analysis===
===Data analysis===

Revision as of 08:44, 21 December 2022

Introduction

Research questions

1. What were the main ingredients used in 1900 in France?

2. Can we observe a difference per region?

Project Plan and Milestones

Date Tasks Completion
Week 3
  • Find multiple French cookbood in French or English from different times.
  • Prepare slides for the initial project idea presentation.
Week 4
  • Compare different cookbooks, consider the OCR scan and think of possible research questions.
  • Discuss with TAs the goal and implementation of the projects.
Week 5
  • Decide on one French cookbook.
  • Scan the physical book.
Week 6-7
  • Give OCR scan for the pages.
  • Start to construct the dataset.
Week 8-9
  • Prepare for midterm presentaton.
  • Construct dataset and think of data structure to store the information.
Week 10
  • Set up the GitHub repository.
  • Finish the creation of the dataset
Week 11
  • Fix bugs in extraction script and take exceptional cases into consideration.
  • Create categories for ingredients.
Week 12
  • Perform the data processing of the ingredients.
  • Exploratory analysis on the dataset.
Week 13
  • Further improve the dataset.
  • Overall analysis & Per Region analysis.
Week 14
  • Prepare the final presentation
  • Finish the Wikipedia page

Methodology

Data collection

For a start, we scanned a physical French cookbook.

French cookbook.
A page of the scanned book.

The we did a basic OCR for the scanned files. Here is a sample output from OCR.

Sample OCR.

Data digitalization

Template output of the digitization

Data processing

In our project, we will extract the following information from the recipes:

  • quantity
  • unit
  • ingredient


Units

  • Spoons: 'cuil. à café', 'cuil. café', 'cuil. à soupe', 'cuil. soupe', 'petite cuil.', 'grande cuil.', 'cuil.',
  • Glasses: 'petit verre', 'verre à liqueur', 'verres à liqueur', 'verres', 'verre', 'tasses', 'tasse',
  • Bottles: 'bout.', 'bouteilles', 'bouteille',
  • Containers:'g rande boîte', 'boîtes', 'boîte', 'tubes', 'tube',
  • Spices & Aromatic plants: 'gousses', 'gousse', 'branches', 'branche', 'bâtons', 'bâton', 'pincée',
  • Meat related: 'membres', 'membre', 'tronçons', 'tronçon', 'tranches', 'tranche',
  • Standard measures: 'litres ', 'litre ', 'cl ', 'dl ', 'kg ', 'g ' , 'l'

Categories

  • 'Viande': ['viande', 'oie', 'canard', 'oiseau', 'lard', 'bœuf', 'veau', 'poule', 'poulet', 'poularde', 'volaille', 'porc', 'caille', 'canard', 'caneton', 'mouton', 'cochon', 'coq', 'chevreuil', 'lièvre', 'levraut', 'lapin', 'faisan', 'gibier', 'jambon', 'chorizo', 'cervelas', 'agneau', 'escargot', 'grenouille'],
  • 'Poisson': ['poisson', 'brochet', 'carpe', 'morue', 'lamproie', 'lotte', 'maquereau', 'omble', 'rouget', 'sardine', 'thon', 'truite', 'anchois', 'anguille', 'merlan', 'sole', 'barbue', 'turbot', 'raie', 'perche', 'saumon', 'colin', 'goujon', 'loup', 'congre', 'rascasse', 'grondin', 'merlu', 'merluza', 'hareng', 'alose', 'brême'],
  • "Fruit de mer": ['crevette', 'langouste', 'moule', 'écrevisse', 'palourde', 'homard', 'chiperon', 'seiche', 'huître', 'coquille', 'poulpe'],
  • 'Alcool': ['alcool', 'bière', 'vin', 'cidre', 'fine', 'liqueur'],
  • "Plante aromatique": ["bouquet garni", 'ail', 'anis', 'aromate', 'angélique', 'basilic', 'persil', 'sarriette', 'cerfeuil', 'ciboule', 'ciboulette', "clou de girofle", "clous de girofle", 'girofle', 'cive', 'câpre', 'estragon', "feuille de vigne", "fines herbes", 'laurier', 'menthe', 'pissenlit', 'romarin', 'thym'],
  • 'Epice': ['cannelle', 'coriandre', 'curry', 'safran', 'poivre', 'sel', 'moutarde', 'muscade', 'paprika', 'piment', 'sauge', 'serpolet', 'épices'],
  • "Produit laitier": ['lait', 'crème', 'fromage', 'gruyère', 'parmesan'],
  • 'Légume': ['artichaut', 'asperge', 'aubergine', 'bette', 'betterave', 'cardon', 'chou', 'cornichon', 'courgette', 'cresson', 'céleri', 'fenouil', 'légume', 'navet', 'panais', 'poireau', "pomme de terre", "pommes de terre", 'potiron', 'rave', 'salade', 'tomate', 'échalote', 'épinard'],
  • 'Fruit': ['abricot', 'banane', 'cerise', 'coing', 'fraise', 'framboise', 'groseille', 'raisin', 'olive', 'orange', 'pomme'],
  • 'Agrume': ['citron', 'cédrat', "fleur d'oranger", "fleurs d'oranger"],
  • 'Céréale': ['farine', 'pain', 'pâte', 'riz'],
  • 'Légumineuse': ['févette', 'haricot', 'pois'],
  • 'Fruit sec': ['amande', 'noix', 'noisette'],
  • 'Champignon': ['champignon', 'truffe', 'cèpe', 'girofle', 'morille', 'levure', 'oronge', 'duelle']


Region2SubRegion

  • "Paris, Ile-de-France, Val de Loire": ['Paris', 'Ile-de-France', 'Orléans', 'Touraine'],
  • "Pays de l’Ouest": ['Anjou', 'Bretagne', 'Poitou Vendée', 'Charentes'],
  • "Sud-Ouest & Pyrénées": ['Bordelais', 'Gascogne', 'Pays Basque', 'Roussillon', 'Périgord', 'Languedoc'],
  • "Sud-Est & Méditérannée": ['Provence', 'Nice', 'Corse', 'Dauphiné', 'Savoie', 'Lyon', 'Auvergne', 'Limousin'],
  • "Bourgogne, Champagne, Bresse, Franche-Comté, Alsace, Lorraine": ['Bourgogne', 'Champagne', 'Bresse', 'Franche-Comté', 'Alsace', 'Lorraine'],
  • "Nord & Normandie": ['Nord', 'Normandie']

Data analysis

Data visualization

Links

Github repository: Historical Cookbook

Future work

  • Build a search engine that would display the recipes and add filters to search them by name, region or ingredients
  • User-friendly interface to visualize the results of the analysis
  • Comparison with other cookbooks from different periods or different countries