MITLibraries
diff --git a/‎.gitignore‎
Lines changed: 1 addition & 0 deletions b/‎.gitignore‎
Lines changed: 1 addition & 0 deletions
diff --git a/‎compareTwoKeysInCommunity.py‎
Lines changed: 81 additions & 0 deletions b/‎compareTwoKeysInCommunity.py‎
Lines changed: 81 additions & 0 deletions
diff --git a/‎findBogusUris.py‎
Lines changed: 64 additions & 0 deletions b/‎findBogusUris.py‎
Lines changed: 64 additions & 0 deletions
diff --git a/‎findDuplicateKeys.py‎
Lines changed: 60 additions & 0 deletions b/‎findDuplicateKeys.py‎
Lines changed: 60 additions & 0 deletions
diff --git a/‎getCollectionMetadataJson.py‎
Lines changed: 45 additions & 0 deletions b/‎getCollectionMetadataJson.py‎
Lines changed: 45 additions & 0 deletions
diff --git a/‎getCompleteAndUniqueValuesForAllKeys.py‎
Lines changed: 87 additions & 0 deletions b/‎getCompleteAndUniqueValuesForAllKeys.py‎
Lines changed: 87 additions & 0 deletions
@@ -45,3 +45,4 @@ $RECYCLE.BIN/
 Network Trash Folder
 Temporary Items
 .apdisk
+secrets.py
@@ -0,0 +1,81 @@
+import json
+import requests
+import secrets
+import csv
+import time
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+
+communityID = raw_input('Enter community ID: ')
+key = raw_input('Enter first key: ')
+key2 = raw_input('Enter second key: ')
+
+startTime = time.time()
+data = json.dumps({'email':email,'password':password})
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, data=data).content
+headerAuth = {'content-type':'application/json','accept':'application/json', 'rest-dspace-token':session}
+print 'authenticated'
+
+itemList = []
+endpoint = baseURL+'/rest/communities'
+collections = requests.get(baseURL+'/rest/communities/'+str(communityID)+'/collections', headers=headerAuth).json()
+for j in range (0, len (collections)):
+    collectionID = collections[j]['id']
+    if collectionID != 24:
+        offset = 0
+        items = ''
+        while items != []:
+            items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=1000&offset='+str(offset), headers=headerAuth)
+            while items.status_code != 200:
+                time.sleep(5)
+                items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=1000&offset='+str(offset), headers=headerAuth)
+            items = items.json()
+            for k in range (0, len (items)):
+                itemID = items[k]['id']
+                itemList.append(itemID)
+            offset = offset + 1000
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Item list creation time: ','%d:%02d:%02d' % (h, m, s)
+
+valueList = []
+for number, itemID in enumerate(itemList):
+    itemsRemaining = len(itemList) - number
+    print 'Items remaining: ', itemsRemaining, 'ItemID: ', itemID
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=headerAuth).json()
+    itemTuple = (itemID,)
+    tupleValue1 = ''
+    tupleValue2 = ''
+    for l in range (0, len (metadata)):
+        if metadata[l]['key'] == key:
+            metadataValue = metadata[l]['value']
+            tupleValue1 = metadataValue
+        if metadata[l]['key'] == key2:
+            metadataValue = metadata[l]['value']
+            tupleValue2 = metadataValue
+    itemTuple = itemTuple + (tupleValue1 , tupleValue2)
+    valueList.append(itemTuple)
+    print itemTuple
+print valueList
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Value list creation time: ','%d:%02d:%02d' % (h, m, s)
+
+f=csv.writer(open(filePath+key+'-'+key2+'Values.csv', 'wb'))
+f.writerow(['itemID']+[key]+[key2])
+for i in range (0, len (valueList)):
+    f.writerow([valueList[i][0]]+[valueList[i][1]]+[valueList[i][2]])
+
+logout = requests.post(baseURL+'/rest/logout', headers=headerAuth)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Total script run time: ', '%d:%02d:%02d' % (h, m, s)
@@ -0,0 +1,64 @@
+import json
+import requests
+import secrets
+import csv
+import time
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+handlePrefix = secrets.handlePrefix
+
+startTime = time.time()
+data = json.dumps({'email':email,'password':password})
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, data=data).content
+headerAuth = {'content-type':'application/json','accept':'application/json', 'rest-dspace-token':session}
+print 'authenticated'
+
+itemList = []
+endpoint = baseURL+'/rest/communities'
+communities = requests.get(endpoint, headers=headerAuth).json()
+for i in range (0, len (communities)):
+    communityID = communities[i]['id']
+    collections = requests.get(baseURL+'/rest/communities/'+str(communityID)+'/collections', headers=headerAuth).json()
+    for j in range (0, len (collections)):
+        collectionID = collections[j]['id']
+        if collectionID != 24:
+            offset = 0
+            items = ''
+            while items != []:
+                items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=1000&offset='+str(offset), headers=headerAuth)
+                while items.status_code != 200:
+                    time.sleep(5)
+                    items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=1000&offset='+str(offset), headers=headerAuth)
+                items = items.json()
+                for k in range (0, len (items)):
+                    itemID = items[k]['id']
+                    itemList.append(itemID)
+                offset = offset + 1000
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Item list creation time: ','%d:%02d:%02d' % (h, m, s)
+
+
+f=csv.writer(open(filePath+'bogusUris.csv', 'wb'))
+f.writerow(['itemID']+['uri'])
+for number, itemID in enumerate(itemList):
+    itemsRemaining = len(itemList) - number
+    print 'Items remaining: ', itemsRemaining, 'ItemID: ', itemID
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=headerAuth).json()
+    for l in range (0, len (metadata)):
+        if metadata[l]['key'] == 'dc.identifier.uri':
+            uri = str(metadata[l]['value'])
+            if uri.startswith(handlePrefix) == False:
+                f.writerow([itemID]+[uri])
+
+logout = requests.post(baseURL+'/rest/logout', headers=headerAuth)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Total script run time: ', '%d:%02d:%02d' % (h, m, s)
@@ -0,0 +1,60 @@
+import json
+import requests
+import secrets
+import time
+import csv
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+
+key = raw_input('Enter key: ')
+searchString = "\""+key+"\""
+
+startTime = time.time()
+data = json.dumps({'email':email,'password':password})
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, data=data).content
+headerAuth = {'content-type':'application/json','accept':'application/json', 'rest-dspace-token':session}
+print 'authenticated'
+
+
+itemList = []
+endpoint = baseURL+'/rest/communities'
+communities = requests.get(endpoint, headers=headerAuth).json()
+for i in range (0, len (communities)):
+    communityID = communities[i]['id']
+    collections = requests.get(baseURL+'/rest/communities/'+str(communityID)+'/collections', headers=headerAuth).json()
+    for j in range (0, len (collections)):
+        collectionID = collections[j]['id']
+        if collectionID != 24:
+            items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=100000', headers=headerAuth)
+            while items.status_code != 200:
+                time.sleep(5)
+                items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=100000', headers=headerAuth)
+            items = items.json()
+            for k in range (0, len (items)):
+                itemID = items[k]['id']
+                itemList.append(itemID)
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Item list creation time: ','%d:%02d:%02d' % (h, m, s)
+
+f=csv.writer(open(filePath+'recordsWithDuplicate'+key+'.csv', 'wb'))
+f.writerow(['itemID'])
+for number, itemID in enumerate(itemList):
+    itemsRemaining = len(itemList) - number
+    print 'Items remaining: ', itemsRemaining, 'ItemID: ', itemID
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=headerAuth).json()
+    metadata = json.dumps(metadata)
+    if metadata.find(searchString) != metadata.rfind(searchString):
+        f.writerow([itemID])
+
+logout = requests.post(baseURL+'/rest/logout', headers=headerAuth)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Total script run time: ', '%d:%02d:%02d' % (h, m, s)
@@ -0,0 +1,45 @@
+import json
+import requests
+import secrets
+import time
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+
+handle = raw_input('Enter handle: ')
+
+data = json.dumps({'email':email,'password':password})
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, data=data).content
+headerAuth = {'content-type':'application/json','accept':'application/json', 'rest-dspace-token':session}
+print 'authenticated'
+startTime = time.time()
+
+endpoint = baseURL+'/rest/handle/'+handle
+collection = requests.get(endpoint, headers=headerAuth).json()
+collectionID = collection['id']
+collectionTitle = requests.get(endpoint, headers=headerAuth).json()
+endpoint = baseURL+'/rest/collections/'+str(collectionID)+'/items'
+output = requests.get(endpoint, headers=headerAuth).json()
+
+itemList = []
+for i in range (0, len (output)):
+    name = output[i]['name']
+    itemID = output[i]['id']
+    itemList.append(itemID)
+
+f=open(filePath+handle.replace('/','-')+'.json', 'w')
+metadataGroup = []
+for itemID in itemList:
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=headerAuth).json()
+    metadataGroup.append(metadata)
+json.dump(metadataGroup, f)
+
+logout = requests.post(baseURL+'/rest/logout', headers=headerAuth)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print "%d:%02d:%02d" % (h, m, s)
@@ -0,0 +1,87 @@
+import json
+import requests
+import secrets
+import csv
+import time
+import os.path
+from collections import Counter
+
+baseURL = secrets.baseURL
+email = secrets.email
+password = secrets.password
+filePath = secrets.filePath
+
+filePathComplete = filePath+'completeValueLists/'
+filePathUnique = filePath+'/uniqueValueLists/'
+
+startTime = time.time()
+data = json.dumps({'email':email,'password':password})
+header = {'content-type':'application/json','accept':'application/json'}
+session = requests.post(baseURL+'/rest/login', headers=header, data=data).content
+headerAuth = {'content-type':'application/json','accept':'application/json', 'rest-dspace-token':session}
+print 'authenticated'
+
+itemList = []
+endpoint = baseURL+'/rest/communities'
+communities = requests.get(endpoint, headers=headerAuth).json()
+for i in range (0, len (communities)):
+    communityID = communities[i]['id']
+    collections = requests.get(baseURL+'/rest/communities/'+str(communityID)+'/collections', headers=headerAuth).json()
+    for j in range (0, len (collections)):
+        collectionID = collections[j]['id']
+        if collectionID != 24:
+            offset = 0
+            items = ''
+            while items != []:
+                items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=1000&offset='+str(offset), headers=headerAuth)
+                while items.status_code != 200:
+                    time.sleep(5)
+                    items = requests.get(baseURL+'/rest/collections/'+str(collectionID)+'/items?limit=1000&offset='+str(offset), headers=headerAuth)
+                items = items.json()
+                for k in range (0, len (items)):
+                    itemID = items[k]['id']
+                    itemList.append(itemID)
+                offset = offset + 1000
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Item list creation time: ','%d:%02d:%02d' % (h, m, s)
+
+for number, itemID in enumerate(itemList):
+    itemsRemaining = len(itemList) - number
+    print 'Items remaining: ', itemsRemaining, 'ItemID: ', itemID
+    metadata = requests.get(baseURL+'/rest/items/'+str(itemID)+'/metadata', headers=headerAuth).json()
+    for l in range (0, len (metadata)):
+        if metadata[l]['key'] != 'dc.description.provenance':
+            key = metadata[l]['key']
+            value = metadata[l]['value'].encode('utf-8')
+            if os.path.isfile(filePathComplete+key+'Values.csv') == False:
+                f=csv.writer(open(filePathComplete+key+'Values.csv', 'wb'))
+                f.writerow(['itemID']+['value'])
+                f.writerow([itemID]+[value])
+            else:
+                f=csv.writer(open(filePathComplete+key+'Values.csv', 'a'))
+                f.writerow([itemID]+[value])
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Complete value list creation time: ','%d:%02d:%02d' % (h, m, s)
+
+for fileName in os.listdir(filePathComplete):
+    reader = csv.DictReader(open(filePathComplete+fileName))
+    valueList = []
+    for row in reader:
+        valueList.append(row['value'])
+    valueListCount = Counter(valueList)
+    f=csv.writer(open(filePathUnique+fileName, 'wb'))
+    f.writerow(['value']+['count'])
+    for key, value in valueListCount.items():
+        f.writerow([key]+[str(value).zfill(6)])
+
+logout = requests.post(baseURL+'/rest/logout', headers=headerAuth)
+
+elapsedTime = time.time() - startTime
+m, s = divmod(elapsedTime, 60)
+h, m = divmod(m, 60)
+print 'Total script run time: ', '%d:%02d:%02d' % (h, m, s)